WordCount

  1. Record Reader
  2. Input Split
  3. Map
  4. Shuffle and Sort
  5. Reduce
  6. Output Format

1. Record Reader

Descreva uma função que realize a leitura de dados "mercado_ti.txt" e "data_science.txt"


In [ ]:
def recordReader():

In [ ]:

2. Input split

defina uma função split que recebe os dados e quebre os em partes menores para usar como entrada na função mapper. Exemplo: string.split()


In [1]:
def input_split():


  File "<ipython-input-1-04f20642ca49>", line 1
    def input_split():
                      ^
SyntaxError: unexpected EOF while parsing

In [ ]:

3. Map

O usuário define uma função intermediária que recebe os dados e mapeia pares de chave e valor (definido pelo usuário)


In [3]:
def mapper():


  File "<ipython-input-3-8033f1964e4d>", line 1
    def mapper():
                 ^
SyntaxError: unexpected EOF while parsing

In [ ]:

4. Shuffle

Descreva uma função Shufle que ordena, filtra e agrupam os dados para serem usados como entrada na função reducer


In [ ]:
def shufle():

In [ ]:

5. Reduce

Use uma função que agregue dados pelo valor (v) de acordo com a chave (k) para enviar pares de chave-valor para saída


In [2]:
def reducer():

In [ ]:


In [ ]:

6.Output Format

Forneça os pares de chave-valor finais ordenados pela maior frequência de palavras contadas.


In [3]:
def outputFormat():

In [ ]:


In [ ]:

Exercício Teórico

1. Explique como funcionam as funções map e reduce.

2. Por que e quando precisamos executar tarefas Map e Reduce?