Aula 3


Essa aula é um desafio para por em prova seus conhecimentos em Scala! Para resolvê-lo, você deverar utilizar o que foi apresentado nas últimas aulas E consultar materiais complementares(stack overflow) para aprender ainda mais em um cenário prático!

Baixando o dataset

O dataset desta atividade foi tirado do Kaggle e chama-se Food Ingredient List. Ele contém os ingredientes presentes em 10000 produtos encontrados em supermercados. Para mais informações, visite a página do dataset.

O código abaixo faz o download do dataset para o diretório atual deste notebook.


In [ ]:
import sys.process._

"wget -O ingredients.tsv https://drive.google.com/uc?export=download&id=1oTjCLXJZjciOmpweGsirlreu9zcrm6Py"!

Processando o dataset

Para simplificar o desafio (pois já há muita coisa difícil para se fazer) o dataset foi mapeado para TSV. As informações estão separadas por tabulações (caractere \t). Processe-o e armazene-o da maneira que achar mais conveniente


In [ ]:

Demandas


1 - Quantas e quais as marcas de produtos contidas no dataset?


In [ ]:

2 - Quais as marcas que aparecem mais no dataset? Quais aparecem menos?


In [ ]:

3 - Compute a média e desvio padrão da frequência das marcas de produtos


In [ ]:

4 - Quais os ingredientes que aparecem nos produtos? Mostre quantos são, os que mais aparecem e os que menos aparecem.


In [ ]:

5 - Compute a média e desvio padrão da frequência dos ingredientes


In [ ]:

6 - Quais os ingredientes mais usados por cada marca? E os menos usados?


In [ ]:

7 - Compute alguma informação não demandada pelas questões anteriores e justifique o porquê que tal informação é útil


In [ ]: