Hands-on!

Nessa prática, sugerimos alguns pequenos exemplos para você implementar sobre o Spark.

Bisecting K-Means

Na prática KMeans foi visto como realizar clusterização utilizamos o algoritmo K-Means. Utilize a prática como base e aplique o algoritmo Bisecting K-Means sobre o dataset iris e compare com os resultados obtidos com o K-Means.

Latent Dirichelet Allocation

O algoritmo de modelagem de tópico, Latent Dirichelet Allocation - LDA, é um algoritmo voltado para detecção de um conjunto de tópicos a partir de um conjunto de documentos. No diretório datasets, está presente uma coleção de documentos referentes às obras de Machado de Assis, machado-assis.tar.bz2, cujo nome de cada arquivo contém o estilo literário da obra. Por exemplo poesia-almada.txt é a obra O Almada do estilo poesia.

Utilize todos os documentos para gerar um modelo LDA de forma a detectar quais são os k tópicos mais relevantes e as palavras associadas, e se estes estão relacionados aos estilos de cada documento.

Lembre-se de utilizar Pipeline para facilitar as transformações necessárias. Além disso, você pode utilizar o algoritmo TF-IDF visto na aula 12 para criar o feature vector de cada documento.

  • Os tópicos encontrados e as palavras de cada tópico representam os estilos literários de forma correta?

Classificação

Na aula 13, utilizamos alguns algoritmos de classificação suportados pelo pyspark. Neste exercício, escolha dois algoritmos de classificação e aplique sobre dos documentos de Machado de Assis do exercício anterior para realizar a classificação do estilo literário de cada documento.

Lembre-se de separar os dados utilizando CrossValidator para realizar a validação do modelo gerado. Uma dica é utilizar TF-IDF para gerar o vetor de features que será utilizado pelos classificadores escolhidos.

  • Qual foi o melhor modelo encontrado?
  • Quais os escores das métricas de avaliação?

In [ ]: