O algoritmo de modelagem de tópico, Latent Dirichelet Allocation - LDA, é um algoritmo voltado para detecção de um conjunto de tópicos a partir de um conjunto de documentos. No diretório datasets, está presente uma coleção de documentos referentes às obras de Machado de Assis, machado-assis.tar.bz2, cujo nome de cada arquivo contém o estilo literário da obra. Por exemplo poesia-almada.txt é a obra O Almada do estilo poesia.
Utilize todos os documentos para gerar um modelo LDA de forma a detectar quais são os k tópicos mais relevantes e as palavras associadas, e se estes estão relacionados aos estilos de cada documento.
Lembre-se de utilizar Pipeline para facilitar as transformações necessárias. Além disso, você pode utilizar o algoritmo TF-IDF visto na aula 12 para criar o feature vector de cada documento.
Na aula 13, utilizamos alguns algoritmos de classificação suportados pelo pyspark. Neste exercício, escolha dois algoritmos de classificação e aplique sobre dos documentos de Machado de Assis do exercício anterior para realizar a classificação do estilo literário de cada documento.
Lembre-se de separar os dados utilizando CrossValidator para realizar a validação do modelo gerado. Uma dica é utilizar TF-IDF para gerar o vetor de features que será utilizado pelos classificadores escolhidos.
In [ ]: