O algoritmo de modelagem de tópico, Latent Dirichelet Allocation - LDA, é um algoritmo voltado para detecção de um conjunto de tópicos a partir de um conjunto de documentos. No diretório datasets
, está presente uma coleção de documentos referentes às obras de Machado de Assis, machado-assis.tar.bz2
, cujo nome de cada arquivo contém o estilo literário da obra. Por exemplo poesia-almada.txt
é a obra O Almada do estilo poesia.
Utilize todos os documentos para gerar um modelo LDA de forma a detectar quais são os k
tópicos mais relevantes e as palavras associadas, e se estes estão relacionados aos estilos de cada documento.
Lembre-se de utilizar Pipeline
para facilitar as transformações necessárias. Além disso, você pode utilizar o algoritmo TF-IDF
visto na aula 12 para criar o feature vector de cada documento.
Na aula 13, utilizamos alguns algoritmos de classificação suportados pelo pyspark. Neste exercício, escolha dois algoritmos de classificação e aplique sobre dos documentos de Machado de Assis do exercício anterior para realizar a classificação do estilo literário de cada documento.
Lembre-se de separar os dados utilizando CrossValidator
para realizar a validação do modelo gerado. Uma dica é utilizar TF-IDF
para gerar o vetor de features que será utilizado pelos classificadores escolhidos.
In [ ]: