Garimpagem de Dados

Aula 4 - Exercídio de Classificação com kNN

13/10/2017

Dataset: Titanic: Machine Learning from Disaster

https://www.kaggle.com/c/titanic/data

Partindo da aula passada:

  1. Atualizar a função que mede a distância euclidiana para o pacote do scikit-learn

  2. Implementar uma função que selecione os k vizinhos mais próximos (k > 1)

  3. Implementar uma função que recebe os k vizinhos mais próximos e determinar a classe correta

  4. Transformar as features categoricas em numéricas (tip: pandas ou scikit-learn)

  5. Analisar a necessidade de normalizar as features numéricas (tip: pandas ou scikit-learn)

  6. Selecionar as features baseada na correlação (tip: pandas)

  7. Separar o dataset em treino (75%) / teste (25%) / validação (10% do treino)

  8. Execute o classificador para 30 k's pulando de 4 em 4 e apresente todas as acurácias utilizando o dataset de validação (Qual o melhor k?) [plotar um gráfico com os resultados]

  9. Executar o classificador para o melhor k encontrado utilizando o dataset de teste e apresentar um relatório da precisão (tip: scikit-learn) [plotar um gráfico com os resultados]


In [ ]: