Dataset: Titanic: Machine Learning from Disaster
https://www.kaggle.com/c/titanic/data
Partindo da aula passada:
Atualizar a função que mede a distância euclidiana para o pacote do scikit-learn
Implementar uma função que selecione os k vizinhos mais próximos (k > 1)
Implementar uma função que recebe os k vizinhos mais próximos e determinar a classe correta
Transformar as features categoricas em numéricas (tip: pandas ou scikit-learn)
Analisar a necessidade de normalizar as features numéricas (tip: pandas ou scikit-learn)
Selecionar as features baseada na correlação (tip: pandas)
Separar o dataset em treino (75%) / teste (25%) / validação (10% do treino)
Execute o classificador para 30 k's pulando de 4 em 4 e apresente todas as acurácias utilizando o dataset de validação (Qual o melhor k?) [plotar um gráfico com os resultados]
Executar o classificador para o melhor k encontrado utilizando o dataset de teste e apresentar um relatório da precisão (tip: scikit-learn) [plotar um gráfico com os resultados]
In [ ]: