In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())
Neste exercício, você vai realizar uma análise exploratória em um dos mais famosos datasets para Machine Learning, o dataset iris com informações sobre 3 tipos de plantas. Esse dataset é comumente usado em problemas de Machine Learning de classificação, quando nosso objetivo é prever a classe dos dados. No caso deste dataset, prever a categoria de uma planta a partir de medidas da planta (sepal e petal).
Em cada célula, você encontra a tarefa a ser realizada. Faça todo o exercício e depois compare com a solução proposta.
Dataset (já disponível com o Scikit-Learn): https://archive.ics.uci.edu/ml/datasets/iris
In [2]:
# Imports
import time
import numpy as np
import pandas as pd
import matplotlib as mat
from matplotlib import pyplot as plt
from sklearn.datasets import load_iris
%matplotlib inline
fontsize = 14
ticklabelsize = 14
In [3]:
np.__version__
Out[3]:
In [4]:
pd.__version__
Out[4]:
In [5]:
mat.__version__
Out[5]:
In [6]:
# Carregando o dataset
iris = load_iris()
df = pd.DataFrame(iris.data, columns = iris.feature_names)
print(len(df))
df.head()
Out[6]:
In [7]:
# Imprima os valores numéricos da Variável target (o que queremos prever),
# uma de 3 possíveis categorias de plantas: setosa, versicolor ou virginica
In [8]:
# Imprima os valores numéricos da Variável target (o que queremos prever),
# uma de 3 possíveis categorias de plantas: 0, 1 ou 2
In [9]:
# Adicione ao dataset uma nova coluna com os nomes das espécies, pois é isso que vamos tentar prever (variável target)
In [10]:
# Inclua no dataset uma coluna com os valores numéricos da variável target
In [11]:
# Extraia as features (atributos) do dataset e imprima
In [12]:
# Calcule a média de cada feature para as 3 classes
In [13]:
# Imprima uma Transposta do dataset (transforme linhas e colunas e colunas em linhas)
In [14]:
# Utilize a função Info do dataset para obter um resumo sobre o dataset
In [15]:
# Faça um resumo estatístico do dataset
In [16]:
# Verifique se existem valores nulos no dataset
In [17]:
# Faça uma contagem de valores de sepal length
In [18]:
# Crie um Histograma de sepal length
In [19]:
# Crie um Gráficos de Dispersão (scatter Plot) da variável sepal length versus número da linha,
# colorido por marcadores da variável target
In [20]:
# Crie um Scatter Plot de 2 Features (atributos)
In [21]:
# Crie um Scatter Matrix das Features (atributos)
In [22]:
# Crie um Histograma de todas as features
Conheça a Formação Cientista de Dados, um programa completo, 100% online e 100% em português, com 400 horas, mais de 1.200 aulas em vídeos e 26 projetos, que vão ajudá-lo a se tornar um dos profissionais mais cobiçados do mercado de análise de dados. Clique no link abaixo, faça sua inscrição, comece hoje mesmo e aumente sua empregabilidade:
https://www.datascienceacademy.com.br/pages/formacao-cientista-de-dados