Data Science Academy - Python Fundamentos - Capítulo 9

Download: http://github.com/dsacademybr



In [1]:

    
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())









    



Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.7.6

Exercício: Análise Exploratória de Dados com Python

Neste exercício, você vai realizar uma análise exploratória em um dos mais famosos datasets para Machine Learning, o dataset iris com informações sobre 3 tipos de plantas. Esse dataset é comumente usado em problemas de Machine Learning de classificação, quando nosso objetivo é prever a classe dos dados. No caso deste dataset, prever a categoria de uma planta a partir de medidas da planta (sepal e petal).

Em cada célula, você encontra a tarefa a ser realizada. Faça todo o exercício e depois compare com a solução proposta.

Dataset (já disponível com o Scikit-Learn): https://archive.ics.uci.edu/ml/datasets/iris



In [2]:

    
# Imports
import time
import numpy as np
import pandas as pd
import matplotlib as mat
from matplotlib import pyplot as plt
from sklearn.datasets import load_iris
%matplotlib inline

fontsize = 14
ticklabelsize = 14



In [3]:

    
np.__version__









    Out[3]:





'1.18.2'



In [4]:

    
pd.__version__









    Out[4]:





'1.0.3'



In [5]:

    
mat.__version__









    Out[5]:





'3.2.1'



In [6]:

    
# Carregando o dataset
iris = load_iris()
df = pd.DataFrame(iris.data, columns = iris.feature_names)
print(len(df))
df.head()









    



150






    Out[6]:







  
    
      
      sepal length (cm)
      sepal width (cm)
      petal length (cm)
      petal width (cm)
    
  
  
    
      0
      5.1
      3.5
      1.4
      0.2
    
    
      1
      4.9
      3.0
      1.4
      0.2
    
    
      2
      4.7
      3.2
      1.3
      0.2
    
    
      3
      4.6
      3.1
      1.5
      0.2
    
    
      4
      5.0
      3.6
      1.4
      0.2

Extração e Transformação de Dados



In [7]:

    
# Imprima os valores numéricos da Variável target (o que queremos prever), 
# uma de 3 possíveis categorias de plantas: setosa, versicolor ou virginica



In [8]:

    
# Imprima os valores numéricos da Variável target (o que queremos prever), 
# uma de 3 possíveis categorias de plantas: 0, 1 ou 2



In [9]:

    
# Adicione ao dataset uma nova coluna com os nomes das espécies, pois é isso que vamos tentar prever (variável target)



In [10]:

    
# Inclua no dataset uma coluna com os valores numéricos da variável target



In [11]:

    
# Extraia as features (atributos) do dataset e imprima



In [12]:

    
# Calcule a média de cada feature para as 3 classes

Exploração de Dados



In [13]:

    
# Imprima uma Transposta do dataset (transforme linhas e colunas e colunas em linhas)



In [14]:

    
# Utilize a função Info do dataset para obter um resumo sobre o dataset



In [15]:

    
# Faça um resumo estatístico do dataset



In [16]:

    
# Verifique se existem valores nulos no dataset



In [17]:

    
# Faça uma contagem de valores de sepal length

Plot



In [18]:

    
# Crie um Histograma de sepal length



In [19]:

    
# Crie um Gráficos de Dispersão (scatter Plot) da variável sepal length versus número da linha, 
# colorido por marcadores da variável target



In [20]:

    
# Crie um Scatter Plot de 2 Features (atributos)



In [21]:

    
# Crie um Scatter Matrix das Features (atributos)



In [22]:

    
# Crie um Histograma de todas as features

Conheça a Formação Cientista de Dados, um programa completo, 100% online e 100% em português, com 400 horas, mais de 1.200 aulas em vídeos e 26 projetos, que vão ajudá-lo a se tornar um dos profissionais mais cobiçados do mercado de análise de dados. Clique no link abaixo, faça sua inscrição, comece hoje mesmo e aumente sua empregabilidade:

https://www.datascienceacademy.com.br/pages/formacao-cientista-de-dados