Classificando Iris

Ahora vamos a ver un conjunto de datos muy famosos, los datos iris, son 150 mediciones sobre 3 especies de plantas:

Cada planta tiene cuatro propiedades que se midieron:

Vamos a empezar con varias versiones de los datos, incrementando en complejidad:

  • Datos 2D sobre los sepalos de
  • Datos 2D sobre los petalos de las tres especies.
  • Datos 4D sobre los petalos de las tres especies. Los datos completos!

Su mission:
Disenar estrategis empiricas para classificar las plantas.

Primero las librerias


In [ ]:
import pandas as pd
import numpy as np # modulo de computo numerico
import matplotlib.pyplot as plt # modulo de graficas
# esta linea hace que las graficas salgan en el notebook
import seaborn as sns
%matplotlib inline

Un mini-ejemplo: Classificacion

Usaremos el archivo 'files/ejemplo.csv' en conjunto con pandas:


In [ ]:
df=pd.read_csv('files/ejemplo.csv')
print('df.shape)
df.head()

Visualizando

Utilizaremos la funcion sns.pairplot() que combina las técnicas de visualización que ya vimos, para cada variable crea una versión 1D (Histograma) y luego para cada pareja de variables crea un scatter plot.

Usamos hue='Tipo' para colorear los datos en base a el tipo de dato.


In [ ]:
sns.pairplot(df,hue='Tipo')
plt.title('Distribuciones de Datos')
plt.show()

2D con 2 especies

Usa el archivo 'files/iris_2d_a.csv'


In [ ]:


In [ ]:

2D con las tres especies

Usa el archivo 'files/iris_2d_b.csv'


In [ ]:


In [ ]:

Datos completos (4D)

Usa el archivo 'files/iris_full.csv'


In [ ]:


In [ ]:

/ Discutir

  • Que pasa cuando tenemos mas dimensiones? Si tuvieramos 33 en vez de 4?
  • En que casos se complica la classificacion?
  • Que estrategias se pueden utilizar para classificar?

In [ ]: