DataFrames

DataFrames es el tipo de dato utilizado por Pandas, inspirado de la programacion en R, se puede considerar como un conjunto de Series agrupadas



In [1]:

    
# librerias
import pandas as pd
import numpy as np



In [2]:

    
from numpy.random import randn
np.random.seed(101)



In [3]:

    
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())



In [4]:

    
df

Indices y seleccion

Varios metodos para selecionar informacion de un DataFrame



In [187]:

    
df['W']









    Out[187]:





A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64



In [5]:

    
# Pasar una lista de nombres de columnas
df[['W','Z']]



In [6]:

    
# Sintaxis tipo SQL (NO RECOMENDABLE!!!)
df.W









    Out[6]:





A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

Las columnas de los DataFrames son Series



In [7]:

    
type(df['W'])









    Out[7]:





pandas.core.series.Series

Crear una nueva columna



In [8]:

    
df['new'] = df['W'] + df['Y']



In [9]:

    
df

Remover una columna



In [12]:

    
df.drop('new',axis=1)



In [13]:

    
# Not inplace unless specified!
df



In [20]:

    
df.drop('new',axis=1,inplace=True)



In [21]:

    
df

Se pueden borrar filas



In [22]:

    
df.drop('E',axis=0)

Seleccionar filas



In [23]:

    
df.loc['A']









    Out[23]:





W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

O seleccionar basado en la posicion en vez de la etiqueta



In [24]:

    
df.iloc[2]









    Out[24]:





W   -2.018168
X    0.740122
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

Seleccionar un grupo de filas y columnas



In [25]:

    
df.loc['B','Y']









    Out[25]:





-0.84807698340363147



In [26]:

    
df.loc[['A','B'],['W','Y']]

Seleccion por condiciones

Una funcion importante de pandas es la seleccion por medio de condiciones muy similar a la de numpy utilizando corchetes



In [27]:

    
df



In [28]:

    
df>0









    Out[28]:







  
    
      
      W
      X
      Y
      Z
    
  
  
    
      A
      True
      True
      True
      True
    
    
      B
      True
      False
      False
      True
    
    
      C
      False
      True
      True
      False
    
    
      D
      True
      False
      False
      True
    
    
      E
      True
      True
      True
      True



In [29]:

    
df[df>0]



In [30]:

    
df[df['W']>0]



In [31]:

    
df[df['W']>0]['Y']









    Out[31]:





A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
Name: Y, dtype: float64



In [32]:

    
df[df['W']>0][['Y','X']]

Para dos condiciones se pueden utilizar | y & con parentesis



In [33]:

    
df[(df['W']>0) & (df['Y'] > 1)]

Mas detalles de indices

Volver a generar los indices, o colocar otro valor



In [34]:

    
df



In [35]:

    
# Valores por default 0,1...n index
df.reset_index()



In [36]:

    
newind = 'CA NY WY OR CO'.split()



In [37]:

    
df['States'] = newind



In [38]:

    
df



In [39]:

    
df.set_index('States')



In [40]:

    
df



In [41]:

    
df.set_index('States',inplace=True)



In [42]:

    
df

Multi indices y jerarquia de indices



In [43]:

    
# niveles de indices
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)



In [44]:

    
hier_index









    Out[44]:





MultiIndex(levels=[['G1', 'G2'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]])



In [45]:

    
df = pd.DataFrame(np.random.randn(6,2),index=hier_index,columns=['A','B'])
df

Para la jerarquia de indices utilizamos df.loc[], si esta en la columna se puede utilizar la sintaxis de corchetes df[] Hacer un llamado al nivel del indice nos generar un subDataFrame



In [46]:

    
df.loc['G1']



In [47]:

    
df.loc['G1'].loc[1]









    Out[47]:





A    0.302665
B    1.693723
Name: 1, dtype: float64



In [48]:

    
df.index.names









    Out[48]:





FrozenList([None, None])



In [49]:

    
df.index.names = ['Group','Num']



In [50]:

    
df



In [51]:

    
df.xs('G1')



In [52]:

    
df.xs(['G1',1])









    Out[52]:





A    0.302665
B    1.693723
Name: (G1, 1), dtype: float64



In [53]:

    
df.xs(1,level='Num')

		A	B
G1	1	0.302665	1.693723
	2	-1.706086	-1.159119
	3	-0.134841	0.390528
G2	1	0.166905	0.184502
	2	0.807706	0.072960
	3	0.638787	0.329646

	A	B
1	0.302665	1.693723
2	-1.706086	-1.159119
3	-0.134841	0.390528

		A	B
Group	Num
G1	1	0.302665	1.693723
	2	-1.706086	-1.159119
	3	-0.134841	0.390528
G2	1	0.166905	0.184502
	2	0.807706	0.072960
	3	0.638787	0.329646

	A	B
Num
1	0.302665	1.693723
2	-1.706086	-1.159119
3	-0.134841	0.390528

	W	X	Y	Z
A	2.706850	0.628133	0.907969	0.503826
B	0.651118	-0.319318	-0.848077	0.605965
C	-2.018168	0.740122	0.528813	-0.589001
D	0.188695	-0.758872	-0.933237	0.955057
E	0.190794	1.978757	2.605967	0.683509

	W	X	Y	Z
A	True	True	True	True
B	True	False	False	True
C	False	True	True	False
D	True	False	False	True
E	True	True	True	True

	W	X	Y	Z
States
CA	2.706850	0.628133	0.907969	0.503826
NY	0.651118	-0.319318	-0.848077	0.605965
WY	-2.018168	0.740122	0.528813	-0.589001
OR	0.188695	-0.758872	-0.933237	0.955057
CO	0.190794	1.978757	2.605967	0.683509