Análisis de datos con Pandas


In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame()

In [3]:
ls


charla_pandas.ipynb  electoral-2007-presidente.csv  LICENSE  README.md  requirements.txt  sample/  slides/

In [8]:
df = pd.DataFrame.from_csv('electoral-2007-presidente.csv', parse_dates=False)

In [9]:
df


Out[9]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 11670 entries, 2007 to 2007
Data columns (total 8 columns):
eleccion          11670  non-null values
provinciaId       11670  non-null values
provincia         11670  non-null values
departamentoId    11670  non-null values
departamento      11670  non-null values
partidoId         11670  non-null values
partido           11670  non-null values
votos             11670  non-null values
dtypes: int64(4), object(4)

In [11]:
df.head()


Out[11]:
eleccion provinciaId provincia departamentoId departamento partidoId partido votos
anio
2007 PRESIDENTE 2 Buenos Aires 16 CAMPANA 14 OBRERO 286
2007 PRESIDENTE 2 Buenos Aires 35 ESCOBAR 14 OBRERO 779
2007 PRESIDENTE 2 Buenos Aires 51 G. RODRIGUEZ 14 OBRERO 306
2007 PRESIDENTE 2 Buenos Aires 52 G. SAN MARTIN 14 OBRERO 1502
2007 PRESIDENTE 2 Buenos Aires 134 HURLINGHAM 14 OBRERO 1043

In [17]:
df?

In [20]:
ts = Series(randn(1000), index=date_range('1/1/2000', periods=1000))


---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-20-a3957bea78e1> in <module>()
----> 1 ts = Series(randn(1000), index=date_range('1/1/2000', periods=1000))

NameError: name 'date_range' is not defined

In [19]:
from pandas import Series

In [21]:
import matplotlib.pyplot as plt

In [ ]: