Python para análisis de datos

Juan Luis Cano Rodríguez < juanlu001@gmail.com >

Data Science Spain, Madrid 2014-07-15

Índice

Introducción
Bibliotecas: numpy, matplotlib, pandas
IPython y su filosofía
Instalación: Anaconda
Python en España

¿Quién soy yo?

Casi ingeniero aeronáutico por la UPM
Fortran 77 90, ~~Excel~~, MATLAB y Python
Pybonacci: blog sobre Python científico en español http://pybonacci.wordpress.com/
Presidente de la Asociación Python España http://www.es.python.org/
Becario en Airbus

¿Qué es Python?

Lenguaje de propósito general dinámico y fácil de aprender*
Desarrollado por voluntarios, libre (estilo BSD) y mantenido por una fundación (PSF)
Usos: lenguaje de scripting, servidores web, computación científica...
A partir de ~2010, análisis de datos

* "Python es ya el lenguaje de introducción más popular en las universidades norteamericanas" http://www.genbetadev.com/formacion/python-es-ya-el-lenguaje-de-introduccion-mas-popular-en-las-universidades-norteamericanas



In [1]:

    
print("Hello, world!")









    



Hello, world!



In [2]:

    
def fib(N):
    a, b = 0, 1
    for ii in range(N):
        a, b = b, a + b
    return b

for ii in range(8):
    print(fib(ii))

Lenguaje de propósito general

Sintaxis cuidadosamente diseñada
Interfaz con multitud de bibliotecas diferentes
Mayor variedad de herramientas de desarrollo

NumPy

NumPy es el pilar fundamental de todo el ecosistema numérico en Python http://www.numpy.org/
Arrays N-dimensionales: almacenamiento en memoria eficiente
Funciones para operar eficientemente con ellos: operaciones vectorizadas
Además: álgebra lineal, FFTs, números aleatorios, funciones financieras

Motivación:

"Make [Python] equivalent to a basic scientific calculator."



In [3]:

    
import numpy as np



In [4]:

    
np.array([
    [1, 2, 3],
    [4, 5, 6]
])









    Out[4]:





array([[1, 2, 3],
       [4, 5, 6]])



In [5]:

    
np.linspace(0, 10, 5)









    Out[5]:





array([  0. ,   2.5,   5. ,   7.5,  10. ])



In [6]:

    
_.mean()









    Out[6]:





5.0

Desventajas

Pensado para conjuntos de datos de tamaño fijo
No optimizado para datos heterogéneos (números, texto, fechas)
Manejo de datos textuales engorroso

Solución: pandas

pandas

Estructura de datos de alto nivel y optimizada para análisis de datos: DataFrame http://pandas.pydata.org/
Herramientas para leer y escribir datos en diversos formatos: CSV y texto, Excel, bases de datos SQL, HDF5
Manejo de series temporales
Tamaño flexible, merge y join de varios DataFrames...
Tutorial en español: http://pybonacci.wordpress.com/2014/05/30/pandas-i/



In [7]:

    
import pandas as pd



In [8]:

    
pd.Series([1, 3, 5, np.nan, 6, 8])









    Out[8]:





0     1
1     3
2     5
3   NaN
4     6
5     8
dtype: float64



In [9]:

    
dates = pd.date_range('20140701', periods=6)
dates









    Out[9]:





<class 'pandas.tseries.index.DatetimeIndex'>
[2014-07-01, ..., 2014-07-06]
Length: 6, Freq: D, Timezone: None



In [10]:

    
datos = pd.DataFrame(np.random.randn(6,4), index=dates,
                     columns=list('ABCD'))
datos









    Out[10]:






  
    
      
      A
      B
      C
      D
    
  
  
    
      2014-07-01
      -0.278300
       0.424450
      -1.508621
      -1.746290
    
    
      2014-07-02
       0.941110
       0.050437
       0.371443
      -0.508548
    
    
      2014-07-03
       0.761886
       1.308292
       0.871853
       0.548142
    
    
      2014-07-04
       1.972977
       0.213835
      -1.778572
      -0.165594
    
    
      2014-07-05
      -0.783794
      -1.057578
       0.067174
      -0.141001
    
    
      2014-07-06
       0.326622
      -1.085902
      -0.236260
      -0.403086
    
  

6 rows × 4 columns



In [11]:

    
datos.describe()









    Out[11]:






  
    
      
      A
      B
      C
      D
    
  
  
    
      count
       6.000000
       6.000000
       6.000000
       6.000000
    
    
      mean
       0.490083
      -0.024411
      -0.368831
      -0.402730
    
    
      std
       0.971202
       0.920232
       1.056548
       0.754353
    
    
      min
      -0.783794
      -1.085902
      -1.778572
      -1.746290
    
    
      25%
      -0.127069
      -0.780575
      -1.190531
      -0.482183
    
    
      50%
       0.544254
       0.132136
      -0.084543
      -0.284340
    
    
      75%
       0.896304
       0.371796
       0.295376
      -0.147149
    
    
      max
       1.972977
       1.308292
       0.871853
       0.548142
    
  

8 rows × 4 columns

matplotlib

El estándar de visualización 2D en Python http://matplotlib.org/
Inspirada en MATLAB
Aprendizaje costoso, pero extremadamente versátil



In [12]:

    
import matplotlib.pyplot as plt
%matplotlib inline



In [13]:

    
datos["A"].plot()









    Out[13]:





<matplotlib.axes.AxesSubplot at 0x7fd6a471ed10>



In [14]:

    
datos["A"].plot()
plt.xlabel("Fecha")
plt.ylabel("Columna A")
plt.legend(["Datos"])
plt.title("Gráfica 1")









    Out[14]:





<matplotlib.text.Text at 0x7fd6a4189090>

Otras bibliotecas

Computación científica general: SciPy http://www.scipy.org/
ggplot2 en Python: ggplot http://ggplot.yhathq.com/
Aprendizaje automático (machine learning): scikit-learn http://scikit-learn.org
Modelos y tests estadísticos: StatsModels http://statsmodels.sourceforge.net/
Manejo de volúmenes grandes de datos: PyTables http://www.pytables.org/

¡Y mucho más!

IPython y el notebook

IPython es un intérprete de Python mejorado http://ipython.org/
Inspirado en el notebook de Mathematica
Ayuda en línea, autocompletado, mejoras en la depuración...

La joya de la corona: el notebook

Documento interactivo dividido en celdas
Mezcla de código con texto, HTML, vídeo, imágenes...
Gráficos incrustados, animaciones...
Formato fácil de exportar y compartir: http://nbviewer.ipython.org/

¿Por qué usar solo Python?



In [16]:

    
X = np.array([0,1,2,3,4])
Y = np.array([3,5,4,6,7])



In [17]:

    
%load_ext rpy2.ipython



In [18]:

    
%Rpush X Y
%R lm(Y~X)$coef









    Out[18]:





<FloatVector - Python:0x7fd6a2fdf5f0 / R:0x2d86ec8>
[3.200000, 0.900000]



In [19]:

    
b = %R a=resid(lm(Y~X))
%Rpull a
print(a)
%R -o a









    



   1    2    3    4    5 
-0.2  0.9 -1.0  0.1  0.2



In [20]:

    
%%R -i X,Y -o XYcoef
XYlm = lm(Y~X)
XYcoef = coef(XYlm)
print(summary(XYlm))
par(mfrow=c(2,2))
plot(XYlm)









    





Call:
lm(formula = Y ~ X)

Residuals:
   1    2    3    4    5 
-0.2  0.9 -1.0  0.1  0.2 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   3.2000     0.6164   5.191   0.0139 *
X             0.9000     0.2517   3.576   0.0374 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7958 on 3 degrees of freedom
Multiple R-squared:   0.81,	Adjusted R-squared:  0.7467 
F-statistic: 12.79 on 1 and 3 DF,  p-value: 0.03739

Puedo usar esta técnica con multitud de lenguajes:

¡y más! https://github.com/ipython/ipython/wiki/Extensions-Index

P: ¿Por qué lo llaman IPython si puede iteractuar con multitud de lenguajes diferentes?

R: https://speakerdeck.com/fperez/project-jupyter

Distribuciones de Python: Anaconda

En Windows especialmente, instalar individualmente cada una de las bibliotecas es una pesadilla
Incluso en Linux o OS X el problema se complica si necesitamos versiones diferentes
Solución: distribuciones monolíticas
- Anaconda, de Continuum Analytics https://store.continuum.io/cshop/anaconda
- Otras: Pyzo, WinPython, Canopy, Python(x,y)...

La comunidad Python española

Python Madrid http://www.meetup.com/Madrid-Python-Meetup/
Asociación Python España http://www.es.python.org/
- Calendario de eventos y meetups nacionales http://calendario.es.python.org/
- ¡Hazte socio! http://www.es.python.org/page/quiero-ser-socio
Primera conferencia nacional: PyCon España 2013 http://2013.es.pycon.org/
- ¡Estamos preparando la segunda en Zaragoza! http://2014.es.pycon.org/

**Muchas gracias :)**

	A	B	C	D
2014-07-01	-0.278300	0.424450	-1.508621	-1.746290
2014-07-02	0.941110	0.050437	0.371443	-0.508548
2014-07-03	0.761886	1.308292	0.871853	0.548142
2014-07-04	1.972977	0.213835	-1.778572	-0.165594
2014-07-05	-0.783794	-1.057578	0.067174	-0.141001
2014-07-06	0.326622	-1.085902	-0.236260	-0.403086

	A	B	C	D
count	6.000000	6.000000	6.000000	6.000000
mean	0.490083	-0.024411	-0.368831	-0.402730
std	0.971202	0.920232	1.056548	0.754353
min	-0.783794	-1.085902	-1.778572	-1.746290
25%	-0.127069	-0.780575	-1.190531	-0.482183
50%	0.544254	0.132136	-0.084543	-0.284340
75%	0.896304	0.371796	0.295376	-0.147149
max	1.972977	1.308292	0.871853	0.548142