Para el siguiente ejemplo tomaremos como referencia el archivo snie1213.csv que se encuentra en la carpeta data, esta base de datos contiene los siguientes campos:
+La informacion de los programas fue proporcionada con caracter preliminar por parte de la Direccion General de Desarrollo de la Gestion e Innovacion Educativa en el mes de octubre 2012
In [1]:
# librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.formula.api as sm
import seaborn as sns
%matplotlib inline
plt.style.use('ggplot')
In [5]:
# leer archivo
data = pd.read_csv('../data/snie1213.csv', low_memory=False)
In [6]:
# verificar su contenido
data.head()
Out[6]:
In [7]:
data.info()
Numero total de escuelas
In [14]:
data['NOM_ENT'].count()
Out[14]:
Numero total de escuelas por entidad
In [18]:
data['NOM_ENT'].value_counts()
Out[18]:
Numero total de alumnos por entidad
In [23]:
data.groupby(['NOM_ENT']).sum()[['A_T']]
Out[23]:
Grafica
In [41]:
data.groupby(['NOM_ENT']).sum()[['A_T']].plot.bar(figsize=(20,5), title='Numero total de alumnos por entidad')
Out[41]:
Numero de alumnos inscritos vs numero de alumnos existentes
In [28]:
data.groupby(['NOM_ENT']).sum()[['IT','ET']]
Out[28]:
In [29]:
data.groupby(['NOM_ENT']).sum()[['IT','ET']].plot.bar(figsize=(20,4))
Out[29]:
In [42]:
data['RES'] = data['IT'] - data['ET']
In [43]:
data['RES'].head()
Out[43]:
Numero de alumnos que desertaron
In [60]:
data.groupby(['NOM_ENT']).sum()[['RES']]
Out[60]:
Ordenados menor a mayor
In [61]:
data.groupby(['NOM_ENT']).sum()[['RES']].sort_values(by='RES')
Out[61]:
los 5 estados con mayor desercion
In [63]:
data.groupby(['NOM_ENT']).sum()[['RES']].sort_values(by='RES')[-5:]
Out[63]:
Grafica
In [64]:
data.groupby(['NOM_ENT']).sum()[['RES']].plot.bar(figsize=(20,4))
Out[64]:
In [65]:
import seaborn as sns
In [72]:
sns.jointplot('APRO_T', 'GRADO',data=data, kind='reg')
Out[72]:
In [ ]:
OLS