In [11]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.rcParams["axes.grid"] = True
In [3]:
soy = pd.read_csv("soy.csv",delimiter="\t")
gini = pd.read_csv("gini.csv")
gdp = pd.read_csv("gdpcap.csv")
data = pd.concat([gdp,gini]).groupby("Country Name")
ax = soy.plot(x="Month",y="Price[USD]",legend=False)
ax.set_ylabel('Precio[USD]')
ax.set_xlabel("Mes")
data = pd.DataFrame(data.get_group("Argentina").iloc[:,5:-1].dropna(axis=1).T.reset_index().values,
columns=["Date","GDP","GINI"], dtype=float)
plt.figure(2)
plt.plot(data.values[:,1],data.values[:,2],"ro-")
for i in data.values:
plt.annotate(s=int(i[0]),xy=(i[1],i[2]))
In [38]:
#Obtengo los datos directamente de la página web. No es necesario bajarlos!
educa = pd.read_csv(r"https://recursos-data.buenosaires.gob.ar/ckan2/estadistica-educativa/estadistica-educativa.csv",
delimiter=";")
print(educa.shape) #Imprime la cantidad de filas primero, y después la cantidad de columnas
educa.head() #Imprime los 5 primeros datos
Out[38]:
In [39]:
#Imprimamos las columnas para saber los datos
educa.columns
Out[39]:
En el archivo https://recursos-data.buenosaires.gob.ar/ckan2/estadistica-educativa/documentacion-estadistica-educativa.pdf indica el significado de cada columna. Vamos a tomar el nivel de educación de madre, la tasa de repetición, domiciliados PBA e inversión en alumnos como datos relevantes
In [40]:
features = ["nivel_educ_madre","iecep","tasa_repeticion_2012","domiciliados_pba","inversion_alumnos_2013"]
In [43]:
#Ahora, para analizar los datos, usamos el pairplot de seaborn,
#que te permite hacer histogramas 2d y agregarle una regresión lineal
sns.pairplot(educa[educa.tipo_gestion == "Estatal"],
vars=features, kind="reg")
Out[43]: