In [1]:
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
import numpy as np
%matplotlib inline
In [2]:
df = pd.read_csv('dgii_clean.csv',sep=',', encoding="ISO-8859-1")
ene = df[df.mes == 'ene-16']
ene.genero.value_counts()
Out[2]:
In [3]:
spg = ene.groupby(by=['puesto_clean']).filter(lambda x: (len(x[x.genero == 'F']) > 9) and (len(x[x.genero == 'M']) > 9))
spg.puesto_clean.value_counts()
Out[3]:
In [67]:
puesto = ene[ene.puesto_clean == 'auditor interno a']
mujeres = puesto.genero.value_counts()['F']
hombres = puesto.genero.value_counts()['M']
#
quantile_mujeres = (np.arange(1, mujeres+1) - 0.5) / mujeres
quantile_hombres = (np.arange(1, hombres+1) - 0.5) / hombres
#
salario_mujeres = np.sort(puesto.salario[puesto.genero == 'F'])
salario_hombres = np.sort(puesto.salario[puesto.genero == 'M'])
#
print("Mujeres {:d}\t Hombres {:d}".format(mujeres, hombres))
In [66]:
pd.DataFrame({'Quantile': quantile_mujeres, 'Salario': salario_mujeres}).head(10)
Out[66]:
In [61]:
_, (ax1, ax2) = plt.subplots(1,2,sharey=True, figsize=(20,10))
ax1.plot(quantile_mujeres, salario_mujeres, marker='.', markersize=20, linestyle='dashed', label='Mujeres')
ax2.boxplot([salario_mujeres], labels=['Mujeres'], sym = 'k.', showcaps = True, showfliers = True)
plt.show()
In [65]:
pd.DataFrame({'Quantile': quantile_hombres, 'Salario': salario_hombres}).head(10)
Out[65]:
In [63]:
_, (ax1, ax2) = plt.subplots(1,2,sharey=True, figsize=(20,10))
ax1.plot(quantile_hombres, salario_hombres, marker='.', markersize=20, linestyle='dashed', label='Mujeres')
ax2.boxplot([salario_hombres], labels=['Hombres'], sym = 'k.', showcaps = True, showfliers = True)
plt.show()
In [36]:
_, (ax1, ax2) = plt.subplots(1,2,sharey=True, figsize=(20,10))
ax1.plot(quantile_mujeres, salario_mujeres, marker='.', markersize=20, linestyle='dashed', label='Mujeres')
ax1.plot(quantile_hombres, salario_hombres, marker='.', markersize=20, linestyle='dashed', label='Hombres')
ax2.boxplot([salario_mujeres, salario_hombres], labels=['Mujeres','Hombres'], sym = 'k.', showcaps = True, showfliers = True)
plt.show()
In [64]:
percentil_mujeres = np.arange(1, mujeres+1) / mujeres
percentil_hombres = np.arange(1, hombres+1) / hombres
In [68]:
_ = plt.figure()
_ = plt.plot(salario_mujeres, percentil_mujeres, marker='.')
_ = plt.plot(salario_hombres, percentil_hombres, marker='.')
plt.show()
In [48]:
sns.kdeplot(salario_mujeres, cumulative=True)
Out[48]:
In [55]:
sns.FacetGrid(data=puesto, col='genero', size=8).map(sns.distplot,'salario', kde=False, hist_kws={'cumulative': True})
Out[55]:
In [49]:
sns.FacetGrid(data=puesto, col='genero', size=8).map(sns.kdeplot,'salario', cumulative=True)
Out[49]:
In [50]:
sns.distplot(salario_mujeres, hist_kws={'cumulative': True}, kde_kws={'cumulative': True})
Out[50]:
In [53]:
Out[53]:
In [ ]: