Ejercicio Salarios de la Ciudad de San Francisco

Para el siguiente ejercicio utilizaremos la informacion de SF Salaries Dataset de Kaggle. La informacion contiene los siguientes campos:

  • ID : variable entera, identificador del usuario
  • EmployeeName: variable texto, nombre del usuario
  • JobTitle: variable texto, nombre del trabajo
  • BasePay: variable float, pago base
  • OvertimePay: variable float, pago horas extras
  • OtherPay: variable float, otro tipo de pago
  • Benefits: variable float, beneficios
  • TotalPay: variable float, pago total
  • TotalPayBenefits: variable float, pago total mas beneficios
  • Year: variable entera, anio
  • Notes: variable texto, notas
  • Agency: variable texto, agencia
  • Status: variable float, status

Import pandas as pd.


In [1]:

Leer Salaries.csv de la carpeta data como un dataframe de nombre sal.


In [2]:

Checar las primeras 5 filas de informacion


In [8]:



Out[8]:
Id EmployeeName JobTitle BasePay OvertimePay OtherPay Benefits TotalPay TotalPayBenefits Year Notes Agency Status
0 1 NATHANIEL FORD GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY 167411.18 0.00 400184.25 NaN 567595.43 567595.43 2011 NaN San Francisco NaN
1 2 GARY JIMENEZ CAPTAIN III (POLICE DEPARTMENT) 155966.02 245131.88 137811.38 NaN 538909.28 538909.28 2011 NaN San Francisco NaN
2 3 ALBERT PARDINI CAPTAIN III (POLICE DEPARTMENT) 212739.13 106088.18 16452.60 NaN 335279.91 335279.91 2011 NaN San Francisco NaN
3 4 CHRISTOPHER CHONG WIRE ROPE CABLE MAINTENANCE MECHANIC 77916.00 56120.71 198306.90 NaN 332343.61 332343.61 2011 NaN San Francisco NaN
4 5 PATRICK GARDNER DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT) 134401.60 9737.00 182234.59 NaN 326373.19 326373.19 2011 NaN San Francisco NaN

Usar el metodo .info() para encontrar cuantos registros tenemos.


In [9]:



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 148654 entries, 0 to 148653
Data columns (total 13 columns):
Id                  148654 non-null int64
EmployeeName        148654 non-null object
JobTitle            148654 non-null object
BasePay             148045 non-null float64
OvertimePay         148650 non-null float64
OtherPay            148650 non-null float64
Benefits            112491 non-null float64
TotalPay            148654 non-null float64
TotalPayBenefits    148654 non-null float64
Year                148654 non-null int64
Notes               0 non-null float64
Agency              148654 non-null object
Status              0 non-null float64
dtypes: float64(8), int64(2), object(3)
memory usage: 14.7+ MB

Promedio del BasePay


In [10]:



Out[10]:
66325.44884050643

El valor maximo de OvertimePay en los datos


In [11]:



Out[11]:
245131.88

Cual es el trabajo de JOSEPH DRISCOLL? Nota: Usar mayusculas, si no la respuesta no se mostrara, ya que existe otro Joseph Driscoll con minusculas.


In [12]:



Out[12]:
24    CAPTAIN, FIRE SUPPRESSION
Name: JobTitle, dtype: object

Cuanto dinero gana JOSEPH DRISCOLL (incluyendo beneficios)?


In [13]:



Out[13]:
24    270324.91
Name: TotalPayBenefits, dtype: float64

Cual es el nombre de la persona con el mayor sueldo (incluyendo beneficios)?


In [14]:



Out[14]:
Id EmployeeName JobTitle BasePay OvertimePay OtherPay Benefits TotalPay TotalPayBenefits Year Notes Agency Status
0 1 NATHANIEL FORD GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY 167411.18 0.0 400184.25 NaN 567595.43 567595.43 2011 NaN San Francisco NaN

Cual es el nombre de la persona con el menor salario (incluyendo beneficios)? Existe algo raro en su pago?


In [15]:



Out[15]:
Id EmployeeName JobTitle BasePay OvertimePay OtherPay Benefits TotalPay TotalPayBenefits Year Notes Agency Status
148653 148654 Joe Lopez Counselor, Log Cabin Ranch 0.0 0.0 -618.13 0.0 -618.13 -618.13 2014 NaN San Francisco NaN

Cual es el promedio (mean) del BasePay de todos los empleados por anio (2011-2014) ?


In [16]:



Out[16]:
Year
2011    63595.956517
2012    65436.406857
2013    69630.030216
2014    66564.421924
Name: BasePay, dtype: float64

Cuantos trabajos unicos existen ?


In [17]:



Out[17]:
2159

Cuales son los 5 trabajos mas comunes ?


In [18]:



Out[18]:
Transit Operator                7036
Special Nurse                   4389
Registered Nurse                3736
Public Svc Aide-Public Works    2518
Police Officer 3                2421
Name: JobTitle, dtype: int64

Preguntas Extras

Cuantos nombres de trabajos fueron representados por solo una persona en el 2013? (ejemplo: Nombres de trabajo con solo una presencia en 2013?)


In [5]:



Out[5]:
202

Cuantas personas tienen la palabra Chief en el nombre de su trabajo?


In [3]:


In [4]:



Out[4]:
627

Existe alguna correlacion entre la longitud del nombre del trabajo y el salario


In [22]:


In [23]:



Out[23]:
title_len TotalPayBenefits
title_len 1.000000 -0.036878
TotalPayBenefits -0.036878 1.000000