Se tienen 4 archivos:
Resolver las siguientes preguntas.
In [1]:
# Librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime
%matplotlib inline
In [2]:
# leer archivos
data1 = pd.read_csv('../../data/crimes-in-chicago/Chicago_Crimes_2001_to_2004.csv', low_memory=False)
data2 = pd.read_csv('../../data/crimes-in-chicago/Chicago_Crimes_2005_to_2007.csv', low_memory=False)
data3 = pd.read_csv('../../data/crimes-in-chicago/Chicago_Crimes_2008_to_2011.csv', low_memory=False)
data4 = pd.read_csv('../../data/crimes-in-chicago/Chicago_Crimes_2012_to_2017.csv', low_memory=False)
In [3]:
# crear un solo dataframe
datap = pd.concat([data1, data2, data3, data4], ignore_index=True)
In [4]:
# checar integridad del dataframe
datap.head()
Out[4]:
In [5]:
# información del dataframe
datap.info()
In [6]:
# elimnar las columnas que no tienen información relevante
data = datap[['Primary Type', 'Description', 'Location Description', 'Arrest','Domestic', 'Year', 'Date']]
In [7]:
# checar la integridad del dataFrame
data.head()
Out[7]:
In [8]:
# información del dataframe a trabajar
data.info()
In [9]:
# desplegar gráfica de delitos por año
data.groupby('Year').count()['Arrest'].plot.bar()
Out[9]:
In [10]:
# aplicar un estilo a la gráfica
plt.style.use('ggplot')
In [11]:
# clasificación por año
data.groupby('Year').count()['Arrest'].plot.bar()
Out[11]:
In [12]:
# descripción del dataframe
data.describe()
Out[12]:
In [13]:
# eliminar datos atípicos
data = data.loc[data['Year'] >= 2001]
In [14]:
# clasificación por año
data.groupby('Year').count()['Arrest'].plot.bar()
Out[14]:
In [15]:
# cambiar el tipo de dato de la columna 'Year'
data['Year'] = data['Year'].astype(int)
In [16]:
# clasificación por año
data.groupby('Year').count()['Arrest'].plot.bar()
Out[16]:
In [18]:
# generar columnas
for i in np.unique(data['Primary Type']):
data[i] = [1 if x==i else 0 for x in data['Primary Type']]
In [20]:
# checar integridad data frame
data.head()
Out[20]:
In [22]:
# checar columnas
data.columns
Out[22]:
In [24]:
# clasificación por año
data.groupby('Year').sum()[['LIQUOR LAW VIOLATION','SEX OFFENSE']].plot.bar()
Out[24]:
In [26]:
# scatter plot
data.info()
In [ ]:
data.sum()
In [ ]: