In [76]:
# Imports
import pandas as pd
import numpy as np
%matplotlib inline
In [77]:
df = pd.read_csv('totaal.csv')
df = df.set_index('id')
df['start'] = pd.to_datetime(df['start']) # Starttijden converteren naar datetimes
df['einde'] = pd.to_datetime(df['einde']) # Eindtijden converteren naar datetimes
df['duur'] = df['einde'] - df['start'] # Hoe lang parkeert iedereen?
Vervolgens kijken we of we het correct is ingeladen:
In [78]:
df.head()
Out[78]:
In [79]:
start = df['start']
hours = start.map(lambda x: x.hour)
hours.hist()
Out[79]:
In [80]:
einde = df['einde']
hours = einde.map(lambda x: x.hour)
hours.hist()
Out[80]:
In [94]:
duur = df['duur']
hours = duur.map(lambda x: x / np.timedelta64(1, 'm'))
hours = hours[hours > 0] # Filter negatives
hours = hours[hours < 1440] # Filter longer then a day.
hours.hist(bins=100)
Out[94]:
Interessant! Van de distributie kan je al een hoop leren, zo zie je dat iedereen bijna altijd tegen een uur aan parkeert... Dat zijn de pieken die er bovenuit steken... En de bult op ongeveer 850 minuten, dat is dus vaak een gedurende de nacht... en de volgende ochtend weer vertrekken..
In [95]:
kosten = df['kosten']
kosten.hist(bins=50)
Out[95]: