In [2]:

    
import pandas as pd # For working with tabular data
import numpy as np

Download all the trip data from Citibike AWS server. [Run only once].



In [52]:

    
# %system wget https://s3.amazonaws.com/tripdata/201307-citibike-tripdata.zip
# %system unzip 201307-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201308-citibike-tripdata.zip
# %system unzip 201308-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201309-citibike-tripdata.zip
# %system unzip 201309-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201310-citibike-tripdata.zip
# %system unzip 201310-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201311-citibike-tripdata.zip
# %system unzip 201311-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201312-citibike-tripdata.zip
# %system unzip 201312-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201401-citibike-tripdata.zip
# %system unzip 201401-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201402-citibike-tripdata.zip
# %system unzip 201402-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201403-citibike-tripdata.zip
# %system unzip 201403-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201404-citibike-tripdata.zip
# %system unzip 201404-citibike-tripdata.zip

# %system wget https://s3.amazonaws.com/tripdata/201405-citibike-tripdata.zip
# %system unzip 201405-citibike-tripdata.zip

Compile datasets into one dataframe. [Run only once]



In [ ]:

    
# Run one time
df = pd.DataFrame()
count = []
monthsDict = {'2013': ['07','08', '09', '10', '11', '12'], '2014': ['01', '02', '03', '04', '05']}
for k, v in monthsDict.iteritems():
    for i in v:
        v = pd.read_csv('Data/' + '%s-%s' %(k, i) + ' - Citi Bike trip data.csv', \
                        parse_dates=["starttime", "stoptime"]) 
        
        df = df.append(v)
   
# Save original data to csv
df.to_csv('Data/orig_data.csv')



In [ ]:

    
# Unique Station ID and location
df_station = df[['start station id', 'start station latitude', 'start station longitude']]

df_uniqstation = df_station.drop_duplicates(cols = 'start station id')
df_uniqstation.to_csv('Data/BikeStations.csv')