In [1]:

    
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt



In [ ]:

    
# hardcoded imports
ntas = pd.read_csv('data/ntas_data_2019-03-01.csv.gz', compression='gzip', header=0, error_bad_lines=False)
delays = pd.read_excel('data/delay.xlsx',sheet_name='Sheet 1')

# uncomment below to import from url
# didn't test because s*ms*ung wifi likes to randomly block useful sites
# url = 'https://spideroak.com/share/OJQXA2DBMVWGI/ttc_subway_times/home/rad/Documents/ttc_subway_times/month_data/ntas_data_2019-03-01.csv.gz'
# df = pd.read_csv(url=url, compression='gzip', header=0, error_bad_lines=False)
# source https://spideroak.com/browse/share/raphaeld/ttc_subway_times/ttc_subway_times/month_data/
ntas.head()



In [ ]:

    
ntas.dtypes

Do NTAS trainids in scraped data match with the Delay Data vehicle #s

Overlap looks trivial, so I would say answer is no



In [ ]:

    
ntas['trainid'].unique()



In [ ]:

    
delays['Vehicle'].unique()



In [ ]:

    
# proof
list(set(ntas['trainid'].unique()) & set(delays['Vehicle'].unique()))