notebook.community

Edit and run



In [ ]:

    
Questions for tutoring 
#data.groupby(['col1', 'col2'])['col3'].mean()



In [ ]:

    
# Dependencies
from matplotlib import pyplot as plt
from scipy import stats
import numpy as np
import pandas as pd
#import plotly.plotly as py



In [ ]:

    
#Loading data 
city_data = pd.read_csv("city_data.csv")
ride_data = pd.read_csv("ride_data.csv")



In [ ]:

    
#Understanding the data
city_data.head()
ride_data.head()



In [ ]:

    
#Identifying the columns 

#ride_data.shape 
#ride_data.columns
#Index(['city', 'date', 'fare', 'ride_id'], dtype='object')

#city_data.columns
#Index(['city', 'driver_count', 'type'], dtype='object')



In [ ]:

    
#pandas tables is a bid dictionary, and each column is a key, and every single value is part of a list(array) matching that key 
data_grouped_sum = ride_data.groupby(["city"]).sum()
data_grouped_mean = ride_data.groupby(["city"]).count()

#totalfares = data_grouped_sum.rename({"fare": "total fare"})
data_grouped_sum = data_grouped_sum.rename(columns = {"ride_id" : "test"})

#totalfares = data_grouped_sum["total fare"]

    

#data_grouped_mean.type()
#ata_grouped_mean = pd.DataFrame(ride_data["city"]).mean
#data_grouped_mean
data_grouped_sum



#data_grouped_mean = ride_data.drop_duplicates("city")
#data_grouped_mean.head()
#len(data_grouped_mean)
#125



In [ ]:

    
#Second Try for grouping by 

#data.groupby(['col1', 'col2'])['col3'].mean()
#data_grouped_test = ride_data.groupby(["city"])['fare'].mean()
#data_grouped_test