notebook.community

Edit and run



In [1]:

    
import pandas as pd
import numpy as np
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from datetime import datetime



In [2]:

    
startTime = datetime.now()



In [3]:

    
#donations = pd.read_csv('../data/donations.csv').sort('projectid')
projects = pd.read_csv('../data/projects.csv').sort('projectid')
outcomes = pd.read_csv('../data/outcomes.csv').sort('projectid')
#resources = pd.read_csv('../data/resources.csv').sort('projectid')
sample = pd.read_csv('../data/sampleSubmission.csv').sort('projectid')
#essays = pd.read_csv('../data/essays.csv').sort('projectid')



In [4]:

    
dates = np.array(projects.date_posted)
train_idx = np.where(dates < '2014-01-01')[0]
test_idx = np.where(dates >= '2014-01-01')[0]



In [5]:

    
projects = projects.fillna(method='pad')



In [6]:

    
outcomes = np.array(outcomes.is_exciting)



In [7]:

    
projectCatogorialColumns = ['school_city', 'school_state', 'school_zip', 'school_metro', 'school_district', 'school_county', 'school_charter', 'school_magnet',
 'school_year_round', 'school_nlns', 'school_kipp', 'school_charter_ready_promise', 'teacher_prefix', 'teacher_teach_for_america', 'teacher_ny_teaching_fellow', 'primary_focus_subject','primary_focus_area', 
'secondary_focus_subject', 'secondary_focus_area', 'resource_type', 'poverty_level', 'grade_level',
'students_reached', 'eligible_double_your_impact_match', 'eligible_almost_home_match' ]
latitudeLongitudeColumns = ['school_latitude', 'school_longitude']



In [8]:

    
latitudeLongitude = np.array(projects[latitudeLongitudeColumns])
latitudeLongitude = np.ceil(latitudeLongitude)
latitudeLongitude[:,0] = 180*latitudeLongitude[:,0]+latitudeLongitude[:,1]



In [9]:

    
data = np.array(projects[projectCatogorialColumns])
data = np.column_stack((data,latitudeLongitude[:,0]))
del projects, latitudeLongitude



In [10]:

    
for i in range(0, data.shape[1]):
    le = LabelEncoder()
    data[:,i] = le.fit_transform(data[:,i])
data = data.astype(float)



In [11]:

    
ohe = OneHotEncoder()
data = ohe.fit_transform(data)



In [12]:

    
train = data[train_idx]
test = data[test_idx]
del data



In [13]:

    
model = SGDClassifier(alpha = 0.001, loss = 'modified_huber', penalty = 'l2', n_iter = 1000, n_jobs = -1)
model.fit(train, outcomes=='t')









    Out[13]:





SGDClassifier(alpha=0.001, class_weight=None, epsilon=0.1, eta0=0.0,
       fit_intercept=True, l1_ratio=0.15, learning_rate='optimal',
       loss='modified_huber', n_iter=1000, n_jobs=-1, penalty='l2',
       power_t=0.5, random_state=None, rho=None, shuffle=False, verbose=0,
       warm_start=False)



In [14]:

    
preds = model.predict_proba(test)[:,1]



In [15]:

    
endTime = datetime.now()



In [16]:

    
sample['is_exciting'] = preds
sample.to_csv('predictions.csv', index = False)



In [17]:

    
print endTime - startTime









    



0:01:43.704714