In [1]:
##################################################################################
############################### LOADING DATA #####################################
##################################################################################
In [2]:
import pandas as pd
import numpy as np
import data_handler as dh
%matplotlib inline
In [3]:
train,test = dh.load_titanic("~/data/kaggle/titanic/")
x_train, y_train, x_test, y_test = dh.clean_titanic(train,test)
In [4]:
print x_train.shape, y_train.shape, x_test.shape, y_test.shape
In [5]:
x_train.head()
Out[5]:
In [6]:
y_train.head()
Out[6]:
In [7]:
##################################################################################
############################ linear regression ###################################
##################################################################################
In [8]:
from sklearn import linear_model
In [30]:
model_linear = linear_model.LinearRegression()
model_linear.fit(x_train,y_train)
model_linear.score(x_test,y_test)
Out[30]:
In [31]:
print model_linear.coef_, "\n", model_linear.intercept_
In [32]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_linear.predict(x))
In [13]:
##################################################################################
############################ logistic regression #################################
##################################################################################
In [33]:
model_logistic = linear_model.LogisticRegression()
model_logistic.fit(x_train,y_train)
model_logistic.score(x_test,y_test)
Out[33]:
In [34]:
print model_logistic.coef_, "\n", model_logistic.intercept_
In [35]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_logistic.predict(x))
In [19]:
##################################################################################
################################ decsion tree ####################################
##################################################################################
In [20]:
from sklearn import tree
In [36]:
model_dtree = tree.DecisionTreeClassifier(criterion="gini")
model_dtree.fit(x_train,y_train)
model_dtree.score(x_test,y_test)
Out[36]:
In [37]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_dtree.predict(x))
In [ ]:
##################################################################################
################################ Random forest ###################################
##################################################################################
In [9]:
from sklearn import ensemble
In [10]:
model_rforest = ensemble.RandomForestClassifier()
model_rforest.fit(x_train,y_train)
model_rforest.score(x_test,y_test)
Out[10]:
In [ ]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_rforest.predict(x))
In [61]:
##################################################################################
######################### Graident Boosted Classifier ############################
##################################################################################
In [65]:
model_gbc = ensemble.GradientBoostingClassifier(n_estimators=100,
learning_rate=0.1,
max_depth=3,
random_state=0)
model_gbc.fit(x_train,y_train)
model_gbc.score(x_test,y_test)
Out[65]:
In [66]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_gbc.predict(x))
In [ ]:
##################################################################################
############################# K nearest neighbors ################################
##################################################################################
In [43]:
from sklearn import neighbors
In [46]:
model_knn = neighbors.KNeighborsClassifier(n_neighbors=6)
model_knn.fit(x_train,y_train)
model_knn.score(x_test,y_test)
Out[46]:
In [47]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_knn.predict(x))
In [ ]:
##################################################################################
################################### k Means ######################################
##################################################################################
In [48]:
from sklearn import cluster
In [56]:
model_kmeans = cluster.KMeans(n_clusters=2)
model_kmeans.fit(x_train,y_train)
model_kmeans.score(x_test,y_test)
Out[56]:
In [57]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_kmeans.predict(x))
In [23]:
##################################################################################
##################################### SVM ########################################
##################################################################################
In [24]:
from sklearn import svm
In [27]:
model_svm = svm.SVC()
model_svm.fit(x_train,y_train)
model_svm.score(x_test,y_test)
Out[27]:
In [28]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_svm.predict(x))
In [38]:
##################################################################################
################################# Naive Bayes ####################################
##################################################################################
In [39]:
from sklearn import naive_bayes
In [40]:
model_bayes = naive_bayes.GaussianNB()
model_bayes.fit(x_train,y_train)
model_bayes.score(x_test,y_test)
Out[40]:
In [41]:
dh.plotboundary(x_train, y_train["Survived"], "Fare", "Age",
lambda x: model_bayes.predict(x))
In [ ]: