In [1]:
import pandas as pd
import numpy as np
import csv
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn import ensemble


print('Load data...')
train = pd.read_csv("../../data/train.csv")
target = train['target'].values
train = train.drop(['ID','target'],axis=1)
test = pd.read_csv("../../data/test.csv")
id_test = test['ID'].values
test = test.drop(['ID'],axis=1)

train


/Users/jim/anaconda/lib/python2.7/site-packages/pandas/computation/__init__.py:19: UserWarning: The installed version of numexpr 2.4.4 is not supported in pandas and will be not be used

  UserWarning)
Load data...
Out[1]:
v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 ... v122 v123 v124 v125 v126 v127 v128 v129 v130 v131
0 1.335739e+00 8.727474 C 3.921026 7.915266 2.599278 3.176895 0.012941 9.999999 0.503281 ... 8.000000 1.989780 3.575369e-02 AU 1.804126 3.113719 2.024285 0 0.636365 2.857144e+00
1 NaN NaN C NaN 9.191265 NaN NaN 2.301630 NaN 1.312910 ... NaN NaN 5.988956e-01 AF NaN NaN 1.957825 0 NaN NaN
2 9.438769e-01 5.310079 C 4.410969 5.326159 3.979592 3.928571 0.019645 12.666667 0.765864 ... 9.333333 2.477596 1.345191e-02 AE 1.773709 3.922193 1.120468 2 0.883118 1.176472e+00
3 7.974146e-01 8.304757 C 4.225930 11.627438 2.097700 1.987549 0.171947 8.965516 6.542669 ... 7.018256 1.812795 2.267384e-03 CJ 1.415230 2.954381 1.990847 1 1.677108 1.034483e+00
4 NaN NaN C NaN NaN NaN NaN NaN NaN 1.050328 ... NaN NaN NaN Z NaN NaN NaN 0 NaN NaN
5 NaN NaN C NaN 8.856791 NaN NaN 0.359993 NaN 1.050328 ... NaN NaN 4.986116e-02 X NaN NaN 1.536222 0 NaN NaN
6 8.998057e-01 7.312995 C 3.494148 9.946200 1.926070 1.770427 0.066251 5.011287 2.341356 ... 3.476299 1.992594 8.375832e-02 BJ 3.276100 1.623298 2.266575 0 2.263736 9.708730e-01
7 NaN NaN C NaN NaN NaN NaN NaN NaN 1.838074 ... NaN NaN NaN BY NaN NaN NaN 0 NaN NaN
8 2.078651e+00 8.462619 NaN 3.739030 5.265636 1.573033 2.303371 0.015869 11.111111 4.463894 ... 8.148148 1.875560 1.865950e-02 S 1.159637 5.582865 1.105283 0 1.170731 3.333334e+00
9 1.144802e+00 5.880606 C 3.244469 9.538384 2.500001 1.559405 0.412610 9.977529 2.363238 ... 7.325843 4.896617 8.943653e-03 E 1.344550 1.601176 1.928009 0 3.174603 1.000000e+00
10 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312910 ... NaN NaN NaN AR NaN NaN NaN 0 NaN NaN
11 NaN NaN C NaN NaN NaN NaN NaN NaN 1.028446 ... NaN NaN NaN AM NaN NaN NaN 0 NaN NaN
12 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312911 ... NaN NaN NaN Z NaN NaN NaN 0 NaN NaN
13 1.400267e+00 5.367204 C 4.122155 8.137188 2.983080 2.640249 0.211851 11.021506 1.816193 ... 8.817203 2.096062 5.459061e-07 AQ 1.731656 6.102516 1.388117 4 1.220911 1.878453e+00
14 2.260036e+00 14.693263 C 5.150750 8.554136 1.954626 2.931936 0.041446 7.022901 1.291029 ... 5.038168 1.836667 5.973979e-03 Z 3.242128 0.818063 2.400050 0 1.166666 2.857143e+00
15 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312910 ... NaN NaN NaN BY NaN NaN NaN 0 NaN NaN
16 6.228961e-01 7.024732 C 4.193688 6.288177 2.132436 3.198654 0.407525 10.434782 1.312909 ... 6.086957 2.812624 2.474223e-01 BJ 1.865530 3.345960 0.796533 0 1.389474 6.060615e-01
17 NaN NaN C NaN NaN NaN NaN NaN NaN 1.553611 ... NaN NaN NaN Z NaN NaN NaN 2 NaN NaN
18 NaN NaN C NaN NaN NaN NaN NaN NaN 1.794310 ... NaN NaN NaN E NaN NaN NaN 1 NaN NaN
19 NaN NaN C NaN NaN NaN NaN NaN NaN 3.916848 ... NaN NaN NaN AZ NaN NaN NaN 1 NaN NaN
20 9.438780e-01 5.927194 C 4.404372 9.045057 2.551021 2.693878 0.085665 8.601036 3.916848 ... 6.632125 2.419037 1.847926e-02 U 1.884567 2.602041 1.959776 1 1.121212 1.351351e+00
21 1.289841e+00 4.788645 C 4.283417 10.719571 3.107570 1.962151 0.080812 8.604652 5.229758 ... 5.968993 2.169826 4.919843e-03 CD 1.460793 1.531375 1.964652 1 2.111675 1.346155e+00
22 7.288239e-01 4.073244 C 4.130054 9.032563 4.149705 1.917269 2.767934 6.149733 1.312910 ... 3.903742 3.401924 7.107372e-01 AE 1.840384 3.779547 1.798435 0 1.986302 8.275852e-01
23 3.944563e+00 5.718516 C 2.205080 5.340648 2.010356 1.657021 3.233160 8.565814 3.916850 ... 6.404715 10.691157 3.065766e+00 AU 1.813419 1.233628 0.626694 2 4.250001 2.422145e+00
24 4.045725e+00 3.992607 C 3.598096 7.946330 1.709742 2.365804 7.827175 9.849247 1.028447 ... 5.226130 5.259272 2.690857e+00 BD 1.447090 2.559641 1.509052 0 3.260504 2.268042e+00
25 NaN NaN C NaN NaN NaN NaN NaN NaN 2.253830 ... NaN NaN NaN CG NaN NaN NaN 0 NaN NaN
26 NaN NaN C NaN NaN NaN NaN NaN NaN 1.838074 ... NaN NaN NaN J NaN NaN NaN 0 NaN NaN
27 2.920282e-01 12.715811 C 4.999724 5.998656 2.020520 2.620363 0.058548 8.983051 1.028447 ... 7.796611 1.697821 7.351065e-03 N 1.491973 4.202842 1.306053 0 0.722892 6.666657e-01
28 5.172412e-01 8.528544 C 4.075372 5.726834 2.534949 3.643990 0.749568 6.981133 1.291029 ... 5.188680 1.788132 8.594683e-02 AR 2.105971 0.524231 0.785667 0 0.603581 1.016950e+00
29 2.415670e+00 14.960392 C 4.356980 8.520510 2.132753 2.023938 0.035822 7.567568 0.787746 ... 5.585586 2.451680 6.640126e-03 Z 1.442224 2.244287 2.373578 0 1.634408 3.157894e+00
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
114291 NaN NaN C NaN NaN NaN NaN NaN NaN 1.838075 ... NaN NaN NaN BM NaN NaN NaN 0 NaN NaN
114292 2.768086e-01 7.055455 C 3.823010 9.619069 2.194513 1.825436 0.328563 8.838952 1.291029 ... 7.116105 3.000683 9.536287e-02 BM 1.528000 2.777432 1.985969 0 1.639345 3.999997e-01
114293 1.983914e+00 11.296659 C 6.459140 9.193006 1.849866 3.217159 0.055774 7.699531 1.291028 ... 6.478874 1.535538 1.466965e-01 G 2.781526 1.131032 2.950252 0 0.800000 3.333334e+00
114294 NaN NaN C NaN NaN NaN NaN NaN NaN 2.494530 ... NaN NaN NaN X NaN NaN NaN 0 NaN NaN
114295 8.743610e-01 8.529843 C 4.391163 9.575062 2.646711 2.103190 1.300537 8.750001 5.492341 ... 6.937500 3.171537 1.309991e+00 AR 1.386343 2.880071 2.140204 2 1.722846 1.043479e+00
114296 NaN NaN C NaN NaN NaN NaN NaN NaN 2.341356 ... NaN NaN NaN Z NaN NaN NaN 0 NaN NaN
114297 1.603274e+00 11.493653 C 4.328798 8.055434 1.848820 2.532499 0.171407 11.403508 1.291029 ... 9.122806 2.250368 4.670769e-02 AF 1.527338 3.231824 1.246700 0 1.581749 1.730770e+00
114298 9.477454e-01 8.941986 C 4.578888 14.882313 2.868852 2.402663 0.157079 8.333333 1.291028 ... 6.666667 1.856606 9.564098e-03 S 1.586184 2.737578 2.785707 0 1.049040 1.626015e+00
114299 9.688237e-07 6.163454 C 3.502739 7.202643 1.741765 2.165847 2.424658 11.241831 3.785558 ... 6.339869 6.239218 3.054839e+00 V 1.291664 5.253692 1.026424 0 2.615385 5.482204e-07
114300 1.539335e+00 4.845475 C 4.445304 8.605211 1.906204 2.382753 1.142149 10.191572 0.853392 ... 8.505747 2.364559 6.571835e-01 CG 1.380594 7.233358 1.495398 0 1.511110 1.848739e+00
114301 NaN NaN C NaN NaN NaN NaN NaN NaN 1.269147 ... NaN NaN NaN BJ NaN NaN NaN 0 NaN NaN
114302 2.093352e+00 5.696141 C 5.105297 8.836584 2.734559 2.772276 0.195443 8.904110 3.916848 ... 6.986301 2.601368 1.805020e-02 AK 1.649315 3.818954 2.049363 1 1.469388 2.222222e+00
114303 NaN NaN C NaN NaN NaN NaN NaN NaN 5.229760 ... NaN NaN NaN J NaN NaN NaN 2 NaN NaN
114304 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312910 ... NaN NaN NaN H NaN NaN NaN 0 NaN NaN
114305 1.030641e+00 13.003754 C 4.512371 8.928965 2.548746 2.583565 1.756440 7.988165 5.229759 ... 6.331360 1.345799 2.027626e-01 BO 1.535785 2.950904 1.790912 1 1.110512 1.553399e+00
114306 2.051611e+00 8.259554 C 4.466166 11.291191 2.269140 3.510343 0.215781 8.632813 1.291027 ... 5.898438 3.043102 7.758699e-03 BM 2.048144 3.214972 1.805540 0 1.307412 1.933085e+00
114307 NaN NaN C NaN NaN NaN NaN NaN NaN 1.291029 ... NaN NaN NaN CD NaN NaN NaN 0 NaN NaN
114308 NaN NaN C NaN NaN NaN NaN NaN NaN 2.297593 ... NaN NaN NaN BD NaN NaN NaN 0 NaN NaN
114309 NaN NaN C NaN NaN NaN NaN NaN NaN 0.787747 ... NaN NaN NaN A NaN NaN NaN 0 NaN NaN
114310 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312910 ... NaN NaN NaN CB NaN NaN NaN 0 NaN NaN
114311 NaN NaN C NaN NaN NaN NaN NaN NaN 1.050329 ... NaN NaN NaN O NaN NaN NaN 0 NaN NaN
114312 1.142478e+00 8.477138 C 3.827255 8.539653 2.276136 1.905602 3.199958 9.625001 1.816192 ... 7.437501 2.859732 3.258223e+00 AP 0.958445 2.382003 1.601009 1 1.851852 1.399999e+00
114313 1.364308e+00 9.621454 C 4.342517 8.648951 2.772861 3.480826 2.208724 9.531914 2.625820 ... 8.170212 2.427557 5.664891e-01 CI 2.091074 4.300331 1.738246 0 0.855932 1.980199e+00
114314 3.633647e+00 3.052302 C 2.055147 7.770079 1.929975 2.459437 0.932377 9.210525 1.291029 ... 6.842105 12.727869 5.673148e-01 CD 1.660675 3.074295 1.383798 0 2.958333 2.159624e+00
114315 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312909 ... NaN NaN NaN AE NaN NaN NaN 0 NaN NaN
114316 NaN NaN C NaN NaN NaN NaN NaN NaN 1.444201 ... NaN NaN NaN AL NaN NaN NaN 0 NaN NaN
114317 NaN NaN C NaN NaN NaN NaN NaN NaN 6.236324 ... NaN NaN NaN E NaN NaN NaN 1 NaN NaN
114318 NaN NaN C NaN 10.069277 NaN NaN 0.323324 NaN 2.078775 ... NaN NaN 1.567642e-01 Q NaN NaN 2.417606 2 NaN NaN
114319 NaN NaN C NaN 10.106144 NaN NaN 0.309226 NaN 1.291029 ... NaN NaN 4.906576e-01 BW NaN NaN 3.526650 0 NaN NaN
114320 1.619763e+00 7.932978 C 4.640085 8.473141 2.351470 2.826766 3.479754 9.629630 0.853391 ... 7.936508 2.944285 3.135205e+00 V 1.943149 4.385553 1.604493 0 1.787610 1.386138e+00

114321 rows × 131 columns


In [2]:
# get test data set
test = train.sample(frac=0.1)
test


Out[2]:
v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 ... v122 v123 v124 v125 v126 v127 v128 v129 v130 v131
65179 NaN NaN C NaN NaN NaN NaN NaN NaN 1.575492 ... NaN NaN NaN S NaN NaN NaN 0 NaN NaN
52086 NaN NaN C NaN NaN NaN NaN NaN NaN 0.765863 ... NaN NaN NaN AK NaN NaN NaN 0 NaN NaN
48052 4.324965e-01 11.190444 C 5.993887 9.266981 2.548217 2.419638 0.073185 9.917355 5.404814 ... 6.776860 2.125443 1.547530e-01 BY 1.498478 2.213617 3.035939 2 1.429951 5.405412e-01
40466 1.508153e+00 5.861554 C 4.229849 6.435778 2.173914 2.663044 0.034589 10.864197 4.310722 ... 8.148148 4.018702 5.607591e-07 X 1.800821 2.496602 1.439110 2 2.122448 1.153847e+00
60156 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312911 ... NaN NaN NaN BM NaN NaN NaN 0 NaN NaN
56434 NaN NaN C NaN NaN NaN NaN NaN NaN 1.816192 ... NaN NaN NaN L NaN NaN NaN 0 NaN NaN
23854 NaN NaN C NaN NaN NaN NaN NaN NaN 1.028446 ... NaN NaN NaN L NaN NaN NaN 1 NaN NaN
30872 NaN NaN C NaN NaN NaN NaN NaN NaN 0.831510 ... NaN NaN NaN D NaN NaN NaN 0 NaN NaN
29878 NaN NaN C NaN NaN NaN NaN NaN NaN 3.085339 ... NaN NaN NaN AZ NaN NaN NaN 0 NaN NaN
34010 1.481546e+00 13.256734 C 4.572785 18.392737 2.708914 3.255571 0.212237 7.610921 1.291028 ... 6.348122 0.933795 2.192386e-02 CI 1.717355 1.801880 3.301635 0 0.727273 2.705882e+00
104917 4.987162e+00 10.390862 C 4.321127 8.698571 2.516046 2.907574 1.702130 7.669616 1.050328 ... 5.604720 1.948873 5.787771e-01 W 1.945474 2.298620 1.706479 0 1.536423 4.827586e+00
16974 NaN NaN C NaN NaN NaN NaN NaN NaN 2.625820 ... NaN NaN NaN G NaN NaN NaN 0 NaN NaN
59357 NaN NaN C NaN NaN NaN NaN NaN NaN 1.050327 ... NaN NaN NaN CA NaN NaN NaN 0 NaN NaN
40763 NaN NaN C NaN NaN NaN NaN NaN NaN 1.050328 ... NaN NaN NaN AC NaN NaN NaN 0 NaN NaN
99510 NaN NaN C NaN NaN NaN NaN NaN NaN 1.050328 ... NaN NaN NaN AK NaN NaN NaN 0 NaN NaN
11730 2.178732e+00 5.133681 C 3.450824 8.478535 2.812608 2.147558 0.460603 11.134904 0.503282 ... 9.379015 2.753943 2.929849e-02 Y 1.166551 2.792692 1.511978 0 2.425806 1.808512e+00
88596 NaN NaN C NaN 7.958902 NaN NaN 9.645630 NaN 1.050327 ... NaN NaN 6.283486e+00 BM NaN NaN 1.554474 0 NaN NaN
21485 NaN NaN C NaN NaN NaN NaN NaN NaN 1.291028 ... NaN NaN NaN E NaN NaN NaN 1 NaN NaN
69643 2.417469e+00 8.193068 C 5.537971 10.324773 3.136176 2.950482 1.632872 6.217950 1.816193 ... 4.423076 2.308368 1.022244e+00 BM 1.419639 3.275448 4.065427 1 1.034964 3.423423e+00
91340 1.558260e+00 9.555005 C 4.454255 8.702125 1.272813 2.414601 0.351751 17.270955 4.726477 ... 16.452241 1.714174 6.276657e-02 BF 1.260769 2.877866 1.686973 2 1.240309 2.249999e+00
40856 1.280016e+00 10.869718 C 3.559147 NaN 2.653644 2.250712 NaN 10.454545 1.050328 ... 7.435066 NaN NaN Z 1.689066 3.060135 NaN 0 2.350813 1.046154e+00
62317 NaN NaN C NaN NaN NaN NaN NaN NaN 1.575492 ... NaN NaN NaN V NaN NaN NaN 0 NaN NaN
28818 NaN NaN C NaN 6.962704 NaN NaN 0.425551 NaN 1.291028 ... NaN NaN 4.096776e-01 BQ NaN NaN 1.083268 0 NaN NaN
98368 1.626772e+00 10.243580 C 4.993424 8.165737 2.344895 3.458721 0.620609 7.534247 1.312911 ... 5.753425 2.541518 5.255148e-01 AS 1.634638 5.550806 1.375439 0 0.824858 2.465753e+00
66360 NaN NaN C NaN NaN NaN NaN NaN NaN 4.704595 ... NaN NaN NaN Y NaN NaN NaN 2 NaN NaN
94526 2.761195e+00 5.006785 C 5.572188 10.345491 3.544777 3.003731 0.368929 10.526315 4.967177 ... 8.684210 2.917870 7.434571e-02 AK 1.418802 6.069262 3.097105 1 1.217392 3.265307e+00
51174 2.036164e+00 5.909826 C 4.236848 8.888244 2.662475 2.929768 0.461836 6.985447 1.816193 ... 5.446986 2.068935 3.925735e-02 I 1.907457 2.987421 1.640021 1 1.030412 2.916667e+00
19610 8.641486e-01 2.525721 C 1.420616 5.288560 1.214481 2.242118 1.360009 9.041095 1.050328 ... 4.438356 13.225876 1.168412e-01 E 1.945281 1.810042 0.679081 0 4.041668 4.123702e-01
88047 NaN NaN C NaN NaN NaN NaN NaN NaN 1.838075 ... NaN NaN NaN CG NaN NaN NaN 0 NaN NaN
80935 5.160394e-01 5.502847 C 3.262979 8.093020 2.900976 2.436076 1.856973 9.652510 1.312910 ... 6.795366 5.433748 4.201779e-01 BM 1.474792 3.172942 1.303964 0 2.396948 3.821663e-01
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
103184 -3.310530e-07 6.536886 C 5.260930 8.768065 2.203716 3.203075 2.707075 4.907975 1.291028 ... 4.294478 2.232697 1.574947e+00 AC 2.143563 5.020820 1.697145 0 0.944000 1.747995e-07
26492 NaN NaN C NaN NaN NaN NaN NaN NaN 1.291028 ... NaN NaN NaN AW NaN NaN NaN 0 NaN NaN
19574 1.506850e+00 9.299375 C 5.771483 10.198999 2.473157 1.843762 0.277717 12.565657 3.129103 ... 11.717173 1.307383 4.329370e-01 K 1.351461 1.888189 2.893269 1 1.301205 2.716049e+00
67124 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312911 ... NaN NaN NaN CJ NaN NaN NaN 0 NaN NaN
105377 NaN NaN C NaN NaN NaN NaN NaN NaN 0.787746 ... NaN NaN NaN AT NaN NaN NaN 0 NaN NaN
100842 NaN NaN C NaN NaN NaN NaN NaN NaN 2.625820 ... NaN NaN NaN BU NaN NaN NaN 0 NaN NaN
60401 NaN NaN C NaN NaN NaN NaN NaN NaN 3.719913 ... NaN NaN NaN L NaN NaN NaN 1 NaN NaN
49837 NaN NaN C NaN NaN NaN NaN NaN NaN 5.229759 ... NaN NaN NaN C NaN NaN NaN 2 NaN NaN
83806 8.368335e-01 7.722104 C 4.281912 6.119705 1.654282 2.578353 0.145753 8.506493 2.625820 ... 6.233765 2.910681 4.573101e-03 CJ 1.909532 5.900647 1.193059 0 1.313284 1.068702e+00
43182 NaN NaN C NaN NaN NaN NaN NaN NaN 1.969365 ... NaN NaN NaN Q NaN NaN NaN 0 NaN NaN
50907 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312911 ... NaN NaN NaN Q NaN NaN NaN 0 NaN NaN
18571 NaN NaN C NaN NaN NaN NaN NaN NaN 0.262581 ... NaN NaN NaN CD NaN NaN NaN 0 NaN NaN
7530 6.944016e-01 10.713788 C 4.645287 8.386013 2.177041 2.414765 0.162548 9.943503 2.341356 ... 8.700565 2.116196 7.295929e-03 BR 1.406845 4.598061 1.578298 1 0.963730 1.290322e+00
75477 NaN NaN C NaN NaN NaN NaN NaN NaN 1.291028 ... NaN NaN NaN BW NaN NaN NaN 0 NaN NaN
45328 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312910 ... NaN NaN NaN X NaN NaN NaN 0 NaN NaN
2338 NaN NaN C NaN NaN NaN NaN NaN NaN 0.787745 ... NaN NaN NaN BR NaN NaN NaN 0 NaN NaN
55905 NaN NaN C NaN NaN NaN NaN NaN NaN 0.087527 ... NaN NaN NaN CF NaN NaN NaN 0 NaN NaN
4354 5.616438e+00 5.162347 C 3.363131 7.808679 1.614216 2.599037 0.625924 8.149781 1.291029 ... 4.713656 3.707131 1.005321e-01 BX 2.123722 2.610145 1.305635 0 2.871795 3.253968e+00
111202 1.014742e+00 11.667133 C 5.485560 10.302623 3.318479 3.620158 0.141594 9.505704 3.150984 ... 6.311788 3.225776 2.627166e-02 BO 1.959016 4.923723 2.655298 0 1.249999 9.696962e-01
104431 NaN NaN C NaN NaN NaN NaN NaN NaN 0.371991 ... NaN NaN NaN AZ NaN NaN NaN 0 NaN NaN
2401 NaN NaN C NaN NaN NaN NaN NaN NaN 5.229759 ... NaN NaN NaN BN NaN NaN NaN 3 NaN NaN
8918 NaN NaN C NaN NaN NaN NaN NaN NaN 1.312911 ... NaN NaN NaN CG NaN NaN NaN 0 NaN NaN
103624 NaN NaN C NaN NaN NaN NaN NaN NaN 0.787745 ... NaN NaN NaN P NaN NaN NaN 0 NaN NaN
62369 5.131761e-01 8.950261 C 4.896794 9.012324 2.302357 3.217753 0.703732 8.456790 1.312910 ... 6.296296 1.687199 5.519764e-02 BV 2.327993 3.107663 1.816688 0 0.844828 8.163273e-01
48130 NaN NaN C NaN NaN NaN NaN NaN NaN 1.028447 ... NaN NaN NaN L NaN NaN NaN 0 NaN NaN
72586 NaN NaN C NaN NaN NaN NaN NaN NaN 0.525164 ... NaN NaN NaN CD NaN NaN NaN 0 NaN NaN
77143 NaN NaN C NaN NaN NaN NaN NaN NaN 0.787746 ... NaN NaN NaN CJ NaN NaN NaN 0 NaN NaN
67844 1.028412e+00 9.983078 C 3.680577 8.523030 2.198887 2.297715 1.398603 11.308204 1.312911 ... 8.248337 2.659362 1.043331e-01 BH 1.476265 2.223595 1.468230 0 2.107526 9.183664e-01
20786 2.955567e+00 4.217469 C 3.430188 7.849368 2.536195 1.667498 7.746595 9.017631 0.634574 ... 6.901762 2.627761 1.105706e+00 H 2.017673 2.958062 1.428244 0 3.281438 2.335766e+00
84125 8.765458e-01 7.214254 NaN 4.371268 10.396773 1.853120 2.305870 0.167633 10.972223 5.251640 ... 9.490741 2.705146 2.142274e-02 H 1.498480 5.192156 2.132541 0 1.031963 1.592921e+00

11432 rows × 131 columns


In [3]:
print('Clearing...')
for (train_name, train_series), (test_name, test_series) in zip(train.iteritems(),test.iteritems()):
    if train_series.dtype == 'O':
        #for objects: factorize
        train[train_name], tmp_indexer = pd.factorize(train[train_name])
        test[test_name] = tmp_indexer.get_indexer(test[test_name])
        #but now we have -1 values (NaN)
    else:
        #for int or float: fill NaN
        tmp_len = len(train[train_series.isnull()])
        if tmp_len>0:
            #print "mean", train_series.mean()
            train.loc[train_series.isnull(), train_name] = -9999 #train_series.mean()
        #and Test
        tmp_len = len(test[test_series.isnull()])
        if tmp_len>0:
            test.loc[test_series.isnull(), test_name] = -9999 #train_series.mean()  #TODO

X_train = train
X_test = test


Clearing...

In [7]:
parm_list = {n_estimators=300,max_features= 50,criterion= 'entropy',min_samples_split= 5,
                            max_depth= 50, min_samples_leaf= 5,n_jobs=-1}

extc = ExtraTreesClassifier(parm_list)      

extc.fit(X_train,target) 

print('Predict...')
y_pred = extc.predict_proba(X_test)
#print y_pred

pd.DataFrame({"ID": id_test, "PredictedProb": y_pred[:,1]}).to_csv('extra_trees.csv',index=False)


  File "<ipython-input-7-1c0845a28f45>", line 1
    parm_list = {n_estimators=300,max_features= 50,criterion= 'entropy',min_samples_split= 5,
                             ^
SyntaxError: invalid syntax

In [ ]:
import os
os.getcwd()

In [ ]: