In [1]:
import pandas as pd
import numpy as np
import csv
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn import ensemble
print('Load data...')
train = pd.read_csv("../../data/train.csv")
target = train['target'].values
train = train.drop(['ID','target'],axis=1)
test = pd.read_csv("../../data/test.csv")
id_test = test['ID'].values
test = test.drop(['ID'],axis=1)
train
/Users/jim/anaconda/lib/python2.7/site-packages/pandas/computation/__init__.py:19: UserWarning: The installed version of numexpr 2.4.4 is not supported in pandas and will be not be used
UserWarning)
Load data...
Out[1]:
v1
v2
v3
v4
v5
v6
v7
v8
v9
v10
...
v122
v123
v124
v125
v126
v127
v128
v129
v130
v131
0
1.335739e+00
8.727474
C
3.921026
7.915266
2.599278
3.176895
0.012941
9.999999
0.503281
...
8.000000
1.989780
3.575369e-02
AU
1.804126
3.113719
2.024285
0
0.636365
2.857144e+00
1
NaN
NaN
C
NaN
9.191265
NaN
NaN
2.301630
NaN
1.312910
...
NaN
NaN
5.988956e-01
AF
NaN
NaN
1.957825
0
NaN
NaN
2
9.438769e-01
5.310079
C
4.410969
5.326159
3.979592
3.928571
0.019645
12.666667
0.765864
...
9.333333
2.477596
1.345191e-02
AE
1.773709
3.922193
1.120468
2
0.883118
1.176472e+00
3
7.974146e-01
8.304757
C
4.225930
11.627438
2.097700
1.987549
0.171947
8.965516
6.542669
...
7.018256
1.812795
2.267384e-03
CJ
1.415230
2.954381
1.990847
1
1.677108
1.034483e+00
4
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.050328
...
NaN
NaN
NaN
Z
NaN
NaN
NaN
0
NaN
NaN
5
NaN
NaN
C
NaN
8.856791
NaN
NaN
0.359993
NaN
1.050328
...
NaN
NaN
4.986116e-02
X
NaN
NaN
1.536222
0
NaN
NaN
6
8.998057e-01
7.312995
C
3.494148
9.946200
1.926070
1.770427
0.066251
5.011287
2.341356
...
3.476299
1.992594
8.375832e-02
BJ
3.276100
1.623298
2.266575
0
2.263736
9.708730e-01
7
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.838074
...
NaN
NaN
NaN
BY
NaN
NaN
NaN
0
NaN
NaN
8
2.078651e+00
8.462619
NaN
3.739030
5.265636
1.573033
2.303371
0.015869
11.111111
4.463894
...
8.148148
1.875560
1.865950e-02
S
1.159637
5.582865
1.105283
0
1.170731
3.333334e+00
9
1.144802e+00
5.880606
C
3.244469
9.538384
2.500001
1.559405
0.412610
9.977529
2.363238
...
7.325843
4.896617
8.943653e-03
E
1.344550
1.601176
1.928009
0
3.174603
1.000000e+00
10
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312910
...
NaN
NaN
NaN
AR
NaN
NaN
NaN
0
NaN
NaN
11
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.028446
...
NaN
NaN
NaN
AM
NaN
NaN
NaN
0
NaN
NaN
12
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312911
...
NaN
NaN
NaN
Z
NaN
NaN
NaN
0
NaN
NaN
13
1.400267e+00
5.367204
C
4.122155
8.137188
2.983080
2.640249
0.211851
11.021506
1.816193
...
8.817203
2.096062
5.459061e-07
AQ
1.731656
6.102516
1.388117
4
1.220911
1.878453e+00
14
2.260036e+00
14.693263
C
5.150750
8.554136
1.954626
2.931936
0.041446
7.022901
1.291029
...
5.038168
1.836667
5.973979e-03
Z
3.242128
0.818063
2.400050
0
1.166666
2.857143e+00
15
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312910
...
NaN
NaN
NaN
BY
NaN
NaN
NaN
0
NaN
NaN
16
6.228961e-01
7.024732
C
4.193688
6.288177
2.132436
3.198654
0.407525
10.434782
1.312909
...
6.086957
2.812624
2.474223e-01
BJ
1.865530
3.345960
0.796533
0
1.389474
6.060615e-01
17
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.553611
...
NaN
NaN
NaN
Z
NaN
NaN
NaN
2
NaN
NaN
18
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.794310
...
NaN
NaN
NaN
E
NaN
NaN
NaN
1
NaN
NaN
19
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
3.916848
...
NaN
NaN
NaN
AZ
NaN
NaN
NaN
1
NaN
NaN
20
9.438780e-01
5.927194
C
4.404372
9.045057
2.551021
2.693878
0.085665
8.601036
3.916848
...
6.632125
2.419037
1.847926e-02
U
1.884567
2.602041
1.959776
1
1.121212
1.351351e+00
21
1.289841e+00
4.788645
C
4.283417
10.719571
3.107570
1.962151
0.080812
8.604652
5.229758
...
5.968993
2.169826
4.919843e-03
CD
1.460793
1.531375
1.964652
1
2.111675
1.346155e+00
22
7.288239e-01
4.073244
C
4.130054
9.032563
4.149705
1.917269
2.767934
6.149733
1.312910
...
3.903742
3.401924
7.107372e-01
AE
1.840384
3.779547
1.798435
0
1.986302
8.275852e-01
23
3.944563e+00
5.718516
C
2.205080
5.340648
2.010356
1.657021
3.233160
8.565814
3.916850
...
6.404715
10.691157
3.065766e+00
AU
1.813419
1.233628
0.626694
2
4.250001
2.422145e+00
24
4.045725e+00
3.992607
C
3.598096
7.946330
1.709742
2.365804
7.827175
9.849247
1.028447
...
5.226130
5.259272
2.690857e+00
BD
1.447090
2.559641
1.509052
0
3.260504
2.268042e+00
25
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
2.253830
...
NaN
NaN
NaN
CG
NaN
NaN
NaN
0
NaN
NaN
26
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.838074
...
NaN
NaN
NaN
J
NaN
NaN
NaN
0
NaN
NaN
27
2.920282e-01
12.715811
C
4.999724
5.998656
2.020520
2.620363
0.058548
8.983051
1.028447
...
7.796611
1.697821
7.351065e-03
N
1.491973
4.202842
1.306053
0
0.722892
6.666657e-01
28
5.172412e-01
8.528544
C
4.075372
5.726834
2.534949
3.643990
0.749568
6.981133
1.291029
...
5.188680
1.788132
8.594683e-02
AR
2.105971
0.524231
0.785667
0
0.603581
1.016950e+00
29
2.415670e+00
14.960392
C
4.356980
8.520510
2.132753
2.023938
0.035822
7.567568
0.787746
...
5.585586
2.451680
6.640126e-03
Z
1.442224
2.244287
2.373578
0
1.634408
3.157894e+00
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
114291
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.838075
...
NaN
NaN
NaN
BM
NaN
NaN
NaN
0
NaN
NaN
114292
2.768086e-01
7.055455
C
3.823010
9.619069
2.194513
1.825436
0.328563
8.838952
1.291029
...
7.116105
3.000683
9.536287e-02
BM
1.528000
2.777432
1.985969
0
1.639345
3.999997e-01
114293
1.983914e+00
11.296659
C
6.459140
9.193006
1.849866
3.217159
0.055774
7.699531
1.291028
...
6.478874
1.535538
1.466965e-01
G
2.781526
1.131032
2.950252
0
0.800000
3.333334e+00
114294
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
2.494530
...
NaN
NaN
NaN
X
NaN
NaN
NaN
0
NaN
NaN
114295
8.743610e-01
8.529843
C
4.391163
9.575062
2.646711
2.103190
1.300537
8.750001
5.492341
...
6.937500
3.171537
1.309991e+00
AR
1.386343
2.880071
2.140204
2
1.722846
1.043479e+00
114296
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
2.341356
...
NaN
NaN
NaN
Z
NaN
NaN
NaN
0
NaN
NaN
114297
1.603274e+00
11.493653
C
4.328798
8.055434
1.848820
2.532499
0.171407
11.403508
1.291029
...
9.122806
2.250368
4.670769e-02
AF
1.527338
3.231824
1.246700
0
1.581749
1.730770e+00
114298
9.477454e-01
8.941986
C
4.578888
14.882313
2.868852
2.402663
0.157079
8.333333
1.291028
...
6.666667
1.856606
9.564098e-03
S
1.586184
2.737578
2.785707
0
1.049040
1.626015e+00
114299
9.688237e-07
6.163454
C
3.502739
7.202643
1.741765
2.165847
2.424658
11.241831
3.785558
...
6.339869
6.239218
3.054839e+00
V
1.291664
5.253692
1.026424
0
2.615385
5.482204e-07
114300
1.539335e+00
4.845475
C
4.445304
8.605211
1.906204
2.382753
1.142149
10.191572
0.853392
...
8.505747
2.364559
6.571835e-01
CG
1.380594
7.233358
1.495398
0
1.511110
1.848739e+00
114301
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.269147
...
NaN
NaN
NaN
BJ
NaN
NaN
NaN
0
NaN
NaN
114302
2.093352e+00
5.696141
C
5.105297
8.836584
2.734559
2.772276
0.195443
8.904110
3.916848
...
6.986301
2.601368
1.805020e-02
AK
1.649315
3.818954
2.049363
1
1.469388
2.222222e+00
114303
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
5.229760
...
NaN
NaN
NaN
J
NaN
NaN
NaN
2
NaN
NaN
114304
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312910
...
NaN
NaN
NaN
H
NaN
NaN
NaN
0
NaN
NaN
114305
1.030641e+00
13.003754
C
4.512371
8.928965
2.548746
2.583565
1.756440
7.988165
5.229759
...
6.331360
1.345799
2.027626e-01
BO
1.535785
2.950904
1.790912
1
1.110512
1.553399e+00
114306
2.051611e+00
8.259554
C
4.466166
11.291191
2.269140
3.510343
0.215781
8.632813
1.291027
...
5.898438
3.043102
7.758699e-03
BM
2.048144
3.214972
1.805540
0
1.307412
1.933085e+00
114307
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.291029
...
NaN
NaN
NaN
CD
NaN
NaN
NaN
0
NaN
NaN
114308
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
2.297593
...
NaN
NaN
NaN
BD
NaN
NaN
NaN
0
NaN
NaN
114309
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.787747
...
NaN
NaN
NaN
A
NaN
NaN
NaN
0
NaN
NaN
114310
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312910
...
NaN
NaN
NaN
CB
NaN
NaN
NaN
0
NaN
NaN
114311
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.050329
...
NaN
NaN
NaN
O
NaN
NaN
NaN
0
NaN
NaN
114312
1.142478e+00
8.477138
C
3.827255
8.539653
2.276136
1.905602
3.199958
9.625001
1.816192
...
7.437501
2.859732
3.258223e+00
AP
0.958445
2.382003
1.601009
1
1.851852
1.399999e+00
114313
1.364308e+00
9.621454
C
4.342517
8.648951
2.772861
3.480826
2.208724
9.531914
2.625820
...
8.170212
2.427557
5.664891e-01
CI
2.091074
4.300331
1.738246
0
0.855932
1.980199e+00
114314
3.633647e+00
3.052302
C
2.055147
7.770079
1.929975
2.459437
0.932377
9.210525
1.291029
...
6.842105
12.727869
5.673148e-01
CD
1.660675
3.074295
1.383798
0
2.958333
2.159624e+00
114315
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312909
...
NaN
NaN
NaN
AE
NaN
NaN
NaN
0
NaN
NaN
114316
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.444201
...
NaN
NaN
NaN
AL
NaN
NaN
NaN
0
NaN
NaN
114317
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
6.236324
...
NaN
NaN
NaN
E
NaN
NaN
NaN
1
NaN
NaN
114318
NaN
NaN
C
NaN
10.069277
NaN
NaN
0.323324
NaN
2.078775
...
NaN
NaN
1.567642e-01
Q
NaN
NaN
2.417606
2
NaN
NaN
114319
NaN
NaN
C
NaN
10.106144
NaN
NaN
0.309226
NaN
1.291029
...
NaN
NaN
4.906576e-01
BW
NaN
NaN
3.526650
0
NaN
NaN
114320
1.619763e+00
7.932978
C
4.640085
8.473141
2.351470
2.826766
3.479754
9.629630
0.853391
...
7.936508
2.944285
3.135205e+00
V
1.943149
4.385553
1.604493
0
1.787610
1.386138e+00
114321 rows × 131 columns
In [2]:
# get test data set
test = train.sample(frac=0.1)
test
Out[2]:
v1
v2
v3
v4
v5
v6
v7
v8
v9
v10
...
v122
v123
v124
v125
v126
v127
v128
v129
v130
v131
65179
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.575492
...
NaN
NaN
NaN
S
NaN
NaN
NaN
0
NaN
NaN
52086
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.765863
...
NaN
NaN
NaN
AK
NaN
NaN
NaN
0
NaN
NaN
48052
4.324965e-01
11.190444
C
5.993887
9.266981
2.548217
2.419638
0.073185
9.917355
5.404814
...
6.776860
2.125443
1.547530e-01
BY
1.498478
2.213617
3.035939
2
1.429951
5.405412e-01
40466
1.508153e+00
5.861554
C
4.229849
6.435778
2.173914
2.663044
0.034589
10.864197
4.310722
...
8.148148
4.018702
5.607591e-07
X
1.800821
2.496602
1.439110
2
2.122448
1.153847e+00
60156
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312911
...
NaN
NaN
NaN
BM
NaN
NaN
NaN
0
NaN
NaN
56434
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.816192
...
NaN
NaN
NaN
L
NaN
NaN
NaN
0
NaN
NaN
23854
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.028446
...
NaN
NaN
NaN
L
NaN
NaN
NaN
1
NaN
NaN
30872
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.831510
...
NaN
NaN
NaN
D
NaN
NaN
NaN
0
NaN
NaN
29878
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
3.085339
...
NaN
NaN
NaN
AZ
NaN
NaN
NaN
0
NaN
NaN
34010
1.481546e+00
13.256734
C
4.572785
18.392737
2.708914
3.255571
0.212237
7.610921
1.291028
...
6.348122
0.933795
2.192386e-02
CI
1.717355
1.801880
3.301635
0
0.727273
2.705882e+00
104917
4.987162e+00
10.390862
C
4.321127
8.698571
2.516046
2.907574
1.702130
7.669616
1.050328
...
5.604720
1.948873
5.787771e-01
W
1.945474
2.298620
1.706479
0
1.536423
4.827586e+00
16974
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
2.625820
...
NaN
NaN
NaN
G
NaN
NaN
NaN
0
NaN
NaN
59357
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.050327
...
NaN
NaN
NaN
CA
NaN
NaN
NaN
0
NaN
NaN
40763
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.050328
...
NaN
NaN
NaN
AC
NaN
NaN
NaN
0
NaN
NaN
99510
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.050328
...
NaN
NaN
NaN
AK
NaN
NaN
NaN
0
NaN
NaN
11730
2.178732e+00
5.133681
C
3.450824
8.478535
2.812608
2.147558
0.460603
11.134904
0.503282
...
9.379015
2.753943
2.929849e-02
Y
1.166551
2.792692
1.511978
0
2.425806
1.808512e+00
88596
NaN
NaN
C
NaN
7.958902
NaN
NaN
9.645630
NaN
1.050327
...
NaN
NaN
6.283486e+00
BM
NaN
NaN
1.554474
0
NaN
NaN
21485
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.291028
...
NaN
NaN
NaN
E
NaN
NaN
NaN
1
NaN
NaN
69643
2.417469e+00
8.193068
C
5.537971
10.324773
3.136176
2.950482
1.632872
6.217950
1.816193
...
4.423076
2.308368
1.022244e+00
BM
1.419639
3.275448
4.065427
1
1.034964
3.423423e+00
91340
1.558260e+00
9.555005
C
4.454255
8.702125
1.272813
2.414601
0.351751
17.270955
4.726477
...
16.452241
1.714174
6.276657e-02
BF
1.260769
2.877866
1.686973
2
1.240309
2.249999e+00
40856
1.280016e+00
10.869718
C
3.559147
NaN
2.653644
2.250712
NaN
10.454545
1.050328
...
7.435066
NaN
NaN
Z
1.689066
3.060135
NaN
0
2.350813
1.046154e+00
62317
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.575492
...
NaN
NaN
NaN
V
NaN
NaN
NaN
0
NaN
NaN
28818
NaN
NaN
C
NaN
6.962704
NaN
NaN
0.425551
NaN
1.291028
...
NaN
NaN
4.096776e-01
BQ
NaN
NaN
1.083268
0
NaN
NaN
98368
1.626772e+00
10.243580
C
4.993424
8.165737
2.344895
3.458721
0.620609
7.534247
1.312911
...
5.753425
2.541518
5.255148e-01
AS
1.634638
5.550806
1.375439
0
0.824858
2.465753e+00
66360
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
4.704595
...
NaN
NaN
NaN
Y
NaN
NaN
NaN
2
NaN
NaN
94526
2.761195e+00
5.006785
C
5.572188
10.345491
3.544777
3.003731
0.368929
10.526315
4.967177
...
8.684210
2.917870
7.434571e-02
AK
1.418802
6.069262
3.097105
1
1.217392
3.265307e+00
51174
2.036164e+00
5.909826
C
4.236848
8.888244
2.662475
2.929768
0.461836
6.985447
1.816193
...
5.446986
2.068935
3.925735e-02
I
1.907457
2.987421
1.640021
1
1.030412
2.916667e+00
19610
8.641486e-01
2.525721
C
1.420616
5.288560
1.214481
2.242118
1.360009
9.041095
1.050328
...
4.438356
13.225876
1.168412e-01
E
1.945281
1.810042
0.679081
0
4.041668
4.123702e-01
88047
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.838075
...
NaN
NaN
NaN
CG
NaN
NaN
NaN
0
NaN
NaN
80935
5.160394e-01
5.502847
C
3.262979
8.093020
2.900976
2.436076
1.856973
9.652510
1.312910
...
6.795366
5.433748
4.201779e-01
BM
1.474792
3.172942
1.303964
0
2.396948
3.821663e-01
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
103184
-3.310530e-07
6.536886
C
5.260930
8.768065
2.203716
3.203075
2.707075
4.907975
1.291028
...
4.294478
2.232697
1.574947e+00
AC
2.143563
5.020820
1.697145
0
0.944000
1.747995e-07
26492
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.291028
...
NaN
NaN
NaN
AW
NaN
NaN
NaN
0
NaN
NaN
19574
1.506850e+00
9.299375
C
5.771483
10.198999
2.473157
1.843762
0.277717
12.565657
3.129103
...
11.717173
1.307383
4.329370e-01
K
1.351461
1.888189
2.893269
1
1.301205
2.716049e+00
67124
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312911
...
NaN
NaN
NaN
CJ
NaN
NaN
NaN
0
NaN
NaN
105377
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.787746
...
NaN
NaN
NaN
AT
NaN
NaN
NaN
0
NaN
NaN
100842
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
2.625820
...
NaN
NaN
NaN
BU
NaN
NaN
NaN
0
NaN
NaN
60401
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
3.719913
...
NaN
NaN
NaN
L
NaN
NaN
NaN
1
NaN
NaN
49837
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
5.229759
...
NaN
NaN
NaN
C
NaN
NaN
NaN
2
NaN
NaN
83806
8.368335e-01
7.722104
C
4.281912
6.119705
1.654282
2.578353
0.145753
8.506493
2.625820
...
6.233765
2.910681
4.573101e-03
CJ
1.909532
5.900647
1.193059
0
1.313284
1.068702e+00
43182
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.969365
...
NaN
NaN
NaN
Q
NaN
NaN
NaN
0
NaN
NaN
50907
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312911
...
NaN
NaN
NaN
Q
NaN
NaN
NaN
0
NaN
NaN
18571
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.262581
...
NaN
NaN
NaN
CD
NaN
NaN
NaN
0
NaN
NaN
7530
6.944016e-01
10.713788
C
4.645287
8.386013
2.177041
2.414765
0.162548
9.943503
2.341356
...
8.700565
2.116196
7.295929e-03
BR
1.406845
4.598061
1.578298
1
0.963730
1.290322e+00
75477
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.291028
...
NaN
NaN
NaN
BW
NaN
NaN
NaN
0
NaN
NaN
45328
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312910
...
NaN
NaN
NaN
X
NaN
NaN
NaN
0
NaN
NaN
2338
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.787745
...
NaN
NaN
NaN
BR
NaN
NaN
NaN
0
NaN
NaN
55905
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.087527
...
NaN
NaN
NaN
CF
NaN
NaN
NaN
0
NaN
NaN
4354
5.616438e+00
5.162347
C
3.363131
7.808679
1.614216
2.599037
0.625924
8.149781
1.291029
...
4.713656
3.707131
1.005321e-01
BX
2.123722
2.610145
1.305635
0
2.871795
3.253968e+00
111202
1.014742e+00
11.667133
C
5.485560
10.302623
3.318479
3.620158
0.141594
9.505704
3.150984
...
6.311788
3.225776
2.627166e-02
BO
1.959016
4.923723
2.655298
0
1.249999
9.696962e-01
104431
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.371991
...
NaN
NaN
NaN
AZ
NaN
NaN
NaN
0
NaN
NaN
2401
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
5.229759
...
NaN
NaN
NaN
BN
NaN
NaN
NaN
3
NaN
NaN
8918
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.312911
...
NaN
NaN
NaN
CG
NaN
NaN
NaN
0
NaN
NaN
103624
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.787745
...
NaN
NaN
NaN
P
NaN
NaN
NaN
0
NaN
NaN
62369
5.131761e-01
8.950261
C
4.896794
9.012324
2.302357
3.217753
0.703732
8.456790
1.312910
...
6.296296
1.687199
5.519764e-02
BV
2.327993
3.107663
1.816688
0
0.844828
8.163273e-01
48130
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
1.028447
...
NaN
NaN
NaN
L
NaN
NaN
NaN
0
NaN
NaN
72586
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.525164
...
NaN
NaN
NaN
CD
NaN
NaN
NaN
0
NaN
NaN
77143
NaN
NaN
C
NaN
NaN
NaN
NaN
NaN
NaN
0.787746
...
NaN
NaN
NaN
CJ
NaN
NaN
NaN
0
NaN
NaN
67844
1.028412e+00
9.983078
C
3.680577
8.523030
2.198887
2.297715
1.398603
11.308204
1.312911
...
8.248337
2.659362
1.043331e-01
BH
1.476265
2.223595
1.468230
0
2.107526
9.183664e-01
20786
2.955567e+00
4.217469
C
3.430188
7.849368
2.536195
1.667498
7.746595
9.017631
0.634574
...
6.901762
2.627761
1.105706e+00
H
2.017673
2.958062
1.428244
0
3.281438
2.335766e+00
84125
8.765458e-01
7.214254
NaN
4.371268
10.396773
1.853120
2.305870
0.167633
10.972223
5.251640
...
9.490741
2.705146
2.142274e-02
H
1.498480
5.192156
2.132541
0
1.031963
1.592921e+00
11432 rows × 131 columns
In [3]:
print('Clearing...')
for (train_name, train_series), (test_name, test_series) in zip(train.iteritems(),test.iteritems()):
if train_series.dtype == 'O':
#for objects: factorize
train[train_name], tmp_indexer = pd.factorize(train[train_name])
test[test_name] = tmp_indexer.get_indexer(test[test_name])
#but now we have -1 values (NaN)
else:
#for int or float: fill NaN
tmp_len = len(train[train_series.isnull()])
if tmp_len>0:
#print "mean", train_series.mean()
train.loc[train_series.isnull(), train_name] = -9999 #train_series.mean()
#and Test
tmp_len = len(test[test_series.isnull()])
if tmp_len>0:
test.loc[test_series.isnull(), test_name] = -9999 #train_series.mean() #TODO
X_train = train
X_test = test
Clearing...
In [7]:
parm_list = {n_estimators=300,max_features= 50,criterion= 'entropy',min_samples_split= 5,
max_depth= 50, min_samples_leaf= 5,n_jobs=-1}
extc = ExtraTreesClassifier(parm_list)
extc.fit(X_train,target)
print('Predict...')
y_pred = extc.predict_proba(X_test)
#print y_pred
pd.DataFrame({"ID": id_test, "PredictedProb": y_pred[:,1]}).to_csv('extra_trees.csv',index=False)
File "<ipython-input-7-1c0845a28f45>", line 1
parm_list = {n_estimators=300,max_features= 50,criterion= 'entropy',min_samples_split= 5,
^
SyntaxError: invalid syntax
In [ ]:
import os
os.getcwd()
In [ ]:
Content source: jimthompson5802/kaggle-BNP-Paribas
Similar notebooks: