In [1]:
from __future__ import division
%pylab inline
import pandas as pd
from Bio import SeqIO
import nwalign
import itertools
from scipy import signal
import mahotas
import sklearn
import glob
import os.path as op
from mpl_toolkits.mplot3d import Axes3D
import minhash
Populating the interactive namespace from numpy and matplotlib
In [4]:
df=minhash.processFolder('../simulate_sequence/reference/reads/',nHashFx=100)
S1_1
S1_2
S1_3
S1_4
S1_5
S1_6
S1_7
S1_8
S1_9
S1_10
S1_11
S1_12
S1_13
S1_14
S1_15
S1_16
S1_17
S1_18
S1_19
S1_20
S1_21
S1_22
S1_23
S1_24
S1_25
S1_26
S1_27
S1_28
S1_29
S1_30
S1_31
S1_32
S1_33
S1_34
S1_35
S1_36
S1_37
S1_38
S1_39
S1_40
S1_41
S1_42
S1_43
S1_44
S1_45
S1_46
S1_47
S1_48
S1_49
S1_50
S1_51
S1_52
S1_53
S1_54
S1_55
S1_56
S1_57
S1_58
S1_59
S1_60
S1_61
S1_62
S1_63
S1_64
S1_65
S1_66
S1_67
S1_68
S1_69
S1_70
S1_71
S1_72
S1_73
S1_74
S1_75
S1_76
S1_77
S1_78
S1_79
S1_80
S1_81
S1_82
S1_83
S1_84
S1_85
S1_86
S1_87
S1_88
S1_89
S1_90
S1_91
S1_92
S1_93
S1_94
S1_95
S1_96
S1_97
S1_98
S1_99
S1_100
S1_101
S1_102
S1_103
S1_104
S1_105
S1_106
S1_107
S1_108
S1_109
S1_110
S1_111
S1_112
S1_113
S1_114
S1_115
S1_116
S1_117
S1_118
S1_119
S1_120
S1_121
S1_122
S1_123
S1_124
S1_125
S1_126
S1_127
S1_128
S1_129
S1_130
S1_131
S1_132
S1_133
S1_134
S1_135
S1_136
S1_137
S1_138
S1_139
S1_140
S1_141
S1_142
S1_143
S1_144
S1_145
S1_146
S1_147
S1_148
S1_149
S1_150
S1_151
S1_152
S1_153
S1_154
S1_155
S1_156
S1_157
S1_158
S1_159
S1_160
S1_161
S1_162
S1_163
S1_164
S1_165
S1_166
S1_167
S1_168
S1_169
S1_170
S1_171
S1_172
S1_173
S1_174
S1_175
S1_176
S1_177
S1_178
S1_179
S1_180
S1_181
S1_182
S1_183
S1_184
S1_185
S1_186
S1_187
S1_188
S1_189
S1_190
S1_191
S1_192
S1_193
S1_194
S1_195
S1_196
S1_197
S1_198
S1_199
S1_200
S1_201
S1_202
S1_203
S1_204
S1_205
S1_206
S1_207
S1_208
S1_209
S1_210
S1_211
S1_212
S1_213
S1_214
S1_215
S1_216
S1_217
S1_218
S1_219
S1_220
S1_221
S1_222
S1_223
S1_224
S1_225
S1_226
S1_227
S1_228
S1_229
S1_230
S1_231
S1_232
S1_233
S1_234
S1_235
S1_236
S1_237
S1_238
S1_239
S1_240
S1_241
S1_242
S1_243
S1_244
S1_245
S1_246
S1_247
S1_248
S1_249
S1_250
S1_251
S1_252
S1_253
S1_254
S1_255
S1_256
S1_257
S1_258
S1_259
S1_260
S1_261
S1_262
S1_263
S1_264
S1_265
S1_266
S1_267
S1_268
S1_269
S1_270
S1_271
S1_272
S1_273
S1_274
S1_275
S1_276
S1_277
S1_278
S1_279
S1_280
S1_281
S1_282
S1_283
S1_284
S1_285
S1_286
S1_287
S1_288
S1_289
S1_290
S1_291
S1_292
S1_293
S1_294
S1_295
S1_296
S1_297
S1_298
S1_299
S1_300
S1_301
S1_302
S1_303
S1_304
S1_305
S1_306
S1_307
S1_308
S1_309
S1_310
S1_311
S1_312
S1_313
S1_314
S1_315
S1_316
S1_317
S1_318
S1_319
S1_320
S1_321
S1_322
S1_323
S1_324
S1_325
S1_326
S1_327
S1_328
S1_329
S1_330
S1_331
S1_332
S1_333
S1_334
S1_335
S1_336
S1_337
S1_338
S1_339
S1_340
S1_341
S1_342
S1_343
S1_344
S1_345
S1_346
S1_347
S1_348
S1_349
S1_350
S1_351
S1_352
S1_353
S1_354
S1_355
S1_356
S1_357
S1_358
S1_359
S1_360
S1_361
S1_362
S1_363
S1_364
S1_365
S1_366
S1_367
S1_368
S1_369
S1_370
S1_371
S1_372
S1_373
S1_374
S1_375
S1_376
S1_377
S1_378
S1_379
S1_380
S1_381
S1_382
S1_383
S1_384
S1_385
S1_386
S1_387
S1_388
S1_389
S1_390
S1_391
S1_392
S1_393
S1_394
S1_395
S1_396
S1_397
S1_398
S1_399
S1_400
S1_401
S1_402
S1_403
S1_404
S1_405
S1_406
S1_407
S1_408
S1_409
S1_410
S1_411
S1_412
S1_413
S1_414
S1_415
S1_416
S1_417
S1_418
S1_419
S1_420
S1_421
S1_422
S1_423
S1_424
S1_425
S1_426
S1_427
S1_428
S1_429
S1_430
S1_431
S1_432
S1_433
S1_434
S1_435
S1_436
S1_437
S1_438
S1_439
S1_440
S1_441
S1_442
S1_443
S1_444
S1_445
S1_446
S1_447
S1_448
S1_449
S1_450
S1_451
S1_452
S1_453
S1_454
S1_455
S1_456
S1_457
S1_458
S1_459
S1_460
S1_461
S1_462
S1_463
S1_464
S1_465
S1_466
S1_467
S1_468
S1_469
S1_470
S1_471
S1_472
S1_473
S1_474
S1_475
S1_476
S1_477
S1_478
S1_479
S1_480
S1_481
S1_482
S1_483
S1_484
S1_485
S1_486
S1_487
S1_488
S1_489
S1_490
S1_491
S1_492
S1_493
S1_494
S1_495
S1_496
S1_497
S1_498
S1_499
S1_500
S1_501
S1_502
S1_503
S1_504
S1_505
S1_506
S1_507
S1_508
S1_509
S1_510
S1_511
S1_512
S1_513
S1_514
S1_515
S1_516
S1_517
S1_518
S1_519
S1_520
S1_521
S1_522
S1_523
S1_524
S1_525
S1_526
S1_527
S1_528
S1_529
S1_530
S1_531
S1_532
S1_533
S1_534
S1_535
S1_536
S1_537
S1_538
S1_539
S1_540
S1_541
S1_542
S1_543
S1_544
S1_545
S1_546
S1_547
S1_548
S1_549
S1_550
S1_551
S1_552
S1_553
S1_554
S1_555
S1_556
S1_557
S1_558
S1_559
S1_560
S1_561
S1_562
S1_563
S1_564
S1_565
S1_566
S1_567
S1_568
S1_569
S1_570
S1_571
S1_572
S1_573
S1_574
S1_575
S1_576
S1_577
S1_578
S1_579
S1_580
S1_581
S1_582
S1_583
S1_584
S1_585
S1_586
S1_587
S1_588
S1_589
S1_590
S1_591
S1_592
S1_593
S1_594
S1_595
S1_596
S1_597
S1_598
S1_599
S1_600
S1_601
S1_602
S1_603
S1_604
S1_605
S1_606
S1_607
S1_608
S1_609
S1_610
S1_611
S1_612
S1_613
S1_614
S1_615
S1_616
S1_617
S1_618
S1_619
S1_620
S1_621
S1_622
S1_623
S1_624
S1_625
S1_626
S1_627
S1_628
S1_629
S1_630
S1_631
S1_632
S1_633
S1_634
S1_635
S1_636
S1_637
S1_638
S1_639
S1_640
S1_641
S1_642
S1_643
S1_644
S1_645
S1_646
S1_647
S1_648
S1_649
S1_650
S1_651
S1_652
S1_653
S1_654
S1_655
S1_656
S1_657
S1_658
S1_659
S1_660
S1_661
S1_662
S1_663
S1_664
S1_665
S1_666
S1_667
S1_668
S1_669
S1_670
S1_671
S1_672
S1_673
S1_674
S1_675
S1_676
S1_677
S1_678
S1_679
S1_680
S1_681
S1_682
S1_683
S1_684
S1_685
S1_686
S1_687
S1_688
S1_689
S1_690
S1_691
S1_692
S1_693
S1_694
S1_695
S1_696
S1_697
S1_698
S1_699
S1_700
S1_701
S1_702
S1_703
S1_704
S1_705
S1_706
S1_707
S1_708
S1_709
S1_710
S1_711
S1_712
S1_713
S1_714
S1_715
S1_716
S1_717
S1_718
S1_719
S1_720
S1_721
S1_722
S1_723
S1_724
S1_725
S1_726
S1_727
S1_728
S1_729
S1_730
S1_731
S1_732
S1_733
S1_734
S1_735
S1_736
S1_737
S1_738
S1_739
S1_740
S1_741
S1_742
S1_743
S1_744
S1_745
S1_746
S1_747
S1_748
S1_749
S1_750
S1_751
S1_752
S1_753
S1_754
S1_755
S1_756
S1_757
S1_758
S1_759
S1_760
S1_761
S1_762
S1_763
S1_764
S1_765
S1_766
S1_767
S1_768
S1_769
S1_770
S1_771
S1_772
S1_773
S1_774
S1_775
S1_776
S1_777
S1_778
S1_779
S1_780
S1_781
S1_782
S1_783
S1_784
S1_785
S1_786
S1_787
S1_788
S1_789
S1_790
S1_791
S1_792
S1_793
S1_794
S1_795
S1_796
S1_797
S1_798
S1_799
S1_800
S1_801
S1_802
S1_803
S1_804
S1_805
S1_806
S1_807
S1_808
S1_809
S1_810
S1_811
S1_812
S1_813
S1_814
S1_815
S1_816
S1_817
S1_818
S1_819
S1_820
S1_821
S1_822
S1_823
S1_824
S1_825
S1_826
S1_827
S1_828
S1_829
S1_830
S1_831
S1_832
S1_833
S1_834
S1_835
S1_836
S1_837
S1_838
S1_839
S1_840
S1_841
S1_842
S1_843
S1_844
S1_845
S1_846
S1_847
S1_848
S1_849
S1_850
S1_851
S1_852
S1_853
S1_854
S1_855
S1_856
S1_857
S1_858
S1_859
S1_860
S1_861
S1_862
S1_863
S1_864
S1_865
S1_866
S1_867
S1_868
S1_869
S1_870
S1_871
S1_872
S1_873
S1_874
S1_875
S1_876
S1_877
S1_878
S1_879
S1_880
S1_881
S1_882
S1_883
S1_884
S1_885
S1_886
S1_887
S1_888
S1_889
S1_890
S1_891
S1_892
S1_893
S1_894
S1_895
S1_896
S1_897
S1_898
S1_899
S1_900
S1_901
S1_902
S1_903
S1_904
S1_905
S1_906
S1_907
S1_908
S1_909
S1_910
S1_911
S1_912
S1_913
S1_914
S1_915
S1_916
S1_917
S1_918
S1_919
S1_920
S1_921
S1_922
S1_923
S1_924
S1_925
S1_926
S1_927
S1_928
S1_929
S1_930
S1_931
S1_932
S1_933
S1_934
S1_935
S1_936
S1_937
S1_938
S1_939
S1_940
S1_941
S1_942
S1_943
S1_944
S1_945
S1_946
S1_947
S1_948
S1_949
S1_950
S1_951
S1_952
S1_953
S1_954
S1_955
S1_956
S1_957
S1_958
S1_959
S1_960
S1_961
S1_962
S1_963
S1_964
S1_965
S1_966
S1_967
S1_968
S1_969
S1_970
S1_971
S1_972
S1_973
S1_974
S1_975
S1_976
S1_977
S1_978
S1_979
S1_980
S1_981
S1_982
S1_983
S1_984
S1_985
S1_986
S1_987
S1_988
S1_989
S1_990
S1_991
S1_992
S1_993
S1_994
S1_995
S1_996
S1_997
S1_998
S1_999
S1_1000
S1_1001
S1_1002
S1_1003
S1_1004
S1_1005
S1_1006
S1_1007
S1_1008
S1_1009
S1_1010
In [55]:
from sklearn import decomposition,preprocessing
# df=preprocessing.scale(df,axis=1)
# print df
pca = decomposition.PCA()
pcaDf = pca.fit_transform(df.T)
fig = plt.figure(figsize=(10,10))
# scatter(pcaDf[:,0],pcaDf[:,1],s=40)
# ax = Axes3D(fig)
# ax.scatter(xs=pcaDf[:,0],ys=pcaDf[:,1],zs=pcaDf[:,2])
# ax.view_init(elev=0,azim=135)
Out[55]:
<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x12c435310>
In [53]:
import re
fname='../arabidopsis/text.msh'
msh = open(fname)
seriesList=[]
df = pd.DataFrame()
for line in msh:
lineArr = line.split()
if lineArr[0] == 'name':
name = re.sub('[\",]','',lineArr[2])
elif lineArr[0] == 'hashes64':
hashvals = [ re.sub('[\[\],]','',val) for val in lineArr[2:]]
s=pd.Series(data=hashvals)
s.name = name
seriesList += [s]
df = pd.concat(seriesList,axis=1)
df
Out[53]:
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/15831/0_19508
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/16865/0_23636
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/23190/0_17087
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/26635/0_17476
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/30504/0_17160
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/34160/3211_20894
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/34433/0_21317
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/36920/0_29640
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/37475/0_16654
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/48501/0_22234
...
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/9672/0_17041
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/55286/0_22013
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/64101/0_17314
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/64596/0_24989
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/73762/0_22307
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/91974/0_20858
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/111404/0_17044
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/118657/0_21304
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/120127/0_25096
m131029_030920_42175_c100583692550000001823087704281457_s1_p0/124973/0_16186
0
21061744049881
108255185615331
487442389573808
1211327141020917
3562878186274398
2759298435281129
2697761822183270
70156593449099
1211327141020917
1211327141020917
...
1122004119154090
1122004119154090
487442389573808
767556076981540
660691689722512
108255185615331
660691689722512
29687718672495
1211327141020917
4229414324077931
1
1132555753232398
660691689722512
1122004119154090
1363466975269253
4283396966000388
2834436998699841
2956760145374543
564784461361772
2881364066267507
1227942901973791
...
1145599617551474
1211327141020917
1122004119154090
1357661512029834
975835074213898
838372954237466
2820168641711685
1034167078255276
3155558079682683
7801658425350561
2
1195348295588326
1763684995950955
3698856217222413
2394829133628519
6286762546367331
4504161429232223
4283396966000388
1858750175882626
3949299056456510
2982672697698852
...
3096847835834031
1348409252659262
1586938197928135
2601744815805677
3611296354060740
863155403809596
3251735828890102
1591240368673890
3744934420093427
12480522208179775
3
1402951908825644
3256683780366128
7270180260617170
4283396966000388
7038976843201639
5046369285828659
6286762546367331
2037507810115894
4283396966000388
3096847835834031
...
4369169909923656
1767935590631673
2281142206702967
4656712044572778
5242589605414374
989701635460920
3556025183810394
3300619999650365
4437404813506045
12585980186533444
4
1595675404784092
4283396966000388
8523960716274407
5980420959633151
8967726774117983
5464157709190068
6804090062532764
3096847835834031
5182587216866487
3106217941386961
...
5068790209430529
3169105226898354
3096847835834031
6132118361583183
5737483692831244
1122004119154090
4656712044572778
4283396966000388
4618065134632003
13017070810435347
5
2033734413061471
4745695085393457
13244098195092803
9169530075348692
9541346675669407
5845231960323868
9041042295418935
3650848476155316
5737483692831244
4721154612288619
...
5078818375778256
7161073157746414
7129915341117062
7061554220054173
5810008773169105
1861574341158068
5629743844742880
4570313172456283
5514702497804524
13572445638773738
6
2267468441379163
4842282566165561
13521951574024041
10195803394902702
10484857102202329
6087563765113127
9212644512050733
6502525297829720
9195728978379198
6804090062532764
...
5218063364279652
7690191751572612
13449904999285529
9921789547238917
6286762546367331
2218470344113939
11235896529959753
5894747051497976
5853274736668577
14379522781913381
7
3096847835834031
5239173195826745
15131774025135709
10566104181785943
11049321557942832
6856825031109995
9921789547238917
7129915341117062
9264183125065195
7006217841652459
...
5514702497804524
8287881582950186
13616293898238798
10852271509138297
8416644693025483
3096847835834031
11453170644368897
6097114168283837
6808649849820648
15975142762855782
8
4239239898375093
5827060459396583
15204678475122668
11537114478316567
12453972962092606
7129915341117062
11497873003704672
7172584630305706
10552013575095071
7314796142334000
...
7734582811228115
8372172817710777
14393882225165823
11967493292234384
9113470598846358
3875797305980296
13704277227663893
6286762546367331
7032859021898791
18783327970695633
9
4839031995771471
5873067717810882
15357050014513777
12868000703632458
13270765561257459
7987421058726838
15975142762855782
7270180260617170
11459652222154831
10195803394902702
...
7939096060654241
9516406233950281
17082303472588310
13348308912507102
9491398089026266
5594860209580274
14294692827389182
7270180260617170
7067710199385965
22692923337041568
10
5965745781050623
6875912041871211
20240498136381283
13766230846431490
13298782528048811
8052289116149114
16653487825557704
7283247847328535
16002478662911299
15826987847092609
...
14120903189307969
11531266109432311
20717447178650243
13912959130338688
10008766841740320
6016652722891830
15313392928796797
8919427410493303
7389974301951966
22784746506239349
11
6211064421984258
7129915341117062
22199136964056557
15357050014513777
14053379564451959
10349428616003992
20333258041872030
7852604034918953
16689117355074679
16246217990568267
...
14294692827389182
15802942836549744
21204285133307912
14760781489285333
12181094070568360
6949711166599793
15435729984848324
9203802295227390
7639700032383773
24360763765254905
12
7129915341117062
7270180260617170
23282322818842973
15580034877396632
14315119274205496
12898016404926087
20895930230088746
7994210117077216
17678371889195981
17561540399691297
...
14923938462084374
18428470967046062
21352433718946817
17043646199693955
14851378008813681
7129915341117062
18675092018630905
10311788364954533
7664345708355284
24402707847160549
13
9240656509721782
7708903459110249
26829474740515119
17613584789673730
14939128012885574
13769194907608290
21438120996417270
8806533163213867
18769216862214433
17628575646694239
...
15549740438456125
18472280886864419
21507978373427484
17126592443272536
17126592443272536
7270180260617170
23282322818842973
11318226426650552
8241477045588702
25311457007614552
14
12453972962092606
8328341391197255
26979192519567900
21167983897753881
15055211161312674
18362566866056477
21680759071970869
9019469038789669
19715959945691998
18742201787366196
...
15913021354598842
18646570028742272
21668840788100637
18056784690869049
17772071721924103
9573534757160971
24306247067864676
11353371940248570
10321302943082108
26973298555978006
15
13372276066487090
9524988289572556
28548307826416859
22555462463331572
15139928883579037
19282024855340299
23203427947893878
12962938784829477
20368784636885328
22058140824937324
...
17097249318324959
20462793796822101
22035892169272034
18119655730070127
18484718505964215
10629046220063957
26973298555978006
12019948099153447
10852271509138297
29725055647475217
16
14264591269845681
9706761372689129
28953602257659903
22811649586609212
15826987847092609
20155100251252075
23378395663813429
14264004769895053
20509640993382452
22912218389531274
...
17126592443272536
22273529336337779
22240199152210892
19275377158370529
21315424723993076
12453972962092606
27712070305441134
15027554791347330
13654137827250687
32020475457650903
17
16733490739898189
10421595273175974
29156486538228540
24198472497582917
19614803561752881
22740488752798451
24110714796610407
14545036696940136
22407645314382084
23007576006784115
...
17138511284228450
23064120142486962
22740488752798451
20462793796822101
21752102327479889
13213978224415373
31761790687841845
15378879240762149
17126592443272536
35949590214532954
18
18636460724093364
11933540231016034
29273280615088654
24669552111527035
20101801125450151
23588459525965663
27090721919780089
14729764473456244
24415184002792947
23180150942424791
...
17586043771709170
23203427947893878
23070198870212515
20717447178650243
21939232861650340
15378542163553124
34521670727029063
15632278249575659
18092887757987033
35995302343184023
19
21155942253115834
12861507523452730
29669511209759899
25210034282714225
21381686136198335
25089836788252199
30107914213714727
16290329897252149
24599782854324171
23256032034012791
...
20775844646811320
24208023398870644
25017931359453937
20881002372379223
22102032595768834
17126592443272536
35561381600561074
16681477731642704
20147838696708034
39569928153272780
20
22720984303740219
13213978224415373
29824271035910815
26973298555978006
22331918393125181
27718760516149039
30415955838045813
16980540954785228
25007186263095378
24428456948805083
...
21071116621678417
24960110521192345
28170387452937989
22740488752798451
22278137691543952
20462793796822101
35578021031321945
16943444173646920
21240215867741344
40845192397907788
21
22784746506239349
13393867928086195
32072498578381931
27613162601954119
24106982296390137
28427074177608065
31502094286994401
17871193229360579
25130860617029825
26502435179538150
...
22199136964056557
25017931359453937
28687097986875901
22912218389531274
22912218389531274
20824079178894959
35955310165451706
18243272614608376
21802698856044475
41977905001190045
22
24946899308284652
13870479001438363
32206163030738556
30298259864171050
25792495428590623
29921601054107676
33145008964868489
18472280886864419
25190463258309169
26868435061764968
...
23796047068887132
26494620116225031
29725055647475217
23274283607260281
25317168620101945
21040607321616476
36894308285027819
19008827290015077
24124251339637413
44401144772208610
23
27321431146332319
14275530289181566
32743927528463269
31414821917700062
30111695899468290
30607379613009530
33622946690994426
19814041849539406
25941819194962944
26898041703610906
...
26702315473314552
26951703931326386
31058199972282987
24360411782628913
26591822066840570
21164026662901221
36976352013873857
20154651894981914
24276491642639707
45065873996759418
24
29725055647475217
15826987847092609
33721347678589510
31761790687841845
30946866320282299
31058052567307067
33624566552812863
20694564166966042
26904878702953881
28645471048476795
...
30894963109136497
27471777445254294
31139789934252783
25787640536668881
27301389825708501
21200247186551968
37852811960333734
21732652595521540
25685452139527514
46993417044379139
25
31325079380108526
17126592443272536
35995302343184023
32351073496155464
31766448720876949
33862921732551216
33763471605939521
21521712720438037
28057982368098903
28828211527555270
...
33100861501479194
28609246592918169
31785622798454076
26659308537364411
28373368916565602
22199136964056557
43216725544736395
21915862786908283
25822716638793137
48689336415162860
26
32402980343563676
18083140586998088
38217558325527653
33591140478056961
33257463045316394
34467168173988008
34798623527537298
21654008912137883
28737119570392365
28865924778914422
...
33317288357948166
32090269126097708
32072498578381931
28106212000517419
28727033470036373
23022191297269519
44755252255393292
22862123315604421
25998584322464280
49023320897346811
27
33998429971391585
19109725081285915
40209731336842584
37351430073190093
33398203124316961
34983154172270793
35881372642747002
22272993655393429
30317193049316824
28938418064188590
...
35035325133133688
32844155554747447
32206163030738556
28795447668356447
29909266392366957
30940920518058180
45943253034636592
22893270875969837
26054084993651431
49731253281010509
28
34255622508847265
19954604691172529
40658098775294642
38958647924868125
35955310165451706
35298633253853159
37942500482606938
23609648549619970
30660239665106306
29416271391073579
...
37566904201758858
33322465574927804
33058916544102628
28851881554798205
30423949407748994
32072498578381931
47378944430060064
23415622113994670
26183742804855282
50551159812212476
29
35648782291934701
20344465107537443
41872849799837272
39348091866733174
36976352013873857
35800877418119701
37945897320774947
23610818376694907
31294226884026577
29725055647475217
...
38271850541007807
34572536508898520
34953996289778323
32719026204034380
30673159464989669
34887554704741401
51658436190196996
24545889695222598
26898041703610906
54153428880313401
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
970
1107543982594203131
989729699419797362
1261946735902430190
1166428661353232147
1200312329152677362
1146698851792287227
954192672552439777
699733457303792219
1130718426649453023
936390490513852057
...
1119887911879509242
994006478826918301
1276473927133081970
864159838448045917
944876897708939520
1032237544411259200
1288630935581974982
942040268677595624
861408959084508718
1417948630550717325
971
1109020494544557114
991525533404660145
1262034178550116979
1166574858993069267
1203337001229560405
1149266131957767191
954236589128969610
700543021838572228
1133298791144988918
936603221510288874
...
1120349060316949797
994181308230497138
1277517194742312720
864189069037947660
945946265103004700
1034861019714093166
1290945732339409500
942909380852873494
861631390162938615
1418342496558131858
972
1109386082744538523
991661643689033476
1262981380704707173
1166911525968097072
1203651763045149724
1151857672969983296
955707851630560986
701109150434990431
1135485334927392437
938066193331113309
...
1122324225635430390
995142324808765332
1278048578796418340
864802006743648938
945987109198890134
1036431654243112921
1292175597783299333
943008150867162220
861849976277647448
1418363392939229368
973
1109460175091408714
994381017128704335
1265988223632713466
1168245311349109024
1203897747334407732
1152224172815101512
955787462309664840
701131891327261751
1137200069838928099
939200050415562056
...
1122479109335752568
995573148923578699
1279238737963945913
864821924188977672
946392751875520497
1036641410402655643
1292757744360583331
943663664463786213
864263061926181418
1421832681505182374
974
1111159173026331586
995098218730749651
1266700710830977367
1170759803330881476
1204538317373697798
1153249388976467029
957274736037432613
701529314722626130
1139617249070451255
940174972620757507
...
1124152314296008271
997862982970258355
1279550489587130848
866379405334160631
947128212816829421
1037542199962320887
1294360577696485809
943685293291682419
865956295237024671
1422245259504842098
975
1112098326768320634
997410615360009513
1268905224183371912
1171182522336288163
1205360502813789714
1154100273997449793
957437687129449147
702980315726872582
1140928861223320251
940314883988074608
...
1125507096913642107
998193892073680021
1280744474276695654
866960976134915096
947174592893533652
1038203386471227830
1295626024157563001
944756723351839822
866115059821173621
1423506618043342098
976
1113596676022905468
997862982970258355
1269363467399635571
1172013992360832235
1205504367606565339
1156415893335518348
958362255889239117
703263747640469360
1141063775441190352
941547963625343188
...
1126793649238947167
998669678397904374
1282572839960708505
867110130620918608
948459592976567750
1039614453899399383
1296028960434010705
944876897708939520
866225215692751627
1423749421371190098
977
1114471266099494426
999742984705395010
1271543952981228405
1172207097090596219
1207284365716330784
1159143281663013856
959790813245880511
703675536458856303
1142654657779787731
942640216108285181
...
1127114532248079889
999280224490288936
1283196606852812857
867928579391103769
949683016024225245
1040763100064265904
1297045035563256903
945081747044303760
866672634369225244
1424984059014061661
978
1114852188250831223
1003286318410578750
1273098906601734803
1175501752439194854
1207875465058089996
1160601926385889283
960313909280655981
703721546866300612
1142821792824639604
942683979468479173
...
1130970272050073976
999640326262117524
1285020311809930909
869033781343728157
951170830807788180
1041549608797005151
1297134628078964579
945333163403584886
868351941916842829
1425347752456279522
979
1114902160271942774
1006256505938145807
1273619770562166835
1175694649616757470
1208671581585296777
1160788811316875387
961666672938948969
703839675544685485
1145254410345817774
943008150867162220
...
1131710849915923880
999987312708875185
1285644234261905984
869315678580074958
953332178013989349
1042514782899078437
1299177536383185587
945627006359658112
869639884870498022
1426127095293245635
980
1115311370167792604
1006481155962462533
1275058358419152669
1176063752128058023
1209188966215124686
1160978033570910338
962320086426065548
704380897780019786
1147741334558438726
943221875045672629
...
1131949533853494776
1000896105387648512
1286441834887517745
869407405500786325
953616171661645611
1044113594649971922
1301537736425982456
947017593943507643
870379326105750908
1426689741247301612
981
1116248664330027757
1007343459518459607
1275718741849375318
1177267564408412559
1209933580617937357
1161246089461507491
962511886557065140
705325635353530460
1148038503060866495
944027684861106303
...
1133298791144988918
1000976469094446200
1286552049373886215
869620568554124604
954024182320126056
1044239337625787387
1302117000647823334
947128212816829421
871444971569624118
1427699947798378529
982
1116838621685904002
1008628210045053559
1275882988570825340
1177570119927567077
1211117689711457566
1163380080357978227
962752663307608254
705332534230026246
1149607426888586909
944876897708939520
...
1136683148204266160
1001854657820427186
1288739001652762369
871262633076031293
954652110973337767
1045393647633013094
1304094954095469444
947174592893533652
871711068359088208
1430527977677666283
983
1117017811928418891
1009155151030761563
1276147199707400771
1178702811207410967
1211518803737140756
1163838331114350558
963511225658074494
706697222745594400
1150346591214079776
945643077523860659
...
1136902524714904001
1004486393517505801
1290434858170768379
871738832012084239
956599479162884198
1045620414588690052
1305309091665947549
948274462881891527
872381363097209441
1431119626691015562
984
1117608002264256818
1009383973419503247
1278023546567737096
1179350662310420298
1214873127883316792
1165454704129318801
965507768217508695
707191661314366688
1151153100307545657
947139049048887777
...
1137691935655552256
1004814746250494507
1290917895703979016
874602805863688566
957269742276060969
1045726453656694315
1307940091841206527
948365334850764946
872577137534504542
1432817157993044278
985
1119595072044415551
1010624233688016256
1281108544161977146
1179566838370028872
1215387784672468958
1171432654678866809
966860172822114968
707718169605139190
1153282042571440040
948145274012758204
...
1139024225960302920
1007076320687026885
1292147410676071383
874898792301409854
957410464771533497
1048854089709990009
1308557182824809564
949230690544485144
874228756502519272
1433214933761114478
986
1119887911879509242
1010769322630628929
1281256895957389540
1180421145248244137
1215900563480189235
1172240098906135922
969221613821232720
708110817812821101
1155778836183908563
948393967389288919
...
1139881070146363803
1008020736237168146
1293674551886915146
876347804401214794
958115331273266447
1048882016989097432
1308644093856189206
949670603291942199
874767276369043948
1436476580623775354
987
1120249688621102422
1014018287526713579
1281285535526522727
1181810391734146877
1216854459940407411
1172270887490372631
969284842804962374
708527679736900699
1156172218181227438
955336859595286644
...
1142011710745661555
1008492690043682596
1295036126951298807
876955242377718266
960626551084694188
1049897760412319603
1309259301036285069
950168834712889859
875643710908017811
1436566884075183839
988
1120399162977547616
1014672052563558960
1283790526900400951
1183143621875071010
1217850093572521463
1172287428822905852
970187966371915209
709203400711933302
1156221369866455857
955447679949584011
...
1144114926402984000
1008628210045053559
1295506289021555091
878255195880072775
963770568595090092
1051725701002178277
1311058784927229656
951760221368374039
876217820741033964
1436931459401824755
989
1122191130177853940
1014684020530526052
1283996195616932842
1183294443175736933
1217910870147795660
1173383032873011238
971318791179314870
709415492878155103
1156930917944923966
956655066520972306
...
1145100485955259546
1010716177734102812
1297124723015414886
879014569116511998
965971138124914264
1051763243063275598
1311461656159590258
951863490089825425
876589269913096698
1437776522029491304
990
1127135957374966657
1014842306822548239
1285096531448857114
1183407691731810254
1224913810325875157
1173853881666359701
973534931407435892
710220996546827020
1158418241036607637
957003101664737104
...
1145692486304069513
1010732225410751239
1298043277539426925
880417491105453566
966054256251425693
1053356806969900463
1311691899540128602
952611255410251550
876672665648132174
1439240153770980542
991
1127935425296105876
1017461390937107954
1285398237030414868
1183561479246639157
1224914403338338890
1175605108358625261
977338635084615232
710390843264822769
1160987563070597704
957162049061189228
...
1145916086230278967
1010769322630628929
1300666123584398424
881229298300740032
966436250667405970
1053831903080568947
1313619909276567906
953320219232747699
877430470585148786
1440249253641164518
992
1127938013643910128
1017679274930256878
1285410103218060292
1183970304448897529
1225693214202270500
1176606554027274872
977695850682005231
711825930721298027
1161512176374720629
959989849316431482
...
1146571872655819603
1013232599987264796
1300814527030589834
881767554356793988
967558370307752059
1053998117509433272
1313664458281908280
955447679949584011
877571843970690585
1442248954575084268
993
1128175315485005747
1018264773327626395
1287288491449944885
1186688171887037685
1228463126249276027
1180496534179732676
983018744240076239
712849563936459322
1161768229169520541
961194148573522320
...
1148433295368106811
1014040108387830357
1301737839714235900
882311901411143115
967638488080033623
1054417112844041424
1316036699868459704
956241340232471968
878675833769359395
1443105659611820077
994
1128394022882388212
1018454431242790333
1287296872328927666
1186826815874681737
1229470104825812258
1181495242024936504
984777485949312932
713534756059229476
1161906684095385188
962788599646453159
...
1149343012491160920
1014164164618121742
1304017049909177273
883794501878893476
968253111216514189
1054857997328812633
1316163813823996639
957164103646091662
879014569116511998
1443762695017276071
995
1129198271630428338
1018667756345219633
1287382345767431734
1186885129495926422
1231034569533024827
1185265032042242176
985746652715131067
714591992144377732
1163340627403188027
962842956104832373
...
1149720534231699794
1014929722086482556
1304142349920510670
884413413925554900
968709591199133111
1057492508156157050
1319026522640739699
959257923203087830
881740087182279845
1444704031114779183
996
1130196619007230962
1020362888505330754
1287705864259350767
1187093806852190826
1233243575818943168
1185429277737608650
986969909580516650
715626842690652401
1165841905265399352
962932555476132915
...
1151292317486911285
1016262307212730358
1305175386504809727
884421686983912880
969216825037536663
1057579789517152436
1321502296809240540
959532000839489696
883625107318248012
1451093794975842945
997
1130962530698441908
1021030284931835282
1290278475108965224
1187179437580492976
1234141746387320509
1186133178745622868
990460326956582286
716562352463696893
1172128428475264380
963645190994044581
...
1152845392102261082
1016471507159820020
1306306956355737730
886023058552718042
969698718337036828
1058980330740191070
1324132738693251600
959793839500299697
885476829517688905
1453657123043520530
998
1136087126881626725
1021684651430797782
1290372895731205333
1187628494670250768
1237063790585546050
1186826815874681737
990562896578992220
718558166353896562
1173587780226877314
963925585447725034
...
1153169119043899377
1018454431242790333
1308557182824809564
887480522650467527
969858401786971409
1059979163712952881
1324243133266076963
961151771637378539
886132921105519800
1456318751898837215
999
1136341356565043694
1021718600892057649
1292555632658818190
1188156840749260723
1237809992990594078
1186860503527684768
991030242443354666
718566214149503961
1175537488451876694
967001372097944574
...
1153524670130462007
1019226728834090649
1309362504241210518
889524698403563972
970383249615120669
1061556315082807175
1324949949234097826
962819995802818255
886343774676067441
1456324188425788303
1000 rows × 1391 columns
In [30]:
df = %precision
from sklearn import decomposition
pca = decomposition.PCA()
pcaDf = pca.fit_transform(df.T)
fig = plt.figure(figsize=(10,10))
scatter(pcaDf[:,0],pcaDf[:,1],s=40)
# ax = Axes3D(fig)
# ax.scatter(xs=pcaDf[:,1],ys=pcaDf[:,2],zs=pcaDf[:,3])
Out[30]:
<matplotlib.collections.PathCollection at 0x1249e7710>
In [46]:
Z.
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-46-d05221aa5660> in <module>()
----> 1 Z.getfield('S1_788')
TypeError: data type "S1_788" not understood
In [40]:
df=dforig
In [48]:
from scipy.cluster.hierarchy import cophenet
from scipy.spatial.distance import pdist
from scipy.cluster.hierarchy import dendrogram, linkage
Z=linkage(df,'complete')
plt.figure(figsize=(100,40))
ax=dendrogram(Z,leaf_rotation=90.,leaf_font_size=8.)
plt.show()
<built-in method keys of dict object at 0x12db0a168>
Content source: sivakasinathan/incubator
Similar notebooks: