In [1]:
from __future__ import division
%pylab inline
import pandas as pd
from Bio import SeqIO
import nwalign
import itertools
from scipy import signal
import mahotas
import sklearn
import glob
import os.path as op
from mpl_toolkits.mplot3d import Axes3D
import minhash


Populating the interactive namespace from numpy and matplotlib

In [4]:
df=minhash.processFolder('../simulate_sequence/reference/reads/',nHashFx=100)


S1_1
S1_2
S1_3
S1_4
S1_5
S1_6
S1_7
S1_8
S1_9
S1_10
S1_11
S1_12
S1_13
S1_14
S1_15
S1_16
S1_17
S1_18
S1_19
S1_20
S1_21
S1_22
S1_23
S1_24
S1_25
S1_26
S1_27
S1_28
S1_29
S1_30
S1_31
S1_32
S1_33
S1_34
S1_35
S1_36
S1_37
S1_38
S1_39
S1_40
S1_41
S1_42
S1_43
S1_44
S1_45
S1_46
S1_47
S1_48
S1_49
S1_50
S1_51
S1_52
S1_53
S1_54
S1_55
S1_56
S1_57
S1_58
S1_59
S1_60
S1_61
S1_62
S1_63
S1_64
S1_65
S1_66
S1_67
S1_68
S1_69
S1_70
S1_71
S1_72
S1_73
S1_74
S1_75
S1_76
S1_77
S1_78
S1_79
S1_80
S1_81
S1_82
S1_83
S1_84
S1_85
S1_86
S1_87
S1_88
S1_89
S1_90
S1_91
S1_92
S1_93
S1_94
S1_95
S1_96
S1_97
S1_98
S1_99
S1_100
S1_101
S1_102
S1_103
S1_104
S1_105
S1_106
S1_107
S1_108
S1_109
S1_110
S1_111
S1_112
S1_113
S1_114
S1_115
S1_116
S1_117
S1_118
S1_119
S1_120
S1_121
S1_122
S1_123
S1_124
S1_125
S1_126
S1_127
S1_128
S1_129
S1_130
S1_131
S1_132
S1_133
S1_134
S1_135
S1_136
S1_137
S1_138
S1_139
S1_140
S1_141
S1_142
S1_143
S1_144
S1_145
S1_146
S1_147
S1_148
S1_149
S1_150
S1_151
S1_152
S1_153
S1_154
S1_155
S1_156
S1_157
S1_158
S1_159
S1_160
S1_161
S1_162
S1_163
S1_164
S1_165
S1_166
S1_167
S1_168
S1_169
S1_170
S1_171
S1_172
S1_173
S1_174
S1_175
S1_176
S1_177
S1_178
S1_179
S1_180
S1_181
S1_182
S1_183
S1_184
S1_185
S1_186
S1_187
S1_188
S1_189
S1_190
S1_191
S1_192
S1_193
S1_194
S1_195
S1_196
S1_197
S1_198
S1_199
S1_200
S1_201
S1_202
S1_203
S1_204
S1_205
S1_206
S1_207
S1_208
S1_209
S1_210
S1_211
S1_212
S1_213
S1_214
S1_215
S1_216
S1_217
S1_218
S1_219
S1_220
S1_221
S1_222
S1_223
S1_224
S1_225
S1_226
S1_227
S1_228
S1_229
S1_230
S1_231
S1_232
S1_233
S1_234
S1_235
S1_236
S1_237
S1_238
S1_239
S1_240
S1_241
S1_242
S1_243
S1_244
S1_245
S1_246
S1_247
S1_248
S1_249
S1_250
S1_251
S1_252
S1_253
S1_254
S1_255
S1_256
S1_257
S1_258
S1_259
S1_260
S1_261
S1_262
S1_263
S1_264
S1_265
S1_266
S1_267
S1_268
S1_269
S1_270
S1_271
S1_272
S1_273
S1_274
S1_275
S1_276
S1_277
S1_278
S1_279
S1_280
S1_281
S1_282
S1_283
S1_284
S1_285
S1_286
S1_287
S1_288
S1_289
S1_290
S1_291
S1_292
S1_293
S1_294
S1_295
S1_296
S1_297
S1_298
S1_299
S1_300
S1_301
S1_302
S1_303
S1_304
S1_305
S1_306
S1_307
S1_308
S1_309
S1_310
S1_311
S1_312
S1_313
S1_314
S1_315
S1_316
S1_317
S1_318
S1_319
S1_320
S1_321
S1_322
S1_323
S1_324
S1_325
S1_326
S1_327
S1_328
S1_329
S1_330
S1_331
S1_332
S1_333
S1_334
S1_335
S1_336
S1_337
S1_338
S1_339
S1_340
S1_341
S1_342
S1_343
S1_344
S1_345
S1_346
S1_347
S1_348
S1_349
S1_350
S1_351
S1_352
S1_353
S1_354
S1_355
S1_356
S1_357
S1_358
S1_359
S1_360
S1_361
S1_362
S1_363
S1_364
S1_365
S1_366
S1_367
S1_368
S1_369
S1_370
S1_371
S1_372
S1_373
S1_374
S1_375
S1_376
S1_377
S1_378
S1_379
S1_380
S1_381
S1_382
S1_383
S1_384
S1_385
S1_386
S1_387
S1_388
S1_389
S1_390
S1_391
S1_392
S1_393
S1_394
S1_395
S1_396
S1_397
S1_398
S1_399
S1_400
S1_401
S1_402
S1_403
S1_404
S1_405
S1_406
S1_407
S1_408
S1_409
S1_410
S1_411
S1_412
S1_413
S1_414
S1_415
S1_416
S1_417
S1_418
S1_419
S1_420
S1_421
S1_422
S1_423
S1_424
S1_425
S1_426
S1_427
S1_428
S1_429
S1_430
S1_431
S1_432
S1_433
S1_434
S1_435
S1_436
S1_437
S1_438
S1_439
S1_440
S1_441
S1_442
S1_443
S1_444
S1_445
S1_446
S1_447
S1_448
S1_449
S1_450
S1_451
S1_452
S1_453
S1_454
S1_455
S1_456
S1_457
S1_458
S1_459
S1_460
S1_461
S1_462
S1_463
S1_464
S1_465
S1_466
S1_467
S1_468
S1_469
S1_470
S1_471
S1_472
S1_473
S1_474
S1_475
S1_476
S1_477
S1_478
S1_479
S1_480
S1_481
S1_482
S1_483
S1_484
S1_485
S1_486
S1_487
S1_488
S1_489
S1_490
S1_491
S1_492
S1_493
S1_494
S1_495
S1_496
S1_497
S1_498
S1_499
S1_500
S1_501
S1_502
S1_503
S1_504
S1_505
S1_506
S1_507
S1_508
S1_509
S1_510
S1_511
S1_512
S1_513
S1_514
S1_515
S1_516
S1_517
S1_518
S1_519
S1_520
S1_521
S1_522
S1_523
S1_524
S1_525
S1_526
S1_527
S1_528
S1_529
S1_530
S1_531
S1_532
S1_533
S1_534
S1_535
S1_536
S1_537
S1_538
S1_539
S1_540
S1_541
S1_542
S1_543
S1_544
S1_545
S1_546
S1_547
S1_548
S1_549
S1_550
S1_551
S1_552
S1_553
S1_554
S1_555
S1_556
S1_557
S1_558
S1_559
S1_560
S1_561
S1_562
S1_563
S1_564
S1_565
S1_566
S1_567
S1_568
S1_569
S1_570
S1_571
S1_572
S1_573
S1_574
S1_575
S1_576
S1_577
S1_578
S1_579
S1_580
S1_581
S1_582
S1_583
S1_584
S1_585
S1_586
S1_587
S1_588
S1_589
S1_590
S1_591
S1_592
S1_593
S1_594
S1_595
S1_596
S1_597
S1_598
S1_599
S1_600
S1_601
S1_602
S1_603
S1_604
S1_605
S1_606
S1_607
S1_608
S1_609
S1_610
S1_611
S1_612
S1_613
S1_614
S1_615
S1_616
S1_617
S1_618
S1_619
S1_620
S1_621
S1_622
S1_623
S1_624
S1_625
S1_626
S1_627
S1_628
S1_629
S1_630
S1_631
S1_632
S1_633
S1_634
S1_635
S1_636
S1_637
S1_638
S1_639
S1_640
S1_641
S1_642
S1_643
S1_644
S1_645
S1_646
S1_647
S1_648
S1_649
S1_650
S1_651
S1_652
S1_653
S1_654
S1_655
S1_656
S1_657
S1_658
S1_659
S1_660
S1_661
S1_662
S1_663
S1_664
S1_665
S1_666
S1_667
S1_668
S1_669
S1_670
S1_671
S1_672
S1_673
S1_674
S1_675
S1_676
S1_677
S1_678
S1_679
S1_680
S1_681
S1_682
S1_683
S1_684
S1_685
S1_686
S1_687
S1_688
S1_689
S1_690
S1_691
S1_692
S1_693
S1_694
S1_695
S1_696
S1_697
S1_698
S1_699
S1_700
S1_701
S1_702
S1_703
S1_704
S1_705
S1_706
S1_707
S1_708
S1_709
S1_710
S1_711
S1_712
S1_713
S1_714
S1_715
S1_716
S1_717
S1_718
S1_719
S1_720
S1_721
S1_722
S1_723
S1_724
S1_725
S1_726
S1_727
S1_728
S1_729
S1_730
S1_731
S1_732
S1_733
S1_734
S1_735
S1_736
S1_737
S1_738
S1_739
S1_740
S1_741
S1_742
S1_743
S1_744
S1_745
S1_746
S1_747
S1_748
S1_749
S1_750
S1_751
S1_752
S1_753
S1_754
S1_755
S1_756
S1_757
S1_758
S1_759
S1_760
S1_761
S1_762
S1_763
S1_764
S1_765
S1_766
S1_767
S1_768
S1_769
S1_770
S1_771
S1_772
S1_773
S1_774
S1_775
S1_776
S1_777
S1_778
S1_779
S1_780
S1_781
S1_782
S1_783
S1_784
S1_785
S1_786
S1_787
S1_788
S1_789
S1_790
S1_791
S1_792
S1_793
S1_794
S1_795
S1_796
S1_797
S1_798
S1_799
S1_800
S1_801
S1_802
S1_803
S1_804
S1_805
S1_806
S1_807
S1_808
S1_809
S1_810
S1_811
S1_812
S1_813
S1_814
S1_815
S1_816
S1_817
S1_818
S1_819
S1_820
S1_821
S1_822
S1_823
S1_824
S1_825
S1_826
S1_827
S1_828
S1_829
S1_830
S1_831
S1_832
S1_833
S1_834
S1_835
S1_836
S1_837
S1_838
S1_839
S1_840
S1_841
S1_842
S1_843
S1_844
S1_845
S1_846
S1_847
S1_848
S1_849
S1_850
S1_851
S1_852
S1_853
S1_854
S1_855
S1_856
S1_857
S1_858
S1_859
S1_860
S1_861
S1_862
S1_863
S1_864
S1_865
S1_866
S1_867
S1_868
S1_869
S1_870
S1_871
S1_872
S1_873
S1_874
S1_875
S1_876
S1_877
S1_878
S1_879
S1_880
S1_881
S1_882
S1_883
S1_884
S1_885
S1_886
S1_887
S1_888
S1_889
S1_890
S1_891
S1_892
S1_893
S1_894
S1_895
S1_896
S1_897
S1_898
S1_899
S1_900
S1_901
S1_902
S1_903
S1_904
S1_905
S1_906
S1_907
S1_908
S1_909
S1_910
S1_911
S1_912
S1_913
S1_914
S1_915
S1_916
S1_917
S1_918
S1_919
S1_920
S1_921
S1_922
S1_923
S1_924
S1_925
S1_926
S1_927
S1_928
S1_929
S1_930
S1_931
S1_932
S1_933
S1_934
S1_935
S1_936
S1_937
S1_938
S1_939
S1_940
S1_941
S1_942
S1_943
S1_944
S1_945
S1_946
S1_947
S1_948
S1_949
S1_950
S1_951
S1_952
S1_953
S1_954
S1_955
S1_956
S1_957
S1_958
S1_959
S1_960
S1_961
S1_962
S1_963
S1_964
S1_965
S1_966
S1_967
S1_968
S1_969
S1_970
S1_971
S1_972
S1_973
S1_974
S1_975
S1_976
S1_977
S1_978
S1_979
S1_980
S1_981
S1_982
S1_983
S1_984
S1_985
S1_986
S1_987
S1_988
S1_989
S1_990
S1_991
S1_992
S1_993
S1_994
S1_995
S1_996
S1_997
S1_998
S1_999
S1_1000
S1_1001
S1_1002
S1_1003
S1_1004
S1_1005
S1_1006
S1_1007
S1_1008
S1_1009
S1_1010

In [55]:
from sklearn import decomposition,preprocessing
# df=preprocessing.scale(df,axis=1)
# print df
pca = decomposition.PCA()
pcaDf = pca.fit_transform(df.T)
fig = plt.figure(figsize=(10,10))
# scatter(pcaDf[:,0],pcaDf[:,1],s=40)
# ax = Axes3D(fig)
# ax.scatter(xs=pcaDf[:,0],ys=pcaDf[:,1],zs=pcaDf[:,2])
# ax.view_init(elev=0,azim=135)


Out[55]:
<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x12c435310>

In [53]:
import re
fname='../arabidopsis/text.msh'
msh = open(fname)

seriesList=[]
df = pd.DataFrame()
for line in msh:
    lineArr = line.split()
    if lineArr[0] == 'name':
        name = re.sub('[\",]','',lineArr[2])
    elif lineArr[0] ==  'hashes64':
        hashvals = [ re.sub('[\[\],]','',val) for val in lineArr[2:]]
        s=pd.Series(data=hashvals)
        s.name = name
        seriesList += [s]

df = pd.concat(seriesList,axis=1)

df


Out[53]:
m131019_072530_42175_c100583702550000001823087704281410_s1_p0/15831/0_19508 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/16865/0_23636 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/23190/0_17087 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/26635/0_17476 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/30504/0_17160 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/34160/3211_20894 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/34433/0_21317 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/36920/0_29640 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/37475/0_16654 m131019_072530_42175_c100583702550000001823087704281410_s1_p0/48501/0_22234 ... m131029_030920_42175_c100583692550000001823087704281457_s1_p0/9672/0_17041 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/55286/0_22013 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/64101/0_17314 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/64596/0_24989 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/73762/0_22307 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/91974/0_20858 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/111404/0_17044 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/118657/0_21304 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/120127/0_25096 m131029_030920_42175_c100583692550000001823087704281457_s1_p0/124973/0_16186
0 21061744049881 108255185615331 487442389573808 1211327141020917 3562878186274398 2759298435281129 2697761822183270 70156593449099 1211327141020917 1211327141020917 ... 1122004119154090 1122004119154090 487442389573808 767556076981540 660691689722512 108255185615331 660691689722512 29687718672495 1211327141020917 4229414324077931
1 1132555753232398 660691689722512 1122004119154090 1363466975269253 4283396966000388 2834436998699841 2956760145374543 564784461361772 2881364066267507 1227942901973791 ... 1145599617551474 1211327141020917 1122004119154090 1357661512029834 975835074213898 838372954237466 2820168641711685 1034167078255276 3155558079682683 7801658425350561
2 1195348295588326 1763684995950955 3698856217222413 2394829133628519 6286762546367331 4504161429232223 4283396966000388 1858750175882626 3949299056456510 2982672697698852 ... 3096847835834031 1348409252659262 1586938197928135 2601744815805677 3611296354060740 863155403809596 3251735828890102 1591240368673890 3744934420093427 12480522208179775
3 1402951908825644 3256683780366128 7270180260617170 4283396966000388 7038976843201639 5046369285828659 6286762546367331 2037507810115894 4283396966000388 3096847835834031 ... 4369169909923656 1767935590631673 2281142206702967 4656712044572778 5242589605414374 989701635460920 3556025183810394 3300619999650365 4437404813506045 12585980186533444
4 1595675404784092 4283396966000388 8523960716274407 5980420959633151 8967726774117983 5464157709190068 6804090062532764 3096847835834031 5182587216866487 3106217941386961 ... 5068790209430529 3169105226898354 3096847835834031 6132118361583183 5737483692831244 1122004119154090 4656712044572778 4283396966000388 4618065134632003 13017070810435347
5 2033734413061471 4745695085393457 13244098195092803 9169530075348692 9541346675669407 5845231960323868 9041042295418935 3650848476155316 5737483692831244 4721154612288619 ... 5078818375778256 7161073157746414 7129915341117062 7061554220054173 5810008773169105 1861574341158068 5629743844742880 4570313172456283 5514702497804524 13572445638773738
6 2267468441379163 4842282566165561 13521951574024041 10195803394902702 10484857102202329 6087563765113127 9212644512050733 6502525297829720 9195728978379198 6804090062532764 ... 5218063364279652 7690191751572612 13449904999285529 9921789547238917 6286762546367331 2218470344113939 11235896529959753 5894747051497976 5853274736668577 14379522781913381
7 3096847835834031 5239173195826745 15131774025135709 10566104181785943 11049321557942832 6856825031109995 9921789547238917 7129915341117062 9264183125065195 7006217841652459 ... 5514702497804524 8287881582950186 13616293898238798 10852271509138297 8416644693025483 3096847835834031 11453170644368897 6097114168283837 6808649849820648 15975142762855782
8 4239239898375093 5827060459396583 15204678475122668 11537114478316567 12453972962092606 7129915341117062 11497873003704672 7172584630305706 10552013575095071 7314796142334000 ... 7734582811228115 8372172817710777 14393882225165823 11967493292234384 9113470598846358 3875797305980296 13704277227663893 6286762546367331 7032859021898791 18783327970695633
9 4839031995771471 5873067717810882 15357050014513777 12868000703632458 13270765561257459 7987421058726838 15975142762855782 7270180260617170 11459652222154831 10195803394902702 ... 7939096060654241 9516406233950281 17082303472588310 13348308912507102 9491398089026266 5594860209580274 14294692827389182 7270180260617170 7067710199385965 22692923337041568
10 5965745781050623 6875912041871211 20240498136381283 13766230846431490 13298782528048811 8052289116149114 16653487825557704 7283247847328535 16002478662911299 15826987847092609 ... 14120903189307969 11531266109432311 20717447178650243 13912959130338688 10008766841740320 6016652722891830 15313392928796797 8919427410493303 7389974301951966 22784746506239349
11 6211064421984258 7129915341117062 22199136964056557 15357050014513777 14053379564451959 10349428616003992 20333258041872030 7852604034918953 16689117355074679 16246217990568267 ... 14294692827389182 15802942836549744 21204285133307912 14760781489285333 12181094070568360 6949711166599793 15435729984848324 9203802295227390 7639700032383773 24360763765254905
12 7129915341117062 7270180260617170 23282322818842973 15580034877396632 14315119274205496 12898016404926087 20895930230088746 7994210117077216 17678371889195981 17561540399691297 ... 14923938462084374 18428470967046062 21352433718946817 17043646199693955 14851378008813681 7129915341117062 18675092018630905 10311788364954533 7664345708355284 24402707847160549
13 9240656509721782 7708903459110249 26829474740515119 17613584789673730 14939128012885574 13769194907608290 21438120996417270 8806533163213867 18769216862214433 17628575646694239 ... 15549740438456125 18472280886864419 21507978373427484 17126592443272536 17126592443272536 7270180260617170 23282322818842973 11318226426650552 8241477045588702 25311457007614552
14 12453972962092606 8328341391197255 26979192519567900 21167983897753881 15055211161312674 18362566866056477 21680759071970869 9019469038789669 19715959945691998 18742201787366196 ... 15913021354598842 18646570028742272 21668840788100637 18056784690869049 17772071721924103 9573534757160971 24306247067864676 11353371940248570 10321302943082108 26973298555978006
15 13372276066487090 9524988289572556 28548307826416859 22555462463331572 15139928883579037 19282024855340299 23203427947893878 12962938784829477 20368784636885328 22058140824937324 ... 17097249318324959 20462793796822101 22035892169272034 18119655730070127 18484718505964215 10629046220063957 26973298555978006 12019948099153447 10852271509138297 29725055647475217
16 14264591269845681 9706761372689129 28953602257659903 22811649586609212 15826987847092609 20155100251252075 23378395663813429 14264004769895053 20509640993382452 22912218389531274 ... 17126592443272536 22273529336337779 22240199152210892 19275377158370529 21315424723993076 12453972962092606 27712070305441134 15027554791347330 13654137827250687 32020475457650903
17 16733490739898189 10421595273175974 29156486538228540 24198472497582917 19614803561752881 22740488752798451 24110714796610407 14545036696940136 22407645314382084 23007576006784115 ... 17138511284228450 23064120142486962 22740488752798451 20462793796822101 21752102327479889 13213978224415373 31761790687841845 15378879240762149 17126592443272536 35949590214532954
18 18636460724093364 11933540231016034 29273280615088654 24669552111527035 20101801125450151 23588459525965663 27090721919780089 14729764473456244 24415184002792947 23180150942424791 ... 17586043771709170 23203427947893878 23070198870212515 20717447178650243 21939232861650340 15378542163553124 34521670727029063 15632278249575659 18092887757987033 35995302343184023
19 21155942253115834 12861507523452730 29669511209759899 25210034282714225 21381686136198335 25089836788252199 30107914213714727 16290329897252149 24599782854324171 23256032034012791 ... 20775844646811320 24208023398870644 25017931359453937 20881002372379223 22102032595768834 17126592443272536 35561381600561074 16681477731642704 20147838696708034 39569928153272780
20 22720984303740219 13213978224415373 29824271035910815 26973298555978006 22331918393125181 27718760516149039 30415955838045813 16980540954785228 25007186263095378 24428456948805083 ... 21071116621678417 24960110521192345 28170387452937989 22740488752798451 22278137691543952 20462793796822101 35578021031321945 16943444173646920 21240215867741344 40845192397907788
21 22784746506239349 13393867928086195 32072498578381931 27613162601954119 24106982296390137 28427074177608065 31502094286994401 17871193229360579 25130860617029825 26502435179538150 ... 22199136964056557 25017931359453937 28687097986875901 22912218389531274 22912218389531274 20824079178894959 35955310165451706 18243272614608376 21802698856044475 41977905001190045
22 24946899308284652 13870479001438363 32206163030738556 30298259864171050 25792495428590623 29921601054107676 33145008964868489 18472280886864419 25190463258309169 26868435061764968 ... 23796047068887132 26494620116225031 29725055647475217 23274283607260281 25317168620101945 21040607321616476 36894308285027819 19008827290015077 24124251339637413 44401144772208610
23 27321431146332319 14275530289181566 32743927528463269 31414821917700062 30111695899468290 30607379613009530 33622946690994426 19814041849539406 25941819194962944 26898041703610906 ... 26702315473314552 26951703931326386 31058199972282987 24360411782628913 26591822066840570 21164026662901221 36976352013873857 20154651894981914 24276491642639707 45065873996759418
24 29725055647475217 15826987847092609 33721347678589510 31761790687841845 30946866320282299 31058052567307067 33624566552812863 20694564166966042 26904878702953881 28645471048476795 ... 30894963109136497 27471777445254294 31139789934252783 25787640536668881 27301389825708501 21200247186551968 37852811960333734 21732652595521540 25685452139527514 46993417044379139
25 31325079380108526 17126592443272536 35995302343184023 32351073496155464 31766448720876949 33862921732551216 33763471605939521 21521712720438037 28057982368098903 28828211527555270 ... 33100861501479194 28609246592918169 31785622798454076 26659308537364411 28373368916565602 22199136964056557 43216725544736395 21915862786908283 25822716638793137 48689336415162860
26 32402980343563676 18083140586998088 38217558325527653 33591140478056961 33257463045316394 34467168173988008 34798623527537298 21654008912137883 28737119570392365 28865924778914422 ... 33317288357948166 32090269126097708 32072498578381931 28106212000517419 28727033470036373 23022191297269519 44755252255393292 22862123315604421 25998584322464280 49023320897346811
27 33998429971391585 19109725081285915 40209731336842584 37351430073190093 33398203124316961 34983154172270793 35881372642747002 22272993655393429 30317193049316824 28938418064188590 ... 35035325133133688 32844155554747447 32206163030738556 28795447668356447 29909266392366957 30940920518058180 45943253034636592 22893270875969837 26054084993651431 49731253281010509
28 34255622508847265 19954604691172529 40658098775294642 38958647924868125 35955310165451706 35298633253853159 37942500482606938 23609648549619970 30660239665106306 29416271391073579 ... 37566904201758858 33322465574927804 33058916544102628 28851881554798205 30423949407748994 32072498578381931 47378944430060064 23415622113994670 26183742804855282 50551159812212476
29 35648782291934701 20344465107537443 41872849799837272 39348091866733174 36976352013873857 35800877418119701 37945897320774947 23610818376694907 31294226884026577 29725055647475217 ... 38271850541007807 34572536508898520 34953996289778323 32719026204034380 30673159464989669 34887554704741401 51658436190196996 24545889695222598 26898041703610906 54153428880313401
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
970 1107543982594203131 989729699419797362 1261946735902430190 1166428661353232147 1200312329152677362 1146698851792287227 954192672552439777 699733457303792219 1130718426649453023 936390490513852057 ... 1119887911879509242 994006478826918301 1276473927133081970 864159838448045917 944876897708939520 1032237544411259200 1288630935581974982 942040268677595624 861408959084508718 1417948630550717325
971 1109020494544557114 991525533404660145 1262034178550116979 1166574858993069267 1203337001229560405 1149266131957767191 954236589128969610 700543021838572228 1133298791144988918 936603221510288874 ... 1120349060316949797 994181308230497138 1277517194742312720 864189069037947660 945946265103004700 1034861019714093166 1290945732339409500 942909380852873494 861631390162938615 1418342496558131858
972 1109386082744538523 991661643689033476 1262981380704707173 1166911525968097072 1203651763045149724 1151857672969983296 955707851630560986 701109150434990431 1135485334927392437 938066193331113309 ... 1122324225635430390 995142324808765332 1278048578796418340 864802006743648938 945987109198890134 1036431654243112921 1292175597783299333 943008150867162220 861849976277647448 1418363392939229368
973 1109460175091408714 994381017128704335 1265988223632713466 1168245311349109024 1203897747334407732 1152224172815101512 955787462309664840 701131891327261751 1137200069838928099 939200050415562056 ... 1122479109335752568 995573148923578699 1279238737963945913 864821924188977672 946392751875520497 1036641410402655643 1292757744360583331 943663664463786213 864263061926181418 1421832681505182374
974 1111159173026331586 995098218730749651 1266700710830977367 1170759803330881476 1204538317373697798 1153249388976467029 957274736037432613 701529314722626130 1139617249070451255 940174972620757507 ... 1124152314296008271 997862982970258355 1279550489587130848 866379405334160631 947128212816829421 1037542199962320887 1294360577696485809 943685293291682419 865956295237024671 1422245259504842098
975 1112098326768320634 997410615360009513 1268905224183371912 1171182522336288163 1205360502813789714 1154100273997449793 957437687129449147 702980315726872582 1140928861223320251 940314883988074608 ... 1125507096913642107 998193892073680021 1280744474276695654 866960976134915096 947174592893533652 1038203386471227830 1295626024157563001 944756723351839822 866115059821173621 1423506618043342098
976 1113596676022905468 997862982970258355 1269363467399635571 1172013992360832235 1205504367606565339 1156415893335518348 958362255889239117 703263747640469360 1141063775441190352 941547963625343188 ... 1126793649238947167 998669678397904374 1282572839960708505 867110130620918608 948459592976567750 1039614453899399383 1296028960434010705 944876897708939520 866225215692751627 1423749421371190098
977 1114471266099494426 999742984705395010 1271543952981228405 1172207097090596219 1207284365716330784 1159143281663013856 959790813245880511 703675536458856303 1142654657779787731 942640216108285181 ... 1127114532248079889 999280224490288936 1283196606852812857 867928579391103769 949683016024225245 1040763100064265904 1297045035563256903 945081747044303760 866672634369225244 1424984059014061661
978 1114852188250831223 1003286318410578750 1273098906601734803 1175501752439194854 1207875465058089996 1160601926385889283 960313909280655981 703721546866300612 1142821792824639604 942683979468479173 ... 1130970272050073976 999640326262117524 1285020311809930909 869033781343728157 951170830807788180 1041549608797005151 1297134628078964579 945333163403584886 868351941916842829 1425347752456279522
979 1114902160271942774 1006256505938145807 1273619770562166835 1175694649616757470 1208671581585296777 1160788811316875387 961666672938948969 703839675544685485 1145254410345817774 943008150867162220 ... 1131710849915923880 999987312708875185 1285644234261905984 869315678580074958 953332178013989349 1042514782899078437 1299177536383185587 945627006359658112 869639884870498022 1426127095293245635
980 1115311370167792604 1006481155962462533 1275058358419152669 1176063752128058023 1209188966215124686 1160978033570910338 962320086426065548 704380897780019786 1147741334558438726 943221875045672629 ... 1131949533853494776 1000896105387648512 1286441834887517745 869407405500786325 953616171661645611 1044113594649971922 1301537736425982456 947017593943507643 870379326105750908 1426689741247301612
981 1116248664330027757 1007343459518459607 1275718741849375318 1177267564408412559 1209933580617937357 1161246089461507491 962511886557065140 705325635353530460 1148038503060866495 944027684861106303 ... 1133298791144988918 1000976469094446200 1286552049373886215 869620568554124604 954024182320126056 1044239337625787387 1302117000647823334 947128212816829421 871444971569624118 1427699947798378529
982 1116838621685904002 1008628210045053559 1275882988570825340 1177570119927567077 1211117689711457566 1163380080357978227 962752663307608254 705332534230026246 1149607426888586909 944876897708939520 ... 1136683148204266160 1001854657820427186 1288739001652762369 871262633076031293 954652110973337767 1045393647633013094 1304094954095469444 947174592893533652 871711068359088208 1430527977677666283
983 1117017811928418891 1009155151030761563 1276147199707400771 1178702811207410967 1211518803737140756 1163838331114350558 963511225658074494 706697222745594400 1150346591214079776 945643077523860659 ... 1136902524714904001 1004486393517505801 1290434858170768379 871738832012084239 956599479162884198 1045620414588690052 1305309091665947549 948274462881891527 872381363097209441 1431119626691015562
984 1117608002264256818 1009383973419503247 1278023546567737096 1179350662310420298 1214873127883316792 1165454704129318801 965507768217508695 707191661314366688 1151153100307545657 947139049048887777 ... 1137691935655552256 1004814746250494507 1290917895703979016 874602805863688566 957269742276060969 1045726453656694315 1307940091841206527 948365334850764946 872577137534504542 1432817157993044278
985 1119595072044415551 1010624233688016256 1281108544161977146 1179566838370028872 1215387784672468958 1171432654678866809 966860172822114968 707718169605139190 1153282042571440040 948145274012758204 ... 1139024225960302920 1007076320687026885 1292147410676071383 874898792301409854 957410464771533497 1048854089709990009 1308557182824809564 949230690544485144 874228756502519272 1433214933761114478
986 1119887911879509242 1010769322630628929 1281256895957389540 1180421145248244137 1215900563480189235 1172240098906135922 969221613821232720 708110817812821101 1155778836183908563 948393967389288919 ... 1139881070146363803 1008020736237168146 1293674551886915146 876347804401214794 958115331273266447 1048882016989097432 1308644093856189206 949670603291942199 874767276369043948 1436476580623775354
987 1120249688621102422 1014018287526713579 1281285535526522727 1181810391734146877 1216854459940407411 1172270887490372631 969284842804962374 708527679736900699 1156172218181227438 955336859595286644 ... 1142011710745661555 1008492690043682596 1295036126951298807 876955242377718266 960626551084694188 1049897760412319603 1309259301036285069 950168834712889859 875643710908017811 1436566884075183839
988 1120399162977547616 1014672052563558960 1283790526900400951 1183143621875071010 1217850093572521463 1172287428822905852 970187966371915209 709203400711933302 1156221369866455857 955447679949584011 ... 1144114926402984000 1008628210045053559 1295506289021555091 878255195880072775 963770568595090092 1051725701002178277 1311058784927229656 951760221368374039 876217820741033964 1436931459401824755
989 1122191130177853940 1014684020530526052 1283996195616932842 1183294443175736933 1217910870147795660 1173383032873011238 971318791179314870 709415492878155103 1156930917944923966 956655066520972306 ... 1145100485955259546 1010716177734102812 1297124723015414886 879014569116511998 965971138124914264 1051763243063275598 1311461656159590258 951863490089825425 876589269913096698 1437776522029491304
990 1127135957374966657 1014842306822548239 1285096531448857114 1183407691731810254 1224913810325875157 1173853881666359701 973534931407435892 710220996546827020 1158418241036607637 957003101664737104 ... 1145692486304069513 1010732225410751239 1298043277539426925 880417491105453566 966054256251425693 1053356806969900463 1311691899540128602 952611255410251550 876672665648132174 1439240153770980542
991 1127935425296105876 1017461390937107954 1285398237030414868 1183561479246639157 1224914403338338890 1175605108358625261 977338635084615232 710390843264822769 1160987563070597704 957162049061189228 ... 1145916086230278967 1010769322630628929 1300666123584398424 881229298300740032 966436250667405970 1053831903080568947 1313619909276567906 953320219232747699 877430470585148786 1440249253641164518
992 1127938013643910128 1017679274930256878 1285410103218060292 1183970304448897529 1225693214202270500 1176606554027274872 977695850682005231 711825930721298027 1161512176374720629 959989849316431482 ... 1146571872655819603 1013232599987264796 1300814527030589834 881767554356793988 967558370307752059 1053998117509433272 1313664458281908280 955447679949584011 877571843970690585 1442248954575084268
993 1128175315485005747 1018264773327626395 1287288491449944885 1186688171887037685 1228463126249276027 1180496534179732676 983018744240076239 712849563936459322 1161768229169520541 961194148573522320 ... 1148433295368106811 1014040108387830357 1301737839714235900 882311901411143115 967638488080033623 1054417112844041424 1316036699868459704 956241340232471968 878675833769359395 1443105659611820077
994 1128394022882388212 1018454431242790333 1287296872328927666 1186826815874681737 1229470104825812258 1181495242024936504 984777485949312932 713534756059229476 1161906684095385188 962788599646453159 ... 1149343012491160920 1014164164618121742 1304017049909177273 883794501878893476 968253111216514189 1054857997328812633 1316163813823996639 957164103646091662 879014569116511998 1443762695017276071
995 1129198271630428338 1018667756345219633 1287382345767431734 1186885129495926422 1231034569533024827 1185265032042242176 985746652715131067 714591992144377732 1163340627403188027 962842956104832373 ... 1149720534231699794 1014929722086482556 1304142349920510670 884413413925554900 968709591199133111 1057492508156157050 1319026522640739699 959257923203087830 881740087182279845 1444704031114779183
996 1130196619007230962 1020362888505330754 1287705864259350767 1187093806852190826 1233243575818943168 1185429277737608650 986969909580516650 715626842690652401 1165841905265399352 962932555476132915 ... 1151292317486911285 1016262307212730358 1305175386504809727 884421686983912880 969216825037536663 1057579789517152436 1321502296809240540 959532000839489696 883625107318248012 1451093794975842945
997 1130962530698441908 1021030284931835282 1290278475108965224 1187179437580492976 1234141746387320509 1186133178745622868 990460326956582286 716562352463696893 1172128428475264380 963645190994044581 ... 1152845392102261082 1016471507159820020 1306306956355737730 886023058552718042 969698718337036828 1058980330740191070 1324132738693251600 959793839500299697 885476829517688905 1453657123043520530
998 1136087126881626725 1021684651430797782 1290372895731205333 1187628494670250768 1237063790585546050 1186826815874681737 990562896578992220 718558166353896562 1173587780226877314 963925585447725034 ... 1153169119043899377 1018454431242790333 1308557182824809564 887480522650467527 969858401786971409 1059979163712952881 1324243133266076963 961151771637378539 886132921105519800 1456318751898837215
999 1136341356565043694 1021718600892057649 1292555632658818190 1188156840749260723 1237809992990594078 1186860503527684768 991030242443354666 718566214149503961 1175537488451876694 967001372097944574 ... 1153524670130462007 1019226728834090649 1309362504241210518 889524698403563972 970383249615120669 1061556315082807175 1324949949234097826 962819995802818255 886343774676067441 1456324188425788303

1000 rows × 1391 columns


In [30]:
df = %precision
from sklearn import decomposition
pca = decomposition.PCA()
pcaDf = pca.fit_transform(df.T)
fig = plt.figure(figsize=(10,10))
scatter(pcaDf[:,0],pcaDf[:,1],s=40)
# ax = Axes3D(fig)
# ax.scatter(xs=pcaDf[:,1],ys=pcaDf[:,2],zs=pcaDf[:,3])


Out[30]:
<matplotlib.collections.PathCollection at 0x1249e7710>

In [46]:
Z.


---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-46-d05221aa5660> in <module>()
----> 1 Z.getfield('S1_788')

TypeError: data type "S1_788" not understood

In [40]:
df=dforig

In [48]:
from scipy.cluster.hierarchy import cophenet
from scipy.spatial.distance import pdist

from scipy.cluster.hierarchy import dendrogram, linkage
Z=linkage(df,'complete')

plt.figure(figsize=(100,40))
ax=dendrogram(Z,leaf_rotation=90.,leaf_font_size=8.)
plt.show()


<built-in method keys of dict object at 0x12db0a168>