In [16]:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

In [17]:
sns.set_style('ticks')

In [3]:
data = pd.read_csv('../SRR1300451.stats.fa', header=None, 
                   names=['read_n', 'action', 'coverage', 'n_junctions', 'contig_id'])

In [5]:
data.sample(n=100)


Out[5]:
read_n action coverage n_junctions contig_id
14462999 1043009 s 33 NaN NaN
14780021 1358562 c 5 NaN NaN
2331940 2267136 c 2 NaN NaN
7970236 7770415 s 31 NaN NaN
597800 586285 c 1 NaN NaN
3328645 3237427 c 6 NaN NaN
10797926 10600454 c 0 NaN NaN
6168884 6002535 c 3 NaN NaN
11316472 11116997 s 61 NaN NaN
14369385 949693 c 7 NaN NaN
2483861 2414701 c 3 NaN NaN
909 909 c 0 NaN NaN
26169550 12537289 c 0 NaN NaN
23980275 10386213 a 30 NaN (1459661, 7)
22977026 9406045 c 18 NaN NaN
5695989 5541803 c 17 NaN NaN
5204174 5062413 c 10 NaN NaN
2933098 2851761 s 34 NaN NaN
13333953 13137019 s 36 NaN NaN
21865155 8315279 c 16 NaN NaN
10069952 9872753 s 32 NaN NaN
15829256 2400529 c 13 NaN NaN
11633345 11429901 c 13 NaN NaN
16412739 2978382 c 7 NaN NaN
19027811 5545333 s 37 NaN NaN
342314 337101 c 18 NaN NaN
17831754 4378188 s 34 NaN NaN
23378171 9798775 s 37 NaN NaN
7789911 7591615 s 57 NaN NaN
19630012 6133452 s 31 NaN NaN
... ... ... ... ... ...
25764800 12134536 c 4 NaN NaN
20789469 7261395 t 23 2.0 NaN
14161254 742221 c 13 NaN NaN
21419967 7875902 a 30 NaN (1271660, 0)
6417982 6244223 c 5 NaN NaN
4803686 4672921 c 12 NaN NaN
6854510 6668555 c 12 NaN NaN
11174502 10975584 s 36 NaN NaN
15454696 2028592 c 8 NaN NaN
9491260 9296288 s 32 NaN NaN
5932058 5771800 s 32 NaN NaN
2145521 2085937 c 1 NaN NaN
22098092 8546768 s 44 NaN NaN
5041313 4904746 t 20 1.0 NaN
5408187 5261827 a 30 NaN (342590, 0)
11560628 11357645 c 15 NaN NaN
10931240 10733305 c 0 NaN NaN
8699081 8503546 c 5 NaN NaN
17101989 3659592 s 34 NaN NaN
12406931 12200855 s 35 NaN NaN
18640443 5170262 s 49 NaN NaN
10723104 10525724 s 33 NaN NaN
10842121 10644489 c 13 NaN NaN
23113898 9540249 c 3 NaN NaN
11056635 10858275 c 7 NaN NaN
5927710 5767566 c 17 NaN NaN
17728463 4276360 s 39 NaN NaN
26405950 12771433 c 7 NaN NaN
18688210 5217101 s 45 NaN NaN
19193348 5706672 c 2 NaN NaN

100 rows × 5 columns


In [23]:
sns.lmplot(x='read_n', y='coverage', data=data[data.read_n < 10000], hue='action', fit_reg=False, size=8)


Out[23]:
<seaborn.axisgrid.FacetGrid at 0x7f1217b061d0>

In [ ]: