notebook.community

Edit and run



In [1]:

    
from collections import defaultdict, OrderedDict
import warnings
import logging
import gffutils
import pybedtools
import pandas as pd
import copy
import re
from gffutils.pybedtools_integration import tsses

logging.basicConfig(level=logging.INFO)



In [2]:

    
gtf = '/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gtf'
gtf_db = '/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gtf.db'
prefix = '/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils'
chrsizes = '/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/fasta/Xenopus_tropicalis.JGI_4.2.dna.toplevel.sizes'



In [3]:

    
db = gffutils.create_db(gtf, dbfn=gtf_db, disable_infer_genes=True, disable_infer_transcripts=True, merge_strategy='merge', force=True)
def create_gene_dict(db):
    '''
    Store each feature line db.all_features() as a dict of dicts
    '''
    gene_dict = defaultdict(lambda: defaultdict(lambda: defaultdict(list)))
    for line_no, feature in enumerate(db.all_features()):
        gene_ids = feature.attributes['gene_id']
        feature_type = feature.featuretype
        if feature_type == 'gene':
            if len(gene_ids)!=1:
                logging.warning('Found multiple gene_ids on line {} in gtf'.format(line_no))
                break
            else:
                gene_id = gene_ids[0]
                gene_dict[gene_id]['gene'] = feature
        else:
            transcript_ids = feature.attributes['transcript_id']

            for gene_id in gene_ids:
                for transcript_id in transcript_ids:
                    gene_dict[gene_id][transcript_id][feature_type].append(feature)
    return gene_dict



In [4]:

    
db = gffutils.FeatureDB(gtf_db, keep_order=True)
gene_dict = create_gene_dict(db)



In [5]:

    
for x in db.featuretypes():
    print(x)









    



CDS
exon
five_prime_utr
gene
start_codon
stop_codon
three_prime_utr
transcript



In [6]:

    
def get_gene_list(gene_dict):
    return list(set(gene_dict.keys()))

def get_UTR_regions(gene_dict, gene_id, transcript, cds):
    if len(cds)==0:
        return [], []
    utr5_regions = []
    utr3_regions = []
    utrs = gene_dict[gene_id][transcript]['UTR']
    first_cds = cds[0]
    last_cds = cds[-1]
    for utr in utrs:
        ## Push all cds at once
        ## Sort later to remove duplicates
        strand = utr.strand
        if strand == '+':
            if utr.stop < first_cds.start:
                utr.feature_type = 'five_prime_UTR'
                utr5_regions.append(utr)
            elif utr.start > last_cds.stop:
                utr.feature_type = 'three_prime_UTR'
                utr3_regions.append(utr)
            else:
                raise RuntimeError('Error with cds')
        elif strand == '-':
            if utr.stop < first_cds.start:
                utr.feature_type = 'three_prime_UTR'
                utr3_regions.append(utr)
            elif utr.start > last_cds.stop:
                utr.feature_type = 'five_prime_UTR'
                utr5_regions.append(utr)                
            else:
                raise RuntimeError('Error with cds')    
    return utr5_regions, utr3_regions
    
def create_bed(regions, bedtype='0'):
    '''Create bed from list of regions
    bedtype: 0 or 1
        0-Based or 1-based coordinate of the BED
    '''
    bedstr = ''
    for region in regions:
        assert len(region.attributes['gene_id']) == 1
        ## GTF start is 1-based, so shift by one while writing 
        ## to 0-based BED format
        if bedtype == '0':
            start = region.start - 1
        else:
            start = region.start
        bedstr += '{}\t{}\t{}\t{}\t{}\t{}\n'.format(region.chrom,
                                             start,
                                             region.stop,
                                             re.sub('\.\d+', '', region.attributes['gene_id'][0]),
                                             '.',
                                             region.strand)
    # Remove duplicates
    bedstr = '\n'.join(list(OrderedDict.fromkeys(bedstr.split('\n'))))
    return bedstr

def rename_regions(regions, gene_id):
    regions = list(regions)
    if len(regions) == 0:
        return []
    for region in regions:
        region.attributes['gene_id'] = gene_id
    return regions

def merge_regions(db, regions):
    if len(regions) == 0:
        return []
    merged = db.merge(sorted(list(regions), key=lambda x: x.start))
    return merged

def merge_regions_nostrand(db, regions):
    if len(regions) == 0:
        return []
    merged = db.merge(sorted(list(regions), key=lambda x: x.start), ignore_strand=True)
    return merged



In [7]:

    
utr5_bed = ''
utr3_bed = ''



gene_bed = ''
exon_bed = ''
intron_bed = ''
start_codon_bed = ''
stop_codon_bed = ''
cds_bed = ''

gene_list = []

for gene_id in get_gene_list(gene_dict):
    gene_list.append(gene_dict[gene_id]['gene'])
    
    utr5_regions, utr3_regions = [], []
    exon_regions, intron_regions = [], []
    star_codon_regions, stop_codon_regions = [], []
    cds_regions = []
    
    for feature in gene_dict[gene_id].keys():
        if feature == 'gene':
            continue
        cds = list(gene_dict[gene_id][feature]['CDS'])
        exons = list(gene_dict[gene_id][feature]['exon'])
        merged_exons = merge_regions(db, exons)
        introns = db.interfeatures(merged_exons)
        utr5_region = list(gene_dict[gene_id][feature]['five_prime_utr'])
        utr3_region = list(gene_dict[gene_id][feature]['three_prime_utr'])
        utr5_regions += utr5_region
        utr3_regions += utr3_region
        exon_regions += exons
        intron_regions += introns
        cds_regions += cds
        
    merged_utr5 = merge_regions(db, utr5_regions)
    renamed_utr5 = rename_regions(merged_utr5, gene_id)
    
    merged_utr3 = merge_regions(db, utr3_regions)
    renamed_utr3 = rename_regions(merged_utr3, gene_id)
    
    merged_exons = merge_regions(db, exon_regions)
    renamed_exons = rename_regions(merged_exons, gene_id)
    
    merged_introns = merge_regions(db, intron_regions)
    renamed_introns = rename_regions(merged_introns, gene_id)
    
    merged_cds = merge_regions(db, cds_regions)
    renamed_cds = rename_regions(merged_cds, gene_id)
    
    utr3_bed += create_bed(renamed_utr3)
    utr5_bed += create_bed(renamed_utr5)
    exon_bed += create_bed(renamed_exons)
    intron_bed += create_bed(renamed_introns)
    cds_bed += create_bed(renamed_cds)
    
    
gene_bed = create_bed(gene_list)
gene_bedtool = pybedtools.BedTool(gene_bed, from_string=True)
utr5_bedtool = pybedtools.BedTool(utr5_bed, from_string=True)
utr3_bedtool = pybedtools.BedTool(utr3_bed, from_string=True)
exon_bedtool = pybedtools.BedTool(exon_bed, from_string=True)
intron_bedtool = pybedtools.BedTool(intron_bed, from_string=True)
cds_bedtool = pybedtools.BedTool(cds_bed, from_string=True)

gene_bedtool.remove_invalid().sort().saveas('{}.genes.bed'.format(prefix))
utr5_bedtool.remove_invalid().sort().saveas('{}.UTR5.bed'.format(prefix))
utr3_bedtool.remove_invalid().sort().saveas('{}.UTR3.bed'.format(prefix))
exon_bedtool.remove_invalid().sort().saveas('{}.exon.bed'.format(prefix))
intron_bedtool.remove_invalid().sort().saveas('{}.intron.bed'.format(prefix))
cds_bedtool.remove_invalid().sort().saveas('{}.cds.bed'.format(prefix))









    Out[7]:





<BedTool(/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.cds.bed)>



In [8]:

    
utr5_region_bed = ''
utr3_region_bed = ''


for gene_id in get_gene_list(gene_dict):
    utr5_regions = []
    utr3_regions = []
    for utr5_region in db.children(gene_id, featuretype='five_prime_utr'):
        utr5_regions.append(utr5_region)
    for utr3_region in db.children(gene_id, featuretype='three_prime_utr'):
        utr3_regions.append(utr3_region)
    merged_utr5_regions = merge_regions(db, utr5_regions)
    renamed_utr5_regions = rename_regions(merged_utr5_regions, gene_id)
    merged_utr3_regions = merge_regions(db, utr3_regions)
    renamed_utr3_regions = rename_regions(merged_utr3_regions, gene_id)
    
    utr5_region_bed += create_bed(renamed_utr5_regions)    
    utr3_region_bed += create_bed(renamed_utr3_regions)


    
utr5_region_bedtool = pybedtools.BedTool(utr5_region_bed, from_string=True)
utr3_region_bedtool = pybedtools.BedTool(utr3_region_bed, from_string=True)



In [9]:

    
utr5_region_bedtool.remove_invalid().sort().saveas('{}.utr5_region.bed'.format(prefix))
utr3_region_bedtool.remove_invalid().sort().saveas('{}.utr3_region.bed'.format(prefix))









    Out[9]:





<BedTool(/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.utr3_region.bed)>



In [11]:

    
'{}.utr5_region.bed'.format(prefix)









    Out[11]:





'/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.utr5_region.bed'



In [10]:

    
!bedSort /home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.utr3_region.bed /home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.utr3_region.bed



In [12]:

    
!bedSort /home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.utr5_region.bed /home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.utr5_region.bed



In [13]:

    
tRNA_sites = []
tRNA_bed = ''
for gene_id in get_gene_list(gene_dict):
    for transcript in db.children(gene_id, featuretype='transcript'):
        if 'tRNA' in transcript.attributes['gene_biotype'] or 'Mt_tRNA' in transcript.attributes['transcript_biotype']:
            tRNA_sites.append(transcript)
    #merged_tRNA_sites = merge_regions_nostrand(db, tRNA_sites)
    #renamed_tRNA_sites = rename_regions(merged_tRNA_sites, gene_id)
    tRNA_bed += create_bed(tRNA_sites)

tRNA_bed = '\n'.join(list(OrderedDict.fromkeys(tRNA_bed.split('\n'))))
tRNA_sites_bedtool = pybedtools.BedTool(tRNA_bed, from_string=True)
tRNA_sites_bedtool.remove_invalid().sort().saveas('{}.tRNA_sites.bed'.format(prefix))









    Out[13]:





<BedTool(/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.tRNA_sites.bed)>



In [14]:

    
tRNA_sites_bedtool.to_dataframe()









    Out[14]:







  
    
      
      chrom
      start
      end
      name
      score
      strand
    
  
  
    
      0
      NC_006839
      9498
      9568
      ENSXETG00000034379
      .
      +
    
    
      1
      NC_006839
      5004
      5073
      ENSXETG00000034366
      .
      +
    
    
      2
      NC_006839
      11648
      11717
      ENSXETG00000034384
      .
      +
    
    
      3
      NC_006839
      11717
      11785
      ENSXETG00000034385
      .
      +
    
    
      4
      NC_006839
      11785
      11858
      ENSXETG00000034386
      .
      +
    
    
      5
      NC_006839
      9911
      9980
      ENSXETG00000034381
      .
      +
    
    
      6
      NC_006839
      14186
      14255
      ENSXETG00000034389
      .
      -
    
    
      7
      NC_006839
      7798
      7872
      ENSXETG00000034375
      .
      +
    
    
      8
      NC_006839
      7039
      7108
      ENSXETG00000034373
      .
      +
    
    
      9
      NC_006839
      6953
      7024
      ENSXETG00000034372
      .
      -
    
    
      10
      NC_006839
      3759
      3830
      ENSXETG00000034362
      .
      +
    
    
      11
      NC_006839
      3829
      3900
      ENSXETG00000034363
      .
      -
    
    
      12
      NC_006839
      2716
      2791
      ENSXETG00000034360
      .
      +
    
    
      13
      NC_006839
      5146
      5219
      ENSXETG00000034368
      .
      -
    
    
      14
      NC_006839
      5257
      5323
      ENSXETG00000034369
      .
      -
    
    
      15
      NC_006839
      15499
      15566
      ENSXETG00000034392
      .
      +
    
    
      16
      NC_006839
      15399
      15470
      ENSXETG00000034391
      .
      +
    
    
      17
      NC_006839
      0
      68
      ENSXETG00000034356
      .
      +
    
    
      18
      NC_006839
      5076
      5145
      ENSXETG00000034367
      .
      -
    
    
      19
      NC_006839
      3899
      3968
      ENSXETG00000034364
      .
      +
    
    
      20
      NC_006839
      5323
      5393
      ENSXETG00000034370
      .
      -
    
    
      21
      NC_006839
      1011
      1081
      ENSXETG00000034358
      .
      +



In [15]:

    
rRNA_sites = []
rRNA_bed = ''
for gene_id in get_gene_list(gene_dict):
    for transcript in db.children(gene_id, featuretype='transcript'):
        if 'rRNA' in transcript.attributes['gene_biotype']:
            rRNA_sites.append(transcript)
    #renamed_rRNA_sites = rename_regions(rRNA_sites, gene_id)
    rRNA_bed += create_bed(rRNA_sites)
rRNA_bed = '\n'.join(list(OrderedDict.fromkeys(rRNA_bed.split('\n'))))
rRNA_sites_bedtool = pybedtools.BedTool(rRNA_bed, from_string=True)
rRNA_sites_bedtool.remove_invalid().sort().saveas('{}.rRNA_sites.bed'.format(prefix))









    Out[15]:





<BedTool(/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.rRNA_sites.bed)>



In [16]:

    
rRNA_sites_bedtool.to_dataframe()









    Out[16]:







  
    
      
      chrom
      start
      end
      name
      score
      strand
    
  
  
    
      0
      GL173208.1
      205449
      205579
      ENSXETG00000029707
      .
      -
    
    
      1
      GL172919.1
      1153290
      1153409
      ENSXETG00000029943
      .
      +
    
    
      2
      GL189750.1
      973
      1092
      ENSXETG00000031678
      .
      -
    
    
      3
      GL173818.1
      75436
      75555
      ENSXETG00000034259
      .
      -
    
    
      4
      GL177336.1
      7772
      7885
      ENSXETG00000031536
      .
      -
    
    
      5
      GL172919.1
      1153575
      1153610
      ENSXETG00000029722
      .
      +
    
    
      6
      GL173415.1
      198515
      198633
      ENSXETG00000029724
      .
      -
    
    
      7
      GL173816.1
      2970
      3070
      ENSXETG00000028457
      .
      +
    
    
      8
      GL174142.1
      57950
      58069
      ENSXETG00000028456
      .
      +
    
    
      9
      GL174142.1
      40568
      40687
      ENSXETG00000033568
      .
      +
    
    
      10
      GL173381.1
      110724
      110838
      ENSXETG00000031885
      .
      -
    
    
      11
      GL173707.1
      183537
      183656
      ENSXETG00000031550
      .
      -
    
    
      12
      GL175741.1
      8540
      8659
      ENSXETG00000032288
      .
      -
    
    
      13
      GL173818.1
      68334
      68453
      ENSXETG00000033770
      .
      -
    
    
      14
      GL189750.1
      445
      564
      ENSXETG00000033952
      .
      -
    
    
      15
      GL189750.1
      709
      828
      ENSXETG00000030279
      .
      -
    
    
      16
      GL174202.1
      69545
      69664
      ENSXETG00000028478
      .
      -
    
    
      17
      GL172639.1
      3585760
      3585878
      ENSXETG00000029301
      .
      +
    
    
      18
      GL173459.1
      204775
      204894
      ENSXETG00000029304
      .
      -
    
    
      19
      GL173797.1
      59573
      59692
      ENSXETG00000032947
      .
      -
    
    
      20
      GL172660.1
      771879
      771976
      ENSXETG00000029685
      .
      +
    
    
      21
      GL172660.1
      844146
      844224
      ENSXETG00000029689
      .
      +
    
    
      22
      GL174142.1
      46191
      46310
      ENSXETG00000031717
      .
      +
    
    
      23
      GL172919.1
      1157248
      1157367
      ENSXETG00000030619
      .
      +
    
    
      24
      GL174641.1
      712
      831
      ENSXETG00000031409
      .
      -
    
    
      25
      GL174142.1
      40832
      40951
      ENSXETG00000031388
      .
      +
    
    
      26
      GL173707.1
      186719
      186838
      ENSXETG00000031400
      .
      -
    
    
      27
      GL190802.1
      87
      206
      ENSXETG00000033034
      .
      +
    
    
      28
      GL172660.1
      30535
      30660
      ENSXETG00000029663
      .
      -
    
    
      29
      GL178569.1
      2918
      3037
      ENSXETG00000028202
      .
      -
    
    
      ...
      ...
      ...
      ...
      ...
      ...
      ...
    
    
      240
      GL173797.1
      55015
      55134
      ENSXETG00000030658
      .
      -
    
    
      241
      GL182039.1
      3291
      3410
      ENSXETG00000032777
      .
      -
    
    
      242
      GL172831.1
      790430
      790546
      ENSXETG00000029747
      .
      -
    
    
      243
      GL174641.1
      1235
      1354
      ENSXETG00000030186
      .
      -
    
    
      244
      GL182039.1
      2646
      2765
      ENSXETG00000030187
      .
      -
    
    
      245
      GL189750.1
      191
      300
      ENSXETG00000031329
      .
      -
    
    
      246
      GL173409.1
      293325
      293444
      ENSXETG00000031324
      .
      +
    
    
      247
      GL173797.1
      60119
      60238
      ENSXETG00000033670
      .
      -
    
    
      248
      GL173816.1
      8726
      8835
      ENSXETG00000028767
      .
      +
    
    
      249
      GL190659.1
      106
      225
      ENSXETG00000033890
      .
      -
    
    
      250
      GL172919.1
      1156467
      1156576
      ENSXETG00000028189
      .
      +
    
    
      251
      GL174142.1
      42152
      42271
      ENSXETG00000033330
      .
      +
    
    
      252
      GL173797.1
      55279
      55398
      ENSXETG00000031583
      .
      -
    
    
      253
      GL173818.1
      74397
      74516
      ENSXETG00000033798
      .
      -
    
    
      254
      GL173816.1
      7446
      7565
      ENSXETG00000033422
      .
      +
    
    
      255
      GL173707.1
      188644
      188763
      ENSXETG00000030219
      .
      -
    
    
      256
      GL190659.1
      370
      489
      ENSXETG00000030215
      .
      -
    
    
      257
      GL190802.1
      351
      470
      ENSXETG00000033937
      .
      +
    
    
      258
      GL174142.1
      43815
      43934
      ENSXETG00000033935
      .
      +
    
    
      259
      GL176103.1
      7975
      8094
      ENSXETG00000028141
      .
      -
    
    
      260
      GL174641.1
      976
      1095
      ENSXETG00000032309
      .
      -
    
    
      261
      GL176103.1
      7721
      7830
      ENSXETG00000028777
      .
      -
    
    
      262
      GL183261.1
      903
      1022
      ENSXETG00000033654
      .
      -
    
    
      263
      GL174202.1
      70602
      70721
      ENSXETG00000030086
      .
      -
    
    
      264
      GL172974.1
      672068
      672185
      ENSXETG00000028709
      .
      +
    
    
      265
      GL173707.1
      187948
      188067
      ENSXETG00000032468
      .
      -
    
    
      266
      GL178992.1
      2487
      2641
      ENSXETG00000030685
      .
      -
    
    
      267
      GL188195.1
      18
      137
      ENSXETG00000030020
      .
      -
    
    
      268
      GL173647.1
      100514
      100633
      ENSXETG00000028112
      .
      -
    
    
      269
      GL178273.1
      3967
      4119
      ENSXETG00000032797
      .
      -
    
  

270 rows × 6 columns



In [17]:

    
for gene_id in get_gene_list(gene_dict):
    start_codons = []
    stop_codons = []
    for start_codon in db.children(gene_id, featuretype='start_codon'):
        ## 1 -based stop
        ## 0-based start handled while converting to bed
        start_codon.stop = start_codon.start
        start_codons.append(start_codon)
    for stop_codon in db.children(gene_id, featuretype='stop_codon'):
        stop_codon.start = stop_codon.stop
        stop_codon.stop = stop_codon.stop+1
        stop_codons.append(stop_codon)
    merged_start_codons = merge_regions(db, start_codons)
    renamed_start_codons = rename_regions(merged_start_codons, gene_id)
    merged_stop_codons = merge_regions(db, stop_codons)
    renamed_stop_codons = rename_regions(merged_stop_codons, gene_id)
    
    start_codon_bed += create_bed(renamed_start_codons)    
    stop_codon_bed += create_bed(renamed_stop_codons)


    
start_codon_bedtool = pybedtools.BedTool(start_codon_bed, from_string=True)
stop_codon_bedtool = pybedtools.BedTool(stop_codon_bed, from_string=True)
start_codon_bedtool.remove_invalid().sort().saveas('{}.start_codon.bed'.format(prefix))
stop_codon_bedtool.remove_invalid().sort().saveas('{}.stop_codon.bed'.format(prefix))









    Out[17]:





<BedTool(/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.stop_codon.bed)>



In [18]:

    
## TSS
polyA_sites_bed = ''
tss_sites_bed = ''
for gene_id in get_gene_list(gene_dict):
    tss_sites = []
    polyA_sites = []
    for transcript in db.children(gene_id, featuretype='transcript'):
        start_t = copy.deepcopy(transcript)
        stop_t = copy.deepcopy(transcript)
        
        start_t.stop = start_t.start + 1
        
        stop_t.start = stop_t.stop
        
        if transcript.strand == '-':
            start_t, stop_t = stop_t, start_t
        polyA_sites.append(start_t)
        tss_sites.append(stop_t)
    merged_polyA_sites = merge_regions(db, polyA_sites)
    renamed_polyA_sites = rename_regions(merged_polyA_sites, gene_id)    
    merged_tss_sites = merge_regions(db, tss_sites)
    renamed_tss_sites = rename_regions(merged_tss_sites, gene_id)
    polyA_sites_bed += create_bed(renamed_polyA_sites)    
    tss_sites_bed += create_bed(renamed_tss_sites)

polyA_sites_bedtool = pybedtools.BedTool(polyA_sites_bed, from_string=True)
tss_sites_bedtool = pybedtools.BedTool(tss_sites_bed, from_string=True)
polyA_sites_bedtool.remove_invalid().sort().saveas('{}.polyA_sites.bed'.format(prefix))
tss_sites_bedtool.remove_invalid().sort().saveas('{}.tss_sites.bed'.format(prefix))









    Out[18]:





<BedTool(/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.tss_sites.bed)>



In [19]:

    
tss = tsses(db, as_bed6=True)#, merge_overlapping=True)
tss.remove_invalid().sort().saveas('{}.tss_temp.bed'.format(prefix))
promoter = tss.slop(l=1000, r=1000, s=True, g=chrsizes)
promoter.remove_invalid().sort().saveas('{}.promoter.1000.bed'.format(prefix))









    Out[19]:





<BedTool(/home/cmb-panasas2/skchoudh/genomes/xenopus_tropicalis_JGI_4.2/annotation/Xenopus_tropicalis.JGI_4.2.91.gffutils.promoter.1000.bed)>



In [20]:

    
for l in [1000, 2000, 3000, 4000, 5000]:
    promoter = tss.slop(l=l, r=l, s=True, g=chrsizes)
    promoter.remove_invalid().sort().saveas('{}.promoter.{}.bed'.format(prefix, l))



In [ ]:

	chrom	start	end	name	score	strand
0	NC_006839	9498	9568	ENSXETG00000034379	.	+
1	NC_006839	5004	5073	ENSXETG00000034366	.	+
2	NC_006839	11648	11717	ENSXETG00000034384	.	+
3	NC_006839	11717	11785	ENSXETG00000034385	.	+
4	NC_006839	11785	11858	ENSXETG00000034386	.	+
5	NC_006839	9911	9980	ENSXETG00000034381	.	+
6	NC_006839	14186	14255	ENSXETG00000034389	.	-
7	NC_006839	7798	7872	ENSXETG00000034375	.	+
8	NC_006839	7039	7108	ENSXETG00000034373	.	+
9	NC_006839	6953	7024	ENSXETG00000034372	.	-
10	NC_006839	3759	3830	ENSXETG00000034362	.	+
11	NC_006839	3829	3900	ENSXETG00000034363	.	-
12	NC_006839	2716	2791	ENSXETG00000034360	.	+
13	NC_006839	5146	5219	ENSXETG00000034368	.	-
14	NC_006839	5257	5323	ENSXETG00000034369	.	-
15	NC_006839	15499	15566	ENSXETG00000034392	.	+
16	NC_006839	15399	15470	ENSXETG00000034391	.	+
17	NC_006839	0	68	ENSXETG00000034356	.	+
18	NC_006839	5076	5145	ENSXETG00000034367	.	-
19	NC_006839	3899	3968	ENSXETG00000034364	.	+
20	NC_006839	5323	5393	ENSXETG00000034370	.	-
21	NC_006839	1011	1081	ENSXETG00000034358	.	+

	chrom	start	end	name	score	strand
0	GL173208.1	205449	205579	ENSXETG00000029707	.	-
1	GL172919.1	1153290	1153409	ENSXETG00000029943	.	+
2	GL189750.1	973	1092	ENSXETG00000031678	.	-
3	GL173818.1	75436	75555	ENSXETG00000034259	.	-
4	GL177336.1	7772	7885	ENSXETG00000031536	.	-
5	GL172919.1	1153575	1153610	ENSXETG00000029722	.	+
6	GL173415.1	198515	198633	ENSXETG00000029724	.	-
7	GL173816.1	2970	3070	ENSXETG00000028457	.	+
8	GL174142.1	57950	58069	ENSXETG00000028456	.	+
9	GL174142.1	40568	40687	ENSXETG00000033568	.	+
10	GL173381.1	110724	110838	ENSXETG00000031885	.	-
11	GL173707.1	183537	183656	ENSXETG00000031550	.	-
12	GL175741.1	8540	8659	ENSXETG00000032288	.	-
13	GL173818.1	68334	68453	ENSXETG00000033770	.	-
14	GL189750.1	445	564	ENSXETG00000033952	.	-
15	GL189750.1	709	828	ENSXETG00000030279	.	-
16	GL174202.1	69545	69664	ENSXETG00000028478	.	-
17	GL172639.1	3585760	3585878	ENSXETG00000029301	.	+
18	GL173459.1	204775	204894	ENSXETG00000029304	.	-
19	GL173797.1	59573	59692	ENSXETG00000032947	.	-
20	GL172660.1	771879	771976	ENSXETG00000029685	.	+
21	GL172660.1	844146	844224	ENSXETG00000029689	.	+
22	GL174142.1	46191	46310	ENSXETG00000031717	.	+
23	GL172919.1	1157248	1157367	ENSXETG00000030619	.	+
24	GL174641.1	712	831	ENSXETG00000031409	.	-
25	GL174142.1	40832	40951	ENSXETG00000031388	.	+
26	GL173707.1	186719	186838	ENSXETG00000031400	.	-
27	GL190802.1	87	206	ENSXETG00000033034	.	+
28	GL172660.1	30535	30660	ENSXETG00000029663	.	-
29	GL178569.1	2918	3037	ENSXETG00000028202	.	-
...	...	...	...	...	...	...
240	GL173797.1	55015	55134	ENSXETG00000030658	.	-
241	GL182039.1	3291	3410	ENSXETG00000032777	.	-
242	GL172831.1	790430	790546	ENSXETG00000029747	.	-
243	GL174641.1	1235	1354	ENSXETG00000030186	.	-
244	GL182039.1	2646	2765	ENSXETG00000030187	.	-
245	GL189750.1	191	300	ENSXETG00000031329	.	-
246	GL173409.1	293325	293444	ENSXETG00000031324	.	+
247	GL173797.1	60119	60238	ENSXETG00000033670	.	-
248	GL173816.1	8726	8835	ENSXETG00000028767	.	+
249	GL190659.1	106	225	ENSXETG00000033890	.	-
250	GL172919.1	1156467	1156576	ENSXETG00000028189	.	+
251	GL174142.1	42152	42271	ENSXETG00000033330	.	+
252	GL173797.1	55279	55398	ENSXETG00000031583	.	-
253	GL173818.1	74397	74516	ENSXETG00000033798	.	-
254	GL173816.1	7446	7565	ENSXETG00000033422	.	+
255	GL173707.1	188644	188763	ENSXETG00000030219	.	-
256	GL190659.1	370	489	ENSXETG00000030215	.	-
257	GL190802.1	351	470	ENSXETG00000033937	.	+
258	GL174142.1	43815	43934	ENSXETG00000033935	.	+
259	GL176103.1	7975	8094	ENSXETG00000028141	.	-
260	GL174641.1	976	1095	ENSXETG00000032309	.	-
261	GL176103.1	7721	7830	ENSXETG00000028777	.	-
262	GL183261.1	903	1022	ENSXETG00000033654	.	-
263	GL174202.1	70602	70721	ENSXETG00000030086	.	-
264	GL172974.1	672068	672185	ENSXETG00000028709	.	+
265	GL173707.1	187948	188067	ENSXETG00000032468	.	-
266	GL178992.1	2487	2641	ENSXETG00000030685	.	-
267	GL188195.1	18	137	ENSXETG00000030020	.	-
268	GL173647.1	100514	100633	ENSXETG00000028112	.	-
269	GL178273.1	3967	4119	ENSXETG00000032797	.	-