notebook.community

Edit and run



In [1]:

    
import tensorflow as tf
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from scipy.sparse import csr_matrix
from collections import Counter
import collections
import random
from six.moves import urllib
from six.moves import xrange  # pylint: disable=redefined-builtin
import Bio
from Bio import SeqIO
import os
import concurrent.futures
import functools
from functools import partial
import math
import threading
import time
import random
from random import shuffle
import pickle




# k-mer size to use
k = 9

#
# NOTE!!!!!!!!!!!!!!!!
#
# We can reduce problem space if we get the reverse complement, and add a bit to indicate reversed or not...
# Not really.... revcomp just doubles it back up again....
#
# Also -- Build a recurrent network to predict sequences that come after a given kmer?
# Look at word2vec, dna2vec, bag of words, skip-gram
#

# Problem space
space = 5 ** k

def partition(n, step, coll):
    for i in range(0, len(coll), step):
        if (i+n > len(coll)):
            break #  raise StopIteration...
        yield coll[i:i+n]
        
def get_kmers(k):
    return lambda sequence: partition(k, k, sequence)

def convert_nt(c):
    return {"N": 0, "A": 1, "C": 2, "T": 3, "G": 4}.get(c, 0)

def convert_nt_complement(c):
    return {"N": 0, "A": 3, "C": 4, "T": 1, "G": 2}.get(c, 0)

def convert_kmer_to_int(kmer):
    return int(''.join(str(x) for x in (map(convert_nt, kmer))), 5)

def convert_kmer_to_int_complement(kmer):
    return int(''.join(str(x) for x in reversed(list(map(convert_nt_complement, kmer)))), 5)

def convert_base5(n):
    return {"0": "N", "1": "A", "2": "C", "3": "T", "4": "G"}.get(n,"N")

def convert_to_kmer(kmer):
    return ''.join(map(convert_base5, str(np.base_repr(kmer, 5))))

# Not using sparse tensors anymore.
   
tf.logging.set_verbosity(tf.logging.INFO)

# Get all kmers, in order, with a sliding window of k (but sliding 1bp for each iteration up to k)
# Also get RC for all....

def kmer_processor(seq,offset):
    return list(map(convert_kmer_to_int, get_kmers(k)(seq[offset:])))

def get_kmers_from_seq(sequence):
    kmers_from_seq = list()

    kp = functools.partial(kmer_processor, sequence)
    
    for i in map(kp, range(0,k)):
        kmers_from_seq.append(i)

    rev = sequence[::-1]
    kpr = functools.partial(kmer_processor, rev)
    
    for i in map(kpr, range(0,k)):
        kmers_from_seq.append(i)
            
#    for i in range(0,k):
#        kmers_from_seq.append(kmer_processor(sequence,i))
#    for i in range(0,k):
#        kmers_from_seq.append(kmer_processor(rev, i))
    return kmers_from_seq

data = list()

def load_fasta(filename):
    data = list()
    for seq_record in SeqIO.parse(filename, "fasta"):
        data.extend(get_kmers_from_seq(seq_record.seq.upper()))
    return(data)
        
def get_kmers_from_file(filename):
    kmer_list = list()
    for seq_record in SeqIO.parse(filename, "fasta"):
        kmer_list.extend(get_kmers_from_seq(seq_record.seq.upper()))
    return set([item for sublist in kmer_list for item in sublist])

all_kmers = set()

# Very slow, should make this part concurrent...

def find_all_kmers(directory):
    kmer_master_list = list()
    files = [directory + "/" + f for f in os.listdir(directory)]
    with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor:
        for i in executor.map(get_kmers_from_file, files):
            kmer_master_list.extend(list(i))
            kmer_master_list = list(set(kmer_master_list))
            print("Total unique kmers: " + str(len(set(kmer_master_list))))
    return set(kmer_master_list)



In [ ]:



In [2]:

    
# So..... find_all_kmers works (takes awhile, but that's OK)
# What is needed next is a generate training data that picks a random file, 
# loads it up, and generates random kmer sets from there....
# But needs to do it in a way that guarantees all files will eventually get picked, then come back around and give it another
# run-through...
# Probably too difficult to keep all files in memory, but could probably keep 10 - 20 files in memory....

# files = os.listdir("data-files/");
# random.shuffle(files)

# for i in files:
#     print(i)



In [3]:

    
# all_kmers = find_all_kmers("data-files/")
# len(all_kmers)



In [4]:

    
# Because this was run at work on a smaller sample of files....
# with open("all_kmers_subset.txt", "w") as f:
#     for s in all_kmers:
#         f.write(str(s) +"\n")

# Because this was run at work on a smaller sample of files....
all_kmers = list()
# with open("all_kmers_subset.txt", "r") as f:
#     for line in f:
#         all_kmers.append(int(line.strip()))

all_kmers = pickle.load(open("all_kmers.p", "rb"))

all_kmers = set(all_kmers)
len(all_kmers)









    Out[4]:





269132



In [5]:

    
#data = list()
#for i in [seq_main, seq_psyma, seq_psymb]:
#    data.extend(get_kmers_from_seq(i))



In [6]:

    
# len(data)

# all_kmers = set([item for sublist in data for item in sublist])
unused_kmers = set(range(0, space)) - all_kmers

kmer_dict = dict()
reverse_kmer_dict = dict();

a = 0
for i in all_kmers:
    kmer_dict[i] = a
    reverse_kmer_dict[a] = i
    a += 1
    
kmer_count = len(all_kmers)

[len(all_kmers), len(unused_kmers), space]









    Out[6]:





[269132, 1683993, 1953125]



In [ ]:



In [7]:

    
def gen_random_training_data(input_data, window_size):
    idx = random.randrange(0, len(input_data))
    training_data = list();
    for i in range(idx - window_size, idx + window_size):
        if (i < 0): continue
        if (i >= len(input_data)): break
        if (i == idx): continue
        if type(input_data[idx]) == list: break;
        if type(input_data[i]) == list: break
        training_data.append([kmer_dict[input_data[idx]], kmer_dict[input_data[i]]])
    return training_data

def training_file_generator(directory):
    files = [directory + "/" + f for f in os.listdir(directory)]
    random.shuffle(files)
    def gen():
        nonlocal files
        if (len(files) == 0):
            files = [directory + "/" + f for f in os.listdir(directory)]
            random.shuffle(files)
        return(files.pop())
    return gen

# The current state is, each training batch is from a single FASTA file (strain, usually)
# This can be ok, as long as training batch is a large number
# Need to speed up reading of FASTA files though, maybe pyfaidx or something?

def generate_training_batch(data, batch_size, window_size):
#    data = list()
#    data = load_fasta(filefn())
    training_data = list();
    while len(training_data) < batch_size:
         training_data.extend(gen_random_training_data(random.choice(data), window_size))
    return training_data[:batch_size]



In [8]:

    
#a = load_fasta(filegen())



In [9]:

    
# gen_random_training_data(random.choice(a), 4)



In [10]:

    
# valid_examples
# a = generate_training_batch(filegen, 1024, 4)
# len(a)



In [11]:

    
filegen = training_file_generator("data-files/")

training_data = load_fasta(filegen())

batch_size = 8192
embedding_size = 128
window_size = 4

validation_set = generate_training_batch(training_data, 10000, window_size)
validation_kmers = list(set([i[0] for i in validation_set]))
del validation_set

# We pick a random validation set to sample nearest neighbors. Here we limit the
# validation samples to the words that have a low numeric ID, which by
# construction are also the most frequent.
valid_size = 1024
valid_examples = [validation_kmers[i] for i in np.random.choice(len(validation_kmers), valid_size, replace=False)]
del validation_kmers
num_sampled = 256



In [12]:

    
graph = tf.Graph()

with graph.as_default():

  # Input data.
  train_inputs = tf.placeholder(tf.int32, shape=[batch_size])
  train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])
  valid_dataset = tf.constant(valid_examples, dtype=tf.int32)
  
  # Ops and variables pinned to the CPU because of missing GPU implementation
  # Look up embeddings for inputs.
  embeddings = tf.Variable(
      tf.random_uniform([kmer_count, embedding_size], -1.0, 1.0))
  embed = tf.nn.embedding_lookup(embeddings, train_inputs)

  # Construct the variables for the NCE loss
  nce_weights = tf.Variable(
      tf.truncated_normal([kmer_count, embedding_size],
                          stddev=1.0 / math.sqrt(embedding_size)))
  nce_biases = tf.Variable(tf.zeros([kmer_count]))

# Compute the average NCE loss for the batch.
  # tf.nce_loss automatically draws a new sample of the negative labels each
  # time we evaluate the loss.
  loss = tf.reduce_mean(
      tf.nn.nce_loss(weights=nce_weights,
                     biases=nce_biases,
                     labels=train_labels,
                     inputs=embed,
                     num_sampled=num_sampled,
                     num_classes=kmer_count))

  # Construct the SGD optimizer using a learning rate of 1.0.
  optimizer = tf.train.GradientDescentOptimizer(1.0).minimize(loss)
  # optimizer = tf.train.AdagradOptimizer(1.0).minimize(loss)

  # Compute the cosine similarity between minibatch examples and all embeddings.
  norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims=True))
  normalized_embeddings = embeddings / norm
  valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings, valid_dataset)
  similarity = tf.matmul(valid_embeddings, normalized_embeddings, transpose_b=True)

  # Add variable initializer.
  init = tf.global_variables_initializer()
  saver = tf.train.Saver()



In [13]:

    
## Temporary to get final_embeddings

num_steps = 1

with tf.Session(graph=graph, config=tf.ConfigProto(log_device_placement=True)) as session:
  # We must initialize all variables before we use them.
  init.run()
  print('Initialized')

  saver.restore(session, "my-model-200000")
  print("Model restored.")

  final_embeddings = normalized_embeddings.eval()









    



Initialized
INFO:tensorflow:Restoring parameters from my-model-200000
Model restored.



In [15]:

    
np.save("embeddings_200000" ,final_embeddings)



In [ ]:

    
num_steps = 10000001

print("Loading initial batch data, this could take a few minutes")

executor = concurrent.futures.ThreadPoolExecutor(max_workers=2)
future = executor.submit(load_fasta, filegen())

tdata = list()
tdata = future.result()
print("tdata length: ", str(len(tdata)))

with tf.Session(graph=graph, config=tf.ConfigProto(log_device_placement=True)) as session:
  # We must initialize all variables before we use them.
  init.run()
  print('Initialized')

  saver.restore(session, "my-model-200000")
  print("Model restored.")

  average_loss = 0
  for step in xrange(num_steps):
    
    if step % 15000 == 0: # Change files every 15k steps
        print("Loading new file at step: ", step)
        # Start loading the next file, so it has time to finish while the neural net does its training
        tdata = future.result()
        future = executor.submit(load_fasta, filegen())
        
    if step == 5:
        print("Reached step 5!")
        
    if len(tdata) == 0:
        print("Using short-circuit load-fasta at step: ", step)
        tdata = load_fasta(filegen()) # Emergency short-circuit here....
        
    batch_data = generate_training_batch(tdata, batch_size, window_size)
    feed_dict = {train_inputs: [x[0] for x in batch_data], 
                 train_labels: [[x[1]] for x in batch_data]}

    # We perform one update step by evaluating the optimizer op (including it
    # in the list of returned values for session.run()
    _, loss_val = session.run([optimizer, loss], feed_dict=feed_dict)
    average_loss += loss_val

    # Print status every 10k steps
    if step % 10000 == 0:
        if step > 0:
            average_loss /= 2000
            # The average loss is an estimate of the loss over the last 2000 batches.
        print('Average loss at step ', step, ': ', average_loss)
        average_loss = 0
    
    # Save every 50k steps
    if step % 100000 == 0:
        print("Saving model at step: ", step)
        saver.save(session, './kmer-model', global_step=step)
        print("Saved model at step: ", step)

        
#    if step % 20000 == 0:
#        sim = similarity.eval()
#        accuracy = 0
#        for i in range(0, 100):
#            rand_kmer = random.choice(list(validation_dict.keys()))
#            top_k = 10
#            nearest = (-sim[rand_kmer, :]).argsort()[1:top_k + 1]
            
  final_embeddings = normalized_embeddings.eval()
  saver.save(session, './kmer-model', global_step=step)









    



Loading initial batch data, this could take a few minutes



In [ ]:



In [30]:

    
validation_set = generate_training_batch(data, 1000, window_size)
validation_dict = dict()

for x in validation_set:
    if x[0] not in validation_dict:
        validation_dict[x[0]] = list()
    validation_dict[x[0]].append(x[1])

accuracy = 0
for i in range(0, 100):
    rand_kmer = random.choice(list(validation_dict.keys()))
    top_k = 10
    nearest = (-sim[rand_kmer, :]).argsort()[1:top_k + 1]









    



---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-30-5e800aa81459> in <module>()
     11     rand_kmer = random.choice(list(validation_dict.keys()))
     12     top_k = 10
---> 13     nearest = (-sim[rand_kmer, :]).argsort()[1:top_k + 1]

NameError: name 'sim' is not defined



In [226]:









    Out[226]:





'NNNNNNNNN'



In [8]:

    
a = next(get_kmers(k)(seq_main))









    



---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-8-3ce5270298da> in <module>()
----> 1 a = next(get_kmers(k)(seq_main))

NameError: name 'seq_main' is not defined



In [15]:

    
convert_kmer_to_int(a)









    Out[15]:





1059281



In [54]:

    
for i in sorted(c.keys()):









    



  File "<ipython-input-54-546688948bc3>", line 1
    z = [0, i] for i in sorted(c.keys()):
                 ^
SyntaxError: invalid syntax



In [51]:

    
c = Counter(map(convert_kmer_to_int, get_kmers(k)(seq_main)))
keys = tuple(sorted(c.keys()))
vals = tuple(c.get(x) for x in keys)

tf.SparseTensor(indices=keys, values=vals, dense_shape=space)









    



---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
G:\ProgramData\Anaconda3\lib\site-packages\tensorflow\python\framework\tensor_shape.py in merge_with(self, other)
    559       try:
--> 560         self.assert_same_rank(other)
    561         new_dims = []

G:\ProgramData\Anaconda3\lib\site-packages\tensorflow\python\framework\tensor_shape.py in assert_same_rank(self, other)
    604         raise ValueError("Shapes %s and %s must have the same rank" % (self,
--> 605                                                                        other))
    606 

ValueError: Shapes (1713,) and (?, ?) must have the same rank

During handling of the above exception, another exception occurred:

ValueError                                Traceback (most recent call last)
G:\ProgramData\Anaconda3\lib\site-packages\tensorflow\python\framework\tensor_shape.py in with_rank(self, rank)
    634     try:
--> 635       return self.merge_with(unknown_shape(ndims=rank))
    636     except ValueError:

G:\ProgramData\Anaconda3\lib\site-packages\tensorflow\python\framework\tensor_shape.py in merge_with(self, other)
    565       except ValueError:
--> 566         raise ValueError("Shapes %s and %s are not compatible" % (self, other))
    567 

ValueError: Shapes (1713,) and (?, ?) are not compatible

During handling of the above exception, another exception occurred:

ValueError                                Traceback (most recent call last)
<ipython-input-51-c1ded7262b62> in <module>()
      3 vals = tuple(c.get(x) for x in keys)
      4 
----> 5 tf.SparseTensor(indices=keys, values=vals, dense_shape=space)

G:\ProgramData\Anaconda3\lib\site-packages\tensorflow\python\framework\sparse_tensor.py in __init__(self, indices, values, dense_shape)
    130     self._dense_shape = dense_shape
    131 
--> 132     indices_shape = indices.get_shape().with_rank(2)
    133     values_shape = values.get_shape().with_rank(1)
    134     dense_shape_shape = dense_shape.get_shape().with_rank(1)

G:\ProgramData\Anaconda3\lib\site-packages\tensorflow\python\framework\tensor_shape.py in with_rank(self, rank)
    635       return self.merge_with(unknown_shape(ndims=rank))
    636     except ValueError:
--> 637       raise ValueError("Shape %s must have rank %d" % (self, rank))
    638 
    639   def with_rank_at_least(self, rank):

ValueError: Shape (1713,) must have rank 2



In [49]:

    
i









    Out[49]:





1952288



In [2]:

    
seq_main  = "CTCTGGAAAGGAGATTCGGCAGTGCGAAGGCGAGGCCCGCAAGGACGACCAGCCAGATGAGAATATTCTTGAACGGCGACAACCTGGGCATATTTCGAAATGCTCCATCCGCCGGTCTCTGCCGGTCGCGGCCCTTGCCCTAACCACGGTGATTTTGGCCTCGCGTCGCTCCAAAATCAAACCGTGATCAATGCCGATCGAAGGCGCGGTATGCGGGCGAAAACCGCGCACGCTTCTTCAAGTACCCGCGCCGGGGTTACTCCTTGACGGGCTCGCCCTTCACACGAACCTCGGAGACGCCGCTGCGCACGACGCGGACCTTGATGCCCTCGGCGATCTCCACTTCGAGCTCCGTATCGTCGACGACCTTGGTCACCTTGCCGACAATGCCGCCGCCGGTGACGACCTGGTCGCCGCGCCGGATGTTCTTCAGGAGCTCTTCGCGGCGCTTCATCTGCGCACGCTGCGGCCGGATGATCAGGAAATACATCACCACGAAGATCAGCAGGAATGGCAGGATGGACATCAGAATGTCGGCGCCGCCGCCCCAGGGGCCGCCGTCTGCGCGAAAGCTTCGGTAATAAACATCGATCACTCCTTGAGTTCAAATTGCGCGCTTGCCCCCGCGGCAAACCTGCCGGAATATAGGCAAGCCGTCCCGTAACACAAATCGTCGGTACACTTCCCCGTTTCTCCTGCCTCTGGCACAAATTCCGCAGCAGGAGAACCCCCTGGTTGCAGGCTGCCGGTCTTTTCCAGCGCAAACCGCCGTGCTACCGAGAAAAACGCCGCCGGCGGCAGCTTCAACGGATTCGACCGGAGGATGAACGTCGCGGCGATTCAAGGATTTGGGTGGGCTGACGCACGCCCGTTATCGCGCGGGTCGGCCGCCCAGTTCGAAATTCAGCCTGCCGGAGATACATGAAATGCCCGAAAGCAAGATCGACGTCCTGCTCAACGAAATACAGAAGCTTTCGGCCGCGATGGAGCGCATCGCCGGACCGGCATATGCCGTCAACAATTGGCATGAGGCGGAGTGTTTCGTCTGGGCACCGGCCACGCGCCACCTGCAGCCCGTCCCGAGGCCGAATCGCATCGACCTCGCGCTCATCGCCGGCGTCGACCATGTCCGCGACATTCTCTTCGACAACACGCTCCGCTTCGCCGAAGGCTATCCGGCGAACAACGTGCTCCTGTGGGGCGCCCGCGGCATGGGCAAATCGTCACTGGTCAAGGCGGTCCACGCAAAGGTCGCCCACGACACCGGCAGCGCAATCAAGCTTGTCGAAGTACACCGGGAGGATATCGCCACCCTGCCCGTGCTGATGGAAATCCTGAAGGCGGCGCCGATGCCCGTGATCGTCTTCTGCGATGATCTCTCCTTCGATCACGACGATACCTCCTACAAGTCGCTGAAGGCGGTTCTCGACGGCGGCGTCGAGGGGCGCCCGGCAAACGTTCTGCTCTATGCGACGTCCAACCGCAGACACCTGCTTCCCCGCAACATGATGGAAAATGAACAATCCACCGCCATTAACCCCTCGGAGGCCGTCGAGGAAAAAGTGTCGCTATCCGACCGCTTCGGGCTATGGCTGGGTTTCTACAAGTGCAGCCAGGACGACTATCTGGCGATGGTCGACGGGTATGCGCAGTACTTCAAATTGCCTCTCGAGCCCGAAGCGCTGCATGCCGAGGCTCTTGAATGGGCGACGACGCGAGGATCGAGGTCCGGCCGCGTCG"
seq_psyma = "GAACACCGGTACGGCGCCGAGCGCATCGACCTTCGACAGCCTGCTCGACAAGGGACAGGCCTCAGCCACCGATATTTGGTCACGTGCCTCCTGGCCGGTCGACATCGTCACCGGCGTCGGCGGCATGATGGTGATCGGCGCGAGCTTCATCGTCGCCGCGATCGGCTATATCGTCTCGCTTTACGCGCGGCTGGCGCTTGCCATCGTGCTCGCGATTGGACCAATTTTCGTGGCGCTCGCCATGTTTCAGGCGACGCGGCGCTTCACGGAGGCATGGATCGGCCAGCTTGCGAACTTTGTGATCCTCCAGGTCCTCGTCGTCGCCGTCGGCTCTCTACTGATCACCTGCATCGACACCACCTTCGCGGCGATCGACGGATATAGCGATGTGCTGATGCGGCCGATCGCACTCTGCGCCATCTGCCTCGCGGCTCTCTATGTCTTCTATCAACTCCCGAACATCGCCTCGGCGCTTGCCGCCGGCGGCGCGTCGTTGACCTACGGCTACGGCGCCGCACGCGACGCCCACGAAAGCACGCTCGCCTGGGCGGCTTCCCATACCGTCCGTGCGGCCGGACGTGGTGTCCGTGCCGTTGGCCGAACCTTCACCTCAAAAGGCTCCGGATCATGACGCTTTTCGCACGAACAAGAGAAAGGCTTTCCAGGATTAATCAGAACGTTCCGCTGCTTTGCGTTGCGGCGATCTTAAGCGGTTGCGCATCGATGACCTATCCGCTCCCGAAATGTGACGGCTATTCGCGCCGGCCCCTCAATCGATCGATGTGGCAGTGGGAAGACAATAGCAACTTCAAGCTGAAACAGTCCGATGCGCGACCGGCGGCCTCTCAGTCCGTCGCCACCGCTTATGCCGGCGAGGGCAGGGAATTTCCCGCCTTCGCACATCTCGACATCGACGCATCCTATCGTCCTTGCGAGGGTTGACTCGATGGTCTCGGCGGACGAACTCAAGACATACTTCGAAAAGGCGCGACGCTTCGATCAGGACCGCGTGATCCAGGT"
seq_psymb = "cgcCGCGGCTGCGGTTCAGCGCCAGCTCCAGATTGTCCCAGACCGTATGGTTCTCGAAGACGGTCGGCTTCTGGAACTTGCGGCCGATGCCGAGCTCGGCGATTGCCGCTTCGTCTTTCTTGGTGAGGTCGATGTCGCCCTTGAAGAAGACCTCGCCCTCGTCCGGCCGCGTCTTGCCGGTGATGATGTCCATCATCGTCGTCTTGCCGGCGCCATTGGGGCCGATGATCGCGCGCAGTTCCCCCGGCTCTACGACGAAGGAGAGCGAGTTTAGCGCCTTGAAGCCATCGAAGGAGACGGAGACCCCATCGAGATAGAGCAGGTTCCTGGGTTTCTTTCCGGTCATGGCGATCACTCCGCGGCCACCGTTTCGGCGTCCGCAAGGCTCGCCGCTTTTTCGCTCTCGCTTTCCTTCCGGGCCGCCGCGTGGGATGTGCGCCGGCTTGCGAGATAGCTCTGCGCCGTGCCGACCACGCCCTTCGGCAGGAAAAGCGTGACGAGGACGAAGAGCCCGCCGAGCGCAAAGAGCCAGAATTCGGGGAAGGCGGCGGTGAATATGCTTTTTCCGCCGTTGACGAGGATCGCGCCGACGATCGGTCCGATCAGCGTGCCGCGCCCGCCGACAGCCGTCCATATGACCACCTCGATCGAATTGGCGGGGGCGAACTCGCCCGGATTGATGATGCCGACTTGCGGCACGTAGAGCGCGCCGGCGACGCCCGCCATCATTGCCGAGACCGTGAAGGCGAAGAGCTTCATGTGCTCGACGCGATAGCCGAGAAAGCGTGTGCGGCTTTCCGCGTCGCGCAGCGCCACCAGCACCTTGCCGAATTTCGAGCGGACGATGCCCGAGGTGACGACGAGCGAAACGGCAAGCGCCAGCGCGGAGGCTGCAAAGAGTGCCGCACGCGTTCCGTCGGCCTGGATGTTGAAGCCGAGGATGTCCTTGAAATCGGTGAGCCCGTTATTGCCGCCGAAGCCCATGTCGTTGCGGAAGAAGGCGAGCAGCAGCGCATAGGTCATCGCCTGGGTGATGATCGAGAGATAGACCCCGTTGACCCGCGAGCGGAAGGCGAACCAGCCGAAGACGAAGGCAAGCAGGCCCGGCACCAGCACCACCATCAGCGCTGCGAACCAGAACATGTCGAAGCCGTACCAGAACCAGGGCAGCTCCTTCCAGTTGAGAAAGACCATGAAGTCCGGCAGCAGCGGATTGCCGTAGGAGCCGCGTGCGCCGATCTGGCGCATCAGATACATGCCCATGGCATAGCCGCCGAGCGCGAAGAAGGCCGCATGCCCCAGCGAGAGGATGCCGCAGAA"



In [5]:

    
seq_main









    Out[5]:





'CTCTGGAAAGGAGATTCGGCAGTGCGAAGGCGAGGCCCGCAAGGACGACCAGCCAGATGAGAATATTCTTGAACGGCGACAACCTGGGCATATTTCGAAATGCTCCATCCGCCGGTCTCTGCCGGTCGCGGCCCTTGCCCTAACCACGGTGATTTTGGCCTCGCGTCGCTCCAAAATCAAACCGTGATCAATGCCGATCGAAGGCGCGGTATGCGGGCGAAAACCGCGCACGCTTCTTCAAGTACCCGCGCCGGGGTTACTCCTTGACGGGCTCGCCCTTCACACGAACCTCGGAGACGCCGCTGCGCACGACGCGGACCTTGATGCCCTCGGCGATCTCCACTTCGAGCTCCGTATCGTCGACGACCTTGGTCACCTTGCCGACAATGCCGCCGCCGGTGACGACCTGGTCGCCGCGCCGGATGTTCTTCAGGAGCTCTTCGCGGCGCTTCATCTGCGCACGCTGCGGCCGGATGATCAGGAAATACATCACCACGAAGATCAGCAGGAATGGCAGGATGGACATCAGAATGTCGGCGCCGCCGCCCCAGGGGCCGCCGTCTGCGCGAAAGCTTCGGTAATAAACATCGATCACTCCTTGAGTTCAAATTGCGCGCTTGCCCCCGCGGCAAACCTGCCGGAATATAGGCAAGCCGTCCCGTAACACAAATCGTCGGTACACTTCCCCGTTTCTCCTGCCTCTGGCACAAATTCCGCAGCAGGAGAACCCCCTGGTTGCAGGCTGCCGGTCTTTTCCAGCGCAAACCGCCGTGCTACCGAGAAAAACGCCGCCGGCGGCAGCTTCAACGGATTCGACCGGAGGATGAACGTCGCGGCGATTCAAGGATTTGGGTGGGCTGACGCACGCCCGTTATCGCGCGGGTCGGCCGCCCAGTTCGAAATTCAGCCTGCCGGAGATACATGAAATGCCCGAAAGCAAGATCGACGTCCTGCTCAACGAAATACAGAAGCTTTCGGCCGCGATGGAGCGCATCGCCGGACCGGCATATGCCGTCAACAATTGGCATGAGGCGGAGTGTTTCGTCTGGGCACCGGCCACGCGCCACCTGCAGCCCGTCCCGAGGCCGAATCGCATCGACCTCGCGCTCATCGCCGGCGTCGACCATGTCCGCGACATTCTCTTCGACAACACGCTCCGCTTCGCCGAAGGCTATCCGGCGAACAACGTGCTCCTGTGGGGCGCCCGCGGCATGGGCAAATCGTCACTGGTCAAGGCGGTCCACGCAAAGGTCGCCCACGACACCGGCAGCGCAATCAAGCTTGTCGAAGTACACCGGGAGGATATCGCCACCCTGCCCGTGCTGATGGAAATCCTGAAGGCGGCGCCGATGCCCGTGATCGTCTTCTGCGATGATCTCTCCTTCGATCACGACGATACCTCCTACAAGTCGCTGAAGGCGGTTCTCGACGGCGGCGTCGAGGGGCGCCCGGCAAACGTTCTGCTCTATGCGACGTCCAACCGCAGACACCTGCTTCCCCGCAACATGATGGAAAATGAACAATCCACCGCCATTAACCCCTCGGAGGCCGTCGAGGAAAAAGTGTCGCTATCCGACCGCTTCGGGCTATGGCTGGGTTTCTACAAGTGCAGCCAGGACGACTATCTGGCGATGGTCGACGGGTATGCGCAGTACTTCAAATTGCCTCTCGAGCCCGAAGCGCTGCATGCCGAGGCTCTTGAATGGGCGACGACGCGAGGATCGAGGTCCGGCCGCGTCG'



In [42]:

    
seq_main[0]









    Out[42]:





'C'



In [51]:

    
for i in get_kmers(10)(seq_main):
    print(i)









    



CTCTGGAAAG
TCTGGAAAGG
CTGGAAAGGA
TGGAAAGGAG
GGAAAGGAGA
GAAAGGAGAT
AAAGGAGATT
AAGGAGATTC
AGGAGATTCG
GGAGATTCGG
GAGATTCGGC
AGATTCGGCA
GATTCGGCAG
ATTCGGCAGT
TTCGGCAGTG
TCGGCAGTGC
CGGCAGTGCG
GGCAGTGCGA
GCAGTGCGAA
CAGTGCGAAG
AGTGCGAAGG
GTGCGAAGGC
TGCGAAGGCG
GCGAAGGCGA
CGAAGGCGAG
GAAGGCGAGG
AAGGCGAGGC
AGGCGAGGCC
GGCGAGGCCC
GCGAGGCCCG
CGAGGCCCGC
GAGGCCCGCA
AGGCCCGCAA
GGCCCGCAAG
GCCCGCAAGG
CCCGCAAGGA
CCGCAAGGAC
CGCAAGGACG
GCAAGGACGA
CAAGGACGAC
AAGGACGACC
AGGACGACCA
GGACGACCAG
GACGACCAGC
ACGACCAGCC
CGACCAGCCA
GACCAGCCAG
ACCAGCCAGA
CCAGCCAGAT
CAGCCAGATG
AGCCAGATGA
GCCAGATGAG
CCAGATGAGA
CAGATGAGAA
AGATGAGAAT
GATGAGAATA
ATGAGAATAT
TGAGAATATT
GAGAATATTC
AGAATATTCT
GAATATTCTT
AATATTCTTG
ATATTCTTGA
TATTCTTGAA
ATTCTTGAAC
TTCTTGAACG
TCTTGAACGG
CTTGAACGGC
TTGAACGGCG
TGAACGGCGA
GAACGGCGAC
AACGGCGACA
ACGGCGACAA
CGGCGACAAC
GGCGACAACC
GCGACAACCT
CGACAACCTG
GACAACCTGG
ACAACCTGGG
CAACCTGGGC
AACCTGGGCA
ACCTGGGCAT
CCTGGGCATA
CTGGGCATAT
TGGGCATATT
GGGCATATTT
GGCATATTTC
GCATATTTCG
CATATTTCGA
ATATTTCGAA
TATTTCGAAA
ATTTCGAAAT
TTTCGAAATG
TTCGAAATGC
TCGAAATGCT
CGAAATGCTC
GAAATGCTCC
AAATGCTCCA
AATGCTCCAT
ATGCTCCATC
TGCTCCATCC
GCTCCATCCG
CTCCATCCGC
TCCATCCGCC
CCATCCGCCG
CATCCGCCGG
ATCCGCCGGT
TCCGCCGGTC
CCGCCGGTCT
CGCCGGTCTC
GCCGGTCTCT
CCGGTCTCTG
CGGTCTCTGC
GGTCTCTGCC
GTCTCTGCCG
TCTCTGCCGG
CTCTGCCGGT
TCTGCCGGTC
CTGCCGGTCG
TGCCGGTCGC
GCCGGTCGCG
CCGGTCGCGG
CGGTCGCGGC
GGTCGCGGCC
GTCGCGGCCC
TCGCGGCCCT
CGCGGCCCTT
GCGGCCCTTG
CGGCCCTTGC
GGCCCTTGCC
GCCCTTGCCC
CCCTTGCCCT
CCTTGCCCTA
CTTGCCCTAA
TTGCCCTAAC
TGCCCTAACC
GCCCTAACCA
CCCTAACCAC
CCTAACCACG
CTAACCACGG
TAACCACGGT
AACCACGGTG
ACCACGGTGA
CCACGGTGAT
CACGGTGATT
ACGGTGATTT
CGGTGATTTT
GGTGATTTTG
GTGATTTTGG
TGATTTTGGC
GATTTTGGCC
ATTTTGGCCT
TTTTGGCCTC
TTTGGCCTCG
TTGGCCTCGC
TGGCCTCGCG
GGCCTCGCGT
GCCTCGCGTC
CCTCGCGTCG
CTCGCGTCGC
TCGCGTCGCT
CGCGTCGCTC
GCGTCGCTCC
CGTCGCTCCA
GTCGCTCCAA
TCGCTCCAAA
CGCTCCAAAA
GCTCCAAAAT
CTCCAAAATC
TCCAAAATCA
CCAAAATCAA
CAAAATCAAA
AAAATCAAAC
AAATCAAACC
AATCAAACCG
ATCAAACCGT
TCAAACCGTG
CAAACCGTGA
AAACCGTGAT
AACCGTGATC
ACCGTGATCA
CCGTGATCAA
CGTGATCAAT
GTGATCAATG
TGATCAATGC
GATCAATGCC
ATCAATGCCG
TCAATGCCGA
CAATGCCGAT
AATGCCGATC
ATGCCGATCG
TGCCGATCGA
GCCGATCGAA
CCGATCGAAG
CGATCGAAGG
GATCGAAGGC
ATCGAAGGCG
TCGAAGGCGC
CGAAGGCGCG
GAAGGCGCGG
AAGGCGCGGT
AGGCGCGGTA
GGCGCGGTAT
GCGCGGTATG
CGCGGTATGC
GCGGTATGCG
CGGTATGCGG
GGTATGCGGG
GTATGCGGGC
TATGCGGGCG
ATGCGGGCGA
TGCGGGCGAA
GCGGGCGAAA
CGGGCGAAAA
GGGCGAAAAC
GGCGAAAACC
GCGAAAACCG
CGAAAACCGC
GAAAACCGCG
AAAACCGCGC
AAACCGCGCA
AACCGCGCAC
ACCGCGCACG
CCGCGCACGC
CGCGCACGCT
GCGCACGCTT
CGCACGCTTC
GCACGCTTCT
CACGCTTCTT
ACGCTTCTTC
CGCTTCTTCA
GCTTCTTCAA
CTTCTTCAAG
TTCTTCAAGT
TCTTCAAGTA
CTTCAAGTAC
TTCAAGTACC
TCAAGTACCC
CAAGTACCCG
AAGTACCCGC
AGTACCCGCG
GTACCCGCGC
TACCCGCGCC
ACCCGCGCCG
CCCGCGCCGG
CCGCGCCGGG
CGCGCCGGGG
GCGCCGGGGT
CGCCGGGGTT
GCCGGGGTTA
CCGGGGTTAC
CGGGGTTACT
GGGGTTACTC
GGGTTACTCC
GGTTACTCCT
GTTACTCCTT
TTACTCCTTG
TACTCCTTGA
ACTCCTTGAC
CTCCTTGACG
TCCTTGACGG
CCTTGACGGG
CTTGACGGGC
TTGACGGGCT
TGACGGGCTC
GACGGGCTCG
ACGGGCTCGC
CGGGCTCGCC
GGGCTCGCCC
GGCTCGCCCT
GCTCGCCCTT
CTCGCCCTTC
TCGCCCTTCA
CGCCCTTCAC
GCCCTTCACA
CCCTTCACAC
CCTTCACACG
CTTCACACGA
TTCACACGAA
TCACACGAAC
CACACGAACC
ACACGAACCT
CACGAACCTC
ACGAACCTCG
CGAACCTCGG
GAACCTCGGA
AACCTCGGAG
ACCTCGGAGA
CCTCGGAGAC
CTCGGAGACG
TCGGAGACGC
CGGAGACGCC
GGAGACGCCG
GAGACGCCGC
AGACGCCGCT
GACGCCGCTG
ACGCCGCTGC
CGCCGCTGCG
GCCGCTGCGC
CCGCTGCGCA
CGCTGCGCAC
GCTGCGCACG
CTGCGCACGA
TGCGCACGAC
GCGCACGACG
CGCACGACGC
GCACGACGCG
CACGACGCGG
ACGACGCGGA
CGACGCGGAC
GACGCGGACC
ACGCGGACCT
CGCGGACCTT
GCGGACCTTG
CGGACCTTGA
GGACCTTGAT
GACCTTGATG
ACCTTGATGC
CCTTGATGCC
CTTGATGCCC
TTGATGCCCT
TGATGCCCTC
GATGCCCTCG
ATGCCCTCGG
TGCCCTCGGC
GCCCTCGGCG
CCCTCGGCGA
CCTCGGCGAT
CTCGGCGATC
TCGGCGATCT
CGGCGATCTC
GGCGATCTCC
GCGATCTCCA
CGATCTCCAC
GATCTCCACT
ATCTCCACTT
TCTCCACTTC
CTCCACTTCG
TCCACTTCGA
CCACTTCGAG
CACTTCGAGC
ACTTCGAGCT
CTTCGAGCTC
TTCGAGCTCC
TCGAGCTCCG
CGAGCTCCGT
GAGCTCCGTA
AGCTCCGTAT
GCTCCGTATC
CTCCGTATCG
TCCGTATCGT
CCGTATCGTC
CGTATCGTCG
GTATCGTCGA
TATCGTCGAC
ATCGTCGACG
TCGTCGACGA
CGTCGACGAC
GTCGACGACC
TCGACGACCT
CGACGACCTT
GACGACCTTG
ACGACCTTGG
CGACCTTGGT
GACCTTGGTC
ACCTTGGTCA
CCTTGGTCAC
CTTGGTCACC
TTGGTCACCT
TGGTCACCTT
GGTCACCTTG
GTCACCTTGC
TCACCTTGCC
CACCTTGCCG
ACCTTGCCGA
CCTTGCCGAC
CTTGCCGACA
TTGCCGACAA
TGCCGACAAT
GCCGACAATG
CCGACAATGC
CGACAATGCC
GACAATGCCG
ACAATGCCGC
CAATGCCGCC
AATGCCGCCG
ATGCCGCCGC
TGCCGCCGCC
GCCGCCGCCG
CCGCCGCCGG
CGCCGCCGGT
GCCGCCGGTG
CCGCCGGTGA
CGCCGGTGAC
GCCGGTGACG
CCGGTGACGA
CGGTGACGAC
GGTGACGACC
GTGACGACCT
TGACGACCTG
GACGACCTGG
ACGACCTGGT
CGACCTGGTC
GACCTGGTCG
ACCTGGTCGC
CCTGGTCGCC
CTGGTCGCCG
TGGTCGCCGC
GGTCGCCGCG
GTCGCCGCGC
TCGCCGCGCC
CGCCGCGCCG
GCCGCGCCGG
CCGCGCCGGA
CGCGCCGGAT
GCGCCGGATG
CGCCGGATGT
GCCGGATGTT
CCGGATGTTC
CGGATGTTCT
GGATGTTCTT
GATGTTCTTC
ATGTTCTTCA
TGTTCTTCAG
GTTCTTCAGG
TTCTTCAGGA
TCTTCAGGAG
CTTCAGGAGC
TTCAGGAGCT
TCAGGAGCTC
CAGGAGCTCT
AGGAGCTCTT
GGAGCTCTTC
GAGCTCTTCG
AGCTCTTCGC
GCTCTTCGCG
CTCTTCGCGG
TCTTCGCGGC
CTTCGCGGCG
TTCGCGGCGC
TCGCGGCGCT
CGCGGCGCTT
GCGGCGCTTC
CGGCGCTTCA
GGCGCTTCAT
GCGCTTCATC
CGCTTCATCT
GCTTCATCTG
CTTCATCTGC
TTCATCTGCG
TCATCTGCGC
CATCTGCGCA
ATCTGCGCAC
TCTGCGCACG
CTGCGCACGC
TGCGCACGCT
GCGCACGCTG
CGCACGCTGC
GCACGCTGCG
CACGCTGCGG
ACGCTGCGGC
CGCTGCGGCC
GCTGCGGCCG
CTGCGGCCGG
TGCGGCCGGA
GCGGCCGGAT
CGGCCGGATG
GGCCGGATGA
GCCGGATGAT
CCGGATGATC
CGGATGATCA
GGATGATCAG
GATGATCAGG
ATGATCAGGA
TGATCAGGAA
GATCAGGAAA
ATCAGGAAAT
TCAGGAAATA
CAGGAAATAC
AGGAAATACA
GGAAATACAT
GAAATACATC
AAATACATCA
AATACATCAC
ATACATCACC
TACATCACCA
ACATCACCAC
CATCACCACG
ATCACCACGA
TCACCACGAA
CACCACGAAG
ACCACGAAGA
CCACGAAGAT
CACGAAGATC
ACGAAGATCA
CGAAGATCAG
GAAGATCAGC
AAGATCAGCA
AGATCAGCAG
GATCAGCAGG
ATCAGCAGGA
TCAGCAGGAA
CAGCAGGAAT
AGCAGGAATG
GCAGGAATGG
CAGGAATGGC
AGGAATGGCA
GGAATGGCAG
GAATGGCAGG
AATGGCAGGA
ATGGCAGGAT
TGGCAGGATG
GGCAGGATGG
GCAGGATGGA
CAGGATGGAC
AGGATGGACA
GGATGGACAT
GATGGACATC
ATGGACATCA
TGGACATCAG
GGACATCAGA
GACATCAGAA
ACATCAGAAT
CATCAGAATG
ATCAGAATGT
TCAGAATGTC
CAGAATGTCG
AGAATGTCGG
GAATGTCGGC
AATGTCGGCG
ATGTCGGCGC
TGTCGGCGCC
GTCGGCGCCG
TCGGCGCCGC
CGGCGCCGCC
GGCGCCGCCG
GCGCCGCCGC
CGCCGCCGCC
GCCGCCGCCC
CCGCCGCCCC
CGCCGCCCCA
GCCGCCCCAG
CCGCCCCAGG
CGCCCCAGGG
GCCCCAGGGG
CCCCAGGGGC
CCCAGGGGCC
CCAGGGGCCG
CAGGGGCCGC
AGGGGCCGCC
GGGGCCGCCG
GGGCCGCCGT
GGCCGCCGTC
GCCGCCGTCT
CCGCCGTCTG
CGCCGTCTGC
GCCGTCTGCG
CCGTCTGCGC
CGTCTGCGCG
GTCTGCGCGA
TCTGCGCGAA
CTGCGCGAAA
TGCGCGAAAG
GCGCGAAAGC
CGCGAAAGCT
GCGAAAGCTT
CGAAAGCTTC
GAAAGCTTCG
AAAGCTTCGG
AAGCTTCGGT
AGCTTCGGTA
GCTTCGGTAA
CTTCGGTAAT
TTCGGTAATA
TCGGTAATAA
CGGTAATAAA
GGTAATAAAC
GTAATAAACA
TAATAAACAT
AATAAACATC
ATAAACATCG
TAAACATCGA
AAACATCGAT
AACATCGATC
ACATCGATCA
CATCGATCAC
ATCGATCACT
TCGATCACTC
CGATCACTCC
GATCACTCCT
ATCACTCCTT
TCACTCCTTG
CACTCCTTGA
ACTCCTTGAG
CTCCTTGAGT
TCCTTGAGTT
CCTTGAGTTC
CTTGAGTTCA
TTGAGTTCAA
TGAGTTCAAA
GAGTTCAAAT
AGTTCAAATT
GTTCAAATTG
TTCAAATTGC
TCAAATTGCG
CAAATTGCGC
AAATTGCGCG
AATTGCGCGC
ATTGCGCGCT
TTGCGCGCTT
TGCGCGCTTG
GCGCGCTTGC
CGCGCTTGCC
GCGCTTGCCC
CGCTTGCCCC
GCTTGCCCCC
CTTGCCCCCG
TTGCCCCCGC
TGCCCCCGCG
GCCCCCGCGG
CCCCCGCGGC
CCCCGCGGCA
CCCGCGGCAA
CCGCGGCAAA
CGCGGCAAAC
GCGGCAAACC
CGGCAAACCT
GGCAAACCTG
GCAAACCTGC
CAAACCTGCC
AAACCTGCCG
AACCTGCCGG
ACCTGCCGGA
CCTGCCGGAA
CTGCCGGAAT
TGCCGGAATA
GCCGGAATAT
CCGGAATATA
CGGAATATAG
GGAATATAGG
GAATATAGGC
AATATAGGCA
ATATAGGCAA
TATAGGCAAG
ATAGGCAAGC
TAGGCAAGCC
AGGCAAGCCG
GGCAAGCCGT
GCAAGCCGTC
CAAGCCGTCC
AAGCCGTCCC
AGCCGTCCCG
GCCGTCCCGT
CCGTCCCGTA
CGTCCCGTAA
GTCCCGTAAC
TCCCGTAACA
CCCGTAACAC
CCGTAACACA
CGTAACACAA
GTAACACAAA
TAACACAAAT
AACACAAATC
ACACAAATCG
CACAAATCGT
ACAAATCGTC
CAAATCGTCG
AAATCGTCGG
AATCGTCGGT
ATCGTCGGTA
TCGTCGGTAC
CGTCGGTACA
GTCGGTACAC
TCGGTACACT
CGGTACACTT
GGTACACTTC
GTACACTTCC
TACACTTCCC
ACACTTCCCC
CACTTCCCCG
ACTTCCCCGT
CTTCCCCGTT
TTCCCCGTTT
TCCCCGTTTC
CCCCGTTTCT
CCCGTTTCTC
CCGTTTCTCC
CGTTTCTCCT
GTTTCTCCTG
TTTCTCCTGC
TTCTCCTGCC
TCTCCTGCCT
CTCCTGCCTC
TCCTGCCTCT
CCTGCCTCTG
CTGCCTCTGG
TGCCTCTGGC
GCCTCTGGCA
CCTCTGGCAC
CTCTGGCACA
TCTGGCACAA
CTGGCACAAA
TGGCACAAAT
GGCACAAATT
GCACAAATTC
CACAAATTCC
ACAAATTCCG
CAAATTCCGC
AAATTCCGCA
AATTCCGCAG
ATTCCGCAGC
TTCCGCAGCA
TCCGCAGCAG
CCGCAGCAGG
CGCAGCAGGA
GCAGCAGGAG
CAGCAGGAGA
AGCAGGAGAA
GCAGGAGAAC
CAGGAGAACC
AGGAGAACCC
GGAGAACCCC
GAGAACCCCC
AGAACCCCCT
GAACCCCCTG
AACCCCCTGG
ACCCCCTGGT
CCCCCTGGTT
CCCCTGGTTG
CCCTGGTTGC
CCTGGTTGCA
CTGGTTGCAG
TGGTTGCAGG
GGTTGCAGGC
GTTGCAGGCT
TTGCAGGCTG
TGCAGGCTGC
GCAGGCTGCC
CAGGCTGCCG
AGGCTGCCGG
GGCTGCCGGT
GCTGCCGGTC
CTGCCGGTCT
TGCCGGTCTT
GCCGGTCTTT
CCGGTCTTTT
CGGTCTTTTC
GGTCTTTTCC
GTCTTTTCCA
TCTTTTCCAG
CTTTTCCAGC
TTTTCCAGCG
TTTCCAGCGC
TTCCAGCGCA
TCCAGCGCAA
CCAGCGCAAA
CAGCGCAAAC
AGCGCAAACC
GCGCAAACCG
CGCAAACCGC
GCAAACCGCC
CAAACCGCCG
AAACCGCCGT
AACCGCCGTG
ACCGCCGTGC
CCGCCGTGCT
CGCCGTGCTA
GCCGTGCTAC
CCGTGCTACC
CGTGCTACCG
GTGCTACCGA
TGCTACCGAG
GCTACCGAGA
CTACCGAGAA
TACCGAGAAA
ACCGAGAAAA
CCGAGAAAAA
CGAGAAAAAC
GAGAAAAACG
AGAAAAACGC
GAAAAACGCC
AAAAACGCCG
AAAACGCCGC
AAACGCCGCC
AACGCCGCCG
ACGCCGCCGG
CGCCGCCGGC
GCCGCCGGCG
CCGCCGGCGG
CGCCGGCGGC
GCCGGCGGCA
CCGGCGGCAG
CGGCGGCAGC
GGCGGCAGCT
GCGGCAGCTT
CGGCAGCTTC
GGCAGCTTCA
GCAGCTTCAA
CAGCTTCAAC
AGCTTCAACG
GCTTCAACGG
CTTCAACGGA
TTCAACGGAT
TCAACGGATT
CAACGGATTC
AACGGATTCG
ACGGATTCGA
CGGATTCGAC
GGATTCGACC
GATTCGACCG
ATTCGACCGG
TTCGACCGGA
TCGACCGGAG
CGACCGGAGG
GACCGGAGGA
ACCGGAGGAT
CCGGAGGATG
CGGAGGATGA
GGAGGATGAA
GAGGATGAAC
AGGATGAACG
GGATGAACGT
GATGAACGTC
ATGAACGTCG
TGAACGTCGC
GAACGTCGCG
AACGTCGCGG
ACGTCGCGGC
CGTCGCGGCG
GTCGCGGCGA
TCGCGGCGAT
CGCGGCGATT
GCGGCGATTC
CGGCGATTCA
GGCGATTCAA
GCGATTCAAG
CGATTCAAGG
GATTCAAGGA
ATTCAAGGAT
TTCAAGGATT
TCAAGGATTT
CAAGGATTTG
AAGGATTTGG
AGGATTTGGG
GGATTTGGGT
GATTTGGGTG
ATTTGGGTGG
TTTGGGTGGG
TTGGGTGGGC
TGGGTGGGCT
GGGTGGGCTG
GGTGGGCTGA
GTGGGCTGAC
TGGGCTGACG
GGGCTGACGC
GGCTGACGCA
GCTGACGCAC
CTGACGCACG
TGACGCACGC
GACGCACGCC
ACGCACGCCC
CGCACGCCCG
GCACGCCCGT
CACGCCCGTT
ACGCCCGTTA
CGCCCGTTAT
GCCCGTTATC
CCCGTTATCG
CCGTTATCGC
CGTTATCGCG
GTTATCGCGC
TTATCGCGCG
TATCGCGCGG
ATCGCGCGGG
TCGCGCGGGT
CGCGCGGGTC
GCGCGGGTCG
CGCGGGTCGG
GCGGGTCGGC
CGGGTCGGCC
GGGTCGGCCG
GGTCGGCCGC
GTCGGCCGCC
TCGGCCGCCC
CGGCCGCCCA
GGCCGCCCAG
GCCGCCCAGT
CCGCCCAGTT
CGCCCAGTTC
GCCCAGTTCG
CCCAGTTCGA
CCAGTTCGAA
CAGTTCGAAA
AGTTCGAAAT
GTTCGAAATT
TTCGAAATTC
TCGAAATTCA
CGAAATTCAG
GAAATTCAGC
AAATTCAGCC
AATTCAGCCT
ATTCAGCCTG
TTCAGCCTGC
TCAGCCTGCC
CAGCCTGCCG
AGCCTGCCGG
GCCTGCCGGA
CCTGCCGGAG
CTGCCGGAGA
TGCCGGAGAT
GCCGGAGATA
CCGGAGATAC
CGGAGATACA
GGAGATACAT
GAGATACATG
AGATACATGA
GATACATGAA
ATACATGAAA
TACATGAAAT
ACATGAAATG
CATGAAATGC
ATGAAATGCC
TGAAATGCCC
GAAATGCCCG
AAATGCCCGA
AATGCCCGAA
ATGCCCGAAA
TGCCCGAAAG
GCCCGAAAGC
CCCGAAAGCA
CCGAAAGCAA
CGAAAGCAAG
GAAAGCAAGA
AAAGCAAGAT
AAGCAAGATC
AGCAAGATCG
GCAAGATCGA
CAAGATCGAC
AAGATCGACG
AGATCGACGT
GATCGACGTC
ATCGACGTCC
TCGACGTCCT
CGACGTCCTG
GACGTCCTGC
ACGTCCTGCT
CGTCCTGCTC
GTCCTGCTCA
TCCTGCTCAA
CCTGCTCAAC
CTGCTCAACG
TGCTCAACGA
GCTCAACGAA
CTCAACGAAA
TCAACGAAAT
CAACGAAATA
AACGAAATAC
ACGAAATACA
CGAAATACAG
GAAATACAGA
AAATACAGAA
AATACAGAAG
ATACAGAAGC
TACAGAAGCT
ACAGAAGCTT
CAGAAGCTTT
AGAAGCTTTC
GAAGCTTTCG
AAGCTTTCGG
AGCTTTCGGC
GCTTTCGGCC
CTTTCGGCCG
TTTCGGCCGC
TTCGGCCGCG
TCGGCCGCGA
CGGCCGCGAT
GGCCGCGATG
GCCGCGATGG
CCGCGATGGA
CGCGATGGAG
GCGATGGAGC
CGATGGAGCG
GATGGAGCGC
ATGGAGCGCA
TGGAGCGCAT
GGAGCGCATC
GAGCGCATCG
AGCGCATCGC
GCGCATCGCC
CGCATCGCCG
GCATCGCCGG
CATCGCCGGA
ATCGCCGGAC
TCGCCGGACC
CGCCGGACCG
GCCGGACCGG
CCGGACCGGC
CGGACCGGCA
GGACCGGCAT
GACCGGCATA
ACCGGCATAT
CCGGCATATG
CGGCATATGC
GGCATATGCC
GCATATGCCG
CATATGCCGT
ATATGCCGTC
TATGCCGTCA
ATGCCGTCAA
TGCCGTCAAC
GCCGTCAACA
CCGTCAACAA
CGTCAACAAT
GTCAACAATT
TCAACAATTG
CAACAATTGG
AACAATTGGC
ACAATTGGCA
CAATTGGCAT
AATTGGCATG
ATTGGCATGA
TTGGCATGAG
TGGCATGAGG
GGCATGAGGC
GCATGAGGCG
CATGAGGCGG
ATGAGGCGGA
TGAGGCGGAG
GAGGCGGAGT
AGGCGGAGTG
GGCGGAGTGT
GCGGAGTGTT
CGGAGTGTTT
GGAGTGTTTC
GAGTGTTTCG
AGTGTTTCGT
GTGTTTCGTC
TGTTTCGTCT
GTTTCGTCTG
TTTCGTCTGG
TTCGTCTGGG
TCGTCTGGGC
CGTCTGGGCA
GTCTGGGCAC
TCTGGGCACC
CTGGGCACCG
TGGGCACCGG
GGGCACCGGC
GGCACCGGCC
GCACCGGCCA
CACCGGCCAC
ACCGGCCACG
CCGGCCACGC
CGGCCACGCG
GGCCACGCGC
GCCACGCGCC
CCACGCGCCA
CACGCGCCAC
ACGCGCCACC
CGCGCCACCT
GCGCCACCTG
CGCCACCTGC
GCCACCTGCA
CCACCTGCAG
CACCTGCAGC
ACCTGCAGCC
CCTGCAGCCC
CTGCAGCCCG
TGCAGCCCGT
GCAGCCCGTC
CAGCCCGTCC
AGCCCGTCCC
GCCCGTCCCG
CCCGTCCCGA
CCGTCCCGAG
CGTCCCGAGG
GTCCCGAGGC
TCCCGAGGCC
CCCGAGGCCG
CCGAGGCCGA
CGAGGCCGAA
GAGGCCGAAT
AGGCCGAATC
GGCCGAATCG
GCCGAATCGC
CCGAATCGCA
CGAATCGCAT
GAATCGCATC
AATCGCATCG
ATCGCATCGA
TCGCATCGAC
CGCATCGACC
GCATCGACCT
CATCGACCTC
ATCGACCTCG
TCGACCTCGC
CGACCTCGCG
GACCTCGCGC
ACCTCGCGCT
CCTCGCGCTC
CTCGCGCTCA
TCGCGCTCAT
CGCGCTCATC
GCGCTCATCG
CGCTCATCGC
GCTCATCGCC
CTCATCGCCG
TCATCGCCGG
CATCGCCGGC
ATCGCCGGCG
TCGCCGGCGT
CGCCGGCGTC
GCCGGCGTCG
CCGGCGTCGA
CGGCGTCGAC
GGCGTCGACC
GCGTCGACCA
CGTCGACCAT
GTCGACCATG
TCGACCATGT
CGACCATGTC
GACCATGTCC
ACCATGTCCG
CCATGTCCGC
CATGTCCGCG
ATGTCCGCGA
TGTCCGCGAC
GTCCGCGACA
TCCGCGACAT
CCGCGACATT
CGCGACATTC
GCGACATTCT
CGACATTCTC
GACATTCTCT
ACATTCTCTT
CATTCTCTTC
ATTCTCTTCG
TTCTCTTCGA
TCTCTTCGAC
CTCTTCGACA
TCTTCGACAA
CTTCGACAAC
TTCGACAACA
TCGACAACAC
CGACAACACG
GACAACACGC
ACAACACGCT
CAACACGCTC
AACACGCTCC
ACACGCTCCG
CACGCTCCGC
ACGCTCCGCT
CGCTCCGCTT
GCTCCGCTTC
CTCCGCTTCG
TCCGCTTCGC
CCGCTTCGCC
CGCTTCGCCG
GCTTCGCCGA
CTTCGCCGAA
TTCGCCGAAG
TCGCCGAAGG
CGCCGAAGGC
GCCGAAGGCT
CCGAAGGCTA
CGAAGGCTAT
GAAGGCTATC
AAGGCTATCC
AGGCTATCCG
GGCTATCCGG
GCTATCCGGC
CTATCCGGCG
TATCCGGCGA
ATCCGGCGAA
TCCGGCGAAC
CCGGCGAACA
CGGCGAACAA
GGCGAACAAC
GCGAACAACG
CGAACAACGT
GAACAACGTG
AACAACGTGC
ACAACGTGCT
CAACGTGCTC
AACGTGCTCC
ACGTGCTCCT
CGTGCTCCTG
GTGCTCCTGT
TGCTCCTGTG
GCTCCTGTGG
CTCCTGTGGG
TCCTGTGGGG
CCTGTGGGGC
CTGTGGGGCG
TGTGGGGCGC
GTGGGGCGCC
TGGGGCGCCC
GGGGCGCCCG
GGGCGCCCGC
GGCGCCCGCG
GCGCCCGCGG
CGCCCGCGGC
GCCCGCGGCA
CCCGCGGCAT
CCGCGGCATG
CGCGGCATGG
GCGGCATGGG
CGGCATGGGC
GGCATGGGCA
GCATGGGCAA
CATGGGCAAA
ATGGGCAAAT
TGGGCAAATC
GGGCAAATCG
GGCAAATCGT
GCAAATCGTC
CAAATCGTCA
AAATCGTCAC
AATCGTCACT
ATCGTCACTG
TCGTCACTGG
CGTCACTGGT
GTCACTGGTC
TCACTGGTCA
CACTGGTCAA
ACTGGTCAAG
CTGGTCAAGG
TGGTCAAGGC
GGTCAAGGCG
GTCAAGGCGG
TCAAGGCGGT
CAAGGCGGTC
AAGGCGGTCC
AGGCGGTCCA
GGCGGTCCAC
GCGGTCCACG
CGGTCCACGC
GGTCCACGCA
GTCCACGCAA
TCCACGCAAA
CCACGCAAAG
CACGCAAAGG
ACGCAAAGGT
CGCAAAGGTC
GCAAAGGTCG
CAAAGGTCGC
AAAGGTCGCC
AAGGTCGCCC
AGGTCGCCCA
GGTCGCCCAC
GTCGCCCACG
TCGCCCACGA
CGCCCACGAC
GCCCACGACA
CCCACGACAC
CCACGACACC
CACGACACCG
ACGACACCGG
CGACACCGGC
GACACCGGCA
ACACCGGCAG
CACCGGCAGC
ACCGGCAGCG
CCGGCAGCGC
CGGCAGCGCA
GGCAGCGCAA
GCAGCGCAAT
CAGCGCAATC
AGCGCAATCA
GCGCAATCAA
CGCAATCAAG
GCAATCAAGC
CAATCAAGCT
AATCAAGCTT
ATCAAGCTTG
TCAAGCTTGT
CAAGCTTGTC
AAGCTTGTCG
AGCTTGTCGA
GCTTGTCGAA
CTTGTCGAAG
TTGTCGAAGT
TGTCGAAGTA
GTCGAAGTAC
TCGAAGTACA
CGAAGTACAC
GAAGTACACC
AAGTACACCG
AGTACACCGG
GTACACCGGG
TACACCGGGA
ACACCGGGAG
CACCGGGAGG
ACCGGGAGGA
CCGGGAGGAT
CGGGAGGATA
GGGAGGATAT
GGAGGATATC
GAGGATATCG
AGGATATCGC
GGATATCGCC
GATATCGCCA
ATATCGCCAC
TATCGCCACC
ATCGCCACCC
TCGCCACCCT
CGCCACCCTG
GCCACCCTGC
CCACCCTGCC
CACCCTGCCC
ACCCTGCCCG
CCCTGCCCGT
CCTGCCCGTG
CTGCCCGTGC
TGCCCGTGCT
GCCCGTGCTG
CCCGTGCTGA
CCGTGCTGAT
CGTGCTGATG
GTGCTGATGG
TGCTGATGGA
GCTGATGGAA
CTGATGGAAA
TGATGGAAAT
GATGGAAATC
ATGGAAATCC
TGGAAATCCT
GGAAATCCTG
GAAATCCTGA
AAATCCTGAA
AATCCTGAAG
ATCCTGAAGG
TCCTGAAGGC
CCTGAAGGCG
CTGAAGGCGG
TGAAGGCGGC
GAAGGCGGCG
AAGGCGGCGC
AGGCGGCGCC
GGCGGCGCCG
GCGGCGCCGA
CGGCGCCGAT
GGCGCCGATG
GCGCCGATGC
CGCCGATGCC
GCCGATGCCC
CCGATGCCCG
CGATGCCCGT
GATGCCCGTG
ATGCCCGTGA
TGCCCGTGAT
GCCCGTGATC
CCCGTGATCG
CCGTGATCGT
CGTGATCGTC
GTGATCGTCT
TGATCGTCTT
GATCGTCTTC
ATCGTCTTCT
TCGTCTTCTG
CGTCTTCTGC
GTCTTCTGCG
TCTTCTGCGA
CTTCTGCGAT
TTCTGCGATG
TCTGCGATGA
CTGCGATGAT
TGCGATGATC
GCGATGATCT
CGATGATCTC
GATGATCTCT
ATGATCTCTC
TGATCTCTCC
GATCTCTCCT
ATCTCTCCTT
TCTCTCCTTC
CTCTCCTTCG
TCTCCTTCGA
CTCCTTCGAT
TCCTTCGATC
CCTTCGATCA
CTTCGATCAC
TTCGATCACG
TCGATCACGA
CGATCACGAC
GATCACGACG
ATCACGACGA
TCACGACGAT
CACGACGATA
ACGACGATAC
CGACGATACC
GACGATACCT
ACGATACCTC
CGATACCTCC
GATACCTCCT
ATACCTCCTA
TACCTCCTAC
ACCTCCTACA
CCTCCTACAA
CTCCTACAAG
TCCTACAAGT
CCTACAAGTC
CTACAAGTCG
TACAAGTCGC
ACAAGTCGCT
CAAGTCGCTG
AAGTCGCTGA
AGTCGCTGAA
GTCGCTGAAG
TCGCTGAAGG
CGCTGAAGGC
GCTGAAGGCG
CTGAAGGCGG
TGAAGGCGGT
GAAGGCGGTT
AAGGCGGTTC
AGGCGGTTCT
GGCGGTTCTC
GCGGTTCTCG
CGGTTCTCGA
GGTTCTCGAC
GTTCTCGACG
TTCTCGACGG
TCTCGACGGC
CTCGACGGCG
TCGACGGCGG
CGACGGCGGC
GACGGCGGCG
ACGGCGGCGT
CGGCGGCGTC
GGCGGCGTCG
GCGGCGTCGA
CGGCGTCGAG
GGCGTCGAGG
GCGTCGAGGG
CGTCGAGGGG
GTCGAGGGGC
TCGAGGGGCG
CGAGGGGCGC
GAGGGGCGCC
AGGGGCGCCC
GGGGCGCCCG
GGGCGCCCGG
GGCGCCCGGC
GCGCCCGGCA
CGCCCGGCAA
GCCCGGCAAA
CCCGGCAAAC
CCGGCAAACG
CGGCAAACGT
GGCAAACGTT
GCAAACGTTC
CAAACGTTCT
AAACGTTCTG
AACGTTCTGC
ACGTTCTGCT
CGTTCTGCTC
GTTCTGCTCT
TTCTGCTCTA
TCTGCTCTAT
CTGCTCTATG
TGCTCTATGC
GCTCTATGCG
CTCTATGCGA
TCTATGCGAC
CTATGCGACG
TATGCGACGT
ATGCGACGTC
TGCGACGTCC
GCGACGTCCA
CGACGTCCAA
GACGTCCAAC
ACGTCCAACC
CGTCCAACCG
GTCCAACCGC
TCCAACCGCA
CCAACCGCAG
CAACCGCAGA
AACCGCAGAC
ACCGCAGACA
CCGCAGACAC
CGCAGACACC
GCAGACACCT
CAGACACCTG
AGACACCTGC
GACACCTGCT
ACACCTGCTT
CACCTGCTTC
ACCTGCTTCC
CCTGCTTCCC
CTGCTTCCCC
TGCTTCCCCG
GCTTCCCCGC
CTTCCCCGCA
TTCCCCGCAA
TCCCCGCAAC
CCCCGCAACA
CCCGCAACAT
CCGCAACATG
CGCAACATGA
GCAACATGAT
CAACATGATG
AACATGATGG
ACATGATGGA
CATGATGGAA
ATGATGGAAA
TGATGGAAAA
GATGGAAAAT
ATGGAAAATG
TGGAAAATGA
GGAAAATGAA
GAAAATGAAC
AAAATGAACA
AAATGAACAA
AATGAACAAT
ATGAACAATC
TGAACAATCC
GAACAATCCA
AACAATCCAC
ACAATCCACC
CAATCCACCG
AATCCACCGC
ATCCACCGCC
TCCACCGCCA
CCACCGCCAT
CACCGCCATT
ACCGCCATTA
CCGCCATTAA
CGCCATTAAC
GCCATTAACC
CCATTAACCC
CATTAACCCC
ATTAACCCCT
TTAACCCCTC
TAACCCCTCG
AACCCCTCGG
ACCCCTCGGA
CCCCTCGGAG
CCCTCGGAGG
CCTCGGAGGC
CTCGGAGGCC
TCGGAGGCCG
CGGAGGCCGT
GGAGGCCGTC
GAGGCCGTCG
AGGCCGTCGA
GGCCGTCGAG
GCCGTCGAGG
CCGTCGAGGA
CGTCGAGGAA
GTCGAGGAAA
TCGAGGAAAA
CGAGGAAAAA
GAGGAAAAAG
AGGAAAAAGT
GGAAAAAGTG
GAAAAAGTGT
AAAAAGTGTC
AAAAGTGTCG
AAAGTGTCGC
AAGTGTCGCT
AGTGTCGCTA
GTGTCGCTAT
TGTCGCTATC
GTCGCTATCC
TCGCTATCCG
CGCTATCCGA
GCTATCCGAC
CTATCCGACC
TATCCGACCG
ATCCGACCGC
TCCGACCGCT
CCGACCGCTT
CGACCGCTTC
GACCGCTTCG
ACCGCTTCGG
CCGCTTCGGG
CGCTTCGGGC
GCTTCGGGCT
CTTCGGGCTA
TTCGGGCTAT
TCGGGCTATG
CGGGCTATGG
GGGCTATGGC
GGCTATGGCT
GCTATGGCTG
CTATGGCTGG
TATGGCTGGG
ATGGCTGGGT
TGGCTGGGTT
GGCTGGGTTT
GCTGGGTTTC
CTGGGTTTCT
TGGGTTTCTA
GGGTTTCTAC
GGTTTCTACA
GTTTCTACAA
TTTCTACAAG
TTCTACAAGT
TCTACAAGTG
CTACAAGTGC
TACAAGTGCA
ACAAGTGCAG
CAAGTGCAGC
AAGTGCAGCC
AGTGCAGCCA
GTGCAGCCAG
TGCAGCCAGG
GCAGCCAGGA
CAGCCAGGAC
AGCCAGGACG
GCCAGGACGA
CCAGGACGAC
CAGGACGACT
AGGACGACTA
GGACGACTAT
GACGACTATC
ACGACTATCT
CGACTATCTG
GACTATCTGG
ACTATCTGGC
CTATCTGGCG
TATCTGGCGA
ATCTGGCGAT
TCTGGCGATG
CTGGCGATGG
TGGCGATGGT
GGCGATGGTC
GCGATGGTCG
CGATGGTCGA
GATGGTCGAC
ATGGTCGACG
TGGTCGACGG
GGTCGACGGG
GTCGACGGGT
TCGACGGGTA
CGACGGGTAT
GACGGGTATG
ACGGGTATGC
CGGGTATGCG
GGGTATGCGC
GGTATGCGCA
GTATGCGCAG
TATGCGCAGT
ATGCGCAGTA
TGCGCAGTAC
GCGCAGTACT
CGCAGTACTT
GCAGTACTTC
CAGTACTTCA
AGTACTTCAA
GTACTTCAAA
TACTTCAAAT
ACTTCAAATT
CTTCAAATTG
TTCAAATTGC
TCAAATTGCC
CAAATTGCCT
AAATTGCCTC
AATTGCCTCT
ATTGCCTCTC
TTGCCTCTCG
TGCCTCTCGA
GCCTCTCGAG
CCTCTCGAGC
CTCTCGAGCC
TCTCGAGCCC
CTCGAGCCCG
TCGAGCCCGA
CGAGCCCGAA
GAGCCCGAAG
AGCCCGAAGC
GCCCGAAGCG
CCCGAAGCGC
CCGAAGCGCT
CGAAGCGCTG
GAAGCGCTGC
AAGCGCTGCA
AGCGCTGCAT
GCGCTGCATG
CGCTGCATGC
GCTGCATGCC
CTGCATGCCG
TGCATGCCGA
GCATGCCGAG
CATGCCGAGG
ATGCCGAGGC
TGCCGAGGCT
GCCGAGGCTC
CCGAGGCTCT
CGAGGCTCTT
GAGGCTCTTG
AGGCTCTTGA
GGCTCTTGAA
GCTCTTGAAT
CTCTTGAATG
TCTTGAATGG
CTTGAATGGG
TTGAATGGGC
TGAATGGGCG
GAATGGGCGA
AATGGGCGAC
ATGGGCGACG
TGGGCGACGA
GGGCGACGAC
GGCGACGACG
GCGACGACGC
CGACGACGCG
GACGACGCGA
ACGACGCGAG
CGACGCGAGG
GACGCGAGGA
ACGCGAGGAT
CGCGAGGATC
GCGAGGATCG
CGAGGATCGA
GAGGATCGAG
AGGATCGAGG
GGATCGAGGT
GATCGAGGTC
ATCGAGGTCC
TCGAGGTCCG
CGAGGTCCGG
GAGGTCCGGC
AGGTCCGGCC
GGTCCGGCCG
GTCCGGCCGC
TCCGGCCGCG
CCGGCCGCGT
CGGCCGCGTC
GGCCGCGTCG



In [55]:

    
convert_nt(\A)









    



  File "<ipython-input-55-10354c73e092>", line 1
    convert_nt(\A)
                  ^
SyntaxError: unexpected character after line continuation character



In [56]:

    
\A









    



  File "<ipython-input-56-118c51ecb1b3>", line 1
    \A
      ^
SyntaxError: unexpected character after line continuation character



In [135]:









    Out[135]:





476837158203125



In [ ]: