Prelab: Getting Started with BLAST

Instructions: For each problem, write your answers in the provided code block.

First, read the alignment lecture slides on canvas. They will assist you in answering the questions and understanding how BLAST works.

BLAST is a tool used to search for a query sequence in a larger database of sequences. For instance, it can help you find a gene of interest in many different species, find other genes that have sequence similarity to your gene of interest within the same species or help you align similar sequences. The official NCBI implementation of BLAST can be found at the URL: http://www.ncbi.nlm.nih.gov/blast/

Go to the NCBI BLAST web page in your favorite browser http://www.ncbi.nlm.nih.gov/blast/

Notice that BLAST is not really one single tool, but rather a suite of tools with slightly different functions depending on what type of sequence you want to align, and what type of database you want to search.

We will begin with a very simple problem. You work in a frog lab and a frequently-confused high-school student claims to have successfully sequenced a frog gene that contains many novel mutations. However, you want to double check that this is in fact the gene they are claiming. They give you the following nucleotide sequence they generated.

Task: You will need to figure out what gene they actually sequenced based on the nucleotide sequence. Below is the sequence whose origins you are investigating. Note that this is standard fasta format, with a carrot and sequence name on the first line, followed by the sequence on the next line. Your goal is to find the gene represented by this sequence, so you are looking for a highly similar match across all species. The most appropriate tool is “megablast”. This tool would also be appropriate for trying to find close homologs of a gene of interest across all species.

>GCB535, Sequence of Mystery AGTGGACTCACGCAGGCGCAGGAGACTACACTTCCCAGGAACTCCGGGCCGCGTTGTTCGCTGGTACCTC CTTCTGACTTCCGGTATTGCTGCGGTCTGTAGGGCCAATCGGGAGCCTGGAATTGCTTTCCCGGCGCTCT GATTGGTGCATTCGACTAGGCTGCCTGGGTTCAAAATTTCAACGATACTGAATGAGTCCCGCGGCGGGTT GGCTCGCGCTTCGTTGTCAGATCTGAGGCGAGGCTAGGTGAGCCGTGGGAAGAAAAGAGGGAGCAGCTAG GGCGCGGGTCTCCCTCCTCCCGGAGTTTGGAACGGCTGAAGTTCACCTTCCAGCCCCTAGCGCCGTTCGC GCCGCTAGGCCTGGCTTCTGAGGCGGTTGCGGTGCTCGGTCGCCGCCTAGGCGGGGCAGGGTGCGAGCAG GGGCTTCGGGCCACGCTTCTCTTGGCGACAGGATTTTGCTGTGAAGTCCGTCCGGGAAACGGAGGAAAAA AAGAGTTGCGGGAGGCTGTCGGCTAATAACGGTTCTTGATACATATTTGCCAGACTTCAAGATTTCAGAA AAGGGGTGAAAGAGAAGATTGCAACTTTGAGTCAGACCTGTAGGCCTGATAGACTGATTAAACCACAGAA GGTGACCTGCTGAGAAAAGTGGTACAAATACTGGGAAAAACCTGCTCTTCTGCGTTAAGTGGGAGACAAT GTCACAAGTTAAAAGCTCTTATTCCTATGATGCCCCCTCGGATTTCATCAATTTTTCATCCTTGGATGAT GAAGGAGATACTCAAAACATAGATTCATGGTTTGAGGAGAAGGCCAATTTGGAGAATAAGTTACTGGGGA AGAATGGAACTGGAGGGCTTTTTCAGGGCAAAACTCCTTTGAGAAAGGCTAATCTTCAGCAAGCTATTGT CACACCTTTGAAACCAGTTGACAACACTTACTACAAAGAGGCAGAAAAAGAAAATCTTGTGGAACAATCC ATTCCGTCAAATGCTTGTTCTTCCCTGGAAGTTGAGGCAGCCATATCAAGAAAAACTCCAGCCCAGCCTC AGAGAAGATCTCTTAGGCTTTCTGCTCAGAAGGATTTGGAACAGAAAGAAAAGCATCATGTAAAAATGAA AGCCAAGAGATGTGCCACTCCTGTAATCATCGATGAAATTCTACCCTCTAAGAAAATGAAAGTTTCTAAC AACAAAAAGAAGCCAGAGGAAGAAGGCAGTGCTCATCAAGATACTGCTGAAAAGAATGCATCTTCCCCAG AGAAAGCCAAGGGTAGACATACTGTGCCTTGTATGCCACCTGCAAAGCAGAAGTTTCTAAAAAGTACTGA GGAGCAAGAGCTGGAGAAGAGTATGAAAATGCAGCAAGAGGTGGTGGAGATGCGGAAAAAGAATGAAGAA TTCAAGAAACTTGCTCTGGCTGGAATAGGGCAACCTGTGAAGAAATCAGTGAGCCAGGTCACCAAATCAG TTGACTTCCACTTCCGCACAGATGAGCGAATCAAACAACATCCTAAGAACCAGGAGGAATATAAGGAAGT GAACTTTACATCTGAACTACGAAAGCATCCTTCATCTCCTGCCCGAGTGACTAAGGGATGTACCATTGTT AAGCCTTTCAACCTGTCCCAAGGAAAGAAAAGAACATTTGATGAAACAGTTTCTACATATGTGCCCCTTG CACAGCAAGTTGAAGACTTCCATAAACGAACCCCTAACAGATATCATTTGAGGAGCAAGAAGGATGATAT TAACCTGTTACCCTCCAAATCTTCTGTGACCAAGATTTGCAGAGACCCACAGACTCCTGTACTGCAAACC AAACACCGTGCACGGGCTGTGACCTGCAAAAGTACAGCAGAGCTGGAGGCTGAGGAGCTCGAGAAATTGC AACAATACAAATTCAAAGCACGTGAACTTGATCCCAGAATACTTGAAGGTGGGCCCATCTTGCCCAAGAA ACCACCTGTGAAACCACCCACCGAGCCTATTGGCTTTGATTTGGAAATTGAGAAAAGAATCCAGGAGCGA GAATCAAAGAAGAAAACAGAGGATGAACACTTTGAATTTCATTCCAGACCTTGCCCTACTAAGATTTTGG AAGATGTTGTGGGTGTTCCTGAAAAGAAGGTACTTCCAATCACCGTCCCCAAGTCACCAGCCTTTGCATT GAAGAACAGAATTCGAATGCCCACCAAAGAAGATGAGGAAGAGGACGAACCGGTAGTGATAAAAGCTCAA CCTGTGCCACATTATGGGGTGCCTTTTAAGCCCCAAATCCCAGAGGCAAGAACTGTGGAAATATGCCCTT TCTCGTTTGATTCTCGAGACAAAGAACGTCAGTTACAGAAGGAGAAGAAAATAAAAGAACTGCAGAAAGG GGAGGTGCCCAAGTTCAAGGCACTTCCCTTGCCTCATTTTGACACCATTAACCTGCCAGAGAAGAAGGTA AAGAATGTGACCCAGATTGAACCTTTCTGCTTGGAGACTGACAGAAGAGGTGCTCTGAAGGCACAGACTT GGAAGCACCAGCTGGAAGAAGAACTGAGACAGCAGAAAGAAGCAGCTTGTTTCAAGGCTCGTCCAAACAC CGTCATCTCTCAGGAGCCCTTTGTTCCCAAGAAAGAGAAGAAATCAGTTGCTGAGGGCCTTTCTGGTTCT CTAGTTCAGGAACCTTTTCAGCTGGCTACTGAGAAGAGAGCCAAAGAGCGGCAGGAGCTGGAGAAGAGAA TGGCTGAGGTAGAAGCCCAGAAAGCCCAGCAGTTGGAGGAGGCCAGACTACAGGAGGAAGAGCAGAAAAA AGAGGAGCTGGCCAGGCTACGGAGAGAACTGGTGCATAAGGCAAATCCAATACGCAAGTACCAGGGTCTG GAGATAAAGTCAAGTGACCAGCCTCTGACTGTGCCTGTATCTCCCAAATTCTCCACTCGATTCCACTGCT AAACTCAGCTGTGAGCTGCGGATACCGCCCGGCAATGGGACCTGCTCTTAACCTCAAACCTAGGACCGTC TTGCTTTGTCATTGGGCATGGAGAGAACCCATTTCTCCAGACTTTTACCTACCCGTGCCTGAGAAAGCAT ACTTGACAACTGTGGACTCCAGTTTTGTTGAGAATTGTTTTCTTACATTACTAAGGCTAATAATGAGATG TAACTCATGAATGTCTCGATTAGACTCCATGTAGTTACTTCCTTTAAACCATCAGCCGGCCTTTTATATG GGTCTTCACTCTGACTAGAATTTAGTCTCTGTGTCAGCACAGTGTAATCTCTATTGCTATTGCCCCTTAC GACTCTCACCCTCTCCCCACTTTTTTTAAAAATTTTAACCAGAAAATAAAGATAGTTAAATCCTAAGATA GAGATTAAGTCATGGTTTAAATGAGGAACAATCAGTAAATCAGATTCTGTCCTCTTCTCTGCATACCGTG AATTTATAGTTAAGGATCCCTTTGCTGTGAGGGTAGAAAACCTCACCAACTGCACCAGTGAGGAAGAAGA CTGCGTGGATTCATGGGGAGCCTCACAGCAGCCACGCAGCAGGCTCTGGGTGGGGCTGCCGTTAAGGCAC GTTCTTTCCTTACTGGTGCTGATAACAACAGGGAACCGTGCAGTGTGCATTTTAAGACCTGGCCTGGAAT AAATACGTTTTGTCTTTCCCTCAAAAAAAAAAAAAAAAAAAAAAA

From the main BLAST page, click the link for “nucleotide blast” under "Web BLAST"
Copy and paste the fasta sequence with its header into the large text box below “Enter Query Sequence”.
In the section labeled “Choose Search Set”, click the “Database” option button for “Others”, and then set the drop-down list to “Reference RNA sequences (refseq_rna)”. RefSeq database is a manually curated, non-redundant database, as discussed in the powerpoint. Leave the other fields in this section blank, as they are there to limit which organisms are searched. In the section labeled “Program Selection” make sure the option button for “Highly similar sequences (megablast)” is selected.
Click the button labeled “BLAST”.
Now, wait for the results page to appear (you will be given a status update page until the job completes). Scroll down to scan through the “Descriptions” section. In this case, you are looking for a match with 100% identity.

Question 1: What gene is contained in "Sequence of Mystery"?

Question 2: What species is it from?