1、1实验三:多条序列比对Clustalx实习目的:了解掌握Clustalx软件的应用,学会做多条序列比对并分析。实习内容:一、ClustalX 的使用Clustal 是一种利用渐近法(progressive alignment)进行多条序列比对的软件。即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。1. 准备要比对的序列请查找至少存在于5个物种中的同源序列(核酸或蛋白质皆可) ,并保存为fasta格式,存为文本文件(所有的序列请粘贴到同一个文本文件中) 。选择NM、XM或NP打头的序列,不要选择NC或NW打头的序列,
2、那是全基因组序列。建议关键词:hemoglobin,trypsin, peroxidase, p53, Superoxide Dismutase, h5n1, etc.2. 打开 clustalX 程序开始菜单程序clustalX2- clustalX23. 载入序列点最上方的 File 菜单,选择 Load Sequence-选择你刚保存的序列文件,点打开。在左侧窗口里是 fasta 格式序列的标识号,取自序列第一行“”后的字符。注意:ClustalX 程序无法识别汉字,无法识别带空位的文件夹名,如 my document。各位同学的序列文件不要保存在桌面上或带汉字的文件夹中,推荐保存在 D
3、 盘根目录下。4. 比对参数的选择可以对两条序列比对的参数和多条序列比对的参数进行设置。a. 两条序列比对的参数设置点击 Alilgnment 菜单,选择 Alignment Parameters,再选择 Pairwise Alignment Parameters。首先可以选择比对的效果,是 slow/accurate 还是 fast/approximate。第一种模式采用的是动态规划算法进行比对的,第二种模式采用的是启发式的算法。除非序列非常长,一般采用第一种模式。可以选择空位罚分系统,要使用的 DNA 或蛋白质替换矩阵,也可以自己上传某个替换矩阵进行比对。b. 多条序列比对参数设置点击 A
4、lilgnment 菜单,选择 Alignment Parameters,再选择 Multiple Alignment Parameters。5. 更改输出格式点击 Alignment 菜单,选择 Output Format Options。默认的是输出 clustal format,如果需要其它格式,可在复选框里打勾。PHYLIP 格式是利用 PHYLIP 软件进行建树时,需要输入的格式。6. 进行比对点击 Aliglnment 菜单,选择 Do Complete Alignment.此时出现一个对话框,提示你比对结果保存的位置,你在上一步选择了多少种输出格式,这里就需要给出多少个文件的路径
5、。选择好了点 OK 即可。要得到理想的比对结果,你可能需要选择不同的参数,进行多次比对,最后再对各种比对结果进行分析,选择哪个是最合理的结果(the result making biological sense) 。比对结束后生成的 aln 文件是多条序列比对的结果,可以用记事本打开浏览。在某一列比对结果下方如果出现*,说明这列是完全匹配。dnd 文件是比对过程中生成的进化树,可以用 treeview 打开浏览。7. 迭代比对如果序列比对结果不理想,可以采用迭代选项,多次迭代寻找最佳比对结果。点击 Alignment 菜单,选择 iteration,选择 iterate each alignm
6、ent step 或 iterate final alignment.然后再点击 Aliglnment 菜单,选择 Do Complete Alignment 进行比对。8. 概型(Profile)比对模式以上介绍的都是 Multiple alignment Mode,ClustalX 还提供了一个概型比对模式,在菜单栏下方选择 Profile 2Alignment Mode,可以对两个比对结果(alignment, termed profile here)进行再比对,或将一条序列与一个比对结果(profile)进行比对。二、TreeviewClustalx 产生的 guide tree(即后
7、缀为 dnd 文件),可以通过 treeview 软件浏览。解压缩并安装 treev32.rar 文件。双击后缀为 dnd 文件,选择 treeview 程序打开即可。作业:1. Clustalx 是多条序列比对软件,为什么需要设置两条序列比对的参数?答:Clustal 是一种利用渐近法(progressive alignment)进行多条序列比对的软件。即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果,既是采用两两比较后再继续进行比较的方法,所以,需要设置两条序列比对的参数。2. 利用 entrez 或 srs 搜
8、索来自于不同物种的同源序列(othologs),利用 clustalX 进行比对,给出所选序列简要信息(fasta 格式第一行) ,比对所用的参数,比对过程中产生的 guide tree(dnd 文件),并分析比对结果(序列之间相似度关系,保守位点所在位置等) 。答:简要信息:gi|23466358|gb|AF349413.3| Danio rerio estrogen receptor beta b mRNA, complete cdsgi|145308317|gb|EF530592.1| Paramisgurnus dabryanus estrogen receptor beta mRNA
9、, partial cdsgi|32186925|gb|AY305027.1| Halichoeres tenuispinis estrogen receptor beta mRNA, complete cdsgi|2073112|dbj|AB003356.1| Anguilla japonica mRNA for estrogen receptor, complete cdsgi|89037528|ref|NW_925528.1| Homo sapiens chromosome 14 genomic contig, alternate assembly (based on Celera),
10、whole genome shotgun sequencegi|30962102|emb|AJ314602.1| Candidia barbatus mRNA for putative estrogen receptorgi|61097789|dbj|AB190290.1| Rutilus rutilus ERb mRNA for estrogen receptor beta, complete cds比对所用参数:Guide tree:比对结果见附表 1:附表 1:3Candidia TATCACTATGGTGTCTGGTCATGTG-AGGGATGCAAGGCT-TTTTTCAAARuti
11、lus TATCACTATGGTGTCTGGTCATGTG-AGGGGTGCAAGGCT-TTCTTCAAADanio TATCACTATGGTGTCTGGTCATGTG-AAGGGTGCAAGGCT-TTCTTCAAGParamisgurnus TATCACTACGGGGTGTGGTCATGCG-AGGGGTGCAAGGCT-TTCTTCAAAHalichoeres TATCACTACGGTGTGTGGTCCTGCG-AGGGCTGTAAAGCA-TTTTTCAAGAnguilla TATCACTACGGGGTGTGGTCCTGCG-AAGGCTGCAAGGCC-TTCTTCAAGHomo
12、TA-CACTGAGGGACTGAGCCTGGTGTATATGGCAGCAAGACTGGATGGTGGCTTTGCAGC* * * * * * * * * * * * * * * Candidia -CGGAGCATTCAAGGACACAATGACT-ATATGTG-TCCAGCCACCAACC-Rutilus -CGGAGCATTCAAGGACACAATGACT-ATATTTG-TCCAGCCACCAACC-Danio -CGTAGCATTCAAGGTCACAATGACT-ATATTTG-TCCAGCCACCAACC-Paramisgurnus -CGAAGCATTCAAGGACACAATG
13、ACT-ACATTTG-TCCAGCCACCAACC-Halichoeres -AGGAGTATCCAAGGACACAACGACT-ACATCTG-CCCTGCAACAAATC-Anguilla -AGGAGCATCCAAGGGCACAATGGCT-ACATCTG-CCCCGCCACCAACC-Homo AGTCTCCAGAGCATTCCATGAGATCCGGGCTCGAAATCCAGCATTTCAGCCACAAACTTT* * * * * * * * * * * * * * Candidia AGTGCACCATTG-ACAAGAGCCGACGCAAAAGCTG-CCAGGCCTGTCGAC
14、TCCGRutilus AGTGCACTATTG-ACAAGAGCCGACGCAAGAGCTG-CCAGGCCTGTCGACTCCGDanio AGTGCACTATTG-ACAAGAGCAGACGCAAGAGCTG-TCAGGCCTGTCGACTCCGParamisgurnus AGTGCACCATCG-ACAAGAGTCGTCGTAAGAGCTG-TCAGGCCTGTCGATTCCGHalichoeres AATGCACTATCG-ACAAGAACCGGCGTAAGAGCTG-CCAAGCCTGCCGCCTACGAnguilla AGTGCACCATCG-ACAAGAACCGGCGCAAGA
15、GCTG-CCAGGCCTGCCGACTCCGHomo GATGGACTTTGGCTCAGGTACTGGTTCTGTCACCTGGGCTGCTCACAGTATTTGGGGCCA* * * * * * * * * * * * Candidia CAAGTGCTATGAA-ATGGGCATGATGAAGTGTGGTGTGAGGCGGG-AACGCTGCARutilus CAAGTGCTATGAA-ACAGGCATGATGAAGTGTGGTGTGAGGCGGG-AACGCTGCADanio CAAGTGCTATGAA-GTGGACATGATGAAGTGTGGTGTGAGGAGGG-AGCGCTGCA
16、Paramisgurnus CAAGTGCTATGAA-GTGGGCATGATGAAGTGTGGTGTGAGGCGAG-AACGGTGCAHalichoeres TAAATGCTACGAA-GTGGGCATGATGAAATGTGGTGTAAGACGTG-AACGCTGCAAnguilla CAAGTGCTACGAA-GTGGGCATGATGAAGTGTGGTGTGAGACGGG-AGCGTTGTAHomo GAGCCTACGTGAATATATGTGTGTGGACAGATCAGCTGCCATGTTGGTTTTGGCAGAAAA* * * * * * * * * * *Candidia GTTAC
17、CGTGGTGCTCGTCATCGTCGCAAC-CCCCAGATCAGGGACAGCTCGGGCGGGGRutilus GTTACCGCGGTGCTCGTCATCGTCGAAAT-CCCCCGATCAGAGACGGCTTGGGCGAGGDanio GTTATCGAGGTGCTCGACATCGTCGTAAC-CCCCAAATCAGAGACAGCTCTGGCGGGGParamisgurnus GTTACCGCGGTGCCCGTCATCGTCGCCAT-CCCCAGACGAGAGACGGCTCAGGCAAAGHalichoeres GCTATCGAGGAACCCGACACCGCCGTGGTGGAC
18、TCCAGCCTCGGGATCCCACAGGCAGGGAnguilla CCTACCGGGGGGCGCGACACCGCCGCATG-CCCCACATCCGCGAGTTGGCGGGCACAGHomo ACTACTGAAAGGTGGTTCAGAATCTGGGGAG-CCTTATATTCCAGGTGTCTTTTTCAGAC* * * * * * * Candidia CTTTAG-GGGTCAGAG-GTTGTTCCCAGCATCATTTAGAAATTCCT-CTCARutilus TGTTAG-GGGTCAGAG-GTTGTTCCCAGCATAATTTAGAAATTCCT-CTCA4Danio T
19、GGTAG-GACTCAGAG-GTCAATCCCAGCAGCATCTAGAGTTCCCC-CTCAParamisgurnus CATTAG-GGGTCAGAG-GTCGCTCCCAGCATAATCTAGAATTTCCG-TTCAHalichoeres GTTTGGTCAGAGTGGGGCTTGGTT-CTCGAGCCCAAAGGCATCTCCACCTTGAGGGTCCCAnguilla -GGGGCGGGG-CCAGGACCCAGAGGCGGGGCGAGGG-AHomo AGTTTCTACCTGTATCACCCAAGGTGCAGTTTGATGTAGTAGTGTCAGCTTTTTC-CTTA*
20、 Candidia ATCCCACTCATCACCTCTTCCCTTCAGGGGGCAG-AGCTGAGGGGTGTGGCC-TGRutilus ATCCCACTGATCACCTCTTCCCTTCTGGGGGCAG-AGCTGAGGGGTGTGTCC-TGDanio GTCCCTCTCAGCACCTCTTTCCTTCAGGGGGCAG-AGCTGAGGGACGGGGCC-TGParamisgurnus TCTCCCCTCATCAACTCGTCCCTTCGGGTGGCGC-ATCCGAGGGCCGTGGCC-TGHalichoeres CTCACCCCTGTCACCCCCCTCCCTCAGATG
21、AGCC-ACGTACACCACGCAGCCA-TGAnguilla GTC-GTCCCTCAGACGCAGG-AGGCGCAGTCCTCGGCGC-TCHomo AGTGAACTGCCCAGCAAGGCTGACCGCACTGAGGTAGTTCAAACCTTATGGCGTAAGACA* * Candidia AGCTTCTCCCCTGAGCAGTTGGTGAACTGCATTCTGG-AGGCAGAGCCTCCTCAGATTTRutilus AGCTTCTCCCCTGAGCAGTTGGTGAACTGTATTCTGG-AGGCGGAGCCTCCTCAGATTTDanio AACTATTCCCCTG
22、AACAATTGGTCAGCTGTATTCTAG-AGGCGGAGCCACCTCAAATTTParamisgurnus -TCCGCTGAGCAGCTGGTGAACTGTATTCTAG-AGGCGGAGCCTCCTCAGATTTHalichoeres AG-CCCAGAGGAATTCATCATGCGCATCATGG-AAGCAGAGCCACCAGAGATCTAnguilla A-CGCCGGAGCAGTTAATCAACCGCATCATCG-AGGCGGAGCCGCCGGAGATCTHomo GGTCATTTCCTGGTACTGGTGGAGAATGGAACAAAAGCTGGGCACAGCCTTC
23、TCATGGAT* * * * * * * * * * *Candidia GCCTGAGA-GAGCCAGTGAAGAAGCCATACACGGAGGC-CAGCATGATGATRutilus GCCTGAAA-GAGCCAGTGAAAAAGCCGTACACTGAGGC-CAGCATGATGATDanio ACCTGAGA-GAGCCGGTGAAAAAGCCATACACTGAGGC-TAGCATGATGATParamisgurnus ACCTGAAA-GAGCAGGTGCAGAAGCCGTACACTGAGGC-CAGCATGATGATHalichoeres ACCTCATG-GAGGAGCAG
24、AAGAAGCCTTTTACCGAGGC-CAGCATGATGATAnguilla ACCTCATG-AAGGAGCTGAAGAAGCCCTTCACCGAGGA-CAGCATGATGATHomo GCCAGGGATCTGGTCCTTAAGGGAAAAGAGAAGTCACCTTTGGACCCTCGACCTGGTTTT* * * * * * * * * *Candidia GTCACTCACCAGCCTTGCTGACAAGGAACTGGTGCTCA-TGATCAGCTGGGCCAAGAAGRutilus GTCACTAACCACCCTCGCTGACAAGGAACTGGTGCTCA-TGATCAGC
25、TGGGCCAAGAAGDanio GTCACTAACAAGCCTCGCCGACAAGGAGCTGGTGCTCA-TGATTAGCTGGGCGAAGAAGParamisgurnus GTCACTAACCAACCTTGCTGACAGGGAACTGGTGCTCA-TGATCAGCTGGGCTAAAAAAHalichoeres GTCCCTCACAAACCTGGCAGACAAGGAGCTGGTGCTTA-TGATCAGCTGGGCTAAAAAGAnguilla GTCACTCACCAACCTGGCCGACAAGGAGCTCGTCCTCA-TGATCAGCTGGGCCAAAAAGHomo GTCTTT
26、GCCCCGTGTCCCCATGAACTCCCTTGTCCCCAGTTGACCAACCTGGCCTGTAGC* * * * * * * * * * * * * * * Candidia ATACCA-GGTTTTGTGGAGCTGACACTTTCAGATCAGGTGCATCTATTGGAATGCTGCTGRutilus ATACCA-GGTTTCGTGGAGCTGACGCTTTCAGATCAGGTGCATCTATTGGAATGCTGCTGDanio ATACCA-GGTTTTGTAGAGTTGACTTTGTCAGATCAGGTGCATTTGCTGGAATGCTGCTGParamisgurnus
27、 ATACCA-GGTTTTGTGGAGCTGTGTTTGTCTGATCAGGTGCATCTGTTGGAATGCTGTTG5Halichoeres ATCCCT-GGCTTTGTCGAGCTGTGTCTAGCTGATCAGATTCACCTCCTAAAGTGCTGCTGAnguilla ATCCCT-GGGTTTGTGGAGCTGGACCTGTCTGACCAAGTACACCTGCTGGAGTGCTGTTGHomo TTCTCACAGGCGTACCATCCCATCCCCTTCAGCTGGAACA-AGAAACCAAAGGAAGAAAA* * * * * * * Candidia GCTGGATAT
28、TCTGATGTTGGGATTGATGTGGAGATCTGTGGATCATCCTGGGAAACTCATRutilus GCTGGATATTCTGATGTTGGGATTGATGTGGAGATCTGTGGATCATCCCGGGAAACTCATDanio GCTGGATATTCTGATGTTAGGATTGATGTGGAGATCTGTGGATCATCCTGGGAAACTCATParamisgurnus GCTGGATATTCTGATGTTGGGACTGATGTGGAGATCCGTAGATCATCCTGGGAAACTCATHalichoeres GTTGGAAATTCTGATGCTGGGCCTGATGT
29、GGAGGTCTGTGGATCATCCTGGGAAACTAATAnguilla GCTGGAGGTGCTGATGCTGGGCCTGATGTGGAGGTCTGTGGATCACCCTGGGAAACTCATHomo GTTCTCTATGGTGATCCTTGCTCGGGGGTCTCCAGAGGAGGCTCATCGCTGGCCCCGTAT* * * * * * * * * * * * * * *Candidia CTTCTCACCTGACCTCAAACTGAACAGGGATGAGTGGAATTGTGT-TGAAGGCATCATGGRutilus CTTCTCACCCGACCTCAAACTGAACAGGG
30、GTGAATGGAATTGTGT-TGAAGGCATCATGGDanio CTTCACCCCTGACCTCAAGCTCAACAGGGAGGAAGGGAATTGTGT-TGAAGGCATCATGGParamisgurnus CTTCTCACCAGACCTCAAGCTCAACCGGGACGAATGGGGTTGTGT-TGAAGGCATCATGGHalichoeres CTTCTCTCCTGACTTCAAACTCAACAGAGAGGAGGGTCAGTGTGT-GGAGGGCATCATGGAnguilla CTTTTCCCCAGACCTCAAGCTCAACAGGGATGAGGGAAGTTGTGT-GG
31、AGGGGATCCTGGHomo CACTCAGCCTGTCCTTAAACGGCCTCGCCATGTGCATTGTCACTTGTGCTGTCCAGATGG* * * * * * * * * * * * *Candidia AGATCTTTGACATGCTGCTGGCCACGACCTCCAGATTCAG-AGAATTGAAGCTACAGAGRutilus AGATCTTTGACATGCTGCTGGCCACCACCTCCAGATTCAG-AGAACTGAAGCTACAGAGDanio AGATTTTTGACATGCTGCTGGCCACCACCTCTCGATTCAG-AGAGCTGAAGCTGCAG
32、AGParamisgurnus AGATCTTTGACATGCTGCTGGCCACCACCTCTAGATTCAG-AGAACTGAAGCTACGGAGHalichoeres AGATCTTTGACATGCTGCTGGCTGCCACCTCTCGGTTTCG-TGAGCTGAAGCTTCAGAGAnguilla AAATCTTCGACATGGTGCTGGCGGCAACCTCCAGGTTTCG-GGAGCTGAAGCTACAGAGHomo GCACATGCAGCATGCTG-TGCTCACAGCCCGCCGGCACGGCAGGGATTTGTATCGTTGTG* * * * * * * * * * *
33、 * *Candidia GGAGGAATACGTCTGTCTCAAAGCCATGATCCTTCTCAACTCCAATAACTGTTCAAGCTTRutilus GGAGGAATACGTCTGTCTCAAAGCCATGATCCTTCTCAACTCCAATAACTGTTCAAGCTTDanio AGAGGAATACGTCTGTCTCAAAGCCATGATCCTGCTCAACTCTAATAACTGTTCGAGTTTParamisgurnus AGAGGAATATGTCTGCCTCAAAGCCATGATCCTCCTCAACCC-Halichoeres GGAGGAGTACGTCTGTCTGAAGGCCATGATCCTCCTCAACTCCAATCTGTGTTCGAGCTCAnguilla GGAGGAGTATGTGTGCCTCAAAGCCATTATCCTCCTCAACCCCAACCTGTGCACAACGTCHomo CCCGTGTCAGCTCCTGGGGAGATCTTTTACCTGTGCTTACTCCG-TCTGCGTTTCCTCCA* * * * * * * * * *