1、实 习 一 基因组数据注释和功能分析,课程内容,基因组学,转录物组学,蛋白质组学,系统生物学,通过序列比对工具BLAST学习,了解蛋白编码基因的功能注释原理 介绍多序列联配工具ClustalX 分子进化分析软件MEGA4的基本知识,掌握系统发生树绘制的基本方法,序列比对的进化基础,什么是序列比对: 将两个或多个序列按照最佳匹配方式排列在一起。 对应的相同或相似的符号排列在同一列上。 错配与突变相应,空位与插入或缺失对应。序列比对的目的: 从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系 通过判断两个序列之间的相似性来判定两者是否具有同源性 相似性:可以被
2、数量化,如:序列之间相似部分的百分比 同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断,BLAST,基本局部比对搜索工具(Basic Local Alignment Search Tool) NCBI上BLAST服务的网址: http:/www.ncbi.nlm.nih.gov/blast/ NCBI上blast程序的下载: ftp.ncbi.nlm.nih.gov /blast/executables/release/ NCBI的BLAST数据库下载网址: ftp:/ftp.ncbi.nlm.nih.gov/blast/,选择物种,选择blast程序,QuerySequence,Am
3、inoacidSequence,DNASequence,tBLASTx,BLASTx,BLASTn,tBLASTn,BLASTp,Nucleotide Database,Protein Database,Nucleotide Database,Nucleotide Database,Protein Database,Translated,Translated,Translated,以Blastx为例:,目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC,6个读码框翻译,5端到3端 第一位起始:
4、 ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始:TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始:GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端到5端 第一位起始: GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GG
5、T ACT CAT 第二位起始:CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始:GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T,与核酸相关的数据库,与蛋白质相关的数据库,选择数据库,序列或目标序列的GI号,以文件格式上传,BlastN,配对与错配,空位罚分,BlastP,打分矩阵: PAM30 PAM70 BLOSUM80 BLOSUM62 BLOSUM45,PAM模型可用于寻找蛋白质的进化起源,而
6、BLOSUM模型则用于发现蛋白质的保守域。,选择打分矩阵(scoring matrix),The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1. The BLOSUM family Based on local alignments. BLOSUM62 is a matrix cal
7、culated from comparison s of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments ;they are not extrapolated from comparisons of closely related proteins.,进行比对的数据库,图形化结果,E值(E-value)表示仅仅因为随机性造成获得这一 比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小。,上机实习1:网上运行blastx和blastn,(NC
8、BIblast网址:http:/www.ncbi.nlm.nih.gov/BLAST/)lesson.seq.screen.Contig34TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCC
9、TCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGT
10、TGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAG
11、TGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC对contig34进行网上blastn(演示), blastx(自行操作)
12、比对 *由于时间关系,请参见预存结果。,本地运行BLAST,下载NCBI上blast程序: ftp.ncbi.nlm.nih.gov/blast/executables/release/ 安装(安装到C:) 数据库的格式化(formatdb) 程序运行(blastall),登陆NCBI的FTP下载blast程序,双击安装到C盘 产生三个文件夹 bin data doc,将数据库文件(db)及目标序列文件(in)保存在Blast/bin文件夹下,bin含可执行程序(将数据库及需要比对操作的数据放入该文件); data文件夹含打分矩阵及演示例子的序列数据信息; doc文件夹含关于各子程序的说明文档
13、。,本地数据库的构建,查看db文件,由fasta格式的序列组成,数据库的格式化,formatdb命令用于数据库的格式化: formatdb option1 option2 option3formatdb常用参数 -i database_name 需要格式化的数据库名称 -p TF 待格式化数据库的序列类型 (核苷酸选F;蛋白质选T;默认值为T)例:formatdb -i db -p T,对蛋白质数据库“db”进行格式化,程序运行,blastall命令用于运行五个blast子程序:blastall option1 option2 option3*可在dos下输入blastall查看各个参数的意义
14、及使用blastall常用参数四个必需参数 -p program_name,程序名,根据数据库及搜索文件序列性质进行选择; -d database_name,数据库名称,比对完成格式化的数据库; -i input_file,搜索文件名称; -o output_file,BLAST结果文件名称;两个常用参数 -e expectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5; -m alignment view options:比对显示选项,其具体的说明可以用以下的比对实例说明 例:blastall -p blastx -d db -i in -o out -e 2e-5
15、 -m 9 (表格显示比对结果),采用blastx程序,将in中的序列到数据库bd中进行比对,结果以表格形式输入到out文件,上机实习2:本地运行blastx,进入DOS命令行提示符状态(“运行”cmd) 进入C盘“cd” 进入包含序列数据的bin目录下“cd Blastbin” 察看目录下内容“dir” 格式化数据库db“formatdb -i db -p T”运行blastx “blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 ”察看结果“more out ”或在 windows下双击打开,输入,数据库类型:F/T,Blast程序 序列输
16、入 数据库 结果输出,输入“cd”-回车 回到安装目录C盘,输入“cd blastbin”-回车 到达blast程序下bin文件夹,输入“dir”-回车 察看bin文件夹下内容,bin文件夹下包含以.exe为后缀的程序文件以及这次实习需要用到的数据可文件“bd”和目标序列文件“in”,输入“more db”-回车察看db文件内容,空格键翻页 输入“q”跳出,输入“formatdb i db p T”-回车 对db数据库进行格式化,输入“dir”-回车 察看bin文件夹下内容,格式化以后产生的文件,输入“blastall -p blastx -i in -d db -o out -e 2e-5
17、-m 9” -回车 运行blastx程序,产生的结果文件“out”,用”more out” 察看结果文件,不使用m参数时 比对结果显示序列两两比对,用”more out” 察看结果文件,多序列比对的目的,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。,多序列比对的应用:系统发育分析(phylogenetic analysis) 结构预测(structure prediction) 序列基序鉴定(sequence motif identification) 功能预测(function prediction)Clu
18、stalW/ClustalX:一种全局的多序列比对程序,可以用来绘制亲缘树,分析进化关系。 MEGA4,ClustalW/X的运行,本地运行命令行操作的Clustal W(linux & windows)窗口化操作的ClustalX(windows)下载页面:ftp:/ftp.ebi.ac.uk/pub/software/ 欧洲生物学中心(EBI)还提供了Clustal W的网上运行服务(http:/www.ebi.ac.uk/clustalw),目标序列,各种参数设定,下载ClustalX,Jalview,结果下载,上机实习3:本地运行ClustalX,17-RNASE1.fasta多序列比
19、对 (Multiple Alignment),在 C:zcnishiyan1clustalx1.83 文件夹下,找到clustalx.exe 双击打开,Clustalx窗口,点击File下拉菜单中 Load sequences选项, 打开序列文件17-RNASE1.fasta.txt,打开后的界面,点击进行多序列比对,可在Alignment下拉菜单中的Alignment Parameters中设定各个参数,点击Alignment下拉菜单中的Do Complete Alignment进行比对,比对结果 “*”、“:”、“.” 和空格依次代表改位点的序列一致性由高到低,MEGA4,一个关于序列分析
20、及比较 统计的工具包包含距离建树,MP等建 树法 自动或手动进行序列比对; 推断进化树; 估算分子进化率,进行进化假设测验; 联机进行数据库搜索; ,MEGA4可以识别fasta格式文件 将 17-RNASE1.fasta.txt 重命名为 17-RNASE1.fasta,选择打开方式为MEGA4,打开17-RNASE1.fasta,自动跳出序列窗口 用ClustalW做多序列联配,ClustalW参数设置,以.meg格式保存结果,回到MEGA主窗口 激活所保存的文件(.meg),编辑标注 保守区域标注 不匹配的区域,回到MEGA4主窗口构建进化树,已被激活的文件,选择Bootstrap重复次
21、数,至少为100次,四种系统进化树构建方法,分化程度较大的远缘序列:邻位相连法(neighbor-joining,NJ)最小进化法(ME)分化程度较小的近缘序列:最大简约法(MP)除权配对法(UPGMA),进化树的可靠性分析,BootstrapMethod,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列 重复上面的过程,得到多组新的序列 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性 至少进行100次重复取样,Original tree Bootstrap consensus tree 节点上的值为通过 Bootstrap检验的次数,不同树型,
22、Tree:树型选择 Branch:分支信息修改 Label:分支名称修改 Scale:标尺设定 Cutoff:cutoff值,上机练习4:MEGA4.0,谢谢!,选择构树方法,最大简约法(maximumparsimony,MP)对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。基于距离矩阵 UPGMA(UnweightedPair-GroupMethodusingAnathematicAverage)将类间距离定义为两个类成员距离的平均值,广泛应用于距离矩阵NJ(Neighbor-joining)把所有n个序列两两比对,构建NJ树(起指导作用),每个对比后的成对序列都可以跟第三条序列或者另一个新的alignment比对,按照距离远近,用来决定下一个参与 比对的序列,