1、生物信息学,计算机运算速度: 18个月增长一倍; DNA序列数据: 14个月增长一倍;,生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。 由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面。,二、生物信息学的基本方法:,建立生物数据库:核苷酸顺序数据库(GENBANK)、Protein Data Bank(PDB)、氨基酸顺序数据库(SWISS-PRO)、酵母基因组
2、数据库(YEASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)。 数据库检索:Blast、Entrez 序列分析:序列对位排列、同源比较、进化分析。 统计模型:如隐马尔可夫模型(hidden Markov model, HMM)-基因识别、药物设计。最大似然模型(maximun likelihood model, ML)、 最大简约法(Maximun Parsimony, MP)-分子进化分析。 算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificial neural network)。,三、生物信息学的研究内容,生物信息学的研究内容是伴随着基
3、因组研究而发展的。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。这个定义的含义是双重的:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是使用好这些数据。,具体地说,生物信息学是把基因组(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA(核糖核酸)基因的编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。,四、生物信息学 研究方向,基因组序列装配
4、 基因识别 基因功能预报 基因多态性分析 基因进化 mRNA结构预测 基因芯片设计 基因芯片数据分析 疾病相关基因分析,蛋白质序列分析 蛋白质家族分类 蛋白质结构预测 蛋白质折叠研究 代谢途径分析 转录调控机制 蛋白质芯片设计 蛋白质芯片数据分析 药物设计,五、通过学习逐渐掌握以下内容:,搜索网上生物信息学资源 工具检索数据库(Entrez 、 BankIt) Blast、 Clustal序列比对 构建系统发育树(Bioedit 、 Mega),三大基因数据库,NCBI的网址是:http:/www.ncbi.nlm.nih.govEMBL核酸序列数据库 http:/www.ebi.ac.uk/
5、embl/ DDBJ数据库 http:/www.ddbj.nig.ac.jp/,国际核苷酸序列数据库合作组织,GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DNA Data Bank of Japan,DDBJ)以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库(European Molecular Biology Laboratory,EMBL)一起,都是国际核苷酸序列数据库合作的成员。 GenBank,DDBJ,and EMBL,所有这3个中心都可以独立地接受数据提交,而3个中心之间则逐日交换信息,并制成相同的充分详
6、细的数据库向公众开放。因此他们是相等的。,主要的数据库资源,数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。 核酸序列数据库主要有GenBank, EMBL, DDBJ等. 蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等, 蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等, 三维结构数据库有PDB, NDB, BioMagResBank, CCSD等, 蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等, 与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB
7、 文献数据库有Medline, Uncover等。,PIR (http:/www-brf.georgetown.edu/pir/),是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。,SWISS-PROT (http:/www.ebi.ac.uk/swissprot/),由Geneva大学和欧洲生物信息学研究所(EBI)于1986年联合建立的,它是目前国际上权威的蛋白质序
8、列数据库。SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据。,National Center for Biotechnology Information NCBI网站简介,1988年,美国的参议员 Claude Pepper 发起 1988年11月4日通过立法建立国立生物技术信息中心 NCBI的任务: 建立基于计算机的信息处理的关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统,并进行先进方法的研究。 促进生物技术研究者和医药治疗人员对数据
9、库和软件的使用。 促进全世界范围内的生物技术信息收集的合作.,近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。截至2004年2月,NCBI GenBank数据库收集序列信息达32,549,400条,累计碱基37,893,844,733。 (三百亿) There are approximately 65,369,091,950 bases in 61,132,599 sequence records.,自全长1.8Mb的嗜血流感杆菌基因组序列于1995年发表以来,目前已经或即将完成的真核生物全基因组包括几百种原核生物、酵母菌、拟南芥 (1-2亿bp)、水稻、人类 (30
10、亿bp)、小鼠、大鼠、猪、鸡等等。生物各物种的信息正在被全面的收集和整理。事实上,高性能计算机已经承担了存储生命数据信息的重要任务。,简介,GenBank数据库的数据来源有三种: 1、直接来源于测序工作者提交的序列; 2、与其它数据机构协作交换的数据; 3、美国专利局提供的专利数据。,NCBI网站介绍 www.ncbi.nlm.nih.gov,GenBank数据库检索及其应用 Entrez检索功能,Entrez BLAST,序列文件格式例子( Fasta ),gi|995614|dbj|D49653|RATOBESE Rat mRNA for obese.CCAAGAAGAAGAAGACCCC
11、AGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGAT
12、AGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。 一种最简单的fasta序列
13、形式可以表示为: D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG.,序列文件格式例子( GenBank ),LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995 DEFINITION Rat mRNA for obese.
14、ACCESSION D49653 KEYWORDS . SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiatedadipose cDNA to mRNA.ORGANISM Rattus norvegicusEukaryotae; mitochondrial eukaryotes; Metazoa; Chordata;Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia;Sciurognathi; Myomorpha; Muridae; Murina
15、e; Rattus. REFERENCE 1 (bases 1 to 539)AUTHORS Murakami,T. and Shima,K.TITLE Cloning of rat obese cDNA and its expression in obese ratsJOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995)STANDARD full automatic COMMENT Submitted (10-Mar-1995) to DDBJ by:Takashi MurakamiDepartment of Laboratory
16、 MedicineSchool of MedicineUniversity of TokushimaKuramotocho 3-chomeTokushima 770JapanPhone: +81-886-33-7184Fax: +81-886-31-9495.,序列文件格式例子(GenBank)continued,NCBI gi: 995614 FEATURES Location/Qualifierssource 1539/organism=“Rattus norvegicus“/strain=“OLETF, LETO and Zucker“/dev_stage=“differentiated
17、“/sequenced_mol=“cDNA to mRNA“/tissue_type=“adipose“CDS 30533/partial/note=“NCBI gi: 995615“/codon_start=1/product=“obese“/translation=“MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLS
18、PEC“ BASE COUNT 121 a 167 c 133 g 118 t ORIGIN1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg181 tatccgccag gcagagggtc accggtttgg acttcattcc cg
19、ggcttcac cccattctga241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc481 a
20、gggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc /,序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。,认识GenBank文件格式(头部),头部包含关于整个记录的信息(描述符) LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995,LO
21、CUS行中的日期是数据最后被公开的日期,这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。为了可用起见,LOCUS名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了,所以今天LOCUS名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的LOCUS名称,所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词,最简单的是用一个保证不会重复的检索号码。,序列长度,GenBank一
22、般不接受50bp以下的记录,生物分子的类型 ,这里是单链的mRNA,GenBank分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目的。这一代码的存在也是由于历史的原因。,认识GenBank文件格式(头部),DEFINITION Rat mRNA for obese.DEFINITION行(也称为“DEF”行)在GenBank记录中用以总结记录的生物意义 。这里,说明了序列的来源。,认识GenBank文件格式(头部),ACCESSION D49653检索号,是从数据库中检索一个记录的主要关键词。这个号码将在参考文献中被引用,并始终和序列在一起。就是说,当序列被更新(例如更正一个
23、核苷酸)时,这个号码不会改变。检索号码采取下列两种方式之一:1+5或2+6格式。1+5格式是指1个大写字母后跟5位数字;2+6格式是指2个大写字母后跟6位数字。绝大多数新近加入数据库的记录采取后一种方式。,VERSION AB277780.1 GI:145046138,认识GenBank文件格式(头部),KEYWORDS .KEYWORDS是另一个有趣的历史遗留物,并且不幸地在很多情况下被误用了。给一个记录加上关键词通常并不十分有效,因为在过去的年月中有许多作者选用了不在受控词表中的词,并且在整个数据库中用法也不一致。因此,NCBI不鼓励使用关键词。,认识GenBank文件格式(头部),SOU
24、RCE: Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiated adipose cDNA to mRNA.SOURCE行中有生物的通用名或科学名称 。ORGANISM: Rattus norvegicus Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata;Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia;Sciurognathi; Myomorpha; Muridae; Murinae; Ra
25、ttus.ORGANISMS行中包括所有关于分类的信息。,认识GenBank文件格式(头部),REFERENCE 1 (bases 1 to 539)AUTHORS Murakami,T. and Shima,K.TITLE Cloning of rat obese cDNA and its expression in obese ratsJOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995)STANDARD full automatic COMMENT Submitted (10-Mar-1995) to DDBJ by:Taka
26、shi MurakamiDepartment of Laboratory MedicineSchool of MedicineUniversity of TokushimaKuramotocho 3-chomeTokushima 770JapanPhone: +81-886-33-7184Fax: +81-886-31-9495.这部分是参考文献部分,每个GenBank记录至少要有一篇参考文献,许多情况下有两篇或多篇。 后面部分是评论部分这一部分包括关于整个记录的许多不同的注释和评论(也称之为“描述部分”)。有些人在这一部分中加入自己的内容,以及致谢等。有许多GenBank记录没有这一部分,这
27、是可选的。,认识GenBank文件格式(特性表),FEATURES Location/Qualifierssource 1539/organism=“Rattus norvegicus“/strain=“OLETF, LETO and Zucker“/dev_stage=“differentiated“/sequenced_mol=“cDNA to mRNA“/tissue_type=“adipose“CDS 30533/partial/note=“NCBI gi: 995615“/codon_start=1/product=“obese“/translation=“MCWRPLCRFLWLW
28、SYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC“,来源(source)是唯一一个必须在所有GenBank记录中出现的特性,包含属和种的科学名称,存在的或者潜在的编码区,编码序列的翻译产物,编码序列的gi号,认识GenBank文件格式(序列),BASE COUNT 121 a 167 c 133 g 118 t ORIGIN1 ccaag
29、aagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga241 gtttgtccaa gatggaccag accctggc
30、ag tctatcaaca gatcctcacc agcttgcctt301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc
31、 tgaggtttc /,结束符号,碱基统计信息,序列开始,序列主体,相关工具的使用,一,获取序列(entrez,SRS)http:/www.ncbi.nlm.nih.gov/entrezhttp:/ 二,序列提交 1,www形式(bankit)http:/www.ncbi.nlm.nih.gov/BankIt/ 2,客户端软件(sequin),在线获取序列( entrez),Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库
32、(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。,在线获取序列( entrez),1.进入entrez,2.选择数据库,3.查询关键词,4.开始查询,各类数据库的介绍,在线获取序列( entrez),显示格式,相关记录,点击进入,每页显示数目,符合条件的记录数,点击可以将结果保存到文件,在线获取序列( entrez),Genbank格式的序列记录,在线获取序列( entrez),Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成,对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果 。为了获得更贴切的搜索结果,还可以
33、设定搜索的字段和其他范围(如下图),在线获取序列( entrez),限定查询的字段范围,限定其他的查询范围,在线获取批量序列( Batch entrez),此外, Entrez还提供了批量获取GenBank序列的功能(Batch Entrez )http:/www.ncbi.nlm.nih.gov/entrez/batchentrez.cgi (如下图),在线获取批量序列( Batch entrez),选择数据库。,选择文件,文件内容,GI号或者accession numbers 的列表,开始获取序列,在线获取批量序列( Batch entrez),结果序列列表,点击可以将结果保存到文件,列表
34、中的记录数,Entrez的特点,Entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库 Entrez系统的开发基于特殊的数据模型NCBI ANS.1 (Abstract Syntax Notation),在对于文献摘要中的关键字查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。在查询文献数据库摘要得到结果后,可以通过点击“Related Articles”继续查找相关文献。,http:/www.ncbi.nlm.nih.
35、gov/Genbank/index.html,Authors,Sequin,BankIt,Sequence data,GenBank,Accession number,2 days,Draft record,序列提交,在线提交序列(BankIt),BankIt是NCBI提供的一个在线提交序列的工具。由一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。 用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。,在线提交序列(BankIt),用户还可以在BankIt页面下修改已经发布序列的信息。 BankI
36、t适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列。,在线提交序列过程。,1.登陆BankIt页面http:/www.ncbi.nlm.nih.gov/BankIt 2.填写表单内容。 3.确认表单内容。 4.等待电子邮件返回信息。,填写表单信息(一),填写表单的内容包括四个方面,一些注意事项和介绍,填写表单信息(二),基本信息:提交的序列数目,联系人的信息,公开序列发布日期等。,填写表单信息(三),参考信息:序列作者,相关文献等信息,填写表单信息(四),来源信息:序列来源,物种等描述,填写表单信息(五),序列信息:序列类型,序列等,填写表单信息(六),附加信息
37、:评论,致谢等(可以不填写),填完后点击进入确认界面,确认表单信息,确认无误后提交到genbank,如果发现有不对,返回表单页面修改。,序列提交工具(sequin),大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在ftp:/ncbi.n
38、lm.nih.gov/sequin/下找到,Sequin的使用说明可详见其网页。http:/www.ncbi.nih.gov/Sequin/index.html,PubMed的检索功能,数据类型:期刊论文、综述、以及与其他数据资源链接。 特点: 1.免费提供题录和文摘 2.可与提供原文的网址链接 (部分免费获取) 3. 提供检索词自动转换匹配 4. 操作简便、快捷,PubMed的辅助检索功能,Limits(检索限制选择) 字段限制:著者、刊名、篇名、滤过(filter原文收藏处)等 数据输入时间:默认检索可回溯到1966年,限制选择30天-10年 7种文献类型限制: 7种语种: 12种子文档:
39、(01年新增2种Space Life Sciences and Bioethics ),第二章 生物序列的相似性搜索 blast、 clustal 简介及其应用,一、序列相似性比较,1、序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等.,相似性:是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。,2、相似性和同源性关系,序列的相似性和序列的同源性
40、有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。,3、Blast简介,BLAST 是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写。,Blast 是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和
41、数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。 下表列出了主要的blast程序。,Blast简介,主要的blast程序,Blast资源,1.NCBI主站点:http:/www.ncbi.nlm.nih.gov/BLAST/(网络版)ftp:/ftp.ncbi.nlm.nih.gov/blast/ (单机版) 2.其他站点:http:/ http:/www.fruitfly.org/blast/(果蝇),Blast结果给出的信息,Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。 1
42、.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 这些信息都可以应用到后续分析中。,两种版本的Blast比较(一),网络版本包括NCBI在内的很多网站都提供了在线的blast服务,这也是我们最经常用到的blast服务。网络版本的blast服务就有方便,容易操作,数据库同步更新等优点。但是缺点是不利于操作大批量的数据,同时也不能自己定义搜索的数据库。,单机版单机版的blast可以通过NCBI的ftp站点获得,有适合不同平台的版本(包括linux,dos等)。获得程序的同时必须获取相应的数据库才能在本地进行blast分析。 单机版的优点是可以处
43、理大批的数据,可以自己定义数据库,但是需要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平。,两种版本的Blast比较(二),NCBI提供的Blast服务,登陆ncbi的blast主页,核酸序列,蛋白序列,翻译序列,底下有其他一些针对特殊数据库的和查看以往的比对结果等,Blast任务提交表单(一),1.序列信息部分,填入查询(query)的序列,序列范围 (默认全部),选择搜索数据库,如果接受其他参数默认设置,点击开始搜索,Blast任务提交表单(二),设置搜索的范围,entrez关键词,或者选择特定物种,2.设置各种参数部分,一些过滤选项,包括简单重复序列,人类
44、基因组中的重复序列等,E值上限,窗口大小,如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数,Blast任务提交表单(三),3.设置结果输出显示格式,选择需要显示的选项以及显示的文件格式,显示数目,Alignment的显示方式,筛选结果,E值范围,其他一些显示格式参数,点击开始搜索,提交任务,返回查询号(request id),可以修改显示结果格式,修改完显示格式后点击进入结果界面,结果页面(一),图形示意结果,结果页面(二),目标序列描述部分,带有genbank的链接,点击可以进入相应的genbank序列,匹配情况,分值,e值,每个条目后面给出相似性分数值Score和期望频率值
45、E,以相似性分数值大小为序排列,分数越高,相似性越大。而E值则表示随机匹配的可能性,E值越大,随机匹配的可能性也越大。,结果页面(三),详细的比对上的序列的排列情况,一个具体的例子(blastp),假设以下为一未知蛋白序列 query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRG
46、GSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA我们通过blast搜索来获取一些这个序列的信息。,具体步骤,1.登陆blast主页http:/www.ncbi.
47、nlm.nih.gov/BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果,分析过程(一),1.登陆ncbi的blast主页,2.选择程序,因为查询序列是蛋白序列可以选择blastp,点击进入,也可以选择tblastn,作为演示, 我们这里选blastp,分析过程(二),3.填入序列(copypaste) Fasta格式,或者纯序列,4.选择搜索区域,这里我们要搜索整个序列,不填,5.选择搜索数据库,这里我们选nr(非冗余的蛋白序列库)。,是否搜索保守区域数据库(cdd),蛋白序列搜索才有。 我们选上,分析过程(三),6.限制条件,我们限制在病毒
48、里面找。,7.其他选项保持默认值,打分矩阵,分析过程(四),8.输出格式选项保持默认值,9.点击开始搜索,分析过程(五),10.查询序列的一些相关信息,在cdd库里面找到两个保守区域,点击可以进入,分析过程(六),图形结果,分析过程(七),匹配序列列表,分析过程(八),具体匹配情况,2、序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;,多序列比对的内容提要,多序列比对的意义 多序列比对的方法 自动多序列比对的算法
49、Clustalx的使用(clustal法) 实例分析,多序列比对的意义,用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找调控因子 ,保守区域等。 用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。,多序列比对工具 clustalX,Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,windows版本的clustalx等。,分子进化分析与相关分析软件的应用,内容提要,分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用PAUP*在分子进化分析中的应用,内容提要,分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用PAUP*在分子进化分析中的应用,