收藏 分享(赏)

生物信息学作业10.ppt

上传人:gnk289057 文档编号:8294095 上传时间:2019-06-19 格式:PPT 页数:509 大小:13.44MB
下载 相关 举报
生物信息学作业10.ppt_第1页
第1页 / 共509页
生物信息学作业10.ppt_第2页
第2页 / 共509页
生物信息学作业10.ppt_第3页
第3页 / 共509页
生物信息学作业10.ppt_第4页
第4页 / 共509页
生物信息学作业10.ppt_第5页
第5页 / 共509页
点击查看更多>>
资源描述

1、作业,1. 从Genbank 中找到一条关于白睡莲(Nymphaea alba)的叶绿体全基因组序列。并用中文解释说明其序列长度、序列的编号、录入日期、碱基组成及序列。,作业,2. 使用entrez获取登录号为P26374的蛋白序列,然后通过blastp,搜索nr库中最相似的5个序列(列出5个最相似的序列及其序列接受号/登录号)。,多序列比对,第一部分:多序列比对 方法、算法 Clustal的使用Clustalw 第二部分:常见的序列分析软件分类简介,多序列比对及Clustal的使用,数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。相似性(similarity)

2、和同源性(homology)是两个完全不同的概念。,相似性和同源性,相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近、甚至与结构与功能有什么联系。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。,生物序列的相似性,相似性(similarity):是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。当然

3、可进行自身局部比较。,所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。同源性可以用来描述染色体“同源染色体”、基因“同源基因”和基因组的一个片断“同源片断”,同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80都是不科学的。,生物序列的同源性,相似性和同源性关系,序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系,很多

4、时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。,序列相似性比较和序列同源性分析,序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源

5、性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;,双序列比对是序列分析的基础。然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征。多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。,数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。 新测定的、希望通过数据库搜索确定其性质或功能的序列称作检测序列。 把通过数据库搜索得到的和检测序列具有一定相似性的序列成为目标序列。,局部相似性和整体相似性,序列比对的基本思想,是找出检测序列和目标

6、序列的相似性。比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除(图2)。,图2 序列比对,图中“-”表示插入和删除,用字符表示相同的残基,“+”表示相似残基,多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。,目前,构建多序列比对模型的方法大体可以分为两大类。第一类是基于氨基酸残基的相似性,如物化性质、残基之间的可突变性等。另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也就是说根据序列的高级结构特征确定比对结果。这两种方法所得结果可能有很大差别。一般说来,很难断定哪种方法所得结果一定正确,应

7、该说,它们从不同角度反映蛋白质序列中所包含的生物学信息。,基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。,如果能够利用结构数据,对于序列比对无疑有很大帮助。但是,与大量的序列数据相比,实验测得的蛋白质三维结构数据相当有限。在大多数情况下,并没有结构数据可以利用。,多序列比对的定义,为了便于描述,对多序列比对过程给出下面的定义。把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。,表示五个短序列(I-V)的比对结果。通过插入空位,使5个序列中大多数相同或相似残基放入同一列,并保

8、持每个序列残基顺序不变,表1 多序列比对的定义,我们称比对前序列中残基的位置为绝对位置。如序列的第3位的残基是甘氨酸G,则绝对位置3就是甘氨酸,而不能变成任何其它氨基酸。相应地,我们称比对后序列中残基的位置为相对位置。显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。绝对位置是序列本身固有的属性,或者说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属性。,调和序列,多序列比对的方法,同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自

9、动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。,多序列比对的方法,基本上多序列比对可以分为1.手工比对通过辅助编辑软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。2.计算机程序自动比对通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。,比对方法,1.手工比对方法,手工比对方法在文献中经常看到。因为难免加入一些主观因素,手工比对通常被认为有很大的随意性。其实,即使用计算机程序进行自动比对,所得结果中的片面性也不能予以忽视。,通常使用不同颜色表示具有不同特性的残基,以帮助判别序列之间的相似性。颜色的选择十分重要,如果使用不当,

10、看起来不很直观,就会使比对结果中一些有用的信息丢失。相反,如果选择得当,就能从序列比对结果中迅速找到某些重要的结构模式和功能位点。,例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。颜色的选择可以根据主观愿望和喜好,但最好和常规方法一致。,表2 氨基酸分组方法和代表性颜色,多序列比对程序的另一个重要用途是定量估计序列间的关系,并由此推断它们在进化中的亲缘关系。可以通过计算完全匹配的残基数目或计算完全匹配残基和相似残基的数目得到这种定量关系。这一方法除了可以大略了解序列间的亲缘关系外,也可用来评估比对质量。,自动多序列比对的算法,1.同步

11、法同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。,自动多序列比对的算法,2.渐进的比对方法最常见的就是clustal所采用的方法。它是由Feng和Doolittle于1987年提出的(Feng和Doolittle,1987)。,Clustal的渐进比对过程,Clustal的基本思想是基于相似序列通常具有进化相关性这一假设。 在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值

12、。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。,Clustal程序有许多版本。Clustal是免费软件,很容易从互联网上下载,和其它软件一起,广泛用于序列分析。Clustal所支持的数据格式包括EMBL/SWISSPROT、PIR、Pearson/FastA以及Clustal本身定义的格式。它的输出格式是Clustal格式。,FASTA格式,又叫Pearson(FASTA的主要作者)格式,最简单的格式,使用最多,很多分子生物学软件以及序列提交比对均用这种格式。,序列文件格式例子( Fasta ),gi|995614|

13、gb|D49653|RATOBESE Rat mRNA for obese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGAC

14、CCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上这个FASTA文件中包含了gi号码、Gen

15、Bank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。第一行( )表示一个新的序列文件的开始,为标记符。后面可以加上文字说明, gi号码、GenBank检索号码、LOCUS名称等信息。第二行 序列本身,为DNA或蛋白质的标准符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。有些程序对大小写有明确要求,使用时需要注意。一般每行60个获80个字母。,一种最简单的fasta序列形式可以表示为:D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCC

16、TATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG.,数据库格式,各个数据库的具体格式有所不同,但从现在信息共享和各个数据库之间数据交换更新的需要和发展,大致可分为EMBL和GenBank所用的数据库两种格式。 是GenBank数据库的基本信息单位,是广泛地用于表示生物序列的格式之一, 也是DDBJ/EMBL/GenBank三大数据库交换数据是采用的格式。,分成3个部分,从LOCUS开始,包含了关于整个纪录的信息。 特性表,从FEAT

17、URES行开始,包含了注视这一纪录的特性,是条目的核心 核苷酸序列本身 最后一行以/符号结尾,1. GenBank中DNA序列格式,GenBank中数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。某些字段可能还有次级字段。计算机程序中的序列条目位于标识符“ORIGIN”和“/”之间。,序列文件格式例子( GenBank ),LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995 DEF

18、INITION Rat mRNA for obese. ACCESSION D49653 KEYWORDS . SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiatedadipose cDNA to mRNA.ORGANISM Rattus norvegicusEukaryotae; mitochondrial eukaryotes; Metazoa; Chordata;Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia;Sciurognathi

19、; Myomorpha; Muridae; Murinae; Rattus. REFERENCE 1 (bases 1 to 539)AUTHORS Murakami,T. and Shima,K.TITLE Cloning of rat obese cDNA and its expression in obese ratsJOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995)STANDARD full automatic COMMENT Submitted (10-Mar-1995) to DDBJ by:Takashi Mura

20、kamiDepartment of Laboratory MedicineSchool of MedicineUniversity of TokushimaKuramotocho 3-chomeTokushima 770JapanPhone: +81-886-33-7184Fax: +81-886-31-9495.,序列文件格式例子(GenBank)continued,NCBI gi: 995614 FEATURES Location/Qualifierssource 1539/organism=“Rattus norvegicus“/strain=“OLETF, LETO and Zucke

21、r“/dev_stage=“differentiated“/sequenced_mol=“cDNA to mRNA“/tissue_type=“adipose“CDS 30533/partial/note=“NCBI gi: 995615“/codon_start=1/product=“obese“/translation=“MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLE

22、ASLYSTEVVALSRLQGSLQDILQQLDLSPEC“ BASE COUNT 121 a 167 c 133 g 118 t ORIGIN1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg181 tatccgccag gcagagg

23、gtc accggtttgg acttcattcc cgggcttcac cccattctga241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc421 tggatggcgt cctggaagcc tcgctctact ccacagagg

24、t ggtggctctg agcaggctgc481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc /,EMBL与GenBank的主要区别,每一行左端均有识别标志,是由两个大写字母组成的识别标志 第三部分的序列的序号在右侧,采用了和EMBL核算序列数据库相同的格式和双字母标识字近年来开发了便于浏览的界面,在线的clustalw分析,EBI提供的在线clustalw服务 http:/www.ebi.ac.uk/Tools/clustalw2/index.html,EBI提供 的在线 Clustalw 服务,瑞典-

25、海地HIV感染人群HIV-1的p17gag和envV3区序列。,gi|1532267|gb|U68521.1|HIVU68521 atgggtgcga gagcgtcagt attaagcggg ggagagttag ataaatggga aagaattcgg ttaaggccag ggggaaagaa aaaatataaa ttaaaacata tagtatgggc aagcagggag ctagaacgat tcgcagttaa tcctggcctt ttagaaacat cagaaggctg tagacaaata ctgggacagc tacaaccagc ccttcagaca ggat

26、cagaag aacttaaatc attacataat acagtagcag tcctctattg tgtgcatcaa aggatagatg taaaagacac caaggaagct ttagagaaaa tagaggaaga gcaaaacaaa agtaagaaaa aagcacagca agcagcagct gacacaggaa acaacagcca ggtcagccaa aattacccta tagtgcagaa ccttcagggg caaatggta gi|1532263|gb|U68519.1|HIVU68519 atgggtgcga gagcgtcagt attaagcg

27、gg ggagaattag ataaatggga aaaaattcgg ttaaggccag ggggaaagaa aaaatataaa ttaaaacata tagtatgggc aagcagggag ctagaacgat tcgcagttaa tcctagcctt ttagagacat cagaaggctg tagacaaata ctgggacagc tacaaccggc ccttcagaca ggatcagaag aacttaaatc attacataat acagtagcag tcctctattg tgtgcatcaa aggatagatg taaaagacac caaggaagct

28、ttagagaaga tagaggaaga gcaaaacaaa agcaagaaaa aggcacagca agcagcagct gacacaggaa acaacagcca ggtcagccaa aattacccta tagtgcagaa cctccagggg caaatggta gi|1532259|gb|U68517.1|HIVU68517 atgggtgcga gagcgtcagt attaagcggg ggagaattag atagatggga aaaaattcgg ttaaggccag ggggaaagaa aaaatataaa ttaaaacata tagtatgggc aaga

29、agggag ctagaacgat tcgmagttaa tcctggcctt ttagagacat cagaaggttg tagacaaata ctgggacagc tacagccatc ccttcagaca ggatcagaag aacttaaatc attacataat acagtagcag tcctctattg tgtgcatcaa aggatagatg taaaagacac caaggaagct ttagacaaaa tagaggaaga gcaaaacaaa agtaagaaaa aagcacagca agcagcagct gacacaggaa acaacagcca ggtcagt

30、caa aattacccta tagtgcagaa ccttcagggg caaatggta gi|1532257|gb|U68516.1|HIVU68516 atgggtgcga gagcgtcagt attaagcggg ggagaattag ataaatggga aaaaattcgg ttaaggccag ggggaaggaa aaagtataaa ttaaaacatc tagtatgggc aagcagggag ctagaacgat atgcagttaa tcctggcctt ttagagacat cagaaggctg tagacaaata ttaggacagc tacaaccagc

31、cattcagaca ggatcagaag aacttaaatc attatataat acagtagtaa ccctctactg tgtgcatcaa aggatagatg taaaagacac caaggaagct ttagacaagg tagaggaaga acaaaacaaa agtaagaaaa aagcacagca agcagcagct gacacaggaa acagcggcaa ggtcagccaa aatttcccta tagtgcagaa cctacagggg caaatggta gi|1532255|gb|U68515.1|HIVU68515 atgggtgcga gagc

32、gtcagt attaagcggg ggagaattag ataaatggga aaaaattcgg ttacggccag ggggaaagaa aaaatatcaa ttaaaacata tagtatgggc aagcagggag ctagaacgat tcgcagttaa tcctggcctt ttagagacat cagaaggctg tagacaaata ttgggacagt tacaaccatc ccttcagaca ggatcagaag aacttaaatc attatataat acagtagcaa ccctctattg tgtgcatcaa aagatagata taaaaga

33、cac caaggaagct ttagagaaga tagaggaaga gcaaaacaaa tgtaagaaaa aggcacagca agccgctgct aacacaggaa gcagcagcca ggtcagccaa aattacccta tagtgcagaa cctccagggg caaatggta,第二部分: 常见的序列分析软件分类简介,GCG(商业软件),GCG (Genetics Computer Group)是生物信息界最广为人知的分子序列分析软件包,最早是在美国的威斯康辛大学麦迪逊校区(University of Wisconsin-Madison)内发展起来的,后来独立

34、成为一个商业公司,期间曾经是Oxford Molecular 的分支机构,在2000 年又由Pharmacopeia 所并构。,GCG 软件包包括了超过130个独立的序列分析程序,大致上涉及以下范围: 序列模块、关键词、同源性数据库搜索、序列比较、进化分析、序列两极结构分析、限制性酶切图谱、引物设计、序列模式识别、翻译、片段拼接,除了分析程序以外, GCG 同时也提供多种生物学数据库。核酸相关的:GenBank(http:/www.ncbi.nlm.nih.gov/ ) EMBL (http:/www.ebi.ac.uk/) 蛋白质相关的:SWISS-PROT (http:/www.expas

35、y.ch/sprot/)PIR (http:/www-nbrf.georgetown.edu/pir/)SP-TrEMBL (http:/www.expasy.ch/sprot/ ) 使用者可以输入自己实验获得的分子序列, 或者从这些数据库来获取得到分子序列,再用到GCG的分析程序进行分析。,进化树(evolution tree)构建,生物在进化上的亲缘关系,生物信息数据库,二级数据库简介,二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的

36、特色),二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色),1、基因组信息二级数据库,法国巴斯德研究所构建的大肠杆菌基因组数据库。 具有浏览、检索和数据库搜索功能。 用环形图表示。,TransFac(真核生物基因转录调控因子数据库)德国生物工程研究所开发维护,始建于1988年。包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布6个子库。TransFac的网址:http:/www.gene- 第一个数据文件的模式和目录

37、都与SWISS-PROT数据库匹配; 其中的数据按照SWISS-PROT数据库的形式存在,并且每一部分都对应着一定的信息。 在第二个文件中,以文本文件格式提供了对蛋白质家族特性的描述,并且给出了序列模体所具有的生物学作用及其相关的参考书目,,ID OPSIN; PATTERN. AC PS00238; DT APR-1990 (CREATED); JUL-1998 (DATA UPDATE); JUL-1998 (INFO UPDATE). DE Visual pigments (opsins) retinal binding site. PA LIVMWAC-PGAC-x(3)-SAC-K-

38、STALIMR-GSACPNV-STACP-x(2)-DENF- PA AP-x(2)-IY. NR /RELEASE=36,74019; NR /TOTAL=144(144); /POSITIVE=144(144); /UNKNOWN=0(0); /FALSE_POS=0(0); NR /FALSE_NEG=2; /PARTIAL=4; CC /TAXO-RANGE=?E?; /MAX-REPEAT=1; CC /SITE=5,retinal; DR P22269, OPS1_CALVI, T; P06002, OPS1_DROME, T; P28678, OPS1_DROPS, T; DR

39、 Q25157, OPS1_HEMSA, T; P35360, OPS1_LIMPO, T; O15973, OPS1_PATYE, T; DR Q94741, OPS1_SCHGR, T; P08099, OPS2_DROME, T; P28679, OPS2_DROPS, T; DR Q25158, OPS2_HEMSA, T; P35361, OPS2_LIMPO, T; O15974, OPS2_PATYE, T; DR Q26495, OPS2_SCHGR, T; P04950, OPS3_DROME, T; P28680, OPS3_DROPS, T; DR P08255, OPS

40、4_DROME, T; P29404, OPS4_DROPS, T; P17646, OPS4_DROVI, T; DR P91657, OPS5_DROME, T; O01668, OPS6_DROME, T; P51471, OPSB_ANOCA, T; DR O12948, OPSR_XENLA, T; P35359, OPSU_BRARE, T; Q90309, OPSU_CARAU, T; DR P90680, OPSV_APIME, T; P28684, OPSV_CHICK, T; P87368, OPSV_ORYLA, T; DR P51473, OPSV_XENLA, T;

41、O14718, OPSX_HUMAN, T; O35214, OPSX_MOUSE, T; DR P23820, REIS_TODPA, T; P47803, RGR_BOVIN , T; P47804, RGR_HUMAN , T; DR P17645, OPS3_DROVI, P; O18914, OPSR_CANFA, P; O18913, OPSR_FELCA, P; DR O18912, OPSR_HORSE, P; DR O18911, OPSG_ODOVI, N; O18910, OPSG_RABIT, N; 3D 1BOJ; 1BOK; DO PDOC00211; /,ID 标

42、识号(通常是蛋白质家族名称的缩写) AC 编码(该编码以PS00000的格式存在)。 DE 对蛋白质家族的描述, PA 该蛋白质家族所具有的模式。 NR 该模式的技术细节 CC 注释行 提供了在分类范畴上的蛋白质家族的信息,可观察到的该模式的最大重复数,对功能位点的说明等等。,DR 与SWISS-PROT数据库的交叉链接 信息 DO 在PrositeDoc说明文件中相应的代 码。,文本文件的结构比较简单。每一个条目使用各自的编码(采用PDOC00000的格式)来标识,并可与数据文件中的编码和标识号交叉引用。 随之是对蛋白质家族的描述,包括模式的情况和已知的生物学意义。该文件也包含了适当的参考书

43、目的信息。,序列模体,基于多序列比对得到的单一保守序列片断,对映着蛋白质分子中重要的结构或功能区域。,在单一的序列模体中,序列信息可以被描述成统一的表达式,如C-Y-X2-DG-G-X-ST,在方括号中为可选残基,X代表任意残基。如此的对序列模体的统一描述被称作正则表达或模式。,PRINTS (蛋白质序列指纹图谱数据库),起初由伦敦大学University College London (UCL)的生物化学和分子生物学系联合创建。到1999年,由曼彻斯特(Manchester)大学来维护。http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/,P

44、RINTS数据库中一个条目包含三方面的信息。 第一部分 代码(通常是该蛋白质家族名称的缩写)与名称(该蛋白质家族的名称) 一个唯一的编码,以PR00000的格式出现 在日期行中,给出了该条信息是何时被收入数据库的,最近的更新时间, 相关的参考书目和对该家族特性的简要介绍。,第二部分,组成序列指纹图谱的序列模体的鉴别信息。 列出了有多少序列与所有的序列模体匹配和有多少序列只与部分序列模体匹配, 最后一部分,通过数据库搜索生成的序列模体。,以BLAST搜索工具搜索。 发展 PRINTS-S数据库 减少冗余 交互性增强,BLOCKS,由美国西雅图的Fred Hutchinson 癌症研究中心(FHC

45、RC)的Henikoff夫妇创建并维护(Henikoff et al, 1998) , 该数据库以包含在PROSITE数据库中的蛋白质家族为基础。是通过自动检查每个蛋白质家族中高度保守的区域产生的。,蛋白质序列谱数据库(Profile),瑞士洛桑的实验癌症研究所(Swiss Institute for Experimental Cancer Research)(ISREC)创建了序列谱数据库 以全序列比对为基础,包括了蛋白质序列中所有残基的信息。,3、蛋白质结构二级数据库,DSSP (Definition of Secondary Structure of Proteins)蛋白质二级结构构象

46、参数数据库DSSP的网址:http:/www.cmbi.kun.nl/gv/dssp/ FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库FSSP的网址:http:/srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+LibInfo+-lib+FSSPHSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库HSSP的网址: http:/www.cmbi.kun.nl/gv/hssp/,DSSP,根据PDB中的原子坐标,计算每个氨基酸残基

47、的二级结构构象参数,包括氢键、二级结构类型等。,FSSP (Families of Structural Similar Proteins),将PDB数据库中的蛋白质通过序列和结构比对进行分类的数据库。,HSSP(Homology Derived Secondary Structure of Proteins),已知三维结构的同源蛋白家族,未知结构的蛋白质分子,并将它们按同源家族分类。,生物信息 学数据库 工具,生物信息数据库,染色体,核酸,蛋白质,基因组图谱,DNA序列,蛋白质序列,蛋白质结构,基因组 数据库,核酸序列 数据库,蛋白质序列 数据库,蛋白质结构 数据库,二次数据库 复合数据库,

48、基因组作图,序列测定,结构测定,三大核酸序列数据库,Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。 NCBI的网址是:http:/www.ncbi.nlm.nih.gov。EMBL核酸序列数据库 由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。 数据库网址是:http:/www.ebi.ac.uk/embl/。 DDBJ数据库 日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。 DDBJ的网址是:http:/www.ddbj.nig.ac.jp/。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报