1、蛋白质结构预测和序列分析软件2010-05-08 20:40转载自 布丁布果最终编辑 布丁布果4 月 18 日蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT 和 PIR 是国际上二个主要的蛋白质序列数据库,目前这二个数据库在 EMBL 和GenBank 数据库上均建立了镜像 (mirror) 站点。SWISS-PROT 数据库包括了从EMBL 翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长
2、。2、TrEMBL 数据库: SWISS-PROT 的数据存在一个滞后问题,即把EMBL 的 DNA 序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的 DNA 序列尚未列入 SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL 也是一个蛋白质数据库,它包括了所有 EMBL 库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。3、PIR 数据库: PIR 数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research
3、 Foundation, NBRF)收集的蛋白质序列,主要翻译自 GenBank 的 DNA 序列。1988 年,美国的 NBRF、日本的 JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的MIPS(Munich Information 4、 ExPASy 数据库: 目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的
4、数据库。网址:http:/www.expasy.org我国的北京大学生物信息中心() 设立了 ExPASy 的镜像(Mirror)。Centre for Protein Sequences 摹尼黑蛋白质序列信息中心)合作,共同收集和维护 PIR 数据库。PIR 根据注释程度(质量)分为 4 个等级。主要蛋白质序列数据库的网址 SWISS-PROT http:/www.expasy.org/sprot或 http:/www.expasy.org/expasy_urls.htmlTrEMBL http:/www.expasy.org/sprotPIR http:/www-nbrf.georgeto
5、wn.edu/pirwwwMIPSMunich Information Centre for Protein Sequenceshttp:/mips.gsf.de/JIPIDthe Japanese International Protein Sequence Database已经和 PIR 合并 ExPASy http:/www.expasy.org二、蛋白质结构数据库 1、PDB 数据库: 实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB(Protein Data Bank)中。PDB 是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB 贮存有由
6、 X射线和核磁共振(NMR)确定的结构数据。5、 CATH 数据库: CATH(Class, Architecture, Topology and Homologous superfamily)是与 SCOP 类似的一个数据库。蛋白质结构数据库网址 PDB http:/www.rcsb.org/pdb (美国) http:/www.ebi.ac.uk/pdb (欧洲) 2、NRL-3D 数据库: NRL-3D(Naval Research Laboratory-3D)数据库提供了贮存在 PDB 库中蛋白质的序列,它可以进行与已知结构的蛋白质序列的比较。3、HSSP 数据库: 对来自 PDB 中
7、每个已知三维结构的蛋白质序列进行多序列列线(multiple sequence alignment)同源性比较的结果,被贮存在 HSSP(homology-derived second structures of proteins)数据库中。被列为同源的蛋白质序列很有可能具有相同的三维结构,HSSP 因此根据同源性给出了 SWISS-PROT 数据库中所有蛋白质序列最有可能的三维结构。4、 SCOP 数据库: 要想了解对已知结构蛋白质进行等级分类的情况可利用SCOP(Structural classification of proteins)数据库,在该库中可以比较某一蛋白质与已知结构蛋白的结
8、构相似性。 NRL-3D http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html HSSP http:/www.sander.ebi.ac.uk/hssp http:/www.cmbi.kun.nl/gv/hssp SCOP http:/scop.mrc-lmb.cam.ac.uk/scop CATH http:/www.biochem.ucl.ac.uk/bsm/cath http:/cathwww.biochem.ucl.ac.uk/latest/index.html 三、蛋白质二级结构预测网站(数据库) 4、Prosite(蛋白质序列功能位点数
9、据库) 始建于 1990 年代初,由瑞典生物信息学研究所SIB 负责维护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件Prosite;说明文件 PrositeDoc。 Prosite 的网址:http:/cn.expasy.org/prosite 5、DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP 的网址:http:/www.cmbi.kun.nl/gv/dssp 6、FSSP (Families of Structur
10、al Similar Proteins) 蛋白质家族数据库 FSSP 的网址:http:/www.embl-ebi.ac.uk/dall/fssp 7、HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库 HSSP 的网址: http:/www.cmbi.kun.nl/gv/hssp 在前面已经述说过了。 第二节、蛋白质序列分析方法一、多序列比对 双序列比对是序列分析的基础。然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征。多序列比对在阐明一组相关序列的重要生物学模式方
11、面起着相当重要的作用。多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。因此,正如我们不能对双序列比对的结果得出“正确或错误”的简单结论一样,多序列比对的结果也没有绝对正确和绝对错误之分,而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。目前,构建多序列比对模型的方法大体可以分为两大类。第一类是基于氨基酸残基的相似性,如物化性质、残基之间的可突变性等。另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也就是说根据
12、序列的高级结构特征确定比对结果。这两种方法所得结果可能有很大差别。一般说来,很难断定哪种方法所得结果一定正确,应该说,它们从不同角度反映蛋白质序列中所包含的生物学信息。基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。蛋白质序列是经过 DNA 序列转录翻译得到的。从信息论的角度看,它应该与 DNA 分子所携带的信息更为“接近”。而蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修饰所增加的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质结构。因此,这也是对完全基于序列数据比对
13、方法批评的主要原因。如果能够利用结构数据,对于序列比对无疑有很大帮助。不幸的是,与大量的序列数据相比,实验测得的蛋白质三维结构数据实在少得可怜。在大多多序列比对的定义 为了便于描述,对多序列比对过程给出下面的定义。把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位数情况下,并没有结构数据可以利用,我们只能依靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。置。将序列依照下列规则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐(表 1)。我们称比对前序列中残基的位置为绝
14、对位置。如序列的第 3 位的残基是甘氨酸 G,则绝对位置3 就是甘氨酸,而不能变成任何其它氨基酸。相应地,我们称比对后序列中残基的位置为相对位置。显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。绝对位置是序列本身固有的属性,或者说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属性。算法复杂性 多序列比对的计算量相当可观,因此有必要分析以下技术的复杂性。双序列比对所需要的计算时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用O(m1m2)表示。其中 m1、m2 是指两条序列的长度。三序列比对则可以理解为将双序列
15、比对的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。这样算法复杂性就变成了O(m1m2m3),其中 m3 表示第三条序列的长度。随着序列数量的增加,算法复杂性也不断增加。我们用O(m1m2m3mn)表示对 n 个序列进行比对时的算法复杂性,其中 mn 是最后一条序列的长度。若序列长度相差不大,则可简化成 O(mn),其中 n 表示序列的数目,m 表示序列的长度。显然,随着序列数量的增加,序列比对的算法复杂性按指数规律增长。比对方法 1)手工比对方法 手工比对方法在文献中经常看到。因为难免加入一些主观因素,手工比对通常被认为有很大的随意性。其实,即使用计算机程序进行自动比对,所得结果中的
16、片面性也不能予以忽视。在运行经过测试并具有比较高的可信度的计算机程序基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,应该说是非常必要的降低算法复杂性,是研究多序列比对的一个重要方面。为此,产生了不少很有实用意义的多序列比对算法。这些方法的特点是利用启发式(heuristics)算法降低算法复杂性,以获得一个较为满意但并不一定是最优的比对结果,用来找出子序列、构建进化树、查找保守序列或序列模板,以及进行聚类(clustering)分析等。有的算法将动态规划和启发性算法结合起来。例如,对所有的序列进行两两比对,将所有的序列与某个特定的序列进行比对,根据某种给定的亲源树进行分组比对,等
17、等。必须指出,上述方法求得的结果通常不是最优解,至少需要经过 n-1 次双序列比对,其中 n 为参与比对的序列个数。 多序列比对的软件已经有许多,其中一些带有编辑程序。最好的办法是将自动比对程序和编辑器整合在一起。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特性的残基,以帮助判别序列之间的相似性。颜色的选择十分重要,如果使用不当,看起来不很直观,就会使比对结果中一些有用的信息丢失。相反,如果选择得当,就能从序列比对结果中迅速找到某些重要的结构模式和功能位点。例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。颜色的选择可以根据
18、主观愿望和喜好,但最好和常规方法一致。用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。多序列比对程序的另一个重要用途是定量估计序列间的关系,并由此推断它们在进化中的亲缘关系。可以通过计算完全匹配的残基数目或计算完全匹配残基和相似残基的数目得到这种定量关系。这一方法除了可以大略了解序列间的亲缘关系外,也可用来评估比对质量。如果序列的相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之处.2)、同步法 同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。其基本思想是将一个二维的动态规划矩阵扩展到三维或多
19、维。矩阵的维数反映了参与比对的序列数。这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序列的比对.3)、步进法 这类方法中最常用的就是 Clustal,它是由Feng 和 Doolittle 于 1987 年提出的(Feng 和Doolittle,1987)。由于对于实际的数据利用多维的动态规划矩阵来进行序列的比对不太现实,因此大多数实用的多序列比对程序采用启发式算法,以降低运算复杂度。Clustal 的基本思想是基于相似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之间进行比对,计算相
20、似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序的一部分,Clusal 可以输出用于构建进化树的数据。Clustal 程序有许多版本,ClustalW(Thompson 等,1994),根据对亲缘关系较近的序列间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变异性。Clustal 是免费软件,很容易从互联网上下载,和其它软件一起,广泛用于序列分析。Clustal 所支持的数据格式包括EMBL
21、/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及 Clustal 本身定义的格式。它的输出格式可以是 Clustal格式,也可以是可用于 GDE、 Phylip、GCG 等软件的格式多序列比对的数据库 可以看看 PRINTS 数据库关于 TRANSFERRIN 的比对信息, PRINTS 数据库在自动比对的基础上进行了手工编辑,查寻 PRINTS 数据库中关于TRANSFERRIN 这一类的比对信息,结果可以用模体(motif)形式显示也可以用点击链接调用JAVA APPLET 进行图形显示,下图是关于TRANSFERRIN 序列比对的局部图形,可见PR
22、INTS 数据库中 TRANSFERRIN 一类由更多的序列比对形成。多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵敏度也具有很大帮助。因此,方便实用的多序列比对数据库也就应运而生。目前,互联网上可用的多序列比对数据库已经不少。其中一些利用计算机程序将一次数据库按家族分类;另外一些则是通过手工或自动方法根据基因家族构建二次数据库。例如,Pfam 是将一次库通过自动比对来构建的数据库,它将大量具有结构相似性的序列归为一类,比如各种不同种类动物的转铁蛋白的基因序列具有一定的相似性,Pf
23、am 将这些序列归为一类命名为TRANSFERRIN,我们可以在Pfam 查找 TRANSFERRIN 来得到原始序列比对信息,开头是一些注释信息,然后给出了比对序列的名字,再下是比对结果,以“/”开始,并以“/”结束。对于一个未知的蛋白质序列在该序列库中查询,该序列库会给出匹配的类及得分供你参考。一般来说,对于具有较高相似性的一组序列之间的比对,自动比对方法是很有效的。一旦序列的亲缘关系变得较远,所得结果就不那么可信。若要得到比较可靠而又具有明确生物学意义的比对结果,比较有效的方法是对比对结果进行手工编辑和调整。这对于构建二次数据库是非常重要的信息。在二、蛋白质的结构与功能预测 蛋白质结构与
24、功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中,如 Chou 和 Fasman 提出的经验参数法便是最突出的例子。该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(P,P 和选择现有的序列模式或序列模体公开数据库构建自己的数据库系统时,对这些现有数据库的可靠性必须采取谨慎的态度Pt)并用于预测。下面简要介绍蛋白质结构与功能预测的生物信息学途径 (一)、蛋白质功能预测 1、根据序列预测功能的一般过程 如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物蛋白质
25、的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有 2 条主要途径可以进行上述的比较分析:比较未知蛋白序列与已知蛋白质序列的相似性; 查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。2、通过比对数据库相似序列确定功能具有相似序列的蛋白质具有相似的功能。因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。一个显著的匹配应至少有 25
26、%的相同序列和超过 80 个氨基酸的区段。已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。快速搜索工具(如 BLASTP)很容易发现匹配良好的序列,所以没有必要再运行更花时的工具(如FASTA、BLITZ);只有在诸如 BLASTP 不能发现显著的匹配序列时,这些工具才被使用。所以,一般的策略是首先进行 BLAST 检索,如果不能提供相关结果,运行 FASTA;如果 FASTA也不能得到有关蛋白质功能的线索,最后可选用完全根据 Smith-Waterman 算法设计的搜索程序,例如BLITZ(www.ebi.ac.uk/searches/blitz.html)。B
27、LITZ 不做近似估计(BLAST 和 FASTA 根据Smith-Waterman 算法做近似估计),所以很花时,但非常灵敏。通常诸如 BLITZ 的程序能够发现超过几百个残基但序列相同比率低于 2025%的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过还应注意计分矩阵(scoring matrix)的重要性。选用不同的计分矩阵有不少重要原因:首先,选用的矩阵必须与匹配水平相一致,例如,PAM250 应用于远距离匹配(25%相同比率),PAM40 应用于不很相近的蛋白质序列,而BLOSUM62 是一个通用矩阵;第二,使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的办
28、法。除了选用不同的计分矩阵,同样可以考虑选用不同的数据库。通常可以使用的数据库是无冗余蛋白序列数据库 SWISS-PROT 和 PDB。其它一些数据库也可以试试,如可用 BLASTP 搜索复合蛋白质序列库 OWL (www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owl_blast.html)3、序列特性:疏水性、跨膜螺旋等 许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测。还有不少小的模序(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。网上有大量数据资源帮助我们利用这些特性预测蛋白质功能。疏水性信
29、息可用 ExPASy(http:/expasy.hcuge.ch/egibin/protscal.pl)的ProtScale 程序创建并演示。这是一个很有用的工具,它能计算超过 50 种蛋白质的特性。程序的输入即可通过输入框将序列粘贴进去,也可输入SWISS-PROT 的记录号。仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为 9。如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20 个氨基酸长度有多种方法可以预测序列的跨膜螺旋。最简单的方法是通过查找包含有 20 个疏水残基的区段,一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位
30、置,还能确定其在膜上的方向。这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。TMbase 是一个自然发生的跨膜螺旋数据库(http:/ulrec3.unil.ch/tmbase/TMBASE_doc.html)。相关的一些程序:TMPRED (http:/ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm (www.embl_heidelberg.de/services/sander/predictprotein/preictprotein.html)、TMAP (http:/www.embl-heidelberg.de/tmap/tmap/tm
31、ap_sin.html)和MEMSAT (ftp.biochem.ucl.ac.uk)。这些程序将使用了不同的统计模型,总体上,预测准确率在 8095%左右。跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一预测前导序列或特殊区室靶蛋 近年来,另一个介于二级和三级结构之间的蛋白信号的程序:SignalP (http:/www.cbs.dtu.dk/services/SignalP)和 PSORT (http:/psort.nibbac.jp/form.html)。另一个可从序列中确定的功能模序是卷曲(coil)螺旋。在这一结构中,二个螺旋由于疏水作用而缠绕在一起形成非常稳定的结构。相关的2
32、 个程序:COILS (http:/ulrec3.unil.ch/software/COILS_form.html)和Paircoil (http:/ostrich.lcs.mit.edu/cgi-bin/score)4、通过比对模序数据库等确定功能 如前所述(二)蛋白质结构预测 1、蛋白质结构及其数据库 一般情况下,蛋白质的结构分为 4 个层次:初级结构蛋白质序列;二级结构螺旋和 折叠片(-sheets)模式;三级结构残基在空间的布局;四级结构蛋白质之间的互作。白质结构层次所谓蛋白质折叠(fold)已被证明非常有用。“fold”描述的是二级结构元素的混合组合方式。根据序列或多序列列线预测蛋白
33、质二级结构的技术已相对比较成熟,但三级结构的预测则相当困难。往往对于三级结构预测,只能通过与已知结构蛋白序列同源性比对来完成。已有不少相关数据库被建立起来用于蛋白质结构预测。这一方法已是目前进行三级结构预测的最准确方法。但是这一方法并不总是奏效,因为大约有 80%的已知蛋白质序列找不到与之相似的已知结构的蛋白质序列。近年来,一些新方法被提出,这些方法可以不通过相似性比对来预测序列结构。2、二级结构预测 已有大量有关根据序列预测蛋白质二级结构的文献资料,这些资料可大致分为二类:一是有关根据单一序列预测二级结构;二是有关根据多序列列线预测二级结构。直到最近为止,二级结构预测才不被认为具有很高的随机
34、性。大多数预测算法均是依据单一序列。即使是最著名的一些算法(如 Chou-Fasman 算法和 GOR算法)也只有约 60%的预测准确率,而对于一些特定的结构,一些文献表明,一些程序(诸如 PHD)预测的准确率达到了目前最高水平。PHD(http:/www.embl-heidelberg.de/predictprotein/predictprotein.html) 如那些富含 折叠片的结构,这些算法难以预测成功。预测失败的原因主要是单一序列所提供的信息只是残基的顺序而没有其空间分布的信息。两个方面的研究进展改变了这一状况:一是认识到多序列列线可被用于改进预测能力。多序列列线可被视为诱变遗传学试
35、验中的自然突变状况,其对序列上单一位点变异的分析的确提供了该位点在蛋白质三级结构中的信息;二是神经网络已开始被用于根据序列预测结构。目前已有这样一个共识,即在有大量、高质量的多序列列线结果的情况下,蛋白质二级结构的预测将非常准确通常准确率比以单一序列预测提高 10 %。提供了从二级结构预测到折叠(fold)识别等一系列功能。 3、三级结构预测 比对数据库中已知结构的序列是预测未知序列三级结构的主要方法。多种途径可进行以上这种比对。最容易是使用 BLASTP 程序比对NRL3D 或 SCOP 数据库中的序列。如果发现超过 100 个碱基长度且有远高于 40%序列相同率的匹配序列,则未知序列蛋白与
36、该匹配序列蛋白将有非常相似的结构。在这种情况下,同源性建模(homology modeling)在预测该未知蛋白精细结构方面会发挥非常大的作用。在序列相同率为 25 %40 %时,两条蛋白质将具有相同的折叠,但这时同源性建模将变得更加困难和不准确。如果在比对 NRL3D 数据库时没有发现匹配序列,接下去可试试 HSSP 数据库。这样做的一条最方便捷径是用 BLAST 或FASTA 法搜索蛋白质序列库(如 SWISS-PROT、TREMBL 或PIR),然后利用诸如 SRS 等工具去检索任何超过 25%序列相同率的匹配序列,如果这些匹配序列在 HSSP 数据库中存在,则在该序列的注释(annot
37、ation)“DR”栏中将有说明(参见第三章)。如果未知蛋白质序列与某一 HSSP 数据库序列有明显大于 25%的序列相同率,则有把握地假定未知序列至少有与 HSSP 序列相同的蛋白质折叠模式。目前,NRL3D 和 HSSP 数据库的记录数量可以保证 20%的蛋白质序列将找到已知结构的同源序列。总的来说,同源性建模需要专业分子建模方法和分子图象资源的辅助才能进行。不妨到 SwissModel 网站(http:/expasy.hcuge.ch/swissmod/SWISS-MODEL.html)看看。SwissModel 是一个蛋白质自动建模服务器,使用者可以直接发送一条序列或使用者自己完成的列
38、线结果给该服务器用于同源性建模。近年蛋白质结构研究的最主要进展之一,是有关“串线”(threading)算法和折叠识别。这些技术可以在不存在已知结构同源蛋白质序列的情况下,预测所有可能的蛋白质结构。 “这个未知蛋白序列会是什么结构呢?”我们也可以这样问:“我已经观察了已知结构蛋白质的各种折叠方式,未知序列是否会象这些已知结构中的某一个一样折叠呢?”第一个问题涉及几十亿种可能结构的搜索,而第二个问题涉及的是少于 1000 种结构的搜索。 特定的蛋白质折叠被一而再,再而三地观察到大部分新的经晶体衍射的蛋白将会与我们已知的折叠相关,这些过程使预测的成功机率不断提高。在串联算法中,未知序列以合适的方式
39、被“串”到一个数据库某一折叠模板,然后计算该序列的能(energy);在该序列与数据库中所有的折叠模板均“串”好后,可以进行计分比对,决定那些匹配达到了显著。折叠的识别技术目前还不是特别可靠的技术,只有在序列相同比率在 30%50%时,才有可能获得准确的估计。相关程序的结果也相当粗糙,大多数情况下难以作为同源性建模研究的依据。但是它是大多数蛋白质结构预测信息唯一可利用的工具。 一些相关应用程序: TOPITS (http:/www.embl-heidelberg.de/predictprotein/predictprotein.html)、 frsvr (http:/www.mbi.ucla.edu/people/frsvr/frsvr.html)、 123D (http:/www_lmmb.ncifcrf.gov/nicka/123D.html)、THREADER 和 THREADER2 (http:/globin.bio.warwick.ac.uk/jones/threader.html)和 ProFIT (http:lore.came.sbg.ac.at/Extern/software/Profit/profit.html)