1、 一种全自动的蛋白质折叠进化分类:Dali 结构域词典第三版A fully automatic evolutionary classification of protein folds:Dali Domain Dictionary version 3摘要Dial结构域词典是一种对蛋白质晶体结构数据库(PDB)中所有已知结构的数值分类。这种分类来源于完全自动地对结构、功能和序列相似性的衡量。这里,我们对这种分类的范围加以叙述以便于符合传统意义上的四种分类等级:(i)超二级结构(空间折叠上的吸引子attractor), (ii)球状拓扑结构域(折叠类型),(iii)远程同源结构(功能家族)以及 (
2、iv)25%以上序列同源性结构(序列家族)。在计算上对吸引子(attractor)和功能家族的定义是新近的。截至 2000年 9月,Dial 分类辞典拥有包含 17101个链接的 10531个蛋白质晶体结构数据库入口,所包含的连接被分成了 5个吸引子区域、1375 个折叠类型,2582 个功能家族和 3724个结构域序列家族。序列家族更与 HSSP数据库中 99582个单一同源序列所联结,这促使我们成倍的获得了有效的已知的蛋白质结构。最终的数据库包含了对蛋白质结构域体系结构的描述、对已知结构的临近结构的定义,及对结构上的保守中心和一个大范围的清晰多队列远亲源性蛋白质家族数据文库的定义。引言蛋白
3、质工程上的改进方法,如结晶学以及核磁共振图谱的应用引发了蛋白质晶体结构数据库中对新蛋白质结构积累的热潮,而且许多对这些数据进行等级分类的原始数据库或者在它们结构的相邻关系方面已经在互联网上出现。我们对 Dali结构域词典和 FSSP数据库每星期进行连续的资料补充。这是因为许多蛋白质结构的相似性是在于其结构域的,例如部分结构和蛋白质链按照循环和简洁的标准被降解成一些结构域。每个结构域都被赋予一个结构域分类号D.C.l.m.n.p分别代表吸引子区域的空间折叠( l) ,拓扑球状折叠( ) ,功能家族( )以及序列家族( ) 。这种离散的分类方法表现出了在蛋白质空间结构上避免冗余和只是简单导航的观点
4、。这种结构分类与有功能注释关联的序列家族明确的链接起来,致使可以在线浏览的生物学上受人关注的关系构成了一个容量丰富的网络。更特别的一点是基于结构的队列使我们对远距离进化的关系有了更深一个层次的了解。图一:组蛋白乙酰基转移酶和精氨酸酶家族的一致性。对结构框架的重新利用和修改以实现新的细胞功能在蛋白质进化方面被广泛利用着。尽管在全序列上的相似性很低,但组蛋白乙酰基转移酶和精氨酸酶在功能家族分类水平是一致的。支持这点的证据来自于它们结构和功能上的相似性。 (A)通过 Dali对精氨酸酶(左,1rlaA)和组蛋白乙酰基转移酶(右,1c3pA)结构比较得出高度 Z-score的叠印,由 Molscrip
5、t绘制。 (B)连接结构,两个在活性部位周围片段近化及功能上的信息,结构上排成一行的位点被遮盖。精氨酸酶有一个双核金属中心,其中一个与 D124, H126和 D234残基连接,另一个是 D168, H170和 D258残基与锰离子结合。前一个位点与由 D168, H170 和 D258残基组成的组蛋白乙酰基转移酶的锌结合位点是等同的。上文已经显示出 HSSP(星号,代表 10或以上;0,不变)中源于多重对比临近序列的序列可变性,由 DSSP(E,B,-片层,S 弯曲;T,G,氢键旋转)摘要的二级结构也由一面的氨基酸序列所显示。空间折叠图这种分类根本的中心的概念就是一个空间折叠图。这种图谱是基
6、于蛋白质晶体数据库中详尽的所有相邻蛋白质结构。几乎所有的结构比较都是由 Dali的程序来进行的。由于这些详尽的比较,蛋白质晶体数据库中的每一个结构都根据它们对于所有其他结构的相似性程度被给予了提炼和高度空间化的定位。结构相似性的图像(结构域中)被分成了四种不同间隔尺寸水平的簇。纹理粗糙的一般看法产生的是少数用于大规模数量和大范围相似性的簇,而较细致的分类产生的是大量的能根据功能限制到达原子水平的簇,例如结合位点。继续对 FSSP数据库进行探索,折叠的类型被不同的凝集簇所定义,以致一种折叠类型里的成员往往平均有两个以上成双的 Z-scores。开端一般根据经验选择有拓扑相似性的一组集合的结构。D
7、ali 结构域词典第三版在两种新的水平上介绍了折叠分类,分别高于和低于现在抽象出的折叠类型层次。最高层次上对折叠的分类符合二级结构成分和超二级结构域,我们先前已经确定了五种空间折叠上的吸引子结构。我们用最短路径的标准来划分折叠空间以使每个结构域都被赋予到代表最原始结构的吸引子 I-V中。没有和其他结构相联系的结构被分到 X类。没有和其他结构域清楚连接的结构域被分到混合的类 Y。现在,Y 类由 1/6的有代表性的结构域组成。以后它们其中的一些很可能会被分类到新出现的吸引子中。进化上的分类其他新层次上的分类从较强的伴随着功能和序列相似性的结构相似性推断出似是而非的进化关系。从概念上讲,这个功能家族
8、水平等同于 scop的超家族水平。从计算学上对的形状收敛的进化红色那个相关的及同源分歧蛋白质的区分已经越发受到重视。仅仅结构上的相似性是不足以将两个类划上等号的。例如,溶解酵素在支持活性位点上显示出了很强的结构分歧,同时卷曲结构和 -桶状结构非常简单,在几何结构上限制了被认为在蛋白质进化中出现多次地拓扑机构。为了定位处理进化分类上的问题,我们选择运用数值分类法在结构相似性上去分析功能和序列中心的特征。两种蛋白质功能特点越相近,它们偶然形成这种结构的可能性越小。目前,我们的特征装置包括普遍序列近邻结构(于 PSI-BLAST家族交迭) ,对相同保守序列的 3D簇的分析,酶的分类以及对关键生物学功
9、能的分析。一种神经性网络分担了这种质量上的不同特性,这种神经网络结构是被设计以避免超家族在手动折叠分类上进行折叠过渡。对于统一的家族,我们开发了经验性的观察工具,具体是 Dali的对分子内远距离的测量上给了一对同族和相似物中同族物更高的分数。在实践当中,我们要求在系统树结构上被嵌套进折叠家族中:功能家族是对所有成为同源物都有很高神经性网络预测的折叠系统树的分枝。统一性的开端是由经验选择并且具有保守性。504 个功能性家族统一成两个或更多序列家族。统一家族具有功能性残基或者对一个折叠的 3D构象进行绘图的序列中心。最明显的现象经常被统一性的酶的接触反应域所获得。在某些方面专家系统无法获得足够被认
10、为是同源统一结构域的现象,比如在各种螺旋-转角-螺旋因子包含的 DNA结合结构域,在这些结构域中很多功能家族都被定义在同一个折叠类型层次。基于结构的多队列远端同源物文库Dali结构域分类工具可以在 http:/www2.ebi.ac.uk/dali.进行交互式浏览。服务器提供的工具在 MySQL数据库的顶端。分类工具可以从首页层次进入,或者读者对某蛋白质的标识符或分类层次上的一个节点进行查询。多重结构队列包括能够对任何使用者选择的结构邻居适用的蛋白质特性。经过预先计算的队列对于每个功能家族的都是可用的。T-Coffee程序是用于产生从 Dali数据库的队列而来的多样性结构的真实一致序列。可靠性
11、分数是用来衡量已知度很高区域和结构相同性还不清楚的区域。从技术上讲,T-Coffee 程序提高了已知度不高的功能性家族的队列质量,这些家族中一些成对的来自 Dali的对比结果的活性位点残基的一致性不是很高。根据科学的方法,对功能家族的定义和对于每个多重构造队列的可靠性为每一个利用位点特异构型对敏感序列进行搜索的人开了一扇门,而且对于根据纹理来预测队列的准确性设置了一个基准。脚注联系方式如下:电话: +44 1223 494454; 传真: +44 1223 494470;电子邮件:holmebi.ac.uk参考文献1 Holm,L. and Sander,C. (1996) Mapping t
12、he protein universe. Science, 273, 595603. Abstract/Free Full Text 2 Hubbard,T.J., Ailey,B., Brenner,S.E., Murzin,A.G. and Chothia,C. (1999) SCOP: a Structural Classification of Proteins database. Nucleic Acids Res., 27, 254256.Abstract/Free Full Text 3 Orengo,C.A., Pearl,F.M., Bray,J.E., Todd,A.E.,
13、 Martin,A.C., Lo Conte,L. and Thornton,J.M. (1999) The CATH Database provides insights into protein structure/function relationships. Nucleic Acids Res., 27, 275279. Updated article in this issue: Nucleic Acids Res. (2001), 29, 223227.Abstract/Free Full Text 4 Marchler-Bauer,A., Addess,K.J., Chappey
14、,C., Geer,L., Madej,T., Matsuo,Y., Wang,Y. and Bryant,S.H. (1999) MMDB: Entrezs 3D structure database. Nucleic Acids Res., 27, 240243.Abstract/Free Full Text 5 Holm,L. and Sander,C. (1998) Dictionary of recurrent domains in protein structures. Proteins, 33, 8896.ISIMedline 6 Russell,R.B., Saqi,M.A.,
15、 Bates,P.A., Sayle,R.A. and Sternberg,M.J. (1998) Recognition of analogous and homologous protein foldsassessment of prediction success and associated alignment accuracy using empirical substitution matrices. Protein Eng., 11, 19.Abstract 7 Kawabata,T. and Nishikawa,K. (2000) Protein structure compa
16、rison using the Markov transition model of evolution. Proteins, 41, 108122.ISIMedline 8 Wood,T.C. and Pearson,W.R. (1999) Evolution of protein sequences and structures. J. Mol. Biol., 291, 977995.ISIMedline 9 Notredame,C., Higgins,D.G. and Heringa,J. (2000) T-Coffee: A novel method for fast and accu
17、rate multiple sequence alignment. J. Mol. Biol., 302, 205217.ISIMedline 10 Bewley,M.C., Jeffrey,P.D., Patchett,M.L., Kanyo,Z.F. and Baker,E.N. (1999) Crystal structures of Bacillus caldevelox arginase in complex with substrate and inhibitors reveal new insights into activation, inhibition and cataly
18、sis in the arginase superfamily. Structure, 7, 435438.ISIMedline 11 Finnin,M.S., Donigian,J.R., Cohen,A., Richon,V.M., Rifkind,R.A., Marks,P.A., Breslow,R. and Pavletich,N.P. (1999) Structure of a histone deacetylase homologue bound to the TSA and SAHA inhibitors. Nature, 401, 188193.ISIMedline 12 K
19、raulis,P. (1991) MOLSCRIPT: a program to produce both detailed and schematic plots of protein structures. Appl. Crystallogr., 24, 946950. 分子生物学数据库集合:一种适时生物学数据库资源编辑The Molecular Biology Database Collection:an updated compilation of biological database resources(选译)摘要分子生物学数据库集合是一种针对生物学团体的,将关键数据库价值进行列表
20、的在线资源。这种集合的目的是引起同道的科学家对世界上有用的高质量数据库的注意,而不是只列举一个冗长的可用数据库的列表。同样的,这个最新的列表的目的是提供初始要点的服务,这个初始点的意义是能够依此找到在生物学研究中可能有用的专门数据库。这个集合中所包含的数据库通过的数据的修复、新的数据链接或其他创新的途径赋予了那些潜在数据以新的价值。简单的说,在这个集合中所包含的每个数据可中可检索的摘要通过核苷酸研究网站http:/www.nar.oupjournals.org/而实现其功能。随着新千年的到来,科学研究群体通过完成人类基因组的“工作框架草图”给生物学研究打上了一个重要里程碑式的印记。在响亮的号角
21、声中,2000 年 6 月 26 日克林顿总统在白宫宣布了工作框架草图的完成。这个宣言的发表标志着绝大部分的数学、物理和生物医学研究将被引导进入一个“基于序列”的时代。这被等待已久和充满争议的新方法,使我们不仅在理解基础生物学过程方面,而且在预防、诊断和治疗许多基因和遗传疾病上能取得快速的进展。然而人类基因组测序的成果也许在今后的几百年内也不会被认知和赏识,基础研究方法的含义尤其在医药研究反面未来的道路还是不容乐观的。在我写这篇文章的同时,国际人类基因组测序组织已经彻底完成了 24.7%的人类序列,并且 66.2%的序列已经处于可用的框架状态,两条人类染色体测序彻底完成,即染色体 21 和22
22、。虽然大部分的染色体测序还没有完成,一些有趣的见解已经被应用于染色体的结构之中,例如在人类基因组中对人类基因数目减少了的估计已经被确定。在大部分科学团体和公众都把目光和注意力投向人类基因组测序的同时,一些模式生物也已经被测序完成,包括 2000 年完成的对果蝇的测序;像鼠类等生物的全基因组测序工作也将在接下来的几年中很快被完成。在序列多样性方面也被投入了很多的努力,SNP 组织预计在 2000 年末 1,000,000 个单核苷酸多态现象(SNP)将被鉴别,远远超过之前所定的在 2003 年末发掘 10 000 个 SNP 的目标。数据库的成果也紧随序列产生的这个近似疯狂的速度,为研究者以一种几乎瞬时方式提供了接受所有公开数据的途径。尽管大多数科学家已经习惯使用组成了国际核酸序列数据库合作体的数据库,许多其他的专门数据库也已经出现。这些专门的数据库通常来源于特殊的需求,无论这些数据库是用来解释一些特殊的感兴趣的生物学问题或者为一些特殊领域的生物学团体服务。这些期刊把它们近几年来第一期放入数据库中以证明这些专门数据库的可用性和特点,以便更好的为其读者服务同时促进这些资源在设计和分析实验中的应用。以上提到的所有的数据库都完全的被分子生物学数据库集合所收录。