1、基于图形表示的蛋白质二级结构的比较作者: 单位:大连交通大学摘要:蛋白质结构的比较已经成为当前生命科学研究的重要内容。本文 给出了蛋白质二级结构的一种新的 2-D 图形表示,把蛋白质二级结构转化成平面上的点列,根据点列的分布特点得到其拟合曲线,并利用 -螺旋、-折叠和无规则卷曲结构的 频率构造三维向量来描述蛋白质二级结构的属性,对 1ayd 等 12 个蛋白质二级结构进行相似性比较,得到了较好的结果。本方法简单快速,为蛋白质二 级结构比较提供了新的手段。关键词:蛋白质二级结构;图形表示;特征序列频率;曲线拟合1 引言蛋白质是生物体内占有特殊地位的生物大分子,它是生物体的基本构件,也是生命活动的
2、重要物质基础,几乎一切生命现象都要通过蛋白质的结构和功能而体现出来。因此,在分子生物学中,深刻阐明蛋白质的结构和功能,是探索生命奥秘的最基本任务。具有相似结构的两个蛋白质,其氨基酸序列可能相差很大,甚至完全不同。原因在于,趋同进化作用使得两个不同进化源点出发的蛋白质可以折叠得到相似的空间结构。所以,需要在结构上对蛋白质进行比较以发现具有相似结构的蛋白质。蛋白质结构的比较已经成为当前生命科学研究的重要内容。通过比较蛋白质结构,可以发现蛋白质的共性,发现属于同一家族蛋白质的保守结构,发现与蛋白质功能密切相关的结构域。目前为止,蛋白质结构的比较有多种方法:球体法(球壳法) (BALL) 、三维网格法
3、(GRID) 、球面映射法(SPH)和扇形法(SPH) 1;蛋白质结构的拓扑比较可以较好地解决几何比较方法中由于蛋白质结构内部频繁的原子动态性而引起的问题 2。Gilbert 等采用模式匹配技术从 TOPS 图获得超二级结构的模式,从而获得结构域信息 3。在分析点集的空间分布时,Voronoi 图起着重要的作用,Poupon Anne 利用Voronoi 图来分析蛋白质结构问题 4,5。张任给出了一种蛋白质二级结构序列的图形表示 6,该方法追踪每一时刻之前的三种蛋白质二级结构单元的频率,然后将这三个频率按照一定的法则对应到平面上的一个点,再将这些点顺次连接起来,得到一个曲线,命名为 S 曲线。
4、接着,他们利用 S 曲线来研究划分蛋白质结构。以上这些方法往往计算比较简单,空间占用大,虽然得到的比较结果不是很精确,但是有助于快速地剔除差异性较大的对象 7。针对这些问题,本文提出了蛋白质二级结构的一种新的 2-D 图形表示,把蛋白质二级结构转化成平面上的点列,根据点列的分布特点得到其拟合曲线,并利用 -螺旋、-折叠和无规则卷曲结构的频率构造三维向量来描述蛋白质二级结构的属性,对 1ayd 等 12 个蛋白质二级结构进行相似性比较。2 蛋白质二级结构序列的 2-D 图形表示2.1 蛋白质二级结构的特征序列DSSP 是一个二级结构标准化定义系统。DSSP 根据蛋白数据库(PDB)中的原子坐标定
5、义蛋白质二级结构、几何特征等,它将每一个氨基酸残基的二级结构定义为 -螺旋、-折叠和无规则卷曲等结构。图 1 蛋白质 1ayd 的二级结构图 1 给出了蛋白数据库(PDB)代码为 1ayd 的蛋白质二级结构,该蛋白质属于 +结构类。在这个图中,波浪部分代表 -螺旋,粗箭头部分代表 -折叠,分别用 H 和 E 来描述,其余的无规则卷曲部分用 C 来描述。这样,一个蛋白质二级结构序列由 3 个抽象字符构成。以蛋白质 1ayd 为例说明,位置处在 84 至 93 这段部分的子序列和子结构如图 2 所示。图 2 蛋白质 1ayd 的二级结构特征序列由 DSSP 方法得到 12 个蛋白质的二级结构序列,
6、见表 17。表 1 12 个蛋白质的二级结构特征序列PDB 代码二级结构序列1mba CCCCHHHHHHHHHHHHHHHHCHHHHHHHHHHHHHHHCHHHHHHCCCCCCCCHHHHHCCCCHHHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHCCCCHHHHHHHHHHHHHHHHCCCCCCCCHHHHHHHHHHHHHHHHHHCCC1rcb CCCCCHHHHHHHHHHHHHHCCCCCCCCEEECHHHCCCCCCHHHHHHHHHHHHHHHHHHHCCCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCCCC
7、EEEHHHHHHHHHHHHHHHHHHHHC2hmqa CCCCCCCCCCCHHHCCCCCCCCHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHCCHHHCCCC1plc CEEEECCCCCCCCEECCEEEECCCCEEEEEECCCCCCCCEECCCCCCCCCCHHHHCCCCCCCCCCCCCEEEEECCCCEEEEEECHHHCCCCCEEEEEEC4fgf CCEEEECCCCEEEEECCCCCEEEECCCCCHHHCEEEEEEECCEEEEE
8、ECCCCEEEEECCCCCEEEECCCCHHHCEEEEECCCCCEEEEECCCCCCCCCCCCCCCCCCHHHCCCCCHHHCEEEEC1noa CCCEEEEECCCCCCCCCEEEEEEECCCCCCEEEEEEEEEEECCEEEECHHHCEEEECCCCCCEEEEEECCCEEEEECCCCCEEEEEECCCCCEEEEEECCCCCCCCCEECCCC1sha CCCCEEECCCHHHHHHHHCCCCCCCCCEEEEECCCCCCCEEEEEEEEECCCEEEEEEEEEEECCCCCEECCCCCEECCHHHHHHHHCCCCCCCCCCCCCC
9、CCC1ubq CEEEEEECCCCEEEEECCCCCCHHHHHHHHHHHHCCCHHHEEEEECCEECCCCCCCHHHCCCCCCEEEEEECCCCC1ayd CCCCCCCCCCHHHHHHHHHHHCCCCEEEEEECCCCCCCEEEEEEECCEEEEEEEEECCCCEECCCCCCCCCHHHHHHHHHHCHHHCEECCCEECCCCEECC1wsya CHHHHHHHHHHCCCCCCEEEEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCC2pgdI CCCCEEEECCCHHHHHHHHHHHHCCCCEEEECCCCHHHHHHHH
10、CCCCCCCCEECCCHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCEEEEEEEECHHHHHHHCCEEEEEECCCCHHHHHHHHHHHCCCCCCCCCCCCCCCCCC CCCCCCEECCHHH2trxa CCCEEECCCCCHHHHCCCCCCEEEEEEECCCCHHHHHHHHHHHHHHHHCCCCEEEEEEECCCCCCHHHHCCCCCCCEEEEEECCEEEEEEECCCCHHHHHHHHHHHHC2.2 蛋白质二级结构的 2-D 图形表示设 是蛋白质二级结构序列的特征序
11、列,我们给出一种蛋白质二级结构序列21Gg的“正方形”图形表示,首先定义一个映射 ,将 G 映射为一个点列,。)()(21其中:. (1)EgCHgiiiiiii 如 果如 果如 果,2)(0,1),(,(11这种映射方式我们称之为 HCE 正方形模式。例如,利用(1)式可得到蛋白质 1ayd 二级结构特征序列的子序列 CHHHCEECCC 对应的点列:(0.5000,0.5000) , (0.2500,0.7500) , (0.1250,0.8750) , (0.0625,0.9375) ,(0.5313,0.9688) , (0.7656,0.4844) , (0.8828,0.2422)
12、 , (0.9414,0.6211) ,(0.9707,0.8105) , (0.9854,0.9053),及平面上的 2-D 图,如图 3 所示。图 3 蛋白质 1ayd 二级结构特征序列的子序列 CHHHCEECCC 的 2-D 图形表示(HCE 正方形模式)利用(1)式得到表 1 中 12 个蛋白质的二级结构的 2-D 图形表示,见图 4。图 4 12 个蛋白质的 2-D 图形表示(HCE 正方形模式)H、C、E 的全排列共有 6 种,所以可得到 6 种正方形模式,本文主要讨论 HCE 正方形模式,其它模式类似。从图 4 中,可以知道 H 落在图像的第一部分,C 落在第二部分,E 落在第
13、四部分,这些点不会落在正方形以外,这样可以节省表示空间。3 2-D 图形表示的应用3.1 二次曲线拟合根据蛋白质二级结构特征序列的 2-D 表示,可得到表 1 中 12 个蛋白质二级结构特征序列的 12 个特征点列,利用 对特征点列进行二次曲线拟合,得到了二次曲cbxay2线的系数,见表 2。表 2 12 条拟合曲线的系数PDB 代码a b c1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa0.1108 -0.1195 1.0024-0.0417 -0.0983 0.99510.1259 -0.1357 1.0029-0.2925 -0.
14、0843 0.97860.0336 -0.6424 1.14700.1781 -0.7536 1.0540-0.9166 0.5495 0.9566-0.0969 -0.3897 1.0311-0.6673 0.2397 0.9909-0.8689 0.4687 0.9663-1.1844 0.7073 0.9694-0.6689 0.3363 0.98183.2 蛋白质特征序列的频率描述蛋白质特征序列中 H、C、E 出现频率: nfpi(2)其中 为 在蛋白质序列中出现的个数, 为序列的长度,if ECHi,通过(2)式,计算了 12 个蛋白质二级结构特征序列 H、C、E 出现频率,见表 3
15、。表 3 12 个蛋白质二级结构特征序列 H、C、E 出现频率PDB 代码Hpp1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa0.7551 0.2449 00.6279 0.3256 0.04650.6667 0.3333 00.0707 0.5758 0.35350.0968 0.5081 0.39520.0265 0.4779 0.49560.1553 0.5340 0.31070.2368 0.4474 0.31580.2376 0.4653 0.29700.4182 0.3818 0.20000.3333 0.3889 0.27
16、780.3927 0.4293 0.17803.3 相似性分析利用特征序列中频率 , , 及拟合曲线特征 ,构造蛋白质二级结构的特征HpCEcba,向量 ,这样每一个蛋白质二级结构都对应一个特征向量 v。要比较蛋白),(HcbapvEC质二级结构之间的相似性,只要比较其对应的特征向量之间相似性即可。为说明此方法的适应性,以表 1 中 12 个蛋白质二级结构为例,利用表 2、表 3 可得到 12 个蛋白质二级结构对应的特征向量。再通过计算特征向量之间的欧式距离来比较它们的相似性,即222222, jijijiEjiCjiHjiji cbapppvd 。 距离越小说明蛋白质二级结构相似性越高,否则
17、,相似性不高。表 1 中.13212 个蛋白质二级结构的相似性见表 4。 表 4 12 个蛋白质二级结构的相似性表1mba 1rcb 2hmqa 1plc 4fgf 1noa 1sha 1ubq 1ayd 1wsya 2pgdI 2trxa1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa0 0.2204 0.1270 0.9313 0.9793 1.1135 1.4301 0.7254 1.0673 1.2162 1.6242 1.00650 0.1824 0.7285 0.8728 1.0332 1.2342 0.5740 0.8604
18、 1.0379 1.4490 0.81600 0.8469 0.8930 1.0312 1.3989 0.6422 1.0296 1.2084 1.6187 0.98530 0.6732 0.8407 0.8958 0.4240 0.5374 0.9056 1.2377 0.68880 0.2404 1.5399 0.3520 1.1511 1.4963 1.8495 1.27260 1.7204 0.5348 1.3377 1.6875 2.0364 1.46550 1.2545 0.4135 0.3368 0.3880 0.43860 0.8508 1.1779 1.5505 0.9488
19、0 0.3777 0.7084 0.22120 0.4121 0.24730 0.64700由表 4 可知,1mba 和 2hmqa 最相似,2hmqa 和 1rcb 比较相似,1rcb 和 1mba 比较相似,2trxa 和 1ayd 比较相似,2trxa 和 1wsya 比较相似性,1sha 和 1noa 相似性不高,2pgdI和 1mba 相似性不高,2pgdI 和 2hmqa 相似性不高,2pgdI 和 4fgf 相似性不高,1sha 和1noa 相似性不高,2pgdI 和 1noa 相似性不高。这些结果与图形表示一致,与文献7得到的结果基本一致。4 总结本文把蛋白质二级结构转化成平面
20、上的点列,根据点列的分布特点得到其拟合曲线,并利用 -螺旋、-折叠和无规则卷曲结构的频率构造三维向量来描述蛋白质二级结构的属性,对 1ayd 等 12 个蛋白质二级结构进行相似性比较,得到了较好的结果。本方法较其他方法的优点是充分利用空间,减少空间的浪费,简单快速,为蛋白质二级结构比较提供了新的手段。本文使用的方法只提取了部分特征量,丢失了一些信息,如,在图形表示中没有体现特征序列的顺序。对蛋白质结构比较的理论研究中将全面考虑能够表达其生物学意义的特征信息,将是我们以后继续研究的内容。5 参考文献1 Akbar S, Kung J, Wagner R. Exploiting Geometric
21、al Properties on Protein Similarity SearchC.In: Proceedings of 17th International Conference on Database and Expert Systems Applications(DEXA06),2006.228-234.2 Gilbert David, Westhead David, Viksna Juris, et a1.A computer system to perform structure comparison using TOPS representations of protein s
22、tructureJ.Computers and Chemistry,2001,26(1):2330.3 Gilbert D R, Westhead D R, Nagano N, et a1.Motifbased searching in TOPS protein topology databasesJ.Bioinformatics,1999,15(4):317-326.4 Poupon Anne. Voronoi and Voronoirelated tessellations in studies of protein structure and interaction J.Current Opinion in Structural Biology, 2004, 14(2): 233-241.5徐占,蛋白质空间结构的相似性比较,硕士学位论文,江南大学,2009,8:1-10.6 Zhang C, Zhang R.S Curve, A graphic representation of protein secondary structure sequence and its applications, Biopolymers.2000,53: 539-549.7刘立伟,蛋白质及 RNA 结构比较与进化分析,博士学位论文,大连理工大学,2008,6:31-44.