1、生工 0902BLOSUM 矩阵及其在生物信息学中的应用生物信息学齐阳,汪锴,袁理2011/11/25什么是 BLOSUM 矩阵?BLOSUM 矩阵有什么应用?BLOSUM 矩阵及其在生物信息学中的应用齐阳 汪锴 袁理摘要 BLOSUM 矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用。本文综述了 BLOSUM 矩阵的由来、如何构建 BLOSUM 矩阵和其打分规则、应用以及现代算法。并指出了 BLOSUM 矩阵的发展前景。关键词 BLOSUM 矩阵;生物信息学;应用0 引言序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个
2、序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的 Dayhoff 矩阵只能用来进行相似度 85%以上的序列对比 1 ,为了满足大量生命科学研究的需求,1992 年 Henikoff 夫妇从蛋白质模块数据库 BLOCKS 中找出一组替代矩阵,即 BLOSUM 系列,很好的解决了序列的远距离相关的问题,此后十几年来 BLOSUM 及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。1 BLOSUM 矩阵概况序列比对是现代生物学最基本的研究方法之一,常见的比对
3、是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变 2 。在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数 3 。当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能
4、,而且不容易被淘汰。因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率 3 。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的 Dayhoff 矩阵只能用来进行相似度 85%以上的序列对比 1 ,为了满足大量生命科学研究的需求,1992 年 Henikoff 夫妇从蛋白质模块数据库 BLOCKS(Box 1.
5、 BLOCKS 基本概念)中找出一组替代矩阵,即BLOSUM 系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM 及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。2 BLOSUM 矩阵的构建2.1 多序列比对定义:一个多序列比对A 是一个二维字符矩阵,即A (n1,N,niai1,I),其中 = 或,iis并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐 5 。从上面的定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、
6、插入、删除)的最后结果,它最近似地表示了所有的进化过程。其中删除和插入没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS-ITVNWTQQLPGLRLSCSSSGFIFSS-YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG2.2 BLOSUM打分规则 6BLOSUM中得分主要采用Log-odds得分,即同源与非同源的可能性的比率的对数。在BLOSUM 中两个残基 i与j的得分s(a, b)按照log
7、-odds方程计算,方程如下:-1(,)logabpsaf(1)其中, 是指假定残基对a与b是同源的, 在已有同源序列比对中出现的目p标频率: 是指假定残基a与b是非同源的与独立的 , 残基a与b出现在任何一,f个蛋白质氨基酸序列中的平均背景频率: 是尺度参数,每个得分四舍五人取整.如果残基对a 与b是同源的, 则它们出现在同源序列比对中目标频率 abp,s(a,b)0.f如果残基对a与b 是非同源的, 则它们出现在同源序列比对中目标频率 abp,s(a,b)0.f以相同氨基酸: 色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分;不同氨基酸: 丙氨酸/亮氨酸(A/L)比对得分
8、和赖氨酸/谷氨酸(K/E)比对得分为例, 介绍计算过程.1) 色氨酸/色氨酸(W/W)比对得分;在同源比对数据库中,测得=0.0065, =0-013, =0.347,代入(1)得s(W/W)=+10.5,取整得wpwf+11;2) 亮氨酸/亮氨酸(L/L)比对得分;在同源比对数据库中,测得 =0.0371,lp=0.099, =0.347,代入(1)得s(L/L)=+3.8,取整得+4;lf3) 丙氨酸/亮氨酸(A/L)比对得分;在同源比对数据库中,测得=0.0044, =0.074, =0.099 =0.347,代入(1)得s(K/E)=-ALpAfLf1.47,取整得-1;4) 赖氨酸/
9、谷氨酸(K/E)比对得分;在同源比对数据库中,测得=0.0041, =0.058, =0.054, =0.347,代入(1)得s(K/E)KEpkfEf=+0.76,取整得+1;将BLOSUM-1矩阵与自身相乘,可以近似得到高阶BLOSUM 单位的替换率。可以根据序列的长度以及序列间的先验相似程度来选用特定的BLOSUM矩阵,低价BLOSUM 矩阵更多是用来比较比较亲缘较远的序列,一般来说,BLOSUM-62矩阵适于用来比较大约具有 62%相似度的序列,而 BLOSUM-80矩阵更适合于相似度为80%左右的序列 3 。运用上述计算方法,就可得到BLOSUM62,见Table 1. Blosum
10、62替代矩阵。3 BLOSUM 矩阵的应用基于进化原理的氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用的,其起源于相同的氨基酸模式之间氨基酸的保守性,即某种氨基酸对另一种氨基酸的取代数据,广泛用于蛋白质数据库的搜索。最近BLOSUM 被成功用于表面抗原分析、T 细胞抗原决定簇预测 7 、氨基酸定点突变后蛋白质的稳定性等多种重要科学研究中,对于常用的数据集经过严格的交叉验证,人们已经发现BLOSUM 矩阵明显优于目前通常采用的理化特性打分方法和单位打分方法 8 。随着后基因组时代的到来,适与远亲分析的BLOSUM一定可以有更大的用武之地,以解决生命科学中的诸多难题。3.1 表面
11、抗原分析为分析 HBV 的表面抗原,对两个病人人群进行跟踪研究:一组是 52 位患病 1 年以上的慢性 HBV 感染携带者,另一组是 129 位新诊断的患者。获得这180 名患者乙肝表面抗原的 DNA 序列然后与来自于基因库的 168 个全长 HBV 序列比较序列一致性。乙肝病毒表面抗原亲水区域的多态性用突变大师软件来分析。参考文献和 BLOSUM 打分 9 被用来分析潜在改变的抗原性。3.2 T 细胞抗原决定簇预测为进一步预测 T 细胞抗原决定簇的结构, Huang L 和 Dai Y 做了进一步研究,将 BLOSUM 矩阵 10 和氨基酸指标向量结合,在 BLOSUM 矩阵中代替了氨基酸指
12、标向量的每一个非零项,使相应的值出现在对角线项,这种方法可以把氨基酸的位置和相似度用 BLOSUM 打分 9 的形式简单表现出来。3.3 磷酸化位点的预测磷酸化作用在多种真核细胞中具有重要的作用,例如有丝分裂、新陈代谢1 以及信号传导 10 等。蛋白激酶在蛋白底物中催化特定的受体氨基酸,每一种激酶只催化它特定的底物子集。蛋白激酶的失活会导致疾病,因此了解特定蛋白激酶的磷酸化作用机制有重要意义。而利用实验手段或质谱分析 11 、缩氨酸微阵列 12 和特定磷蛋白质水解 13 等方法分析磷酸化蛋白质组都有很多缺陷,但有一种方法在磷酸化位点预测上有明显优势-基于 k 邻近的蛋白激酶特异性预测方法 14
13、 ,此方法可以对不同激酶家族的磷酸化作用位点进行标注。由 BLOSUM62 打分矩阵得到的相似度函数作为系统的输入向量。3.4 蛋白质定点突变稳定性预测准确率定点突变技术的潜在应用领域很广, 比如研究蛋白质相互作用位点的结构特性、酶学和酶工程中改造酶的不同活性或动力学特性、改造启动子或DNA 相互作用元件、研究蛋白质晶体结构, 以及药物研发、提高蛋白抗原性或稳定性和活性等。何种程度的变异会影响野生型蛋白的稳定性, 以及突变后该蛋白质稳定性的改变, 是设计蛋白质或对蛋白质进行点突变分析时的关键。但是实验测定的精确方法需要昂贵的设备和较长的实验时间,因此现在多使用生物信息学的方法。有人使用BLOS
14、UM62 预测氨基酸定点突变后蛋白质的稳定性,并对常用的数据集经过严格的交叉验证发现其明显优于目前通常采用的理化特性打分方法和单位打分法 8 。4 BLOSUM 矩阵的挑战与发展4.1 BLOSUM矩阵与PAM 矩阵的比较(1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍。(2)低价 PAM矩阵适合用来比较亲缘较近的序列,而低价BLOSUM矩阵更多是用来比较亲缘较远的序列。(3)在 BLOSUM中,通过统计聚类技术来对相关蛋白质的无空位比对进行分类,并且计算类间的替换率。当观察某对氨基酸得到的替换率很低时就会带来一些统计问题,而BLOSUM的方法正好能够避免此类问题。
15、4.2 基于 BLOSUM矩阵的一些现代算法由于BLOSUM 打分矩阵的上述优点,已被各种现代算法所利用,发挥不同领域的作用于功能。下面将介绍几种使用BLOSUM 打分矩阵最多的算法,对它们的优缺点进行简单阐述。4.2.1 动态规划算法其指导思想就是在多级过程的每一级上列出各种可行的局部解。该方法由Needle-man 和Wunsch 于1970 年提出,最初用于求两个序列的最佳比对。对于两两全局序列比对情况,该方法的关键是设计一个二维矩阵,该矩阵的两个轴就是要比对的两个序列。Needle man-Wunsch 算法可以直接用于三个序列的比对。多序列比对的积分是n 个序列中两两进行比对所得积分
16、之和。对于N 个序列的比对其运算时间呈指数增长,所以动态规划算法不是很适用。4.2.2 渐进算法渐进算法最早由Feng 和 Doolittle 提出。在算法中,首先采用Needleman-Wunsch 算法把需要比对的N 个序列进行彼此两两比对,其结果形成 个实体,然后对这些实体排序,进行全局比对。这种方法一般在质量2NC尤其是计算速度、存储空间及可比对的序列数目方面比动态规划算法更优良。在比对过程中遵循“一旦有一个空位,总有一个空位”的规则。渐进算法实际上从历史和进化的观点比对多个序列,准确地反映了导致现代序列的一系列歧异进化过程,并且可以直接用于构造进化树,其缺点是不能保证比对的结果是数学
17、上的最优化比对。4.2.3 随机算法 16 (1)遗传算法遗传算法使一类借鉴生物界的进化规律(适者生存、优胜劣汰和遗传学原理)演化来的全局意义上的自适应随机搜索方法。当用遗传算法进行生物序列分析时,假设每一代包含固定数量的个体(在序列分析中表示优化比对问题的一个可行解),这些个体用它们的适应度来评价。那些具有较高适应度的优良个体更适合于生存环境,将有很多的机会产生它们的后代,从而使优良特性得以遗传并强化。变异则模拟了生物进化过程中的偶然残基突变现象。对产生的新一代群体进行重新评价、选择、交叉、变异,如此循环往复,使群体中的最优个体的适应度和平均适应度不断提高,直至最优个体的适应度和平均适应度不
18、断提高,直至最优个体的适应度达到某一限定值或最优个体的适应度和群体的平均适应度不再提高,则迭代过程收敛,算法结束。在这种算法中,可以对各种变异、交叉和打分系统进行设置。(2)模拟退火模拟退火算法的思想是Kirkpartick 等人于1982 年引入组合优化领域,其源于对固体退火过程的模拟。模拟退火算法采用Meteropolis 接受准则,并用一组称为冷却进度表的参数控制算法进程,使算法在多项式时间内给出一个近似最优解。模拟退火方法是用于蛋白质三维结构比对的一种确定性方法。但是,作为一种多序列比对工具,它需要过长的计算时间,特别是当比对的序列数目较大时更为明显,所以只适于一些高性能的计算机。5
19、总结BLOSUM打分矩阵自 1992年由Henikoff夫妇提出至今已近二十年,它的应用也从最初的多肽链比对,蛋白质定点突变稳定性预测扩展到表面抗原分析,T细胞表面抗原决定簇预测,磷酸化位点预测等多方面。虽然有文章表示近年来已被当做标准的BLOSUM打分矩阵并非完全正确且存在错误计算,但这没有影响到BLOSUM 打分矩阵的应用,甚至从某种程度上提升了其在搜索中的表现17 。随着后基因组时代的到来,适于远亲分析的BLOSUM矩阵一定可以有更大的用武之地。参考文献1 Steven Henikoff, Jorja G Henikoff.Amino acid substitution matrices
20、 from protein block J.Atlas of Protein Sequence and Structure.1978,5(3):345-352.2 Chantle R.Korostensky.Algorithms for Building Multiple Sequence Alignments and Evolutionary Trees.Dissertation Swiss Federal Institute of Technology.2000.3 孙啸,陆祖宏 ,谢建明等译. 生物信息学概论.清华大学出版社 .北京4 http:/bioinformatics.weizm
21、ann.ac.il/blocks/about_blocks.html5 徐丽,康瑞华.生物信息学中的多序列比对算法. 中国水运(理论版) .2006,4(6):118-119.6 孟翔燕,孟军,葛家麟. 一种基于亲疏水性的替代矩阵. 数学的实验与认识 . 2009,39(7):105-112.7 Roque-Afonso AM,Ferey MP,Ly TD.Viral and clinical factors associated with surface gene variants among hepatitis B virus carriers. Antivir Ther.2007,12(
22、8):1255-12638 基于进化信息改进蛋白质定点突变稳定性预测准确率, 刘建国, 刘建荣, 刘明, 闫蓬勃.生物物理学报.2009,25(5)。9 Nielsen M,Lundegaard C,Worning P,et al.Reliable prediction of T-cell epitopes using netural networks novel sequence representations.Protein Sci.2003,12:1007-1017.10 Lou Yang,Yao Jianhui,Zereshki A,et al.NEK2A interacts with
23、 MAD1 and possibly functions as a novel integrator of the spindle checkpoint signalingJ.J Biol Chem.2004,279:20049-20057.11 Meijer AJ,Dubbelhuis PF.Amino acid signalling and the integration of metabolism J.Biochem Biophys Res Commun.2004,313:397-403.12 Kraft C,Herzog F,Gieffers C,et al.Mitotic regul
24、ation of the human anaphase2promoting complex by phosphorylationJ.EMBOJ,2003,22:6598-6609.13 Rychlewski L,Kschischo M,Dong Liying,et al.Target specificity analysis of the Abl kinase using peptide microarray dataJ. J MolBiol.2004,336:307-311.14 Knight ZA,Schilling B,Row RH,et al.Phosphospecific prote
25、olysis for mapping sites of protein phosphorylation J.Nat Biotechnol.2003,21:1047-1054.15 王明会,王立荣,许文龙,林晓君, 江朝晖,冯焕清. 基于k 近邻和BLOSUM62 矩阵方法的磷酸化位点预测. 中国生物医学工程学报 .2007,26(3).16 王槐春.核酸和蛋白质序列分析基础 .北京.人民军医出版社.1994 .17 Mark P Styczynski,Kyle L Jensen,Isidore Rigoutsos,Gregory Stephanopoulos. BLOSUM62 miscalculations improve search performance.Nature Biotechnology. 2008,26:274-275.