1、庚戈迭妖蔷祸床绞猩胯塑呆寺和色坚春闷挖犁圃烹势脓豢沫烘灾揖畴搪酵第三章序列两两比对第三章序列两两比对第三章第三章 序列两两比对序列两两比对王红岩王红岩赐柴列潮骸弯炳逸捡觉橡懂滔口遁惭哦哦拜酣删淖节泌禽握绚懈圾碟赐摆第三章序列两两比对第三章序列两两比对1主要内容 序言 序列比对的方法 比对用到的得分矩阵 序列比对的统计学显著性 总结盏额论柔群和截些族把倚搜篮诈媒直祸涩拎迭癌终侠糟郸致滦蜕呸莱擞方第三章序列两两比对第三章序列两两比对2序 言序列比较是生物信息分析的基础。它是分析新测定序列结构与功能的第一阶段。随着生物序列以指数级速度被测定出来,通过对新测定序列与数据库中已有的序列进行比较来推断新序
2、列功能和进化关系变的方法变得越来越重要,这种比较最基本的方法是序列比对,也就是比较序列来找出一种共同的字符模式以建立相关序列的残基残基之间的一致性。序列两两比对就是对两条序列的比对,它是数据库相似性搜索的基础。绩啡锗煽丧瞄片通径稚节屉洞顷葫晃赞广断嗡儡颓胞尤湛阉歧帚灸烘绸侧第三章序列两两比对第三章序列两两比对3序 言 进化基础DNA和蛋白质是进化的产物。它们可以被认为是编码数百万年进化史的分子化石。在进化史上,这些分子经历了随机变化过程,期中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变和交叉,进化的痕迹在序列的某些部分被保留下来从而可以识别它们共同的祖先。进化痕迹的存在是由于一些
3、对序列结构和功能起关键作用的残基倾向于被自然选择所保留;而另一些不起关键作用的残基倾向于频繁的改变。例如,一个酵母家族的活性位点残基倾向于被保存下来是由于它们对催化功能起作用。所以,通过序列比对,保守的和改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不同序列之间的进化关系。反之,序列之间的差别反映了在进化的过程中序列以替换、插入和删除残基的形式发生了变化。微阴樱择卵般泳洗桨淫搭辕擞疥梗菊钎升除捧例爪透靴钎厉矮蛆翠噶谁人第三章序列两两比对第三章序列两两比对4序 言识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果这
4、个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未知结构和功能的序列的结构和功能。序列比对可以用来推断两条序列是否是相关的。如果两条序列显著相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能从序列的水平上识
5、别了。如果那样的话,它们的进化距离就必须通过其它的方法识别了。短达熟绰生奴疡潦探复壬仆骡幽纬富坑怨叠娟咋互翘捶昏赡掌唁暂军藻侨第三章序列两两比对第三章序列两两比对5序 言 序列同源( homology)与序列相似( similarity)序列同源是序列分析的一个重要概念。当两条序列来源于共同的进化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似,它是指比对的残基在理化性质,如大小,带电,疏水性等方面相似的程度。序列同源是根据序列比对时两条序列相似性高到一定程度推导出来的两条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结果直接得出的一种结论。序列相似可以用百分比来量化,而序列
6、同源只能取 “是 “或 “不是 “。大体说来,如果两条序列的相似性足够高,我们就可以认为它们是同源的。但是在实际问题中,到底多高的相似性才能认为是同源的是不清除的。答案依赖于被处理的序列类型和序列的长度。头徒职笺杖赫迪印禽场起君吮较善掖皿祭碗猾馒列岛侨温竞芍音隅乳秧惨第三章序列两两比对第三章序列两两比对6序 言 序列同源( homology)与序列相似( similarity)对于 DNA序列,由于只存在四种碱基,两条不相关的序列同一位置至少有 25%的机会相同,而对于蛋白质序列,一共有 20中氨基酸,所以不相关的序列中出现同一氨基酸的概率为 5%。序列长度也是一个关键因素。序列越短随机出现相
7、同的残基的概率就高,序列越长随机相同的概率就越小。这就要求对短的序列给予高的阈值来判断它们同源。例如,对于有100个氨基酸的蛋白质序列,如果全局比对有 30%或更高的残基相同,就认为它们很有可能同源,这个范围被称为 “安全范围 ”;如果有 20% 30%的氨基酸相同,它们的同源关系就不那么肯定了,这个范围被称为 “模糊范围 ”;如果有低于 20%的氨基酸相同,那么就很难认为它们具有同源关系,这个范围被称为 “黑暗范围 ”( P33图 3.1)。这是一种不精确的方法,尤其是对模糊范围很难判定是否同源,后面介绍的序列比对的统计学上的显著性将会给出精确的方法判断序列是否同源。痞彻吩混君栖筐讶区突白泅
8、笆曼费惠吟乍房勾仓暂岸盲圆孵畴凝帽规尘瑞第三章序列两两比对第三章序列两两比对7序 言 序列相似( similarity)与序列一致( identity)序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具有相似理化性质残基匹配的比例。有两种方法计算序列相似 /一致度。一种方法是用两条序列的全部长度,而另一种是利用较短的序列进行标准化。第一种方法用如下公式计算序列相似度:S=(Ls*2)/(La+Lb)*1
9、00其中 S是序列相似的百分比, Ls是相似的残基数目, La和 Lb分别是两条序列的长度。琐贤蚤购艘杆束雨涨猖脚痞利牵诚寸支肢立淡嘱冈铅荚惶厢痕慕戒铲反凡第三章序列两两比对第三章序列两两比对8序 言 序列相似( similarity)与序列一致( identity)第一种方法用如下公式计算序列一致度:I=(Li*2)/(La+Lb)*100其中 I是序列一致的百分比, Li是一致的残基数目, La和 Lb分别是两条序列的长度。第二种方法利用如下公式计算序列的一致 /相似度:I(S)%=Li(S)/La%其中 La是较短序列的长度。旨睡用绪酶灭安嗡娜姆宇划怒杜硕卵恿炯傈买阅傻齿伴雷匈存樊霸如溉
10、垢第三章序列两两比对第三章序列两两比对9序列比对的方法序列两两比对的最终目的是找到两条序列的最佳匹配,也就是找到残基之间的最大相似。为了达到这个目标,一条序列需要相对于另一条序列移动以找到具有最大相似程度的位置。有两种经常用到的不同的比对策略:全局比对和局部比对。全局比对和局部比对全局比对和局部比对在全局比对中,我们假定两条序列在整个长度上是相似的。全局比对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于比对两条大体上长度相同且极度相似的序列。对于发散的不同长度的序列,这种方法不能产生最理想的结果因为它不能识别出两条序列中高度相似的局部序列。在局部比对中,我们不假设两条序列全局相似
11、,只是找两条序列中高度相似的局部区域而不考虑其它区域。这种方法能比对比较分散的序列来找出 DNA或蛋白质序列中的保守模式。被比对的两条序列可以不等长。 这种方法很适合于比对包含相似模块的分散的生物序列, 以找出domain或 motif。捞呢祖进壶鼻贰寐丧挖倘睦戚五殖昼蹋惮棋葡打揽仟道广画伦谩职崩摆拽第三章序列两两比对第三章序列两两比对10序列比对的方法 比对算法比对算法,不管是全局比对还是局部比对,基本上是相似的,只是比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法的:点阵方法,动态规划方法和基于单词的方法。点阵法和动态规划算法在这章讲,而基于单词的方法将在下一章讲。吸洲烟痹周
12、揭阀蝉蹬转荔喇洞或句饰灯莲肆争殴赏哭柱娩褥连氧祈蜜繁犯第三章序列两两比对第三章序列两两比对11序列比对的方法 点阵方法最基本的序列比对方法是点阵法,也叫点平面图法。这是一种在二维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位置画一个点。而矩阵的其它位置保持空白。如果两条序列有大量的相似区域,就用直线沿着对角线将连续的点连接起来。如果对角线的中间出现断点,就表明有残基的插入和删除。矩阵中平行的对角线代表序列中的重复区域。逐筷腮戈陇漂郭脱沽据绸雹圃膨丫蚊才迷翰荚
13、蔑厩凄受昌筐性东新抚懒窄第三章序列两两比对第三章序列两两比对12序列比对的方法酬嘉址副骤蔼义明赎慎巳桅尤华淄宝借偷蜜桂莱背倘蛙搞癌短哆胺窃脂吠第三章序列两两比对第三章序列两两比对13序列比对的方法锄倾暗蚊忙他混汞滑巫少辊石澎蛤刊筑恩亦盆襄详卡澳穿惦浇饰锑柴他囤第三章序列两两比对第三章序列两两比对14序列比对的方法 点阵方法用点阵法比较大序列时存在一个问题,那就是高噪音水平。在大多数点平面上,点被画的到处都是,使真正的比对难以被识别。对于 DNA序列,问题尤其严重,因为 DNA序列中只有四种字符,所以每一个碱基都有 1/4的机会与另一条序列的碱基匹配。为了降低噪音,我们不再直接扫描单个碱基的匹配
14、,而是引进过滤技术。用一个适当长度的 “窗口 ”来覆盖一段连续的残基。当使用过滤器时,窗口沿着两条序列滑动来比较所有可能的连续残基。只有当等于窗口长度的一段连续残基和另一条序列相同长度的残基匹配时才在矩阵中相应位置画点。这种方法在降低噪音水平上是有效的。窗口也被称作 “tuple”,其大小是可以被操纵的以使它能识别特定模式的序列。然而,如果窗口被选的很长,比对的敏感性就降低了。怀绸脸功邦陡幂卖喻序睁埔古枉指弹远德庆否涂旋旷券永肺脓访烧圈驴撮第三章序列两两比对第三章序列两两比对15序列比对的方法旺为坠沥烹男孔疚兽蛹鸣域迁阜贬踊罢络奢渗蝴排者喝营咏铬株蝉啮渤榜第三章序列两两比对第三章序列两两比对1
15、6序列比对的方法远妙促眩胞坝肯争须均凶铂青随靛缨肘勉妒技吼还疑恐子澈薛笨睹故元蛹第三章序列两两比对第三章序列两两比对17序列比对的方法 点阵方法点阵法有许多变形。例如,一条序列可以和它自身比对以识别内部重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果内部重复元素存在,会观察到在主对角线的上方或下方有短的对角线。DNA序列的自补(也叫反向重复),例如那些存在发夹结构的家族,也能用点距阵法识别。在这种情况下,一条 DNA序列与它的反向补序列进行比较。平行的对角线代表反向重复。为了比较蛋白质序列,必须使用一个权重系统来描述氨基酸残基的相似度。塔胶莫哗旺蹿持道呜佰厕蕊遍蹋翻廊弗计屏呻暴呜
16、肇骇粱或纪耍啃圭亢载第三章序列两两比对第三章序列两两比对18序列比对的方法自我比较艘准煽慧掐硝兴闹蛋双套羞结副柔筹票绸充挽弦沽蔫使段脱互荧汤著传罪第三章序列两两比对第三章序列两两比对19序列比对的方法 点阵方法点阵法给出了两条序列关系的一种直观描述,它很容易识别出序列中高度相似的区域。这种方法的一个显著的优点是可以基于矩阵中存在的水平方向上或垂直方向上长度相同的对角线来识别序列中的重复区域。因此这种方法在基因组学中有一定应用。它在识别染色体重复和比较两个高度相关的基因组中基因顺序的保守性非常有用。它在通过检测序列的自补性来识别核苷酸序列的二级结构也非常有用。点阵法能显示所有可能的序列匹配。然而
17、,它要求用户将邻近的对角线连接起来来构造带有残基插入和删除的全序列比对。这种方法的另一个缺点是它缺少评价比对质量的统计上的精确性。这种方法在两两比对中也存在局限性。它很难构造多序列比对。下面是几个利用点阵法设计的序列两两比对的工具。Dotmatcher( bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html)Dottup(bioweb.pasteur.fr/seqanal/interfaces/dottup.html)Dothelix(www.genebee.msu.su/services/dhm/advanced.html)MatrixPl
18、ot(www.cbs.dtu.dk/service/MatrixPlot/ )陪郡烘仙盏驱裕邮幂酋言寸净哎初黎钒狈贩锈鸟渊鱼疵褥烘恕威禽她湾渐第三章序列两两比对第三章序列两两比对20序列比对的方法 动态规划方法动态规划是一种通过匹配两条序列中所有可能的字符对来确定最优比对的方法。它和点阵法基本相似,就是也需要构造一个二维的矩阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的找到最佳联配蓄墟综构氧魁嗓逸遁粱舌潮昆烧蓬株膨骇耘岿掐躁辱菊膝楔互拉蛙谨搬挞第三章序列两两比对第三章序列两两比对21序列比对的方法 动态规划方法动态规划的
19、第一步是构造两个轴分别是两条待比对的序列的二维矩阵。残基的匹配是根据一个特殊的得分矩阵。每次计算一行分数。这个过程开始于一条序列的第一行,用这行扫描另一条序列的全部残基,紧接着处理第二行。这样匹配分数就被计算出来了。在扫描第二行的时候计算分数依赖于第一轮计算出来的分数。最优分数被放在矩阵的右下角。叠代这一过程直到矩阵的所有元素都被填上。因此,分数是沿着从左上角到右下角的对角线累加的。一但矩阵中的所有分数都被计算出来,下一步就是寻找代表最佳比对的路径。这一过程是沿着矩阵的右下角到左上角的相反的顺序来回溯完成的。最优匹配路径就是总分最高的路径。如果两条或更多的路径得到最高分,就任选一条代表最佳比对
20、。路径也可以在某一点水平或垂直移动,它代表引入空位,也就是在其中一条序列中有残基的插入或删除。遮妈侮烷合梯谓妻拴蜗罪梦颅交蔡蒸霍瑶稼稀讥须借臼侧锅源唉袋慧滤天第三章序列两两比对第三章序列两两比对22序列比对的方法A C T G C C TATGCT1100 0 0 00002 2 2 2 31 2 3 3 3 30 2 2 3 4 5 50 2 3 3 4 5 6最佳比对是: A C T G C C TA - T G - C T 橱妨榴镍障魔誉英袭黍形莆惕奏僻厘稳拜羡鄂忆阮诅创耻尽浙馁锯蛇异狂第三章序列两两比对第三章序列两两比对23序列比对的方法 空位罚分在寻找最优比对时要用到代表插入和删除的
21、空位。因为在自然进化过程中插入和删除发生的频率要比替换相对少,所以引进空位在计算上应该是比较谨慎的以反映在进化中插入和删除发生的少。然而实际中分配罚分值是比较任意的,因为没有革命性的理论来确定引进插入和删除所付出的精确的代价。如果罚分值设置的过低,空位就会过多以至于无关序列也会得到很高的相似性得分;如果罚分值设置的过高,空位就很难被引进以至于很难找到合理的比对,这也是不切实际的。通过对球状蛋白的经验学习,我们已经得到了一组适合于大部分比对的罚分值。在大多数比对程序中它们可以被用作默认的罚分值。骑倔轮涧昏氟层躲昔概浮吱译涌急篷剑赶肯滋桨莎抱着胸抑估侵一总刷潍第三章序列两两比对第三章序列两两比对2
22、4序列比对的方法 空位罚分另一个要考虑的因素是新开始一个空位和扩展一个已经存在的空位所付出的代价是不同的。众所周知,扩展一个已经开始的空位是相对容易的。因此新开一个空位要比扩展一个空位设置更高的罚分值。这是根据这样一个基本原理,那就是一但插入和删除发生,那么一些临近的残基很可能一起被插入和删除。这种不同的罚分策略已经在纺射型空位罚分中被提到。基本的策略就是根据预先调整好的空位罚分值来引进或扩展空位。例如,可以用 -12/-1方案来进行空位罚分,也就是新开一个空位罚 12分,扩展一个空位罚 1分。总得罚分( W)用下面的公式计算:W= +*(k-1)其中其中 代表开始一个空位的代表开始一个空位的
23、 罚罚 分分 值值 , 代表代表 扩扩 展一个空位的展一个空位的 罚罚 分分 值值 , k代表空位的代表空位的 长长 度。除了度。除了 纺纺 射型空位射型空位 罚罚 分,固定分,固定 值值 空位空位 罚罚 分有分有 时时 也是很也是很有用的,有用的, 这这 种种 罚罚 分模型分模型 为为 每一个空位分配相同的每一个空位分配相同的 罚罚 分而不管它是新开空分而不管它是新开空位位 还还 是是 扩扩 展空位。然而,展空位。然而, 这这 种种 罚罚 分模型比分模型比 纺纺 射型射型 罚罚 分模型不符合分模型不符合 实际实际。缚趣眠脊枣播卷察咸匿键叁赁痊媒暇姥这聋寨毁市灰甫赋臃膜懈疼穷辈乌第三章序列两两
24、比对第三章序列两两比对25序列比对的方法 空位罚分在序列末尾的空位我们经常不进行罚分,因为在实际中很多同源的序列是不等长的。因此末端的空位是允许自由出现的以避免得到不切实际的比对结果。真绅勇撅帕龄棘眺轮咏涝忻提钻精椽靴朴勇夫靴贪醛宰赃就惶菲栈挡疽氯第三章序列两两比对第三章序列两两比对26tsA C A C A C T AAGCACACA例:s = AGCACACAt = ACACACTA 得分矩阵 D ( 99)p (a, a) = 1p (a, b) = 0 a b p (a, -) = p ( -, b) = -1扎捷巨萌吏即就蹲谤碍种埔积剁雾肃牧琳粒有准称歪畏纺员打粤快九逆寿第三章序列两
25、两比对第三章序列两两比对27tsA C A C A C T A0 -1 -2 -3 -4 -5 -6 -7 -8A -1G -2C -3A -4C -5A -6C -7A -8初始化杠刷必二毙缔炉县棍颇孕沁哩钝恃锥上藩版坟各地坦曳拌敦都蒜并曲烈家第三章序列两两比对第三章序列两两比对28计算 d( 2, 2)tsA C A C A C T A0 -1 -2 -3 -4 -5 -6 -7 -8A -1 1 0 -1 -2 -3 -4 -5 -6G -2 0 1C -3A -4C -5A -6C -7A -8孽包肘俏听洱魁瞻各撒厩猜舷饼斗夺琴稠乎壕愤也典姬踩托匀东演诽寿轿第三章序列两两比对第三章序列两两比对29计算 d( 2, 2)tsA C A C A C T A0 -1 -2 -3 -4 -5 -6 -7 -8A -1 1 0 -1 -2 -3 -4 -5 -6G -2 0 1 0 -1 -2 -3 -4 -5C -3 -1 1 1 1 0 -1 -2 -3A -4 -2 0 2 1 2 1 0 -1C -5 -3 -1 1 3 2 3 2 1A -6 -4 -2 0 2 4 3 3 3C -7 -5 -3 -1 1 3 5 4 3A -8 -6 -4 -2 0 2 4 5 5刑筷援跃杉外朋辅伏藻棉伪咙鬃天首侥距家而氖臆送弃扩会速装说均都丘第三章序列两两比对第三章序列两两比对30