收藏 分享(赏)

生物信息学 第七章.doc

上传人:dzzj200808 文档编号:2337980 上传时间:2018-09-11 格式:DOC 页数:36 大小:191KB
下载 相关 举报
生物信息学 第七章.doc_第1页
第1页 / 共36页
生物信息学 第七章.doc_第2页
第2页 / 共36页
生物信息学 第七章.doc_第3页
第3页 / 共36页
生物信息学 第七章.doc_第4页
第4页 / 共36页
生物信息学 第七章.doc_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、第七章:序列比对和数据库搜索Gregory D.SchulerNational Center for Biotechnology InformationNational Library of Medicine. National Institutes of Health Bethesda. Maryland引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了 galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽

2、。在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法是 序列比对 ,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在这一章,我们只讨论一下 双重比对 ,即只比较两个序列,至于较多的序列即 多序列比对 ,将在第八章介绍。七十年代以来,DNA 测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也

3、已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的 相似性 ,从而判定二者之间是否具有 同源性 。值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖

4、先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。如图 7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有 41%的相似性。由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的 DNA,我们所能够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括 取代 、 插入 以及 缺失 。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的

5、情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序Bioinformatics: A Practical Guide to the Analysis of Genes and ProteinsEdited by A.D.Baxevanis and B.F.F.OuelletteISBN 0-471-19196-5.pages 145-171. Copyright 1998 Wiley-Liss. Inc.列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些 空位 在序列比对时用连续的短线填补。如图 7.1,在序列比对中,发现了 5个空位。|- S-S-*|Mous

6、e IVGGYNCEENSVPYQVSLNS-GYHFCGGSLINEQWVVSAGHCYK-SRIQVCrayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI *Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTACrayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ|- S-S-|Mouse PPATGTKCLISGWGNTASSGADYPDELQ

7、CLDAPVLSQAKCEASYPG-KITSNMFCVGFLECrayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE *|-S-S-|Mouse GGKDSCQGDSGGPVVCNG-QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAANCrayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-图 7.1、保守位点通常在功能上极为重要。对老鼠的胰蛋白酶(Swiss-Prot P07146)和小龙虾的胰蛋白酶(S

8、wiss-Prot P00765)作比对,相同的残基用下标线标出,在比对上方标出的是三个二硫键(-S-S),这些二硫键中的半胱氨酸残基极为保守,打星号的残基的侧链参与电荷传递系统,打菱形符号的活性位点的残基负责底物的特异性。在残基-残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图 7.1所示,处于活性位点的残基都是极为保守的,比如形成二硫键的半胱氨酸,参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要,另一方面,由于历史原因,某些保守位置对蛋白功能

9、并无太大的重要性。当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映,比如,mouse 和 rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。尽管如此,系列比对仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进化历程,从而我们判断他们会具有相似的生物学功能,但是,这个

10、推断在成为结论之前必须经过实验的验证。例如,-晶状物是脊椎动物眼睛里晶状体基质的组成部分,根据序列相似性的基础,它在 E.coli中的同源物是代谢酶苯醌氧化还原酶(如图 7.2),不管二者的共同祖先如何,它们的功能在进化中已经改变了(Gonzalez et al.,1994)。这就好象火车变成了铁路餐车,虽然对二者的外部结构的观察揭示了它们结构的历史,但是仅仅根据这一信息往往会得出有关其功能的错误结论。当一个基因适应了一个新的功能时,保守位置通常也会发生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白功能改变时,这些残基将会发生漂移。Human-ZCr MATGQ

11、KLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYSEcoli-QOR -MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP. . *. . . * . . . * *.* * *Human-ZCr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEKEcoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA* * * * * .

12、* * . . * *. *Human-ZCr LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTAEcoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV. * * * . * * * .* * * * *.* * *.* * *Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHGEcoli-QOR GTAQKAQSALKAGAWQVINYREEDLVER

13、LKEITGGKKVRVVYDSVGRDTWERSLDCLQRR* . . *. * .* * * . * * * . . . . . * * . Human-ZCr GRVIVVG-SRGTIEINPROTMAKES-SIIGVTLFSSTKEEFQQYAAALQAGMEIGWLEcoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI* * * * . . . . . .*.* . . * . . * .Human-ZCr KPVIGSQ-YPLEKVAEAHENIIHGSGATGKMILLLEcoli-QO

14、R KVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP* . * * * *. . * .*.图 7.2、最佳全局比对:对人类 -晶状物(Swiss-Prot Q08257)和 E.coli苯醌氧化还原酶(Swiss-Prot P28304)的氨基酸序列进行比对。这是一个由CLUSTAL W程序(Higgins et al., 1996)得到的最佳全局比对结果。在比对下方,星号表示残基相同,打点表示这个残基是保守的。早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比对 就是对序列进行全程扫描,进行比较。以上讨论的胰蛋白酶和 -晶状物之间的比较就属

15、于全序列比对。具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,以为所有的同源序列尚未经过实质上的变化蛋白质的模块性质许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。图 7.3描述了这样的一个例子,如图所示的是在血凝过程中的两种蛋白的组成结构,它们是凝血因子 XII(F12)和组织型血纤蛋白溶酶原活化因子(PLAT),除了具有丝氨酸蛋白酶活性的催化结构域,这两种蛋白还具有不同数量的其它结构域单元,包括两种纤连蛋白重复,一个类似于上皮生长因子的结构域以及一个成为“kringle”域的单元。这些组分可以以不同顺序反复出现,组分形式的不同通常是由于整个外显子交换引起

16、的。由于全程比对建立时,基因的外显子/内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性,这是可以理解的。在大多数情况下,使用 局部比对 是较为合理的,这种比对方法可能会揭示一些匹配的序列段,而本来这些序列段是被一些完全不相关联的残基所淹没的,因此,操作者应该明白,如果不恰当地使用了全程比对,很可能会掩埋一些局部的相似性。设计局部比对的另外一个很明显的原因就是在比较一个拼接后的 mRNA和它的基因序列时,每个外显子都应该进行局部比对。图 7.3、血凝过程中的两中蛋白的模块结构:人类组织血纤蛋白溶酶原活化因子以及凝血因子 XII的模块结构的示意图。标记为 Catalytic的模块在

17、若干种凝血蛋白中是常见的, F1和 F2是较为常见的重复模块,首先在纤连蛋白中被发现。 E模块同表皮生长因子极为类似。通常称为 ”Kringle domain”的模块被标记为 K。点阵描述 方法之所以广泛流行,其部分原因就在于它能够揭示出拥有多个局部相似性的复杂关系,图 7.4就是应用这种处理后的一个例子。图中 F12和 PLAT蛋白质序列使用 DOTTER程序进行比较(软件可见本章结尾列表),其基本思路就是把两个序列分别作为一个二维坐标系中的两个坐标轴,在这个坐标系区域内,如果某一点所对应的横轴坐标和纵轴坐标所对应的两条序列的残基相同,则在这个位置上打上标记点,每个点通常都表示在一些小窗口中

18、,序列相似性高于其它一些隔绝的区域(或者由 DOTTER程序定义的隔绝区域,由不同的灰色阴影标记)。如果两个序列在一段区域内很相似,标记点将会连成一条斜线段,将这些线段的位置同图 7.3中两个蛋白的已知的组成结构相比较是很有价值的,特别是要注意连续反复出现的结构域的出现方式。从 PLAT的 kringle结构域开始水平扫描,可以发现两条线段对应于 F12序列中的两个 kringle结构域,虽然现在我们已经拥有许多更复杂更精确的方法来寻求局部相似性(下面将会讨论),点阵描述方法仍然是一个很流行很有效的描述方法。图 7.4、点阵序列比较:对人类凝血因子 XII( F12: Swiss-Prot P

19、00748)和组织血纤蛋白溶酶原活化因子( PLAT: Swiss-Prot P00750)的氨基酸序列进行打点比较。这个图由 DOTTER程序( Sonnhammer and durban,1996)产生。在点阵描述方法中,某些形式的点可能会勾勒出一定的路径,但这需要操作者通过这些信息进行推理,另外一个图形描述方法即 路径图 提供了更直接明了的比较结果,图 7.5描述了和中与相似的结构域之间进行比较时的比对、点阵和路径图三种方法的关系。cPLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMPSGPH-CLCPQHLTGNHCQKEK-CFE 137PLAT 23 ELHQVPSN

20、CD-CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72图 7.5、点阵、路径图和比对:所有这三种视图都表示人类尿激酶血纤蛋白溶酶原活化因子( PLAU:Swiss-Prot P00749)和组织血纤蛋白溶酶原活化因子( PLAT:Swiss-Prot P00750)中同 EGF相似的模块的比对结果。 a) .整个蛋白都由 DOTTER程序进行比较:这里只显示了同 EGF模块相似的较小区域的放大图;b)由 BLASTP得到的比对的路径图; .c).用普通的字符形式显示的 BLASTP空位比对。 要理解路径图,先想象一个二维格子,顶点表示序列残基之间的点(与点

21、阵中表示残基本身相反),沿线段上连接两个顶点的边缘对应两个序列上匹配的残基,水平和竖直线段的边缘对应一个序列拥有而另一个序列上没有的残基,换句话说,这些边缘平台组成了比对中的空位,全图对应了所有可能的比对中必须审视的 搜索空间 ,这个空间中每条可能的路径都对应于一种比对。最佳比对方法除了某些很不重要的问题,对于众多问题而言,比对方法多种多样,很有必要从中挑选出最好的一个或几个方法,这就是把一种比对描述成一个路径的概念所指。许多计算机科学的问题都可以简化为通过图表寻求最优路径(比如寻找从纽约打电话到旧金山的最有效的途径)。为了这一目的已经确立了许多行之有效的算法,对每一种路径都有必要对其进行某种

22、意义上的打分,通常是对沿这一途径的每一步的增量进行加和。更精密的打分程序将在下文叙述,在这里我们只假定相同残基加正分,有插入或缺失的残基就加负分(扣分),根据这一定义,最合适的比对方法会得到最高分,也就是我们寻找的最佳路径。今天我们所熟悉的 Needleman-Wunsch算法就是针对寻求最佳序列比对这一问题所设计的动态规划寻优策略(Needleman and Wunsch,1970)。动态规划的思想是这样的,如果一条路径终止于最佳路径上的一点,那么这条路径本身就是起点到这个中间点的最佳路径,也就是说,任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身。这样,最佳路径就

23、可以通过把各个最佳的次级路径连接而成。在基本的 Needleman-Wunsch公式表达中,最佳比对必然对每个序列都由始至终,就是说从搜索空间的左上角直至右下角。换句话说,它搜索全程比对。然而,对这种基本策略稍作修改就可以实现最佳的局部比对。这种比对的路径不需要到达搜索图的尽头,只需要在内部开始和终结。如果某种比对的打分值不会因为增加或减少比对队的数量而增加时,这种比对就是最佳的。这个过程依赖于打分系统的性质,就是说某种路径的打分会在不匹配的序列段位置减少(以下叙述的打分系统合乎这个标准)。当分值降为零时,路径的延展将会终止,一个新的路径就会应运而生。这样,我们会得到许多独立的路径,它们以不匹

24、配的序列段为界限而不是像在全程比对中以序列的结尾作为界限。在这些路径中,拥有最高分的一个就是最佳的局部比对。应该意识到,寻优方法总是把最佳的比对方法表达出来,而不在意它是否具有生物学意义,另一方面,寻求局部比对时可能会发现若干个重要的比对,因此,不能仅仅注意最佳的一个。改良的 Smith-Waterman(Altschul and Erickson,1986;Waterman and Eggert,1987)算法把寻找 K种最好的但不相互交叉的比对方式最为目标,这些思想后来都在 SIM算法(Huang et al.,1990)的发展中得以体现。一个名叫 LALIGN(在 FASTA程序包中)的

25、程序提供了有用的SIM工具(Pearson,1996)。对于比对多模块的蛋白质而言,寻找次优比对尤为重要。正如图 7.6所示,LALIGN 程序被用来获得三个最好的局部比对(比对人类凝血因子 IX和因子 XII)。一个标准的 Smith-waterman算法只会报告出最好的一个比对,改良的算法会报告出第二和第三的比对方式,从而显示出功能结构域。Comparison of:A. f9-human.aa f9 gi|119772|sp|P00740|FA9_HUMAN COAGULATION FA -461 aa B. f12-hum.aaf12 gi|119763|sp|P00748|FA12_

26、HUMAN COAGULATION -615 aa using protein matrix 35.4% identity in 254 aa overlap; score: 358220 230 240 250 260 270 F9 QSFNDFTRVVGGEDAKPGQFPWQVVLNGKVDAFCGGSIVNEKWIVTAAHCVE-TGVKI.: : .:. :. : :.:. : . F12 KSLSSMTRVVGGLVALRGAHPYIAALY-WGHSFCAGSLIAPCWVLTAAHCLQDRPAPEDL370 380 390 400 410 420 280 290 300 3

27、10 320 330 F9 TVVAGEHNIEETEHTEQKRNVIRIIPHHNYNAAINKYNHDIALLELDEPL-VLNSY: :. . :. .: . : .:.:.: :.: .: F12 TVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPV-SYQHDLALLRLQEDADGSCALLSPY430 440 450 460 470 480 340 350 360 370 380 F9 VTPICIADKEYTNIFLKFGSGYVSGWGRVFHKGRS-ALVLQYLRVPLVDRATCLRSTKF-: :.:. . :.:. :. . . : : .:.

28、. : F12 VQPVCLPSGAARPSETTLCQVAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHG490 500 510 520 530 390 400 410 420 430 440 F9 -TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS-FLTGIISWGEECAMKGKYGIY.: .:.: : :.: : : : :. : :.: F12 SSILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVY540 550 560 570 580 590 450 F9 TVVSR

29、YVNWIKEKT:.:. :.:.:F12 TDVAYYLAWIREHT 600 610 - 34.7% identity in 49 aa overlap; score: 120100 110 120 130 140 F9 VDGDQCESNPCLNGGSCKDDINSYECWCPFGFEGKNCELDVTCNIKNGR.: .:.:.: . . : : : : . .:F12 LASQACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR180 190 200 210 220 - 33.3% identity in 36 aa overlap; sco

30、re: 87100 110 120 F9 DQCESN-PCLNGGSCKDDINSYECWCPFGFECKNCE:.:. : .:.: . .: : :.F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPQHLTGNHCQ100 110 120 130 -图 7.6、最佳和次佳的局部比对:在使用 LALIGN对人类凝血因子IX(F9;Swiss-Prot 900740)和凝血因子 XII(F12;Swiss-Prot P00748)进行比对时发现了三个最佳的比对结果。取代分和空位处罚刚才描述的打分系统仅仅使用于简单的匹配/不匹配的情况,但是在比较蛋白质时,我们可以用取代矩阵来增强

31、弱势比对的敏感性。很显然,在相关蛋白质之间,某些氨基酸可以很容易地相互取代而不用改变它们的生理生化性质,这些保守取代的例子包括异亮氨酸(isoleucine)和颉氨酸(valin)(体积小,疏水),丝氨酸(serine)和苏氨酸(threonin)(极性)。在计算比对分之时,相同的氨基酸打分会高于取代的氨基酸,而保守的取代打分高于非保守变化,换句话说,设计了一系列的分值,而且,在比对非常相近的序列(mouse 和 rat的同源基因)以及差异极大的序列(mouse 和 yeast 的基因)时会设计出不同系统的分值,考虑到这些因素,使用取代矩阵会极为有利,在这个矩阵中,任何氨基酸配对的分值会一目了

32、然。第一个广泛使用的最优矩阵建立在进化的点突变模型上( PAM)(Dayhoff et al.,1978)。一个 PAM就是一个进化的变异单位即 1%的氨基酸改变,这并不意味着经过 100次 PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次改变,甚至可能变回到原先的氨基酸,因此另外一些氨基酸可能不发生改变。如果这些变化是随机的,那么每一种可能的取代频率仅仅取决于不同氨基酸的出现的频率(称为 背景频率 )。然而,在相关蛋白中,已经发现的取代频率(称为 目标频率 )大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点突变已经被进化所接受。Dayhoff 同合作者们第一次使用了 l

33、og-odd处理,在这种处理中,矩阵中的取代分值同目标频率于背景频率的比值的自然对数成比例。为了评估目标频率,人们用非常相近的序列(比对时不需要取代矩阵)来收集对应于一个 PAM的突变频率,然后将数据外推至 250个PAM,PAM250 矩阵结果如图 7.7。虽然 Dayhoff等人只发表了 PAM250,但潜在的突变数据可以外推至其它 PAM值,产生一组矩阵,在比较差异极大的序列时,通常在较高的 PAM值处得到最佳结果,比如在 PAM200到 250之间,较低值的PAM矩阵一般使用于高度相似的序列(Altschul,1991)。图 7.7、 PAM250分值矩阵。用同样方式建立了 BLOSU

34、M取代矩阵,但在评估目标频率时,应用了不同的策略,基本数据来源于 BLOCKS数据库,其中包括了局部多重比对(包含较远的相关序列,同在 PAM中使用较近的相关序列相反)。虽然在这种情况下,没有进化模型,但它的优点在于可以通过直接观察获得数据而不是通过外推获得。同 PAM模型一样,也有许多编号的 BLOSUM矩阵,这里的编号指的是序列可能相同的最高水平,并且同模型保持独立性。举例来说,如图 7.8所示的 BLOSUM的矩阵,至少有 62%的相同比例的序列被组合成一个序列,因此取代频率更加受到那些比空位变化还大的序列的极大影响,取代矩阵在处理高度相似序列时使用高的阈值(直至 BLOSUM90),处

35、理差异大的序列时使用低的阈值(直至 BLOSUM30)。图 7.8、 BLOSUM62分值矩阵。为了补偿那些插入或缺失,可以在比对中引入一些空位,但不能太多,否则会使分子变得面目全非。每引入一个断裂,比对的分值都会有所扣除,对于这些断裂有许多罚分的规则。最常用的一个就是用一个附加的罚分比例去乘空位的长度,其中有两个参数:G(有时称为断裂开放惩罚)和 L(断裂延伸惩罚),对于一个长度为 n的空位,扣分总数为 G+Ln,但在选择空位参数时,在很大程度上是唯经验的,所选的分值很少会有理论上的支持。通常来说,对于 G会选择一个高分(在 BLOSUM62中约为 10-15),对于 L会选择一个相对的低分

36、(大约 1-2),选择这个范围是因为插入和变异是很罕见的,但当它们一旦发生,就会影响到一系列附近的残基。比对的统计学显著性对任何一个比队,我们都可以计算一个分值,但重要的是需要判定这个分值是否足够高,是否能够提供进化同源性的证据。在解决这一问题时,对于偶然出现的最高分,有些思想很有帮助,但是,没有一个数学理论能够描述全程比对的分值分布,其中一个能评估其重要性的方法就是将所得的比对分值和那些同样长度和组成的随机序列进行比较。但是,对于局部比对而言,情况要好得多。正如问题总是从简单开始,人们首先注意到那些没有多少空位得局部比对,这种比对被称为高分片段配对( HSP)。HSP通常用改进得 Smith

37、-waterman算法或简单地使用大的空位罚分方法获得。Karlin-Altschul统计学为描述随机的 HSP分值的分布提供了数学理论,概率密度函数形式被称为 极值分布 ,这很值得注意,因为,更普遍更一般的分布的应用可能会夸大它的重要性,把一个已知得比对分值 S同预期的分布相关联可能会计算出 P值,从而给出这个分值的比对显著性的可能性。通常,P 值越趋近于零,分值越有意义。相关的变量 E表示分值不低于 S得可能的比对数量,而极值分布由两个参数表示,即 K和 ,可以得到解析解,并且对于任何打分系统以及背景频率都是固定的。比对的显著性依赖于搜索空间的大小(就像在草堆中找针依赖于草堆的大小)。搜索

38、空间的大小由序列长度计算出来,但由于统计的正确性,这个长度必须由局部比对的预期长度进行校正,以免出现边缘效应(Altschul and Gish,1996),需要进行这种校正还因为在搜索空间边缘开始的比对在达到一个有效分值之前就会超出序列的范围。把比对局限于没有空位的基础之上,使问题大大简化,但是却脱离分子生物学的实际情况。实际上,要建立一个插入和缺失的精确模型需要空位,但如果空位相对较少,在这些空位之间仍然可以获得高分值区域,有代表性的是可能会获得紧密相邻的 HSP,在这种情况下,从总体上去评估它的显著性是较为合理的,也许,每个片段并不显得很重要,但是几个片段同时出现就不太像是偶然事件了。K

39、arlin-Altschul 加和统计学可以计算 N个 HSP的统计值,这个方法的实质是把 N个最佳片段的分值进行加总,从而计算事件偶然发生的可能性,其它一些论据也被用来确认这些分值只是在片段与比对一致的情况下进行加总。虽然加总的分值分布与 HSP分值最大值有差异,仍然可以得到解析解。最后,仍然有必要对局部排队的显著性进行合理评估,其中包括了模型中的空位。正如同传统的 Smith-waterman比对,虽然没有先验的证据,人们仍然认为这些比对的分值也应该遵循极值分布,但是,分布参数 K和 的值不能通过计算获得,当然,通过模型获得这些值的方法已经被大大地发展了。数据库中的相似性搜索上述讨论主要集

40、中于那些较为特别的匹配的序列,但是对于一个新发现的序列,我们无法得知用什么序列同它进行比对,数据库相似性搜索使我们能够从数据库中存在的数十万个序列中挑选出可能同感兴趣的序列有关联的序列,这个方法有时会导致意想不到的收获。用这种策略获得成功的第一个例子是人们因此发现病毒肿瘤基因 v-sis是细胞中编码血小板派生生长因子的基因的一个变体形式(Doolittle et al., 1983; Waterfield et al., 1983)。那个时候,序列数据库还不大,因此这个发现足以另人感到万分惊奇。然而今天如果进行数据库搜索并且一无所获的话,那就更另人感到费解了。如同其它几个小的物种基因组一样,酵

41、母 saccharomyces cerevisiae的基因组全序列已经被测定出来。在脊椎动物中,大量的部分基因诸如人类和老鼠的基因都已经被测定并存入基因库(genebank)中,这也导致了表达序列标签(EST)工程。EST 片段的主要用途是在数据库搜索中,用 EST片段进行 cDNA克隆可以分离出感兴趣的基因,包括其它模型生物中的同源基因。最近报导的多重内分泌腺肿瘤(MENI)基因就和人与老鼠的多个 EST片段相匹配,其中之一在 MENI发表前一年就已经入库保存了(Chandrasekharappa et al., 1997)。在数据库搜索中,基本操作就是将查询序列和数据库中的主题序列作比对。

42、比对结果是排列好的 hit list,后面是一系列的单独的比对情况,以及不同的分值和统计值(如图 7.9)。下文将会详细介绍选择不同的搜索程序、序列数据库和不同的参数都会对搜索产生影响,而且还有不同的界面,比如操作台命令、WWW形式和 E-mail等。图 7.10给出了一个使用 Web界面进行数据库搜索的例子。这种形式的一个优点就是对任何一个感兴趣的比对,全部注解和文献应用都可以通过超文本简单方便地联接至原始的序列条目和相关的在线文献。a The best score are: initn initl opt z-sc E(59248)gi|1706794|sp|P49789|FHIT_HUM

43、AN FRAGILE HISTIDINE 996 996 996 1350.4 0gi|1703339|sp|P49776|APH1_SCHPO BIS(5-NUCLEOSYL) 431 395 395 536.2 2.8e-23gi|1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07gi|417124|sp|Q04344|HIT_YEAST HIT1

44、PROTEIN (ORF U 159 104 157 216.2 1.8e-05gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012 gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHE

45、TICAL 13.1 102 102 119 166.8 0.01gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86

46、115 160.4 0.023 gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.0

47、5gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064gi|1169852|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 62 62 104 137.9 0.42gi|113999|sp|P16550|APA1_YEAST 5,5-P-1,P-4-TE 108 66 103 137.1 0.47bgi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR (379 aa)initn: 97 init1: 97 opt: 12

48、8 z-score: 169.7 E(): 0.0072Smith-Waterman score: 128; 30.8% identity in 107 aa overlap10 20 30 FHIT MSFRFG-QHLIKPSVVFLKTELSFALVNRKPV .: X.: . : .: : : GAL7 VWASNFLPDIAQREERSQQTYHNQHGKPLLLEYGHQELLRKERLVLTSEYWIVLVPFWAV190 200 210 220 230 240 40 50 60 70 80 FHIT VPGHVLVCPLRPVERFHDLRPDEVADLFQTTQRVGTVVEKHFHGTSLTFSMQDGP-: :. : : :.:. .: : : : .: . : X. :. .: . .:GAL7 WPFQTLLLPRRHVQRLPELTPAERDDLASTMKKLLTKYDNLFE-TSFPYSMGWHGAPMGL250 260 270 280 290 300 90 100 110 120 130 140 FHIT EAGQTVKH-VHVHVLPRKAGDFHRNDSIYEELQKHDKEDFPASWRSEEEMAAEAAALRV: : : .:.: :GAL7 KTGATCDHWQLHAHYYPPLLR

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报