1、系统发育树构建方法的研究进展 科 目: 生物信息 学 院: 物联网工程学院 专 业: 计算机科学与技术 班 级: 学 号: 姓 名: 2011年 12月 22日系统发育树构建方法的研究进展摘要:系统发育树的构建与分析是生物信息学中的一个重要分支。研究系统发育树可以重建祖先序列和估计分歧时间。对系统发育树及构建系统发育树的方法进行概述 ,并对基于这些方法的软件进行简要介绍 ,最后对系统发育树构建技术中的难点问题进行分析。1引言:系统发育树也称系统进化树 ( phylogenetictree) ,它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系 ,通过对生物序列的研究来推测物种的进化历史。
2、主要是通过 DNA序列 ,蛋白质序列 ,蛋白质结构等来构建系统发育树 ,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列 P 性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等近些年随着基因数据的爆炸增长 ,系统发育树的构建越来越流行。基于分子的进化研究已经应用到许多方面 ,如基因进化 ,物群划分 ,交配系统 ,父亲身份测试 ,环境监视以及已经转移物种的疾病源的研究等。从数学的观点看 ,系统发育树是一颗树叶有标签的有根二叉树 ,根表示祖先序列。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的时间。
3、系统发育树的叶子在生物上称作操作分类单元 OTU(operational taxonomic units) ,OTU 代表构建的系谱的不同生物。 构建系统发育树所用的数据用矩阵 XNK 表示 N 表示氨基酸或核苷酸的序列数,即有 N个叶子的树。 K表示序列的字符数(列数) 。系统发育树具有以下性质:(1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元;(2)如果找不到可以作为树根的单元,则系统发育树是无根树;(3)从根节点出发,到任何一个节点的路径均指明进化时间或者进化距离。构建系统发育树就是从生物物种的序列信息推断生物进化历史, “重塑”出系统进化
4、的(谱系)关系,并把进化关系用系统发育树的形式表示出来-树的叶子结点表示各个生物序列,树枝的长度表示生物间的进化距离。构建系统发育树的研究是生物信息学中的一个热点,通过蛋白质的系统发育树分析,为从分子水平研究物种进化提供了新的手段,可以比较精确的确定某物种的进化地位。对于物种分类问题,蛋白质的系统发育树亦可作为一个重要的依据。根据系统发育树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程,而且可以粗略估计现存各类种属生物的进化时间。例如在非典时期,对各种 SARS病毒的研究。通过构建系统发育树,能确定各种病毒之间的关系,得出毒到底是由人类传染给动物,还是由动物传染给人类的。又如不少科学家
5、就利用系统发育树对世界上鱼的种群进行研究:Durand 等【nl 基于 Cytb序列,构建了中东地区的 62种鲤科鱼类的分子系统发育树。系统发育树显示12-13】 ,鲤亚科鱼类具有高度分化的 3支谱系,一支与欧洲地中海地区的残留种群共享,一支与非洲共享,还有一支与亚洲共享。因此,他们认为中东地区更可能是淡水鱼类区系的一个重要的交换地带,而不是一个物种形成中心。这对人类了解不同鱼类的生活习性大有好处,所以研究高效准确地构建系统发育树算法有实际的应用价值。从现代生存物种的大分子中获得的进化历史信息是不完全的,因此。所推断出来的系统发育树有一定程度的不确定性和假设性。从同一组数据常常推断出干不同的系
6、统发育树,因而如何通过可靠的算法,从一系列可能的系统发育树中选择“最合适的”或“最可信的”树就是一个十分有意义的问题。另外,构建系统发育树还在以下几个领域有重要意义(1)理解生物物种的进化历史;(2)为疫苗绘制病原体多样性图谱;(3)为流行病学(主要包括传染病和遗传缺陷)的研究提供帮助;(4)为新颖基因的功能预测提供帮助;(5)生物多样性研究;微生物生态学的理解。2构建系统发育树构建的研究历史和现状系统发育分析一般是建立在分子钟(molecular clock)基础上的。生物随着时间的推进而演化,进化的速率被视为进化研究中的基本问题之一。进化速率就是在某一段时间内的遗传改变量。分子进化速率相关
7、的分子钟的概念源于对蛋白质序列的研究。在长期的进化过程中,有着相似功能约束的位点的分子进化速率则几乎完全一致。20 世纪 60年代最早由 Emile Zuckerkandl和Linus Pauling所做的蛋白质序列的比较研究表明,蛋白质同系物的替换率就算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比做分子钟。Kimura进一步提出了具体的分子进化观点:对于各物种的每个蛋白质,如果用每个位点每年发育的氨基酸替换次数作为衡量分子进化的速率,则该速率是大致恒定的;功能上次要的分子(或者分子部分)的进化速率比功能重要的分子(或者分子部分)进化速率快:对现有分子结构或者功能破坏小的氨基酸替换比
8、破坏力大的氨基酸替换发育得更加频繁。目前,基于 DNA和 RNA序列构建系统发育树主要使用的是 Ribosomal RNA16S序列组,因为这些序列存在于大部分的生物体内,而且能被比较完整的保留下来。可是仅仅靠基因序列所包含的信息还是无法判断同一代物种问的类别关系,甚至错误的比较和物种间不同的进化率还可能导致得到的系统发育树是错误的。而代谢网络是所有生物所拥有的复杂的物理和化学过程,包含物种大量的重要信息。这方面的研究成果也很多,主要有:1999年,Font 和 Schultentl2J提出了基于代谢网络中结合酶序列和潜在网络的信息来衡量不同物种的相似性,可惜没有给出计算距离的公式。2000年
9、,Tohsato 等人【3 剐又提出了比较基因组和代谢网络的方法,该方法基于基因序列和酶反应的相似性判断。用酶的 EC numbers值来计算酶反应的相似性,并使用动态规划的算法比较不同的代谢网络。2002年,Liao 等人 f231提出了基于代谢网络比较不同物种的算法,该算法将生物中存在和不存在的代谢网络用布尔矢量来表示,使用一些常用的距离计算,通过聚类构建系统发育树,结果所表示的进化关系与基于 16s rRNA的系统发育分析有所不同。1983年,Sanfliu 和 Ful351将计算距离的方法划分为两类:一类是基于特征的距离计算方法,就是从每个图中提取一个特征集合,并用向量表示来计算距离。
10、另一类是基于成本的距离计算方法,该方法考虑的是将一个图转化为另一个图所消耗的最小成本。转化的操作有“删除”和“插入” 。1999年,Papadopoulos 和 Manolopoulos3l】用基于特征的距离计算方法构建了一个特征向量,该方法通过计算顶点的入度和出度来衡量距离的,在实际应用中存在一些误差。1996年,Shasha 等人 139用基于成本的距离计算方法构建了一个模型 CUAL(Connected Undirected Acyclic graphs with Labelled nodes),这个模型很好的解了误差问题,不过计算距离的算法却是 NP问题,但可以通过具体问题简化模型来解
11、决实际问题。1998年,Bunke 和 Shearert习基于最大公共子图定义了图的距离距阵,该算法的主要问题是子图一构是个 NP问题。2002年,Melnik 等人【24】提出了匹配两个图的最好的迭代算法,主要思想是依据当比较两个图的对应的顶点时,如果这两个顶点周围的顶点十分相似,那么这两个对应的顶点就是相似的。2002年,Jeh 和 Widom17】也提出了顶点相似性的比较方法,不同的是他们所讨论的是一个图的任意两个顶点,而不是两个图的对应顶点。 一2002年,Blondel 和 Van Doorenl31定义了有向图之间对应顶点的相似性的概念,提出了通过迭代方法计算任意顶点间的相似性。除
12、了以上算法,研究人员还提出了大量应用于实际问题的构建系统发育树的解决方法。综上所述,构建系统发育树的方法是多种多样,应用广泛的。虽然,由于问题本身的复杂性导致算法的效率和准确度还不尽人意,但该领域的研究已经展现出广阔的发展空间和蓬勃的生机。3系统发育树的构建方法分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析;(2)统发生树的构造;(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据。用于构建系统发生树的分子数据可以分成两类:一个是距离(distances)数据,常用距离矩阵描述,表示两个数据之间所有两两差异;另一个是特征(charact
13、ers)数据,表示分子所具有的特征。根据所处理数据的类型,可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元问的进化距离,依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间的遗传距离,选出相似程度比较大或非常相关的序列对,利用遗传距离预测进化关系。这类方法有非加权分组平均法(unweighted pair group method witharithmetic means)、邻近归并法(neighborjoining method)、FitchMargoliash法、最小进化方法(minimum evolution)等。另
14、一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如 DNA序列中的特定位点的核苷酸。建树时,着重分析分类单位或序列间每个特征(如核苷酸位点)的进化关系等。属于这一类的方法有最大简约法(maximum parsimony method)、最大似然法(maximumlikelihood method)、进化简约法(evolutionary parsimony method)、相容性方(compatibility)等。对于相似性和距离数据,在重建系统发生树时只能利用距离法。离散特征数据通过适当的方法可转换成距离数据,因此,对于这类数据在重建系统发生树时,既可以用距离法,亦可以采用离
15、散特征法。构建树分析主要有二步:第一步用 XNK矩阵产生树 T并用来估计未知的树 T ;第二步产生关于 T 的可信描述 ,通常采用 Bootstrap 方法。一般 Bootstrap 的值 70 ,则认为构建的进化靠.如果 Bootstrap的值太低 ,则说明有可能进化树的拓扑结构有错误 ,进化树是不可靠的。3.1 基于距离的方法距离矩阵法(Distance2Matrix Methods) 这类方法首先需要从 DNA序列计算每对分类单元间的遗传距离。遗传距离的算法以 K imura11双参数法较为常用。得到距离矩阵后 ,按一定的规则 ,根据各距离值间的内在关系构建系统树。常用的方法是 Sait
16、ou等12的邻接法(Neighbor Joining)和 Sneath等13的不加权对群分析法(Unweighted Pair Group withMathematical Average) 。距离法适合于分析各种方法获得的分子数据 ,如序列、 RF LP、 RAPD 等。 。相应的软件是 PHY LIP,MEG A。3. 2 最大简约法(Maximum Parsimony Method ,MP) 这种方法最早是基于形态特征分类的需要而发展起来的 ,因算法不同而有许本MP法利用的只是对简约分析能提供信息的特征。如在 DNA序列数据中 ,利的是有序列差异(至少有 2种不同类型的核苷酸序列)的核苷
17、酸位点 ,这些位点称简约信息位点。利用 MP 法重建系统发育树 ,实际上是一个对给定 OTU 其所可能的树进行比较的过程。对某一个可能的树 ,首先对每个位点祖先序列的核苷酸组成作出推断 ,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中 ,所有信息简约位点最小核苷酸替换数的总和称为树的长度。同比较所有可能树 ,选择其中长度最小的树作为最终的系统树 ,即最大简约树。在不同世系间进化速率相差较大但进化速率恒定 ,而树的内支很短的情况下 ,MP法不能对一个真正的系统发育树作出始终一致的判断。它获得一个正确树的效率通常要比最大似然法低。但在序列趋异程度较小( D 0. 1) ,核苷酸替换速
18、率大致恒定 ,没有很高的转换与颠换比及很强的 GC含量偏差 ,所分析的核苷酸数量较多的情况下 ,MP法能利用序列中碱基的插入和缺失信息。只有部分单元 DNA序列可用此方法 ,代表性的软件是 PAUP10。3. 3 最大似然法(ML)最大似然法是由样本观测值估计总体参数的一种常用方法。最大似然法是选择最高概率的树。 用此方法推断一组序列的系统发育树 ,首先需要确定一个序列进化的模型 ,如 K imura (1980)双参数模型 ,然后基于一定的模型考虑 2个 OTU序列间的关系 ,找到支的长度。这个过程需要寻找在某一进化距离上由第一种序列真正转换成第二种序列的可能性 ,并确定在最大可能下的进化距
19、离;接着将多个 OTU所构成的所有可能树作为最佳树 ,对重建每个树的统计量进行似然估计;最后通过树长度的优化 ,从而获得最佳树各参数的最大似然估计。相应的软件是 PHY LIP。 3.4 贝叶斯树估计方法贝叶斯方法比最大似然法能表示更多的可信进化模型 ,替代率的变异可以在各个点建模 ,贝叶斯方法有一个非常宽的先验分布 ,后验概率分布用 G ibbs样本和 MCMC(Monte Carlo Mark ov Chains)方法计算。如果 XNK 有不同的突变率 rK ,那么有如下形式:P(XT,t,rK) = Kk = 1P( Xk T,rK ,t) 从现在的分析来看,最大似然法是目前最准确的一种
20、方法,但是一个最大的缺点就是计算复杂性高, 这使得它不能够处理大规模数据,这与目前不断出现的大量数据之间的矛盾越来越明显,因此需要引入新的技术来加速最大似然法的计算.生物数据不同于普通的数据, 它有一定的生物学意义,因此要充分挖掘其生物学意义, 结合到目前最常用的距离法和最优原则法当中,得到真正具有生物学意义的系统发育树.进化统计模型为一些方法提高了更加坚实的统计基础.但是,进化模型的好坏直接影响到构建的系统发育树质量的高低.而现在所用的都是一些非常简单的模型, 因此深入研究分子的进化机制,开发出更加有现实意义的进化模型,这样才能使得建立在进化模型之上的系统发育树的研究更具有现实意义.任何一种
21、方法都不可能完全模拟出进化的真正历史,每种方法都有有缺点,因此应该将多种方法进行综合, 以开发出更好地更加全面的算法.总之,进化树的研究一直在不断的发展完善, 但与真实的物种进化关系还有一定距离. 在以上四点进一步引入分子进化分析后, 未来的系统发育树将在生物学研究中发挥更大的作用. 随着后基因组时代的到来, 各种生物信息的增多,系统发育树的概念也会更加充实, 它不仅仅是某个特殊物种的可能进化反映, 而会成为整个进化历史的中心趋势的参照. 可以预见的是, 未来的进化树将会更加细致深入地反映生命的历史, 为我们对生命进化的预测和生物学相关问题的析提供参考.4 构建分子进化树软件构建分子进化树软件
22、主要有 MEG A , PAUP ,PHY LIP , Tree View , Cluster X, G eneDoc , BioEdit 等。MEGA 是图形化软件 ,使用非常方便。4. 1 多序列对位排列(multiple sequence alignment)软件通常 ,在获得不同分类单元同一 DNA 片段核苷酸序列后首先要利用 C LUSTRALW 等软件进行序列比对 ( sequencalignment) ,其主要目的在于确定同源序列以及缺失与插入位点。唯有通过同源分子之间的比较 ,才能建立正确的系统发育关系。由于进化论认为同源是具有共同的祖先 ,因此它是系统学研究的一个核心概念。理
23、论上 ,所分析的序列中一个特定位点上观测到的所有状态都应能追溯到这些序列的共同祖先序列中的单一位点状态。然后利用一些生物学家所提出的数学模型进行分子树的重建。4. 2 系统演化和进化分析软件 随着近代生物数学理论的发展 ,进化树分析其相关软件有 PHY LIP、PUZZ LEPAUP、 MEAG、 DNASTAR、 TREEVIEW、 C LUSTALXC LUSTALW和 PHY LO2WIN(LINUX)等。其中 ,PHY LIP 可以分析 DNA与蛋白质序列、 限制酶位点等 ,并能绘制进化树程序中含有许多选项可以精确控制与分析。针对实验所需 ,采用 PHY LIP进行分子系统进化树构建和
24、分析。PHY L软件对序列进化分析基于下述一些假设: A 每个性状的进化是相对独立的; B 不同连锁群的进化是相对独立的; C 每个位点最初的碱基是未知的; D 不同群体间大多数位点的变化频率在一定的时期内是基本恒定的; E 一些位点具有很高的突变频率; F 位点替换突变的高低预先是不知道的。由此 ,对于线粒体基因的 DNA序列变化所作出的假设是针对适应性来说 ,序列呈中性突变 ,通过碱基变异的分析能获得群体和相关种的进化史。其中要求有两个前提: 物种内基因组多态性与物种间基因组多态性相对应;替换或置换比率在物种内和物种间是一样的。5 总结与展望所有的生物都可以追溯到共同的祖先,生物的产生和分
25、化就像树一样地生长、分叉,所以可以用树的形式来表示生物之间的进化关系。为了研究物种间的进化关系,人们提出了各式各样的方法,采用了大量的数据。有基于DNA和蛋白质序列的,也有基于代谢网络的。根据使用的分子数据不同,又可将构建系统发育树的方法分为基于距离构建系统发育树和基于特征构建系统发育树。通过对于系统发育树构建方法的研究进展的研究,发现系统发育树的研究对于生物信息学的进展有的很大的贡献,未来的系统发育树的研究对于生物信息学的进展将有非常大作用,所以,学好生物信息学的同时,应该加大对系统发育树方面的学习与理解,争取取得自己的成果.参考文献1http:wwwgenomeadjpkegg2http:
26、wwwecocycore,3陈培毅, 基于代谢网络的系统发生树的构建J.生物信息学, 2008.4系统发育树的构建方法J.微生物学报,20105黄萍,孙平平,马雅楠,张爽,藏露,欧阳玉梅,马志强. 系统发育谱构建方法研究J.生物信息学, 2009.6孙啸,陆祖宏,谢建明.生物信息学基础.清华大学出版社,2010.7白淑洁,王学芹.构建系统发生树的研究方案J.科技资讯,2009,(19).8王禄山,高培基.生物信息学应用技术.化学工业出版社.9李建伏,郭茂祖.系统发生树构建技术综述J.电子学报,2006,(11).10吴祖建,高芳銮,沈建国.生物信息学分析实践.科学出版社 201011冯思玲.系统发育树构建方法研究J.信息技术.2009,06 12 韩凤侠.共同祖先原则和系统发育树的解读J.生物学通报,2008,(09)13进化与系统发生M.高等教育出版社.2002.14常青,周开亚.分子进化研究中系统发生树的重建.生物多样性.1998-2.15郝柏林,张淑誉.生物信息学手册.上海科学技术出版社.2000 年16潘宝平.生物进化理论的新进展.生物学通报.2002.17汪浩.统计方法求进化树.云南大学学报(自然科学版).2002.