1、第七章 分子进化与系统发育树,主讲人:胡银岗,西北农林科技大学农学院遗传教研组,分子系统学、古分子系统学古生物遗体、化石保存的三种信息: 形态学信息 化学信息(生物的代谢产物和一般的生物化学分子) 遗传信息(保存的一级结构生物大分子,即基因产物或基因片段)分子系统学(Molecular Systematics):从生物大分子(氨基酸、核苷酸)的遗传信息推断生物进化的历史,并以系统树(谱系)的形式表达出来。古分子系统学:利用古代DNA保留的遗传信息进行分子系统学研究,Darwin, Charles (1809-1882),The Origin of Species (1859),7.1 生物进化
2、的分子基础,经典的进化学方法,化石证据(Fossil) 比较形态学证据(Comparative morphology) 比较生理学证据(Comparative physiology),进化学的分子方法,普适性由4种核酸组成 分子水平的进化表现为:DNA序列和氨基酸序列演化可比较性比较不同物种的有关DNA序列 建立DNA序列和氨基酸序列的演化模型(数学模型) (形态、性状的演化模型?)基因组编码信息的丰富与形态、性状包含的信息相比,基因组序列包含更多、更复杂的信息结构,分子系统发育学 Molecular Phylogenetics 分子系统学 Molecular Systematics,What
3、 can we do for molecular evolution?序列比较:源于同一祖先DNA/氨基酸序列的两条DNA/氨基酸序列,考察二者的差异。序列差异:进化过程中分子突变的痕迹分子进化:以累计在DNA/氨基酸分子上的历史信息为基础,研究分子水平的生物进化过程和机制。,分子系统学为生物分类问题提供了许多崭新的见解。,生物进化的分子机制,基因突变,1、核苷酸替代、插入/缺失、重组 2、基因转换,固定在生物个体 以及物种内,遗传漂变,自然选择,传递给后代,产生新的形态、性状,分子系统学是研究进化机制的一个重要工具。,DNA序列的突变,性状改变,DNA分子的改变,核苷酸替代substitut
4、ion,核苷酸缺失 deletion,核苷酸插入 insertion,核苷酸倒位 invertion,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TCT TTG CTGThr Ser Leu Leu,替代,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TAC TTT GCT GThr Tyr Phe Ala,插入,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TAT TGC TG-Thr Tyr Cys -,缺失,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TTT ATG CTGThr
5、Phe Met Leu,倒位,核苷酸替代的几种分类,转换 (transition) 嘌呤 嘌呤 嘧啶 嘧啶,颠换 (transvertion) 嘌呤 嘧啶 嘧啶 嘌呤,在大多数DNA片段中,转换出现的概率高于颠换出现的概率。 Why?,DNA序列突变对氨基酸序列的影响,同义(沉默)替代(synonymous / silent substitution) 仍然为同义密码子的核苷酸替代 如: TAT TACTyr Tyr,非同义替代(nonsynonymous substitution) 导致产生非同义密码子的核苷酸替代 如: TAT AATTyr Asn,无义突变(nonsense mutati
6、on) 导致产生终止密码子的核苷酸突变 如: TAT TAATyr STP,问题:假设所有密码子以同一概率出现,上述三种突变的比例?25%,71%,4%,密码子使用频率(codon usage),密码子使用频率的偏倚性: 编码同一个氨基酸的多个同义密码子具有不同的使用频率,例:E. coli的RNA聚合酶缬氨酸Val GTT GTC GTA GTG55 21 34 34精氨酸Arg CGU CGC CGA CGG89 46 1 0,为什么会出现密码子使用频率的偏倚性?与同功能tRNA的丰度有关?突变压力与净化选择双重控制?,Open problem,拓扑结构:有根树:反映时间顺序无根树:反映距
7、离,理论上,一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二歧的。一般考虑二歧的树结构:二歧树,分支: 内部分支 外部分支,节点: 内部节点 外部节点,7.2 系统发育树(Phylogenetic tree),考虑4个分类群时,共有15种可能的有根树,a,b,c,d,a,c,b,d,a,d,b,c,考虑4个分类群时,共有3种可能的无根树,系统发育树的种类 基因树、物种树,物种树:代表一个物种或群体进化历史的系统发育树两个物种分歧的时间:两个物种发生生殖隔离的时间基因树:由来自各个物种的一个基因构建的系统发育树(不完全等同于物种树),表示基因分离的时间。,系统发育树
8、的种类 期望树、现实树和重建树,期望树:一个用无限长的序列或每一分支的期望替代数构建的树,理论上:假设所研究的序列无限 长,从中随机抽样进行 统计分析。,实际情况:所研究的序列是短序列, 统计得到的替代数目存 在大量随机误差。,现实树:建立在实际替代数基础上的树,重建树,构树方法,系统发育树的构建,构建系统发育树的数据1、特征数据(character data):提供了基因、个体、群体或物种的信息2、距离数据(distance data)或相似性数据(similarity data):涉及的则是成对基因、个体、群体或物种的信息。 距离矩阵,距离数据可以由特征数据计算得到。 反之?,构造系统发育
9、树的主要方法 距离法 根据每对物种之间的距离直接计算得到。所生成的树的质量取决于距离尺度的质量 简约法 通过寻求物种间最小的变更数来完成的 似然法 通过标准的统计推断建立系统发育的概率模型 其它方法:神经网络方法、Hadamard结合法,构建系统发育树的主要过程1、拓扑结构的判别(从大量的拓扑结构中搜寻、判别) 2、一个既定拓扑结构的分支长度的估计,最优原则,1、首先要获得所有分类群之间的进化距离。 2、系统发育树的构建是基于进化距离之间的关系。,如何获得所有分类群之间的进化距离1、选定分类群共同的特征序列氨基酸序列、核苷酸序列如:人、马、牛、袋鼠、蝾螈、鲤鱼的血红蛋白链的氨基酸序 列(140
10、aa);人、猕猴、黑猩猩的线粒体DNA中细胞色素b基因的核苷酸序列(1,125bp); 2、比较两两序列之间的差异p;,7.3 系统发育树构建的距离法,3、根据不同的概率统计模型,由两条序列的差异p值构建它们的进化距离氨基酸序列:PC(Poisson校正)距离、距离核苷酸序列:Jukes-Cantor模型、Kimura模型、HKY模型等 4、如何根据不同的概率统计模型,由两条序列的差异p值构建它们的进化距离 方法1:UPGMA法(Unweighted Pair-Group Method using an arithmetic Average )谱系聚类,使用算术平均的非加权成组配对方法 方法2
11、:邻接法(Neighbor Joining Method),1、UPGMA法,UPGMA: (Unweighted Pair-Group Method using an arithmetic Average, 使用算术平均的非加权成组配对方法)Sokal & Michener (1958) Sneath & Sokal (1973),方法原理:谱系聚类,谱系聚类法的基本步骤首先将t个样本各自视为一类:得到初始的分类G(1) (含有t类),计算t个样本两两之间的距离,它们等价于初始的类间距离,得到初始的距离矩阵D(1) ;将距离最近的两类合并为一新类,得到新的分类G(2)(含有t-1类),并计算
12、新类与其它类的类间距离,得到新的类间距离矩阵D(2) ,再按照最小距离准则并类,得到G(3)(含有t-2类)、D(3), 。直到所有样本都并成一类 ;画出谱系聚类图,决定分类的个数及各类的成员。,讨 论在基因替代速率恒定假设成立时,UPGMA方法比较适用;UPGMA方法适用于具有较小变异系数的距离测度;UPGMA是一种既构建拓扑结构又计算分支长度的方法;UPGMA方法既可以得到有根树,也可以得到无根树。,2、邻接法(Neighbor Joining Method),最小进化(ME)思想:在所有可能的拓扑结构中,选择分支长度和S最小作为最优树。(全局优化思想)(Edwards & Cavalli
13、-Sforza,1963) Saitou & Nei (1987):在每一阶段应用最小进化原理,是ME方法的简化。,其中X为连接类群i, j的节点,LiX为类群i到X的分支长度。,已知距离矩阵:6个分类群的距离矩阵dij,END,讨 论NJ法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时给出系统发育树的拓扑结构以及分支的长度。优点: 可以较快地构建系统树; 适用于分析较大的数据集; 能够较方便地进行自展(Bootstrap)检验。,MP算法基本思想(Fitch, 1971; Hartigan, 1973)考虑m个核苷酸(或氨基酸)序列(m 4),假定4种核苷酸(或20种氨基酸)可突变为与自身
14、不同的任何一种。 对于任一给定的拓扑结构,可以推断每个位点的祖先状态; 对于该拓扑结构,可以计算出用来解释整个进化过程所需的核苷酸(或氨基酸)的最小替代数目; 对所有可能正确的拓扑结构计算它们的最小替代数目,选择其中最小的作为最优拓扑结构。,7.4 系统发育树构建的最大简约法(Maximum Parsimony Method),MP法决定系统树的拓扑结构,特定结构树的最小替代数目估计,1,2,3,4,5,6,A,A,A,G,G,T,A,G,G,G,1,2,3,4,5,6,A,A,A,G,G,T,A,A,A,T,祖先节点的核苷酸不能完全唯一确定。,计算所有结构树并选取最短树长,对于任一给定的拓扑
15、结构,计算它的树长(即所有位点的最小替代数目之和)L; 选取具有最短树长的拓扑结构为最大简约树。,信息位点、趋同进化,不变位点:在所有分类群中相同核苷酸或氨基酸的位点。不变位点不提供任何信息。,简约信息位点:位点上至少有两种不同的核苷酸或氨基酸,且每种至少出现两次。,MP法构建系统树的位点: 只利用简约信息位点; 既利用简约信息位点,也利用单一位点。,单一位点:位点上只有一个分类群具有一种不同的核苷酸或氨基酸。 对所有的拓扑结构都只能用相同的替代数目表示。单一位点也不提供任何MP信息。,MP法决定系统树的分支长度,进化通径:考虑任意两个密码子之间变换的可能路径,分支长度估计通过考虑每个非不变位
16、点的所有进化通径,并计算每个内部分支或外部分支的平均替代数来估计MP树的分支长度。(具体算法略),MP法评述,MP法适用的问题位点不存在回复突变、平行突变;被分析的序列较长,核苷酸或氨基酸数目很大;序列的相似度较高;核苷酸或氨基酸替代速率较稳定。,ML算法基本思想 (Felsenstein, 1981; Kishino, 1990) 以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其中最大似然率最大的拓扑结构,选为最终系统树。ML法考察的既可以是拓扑结构,也可以是既定拓扑结构的分支长度。ML法采用了标准的统计方法,以建立进化的概率模型。
17、计算量非常大。,7.5 系统发育树构建的最大似然法 (Maximum Likelihood Method),7.6 分子进化与系统发育分析常用的软件,1、进化理论概述,“一个半世纪以前,Charles Darwin可能没有意识到他所给予科学的是一件从未有过的强大武器,即他的进化理论。科学家用这把坚利之剑斩断了无知、迷信和傲慢,这些束缚人类对亿万年来的生命的了解的镣铐。”美国自然博物馆成立125周年纪念专刊前言,Charles Darwin(1809-1882),7.6 生物进化理论与分子进化,Darwinian进化理论告诉了什么? 1、遗传和变异一切生物都能发生变异,至少有一部分变异能够遗传给
18、后代2、自然选择繁殖过剩:任何生物产生的生殖细胞或后代数目要远远多于可能存活的个体数目;而在所产生的后代中,那些最具有适应环境条件的有利变异的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,不利变异被淘汰。“选择”不是超自然的上帝的作用。3、性状分歧;种的形成、绝灭;系统树性状分歧原理在同一个种内,个体之间在结构、习性上越是歧异,则在适应不同环境方面愈是有利,因而将会繁育更多的个体,分布道更广的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。新种的形成、种间的竞争、种的绝灭、外界环境的作用系统树由于性状分歧和中间类型的绝灭,新种不断产生、旧种不断绝灭,种间差异不断扩大,形成时
19、间、空间上的物种系统树。,Darwinian进化理论的三次修正第一次:“新Darwinian主义”1900s,Weismann等,消除Lamarck的“获得性遗传”学说、Buffon的“环境直接作用”学说,强调“自然选择”为进化的主要因素;第二次:“现代综合论(Modern synthesis)”1930-40s,遗传学、生物系统学、古生物学的重大贡献:对“自然选择”、“物种变异”等概念的新认识。适应:繁殖的相对优势适应度:个体或基因型对后代或后代基因库的相对贡献适应和选择:繁殖或基因传递的相对差异,第三次:NOW原因:现代分子生物学、古生物学的发展。宏观(对生物进化实际过程的了解):古生物学
20、揭示生命进化的规律、进化速度、进化趋势、物种的形成和绝灭微观:现代分子生物学揭示生物大分子的进化规律和携带遗传信息的物质基础及其复杂结构新的认识: 1. 生物进化过程并非“匀速”、“渐变”的,而是“快速进化”与“进化停滞”相间; 2. 生物进化与分子进化都显示出相当大的随机性,自然选择并非总是进化的主要因素; 3. 遗传系统本身具有某种进化功能,进化过程中可能存在内因的“驱动”和“导向”。Continuing,进化论围绕的三个主题1、进化的动力是什么?2、进化是否有一定的方向?3、进化的速度是否恒定?是渐近的还是跳跃的?分子进化理论同样必须回答上述三个问题。,2、分子进化的两个特点,生物大分子
21、进化速率的相对恒定分子进化速率生物大分子随时间的改变主要表现为核苷酸、蛋白质的一级结构的改变,即分子序列中核苷酸、氨基酸的替换不同物种同源大分子的分子进化速率大体相同例子:比较不同物种血红蛋白氨基酸序列差异人、马0.810-9/AA.a人、鲤鱼0.610-9/AA.a分子进化速率远远比表型进化速率稳定原因?序列的核苷酸或氨基酸替换是否随机过程?,生物大分子进化的保守性保守性 功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。 引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率。氨基酸例子:血红蛋白分子的外区的功能要次于内
22、区的功能,外区的进化速率是内区进化速率的10倍。核苷酸例子:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸替代频率较高。生物大分子进化并非完全随机存在某种制约因素,存在某种机制?,3、分子进化中性论,Neutral theory of molecular evolution (Kimura & Ohta, 1968, 1971) (King & Jukes, 1969) 提出分子层次上的“non-Darwinian evolution”“生物分子层次上的进化不是由对有利突变的自然选择作用引起的,而是在连续突变压下选择中性或非常接近中性的突变的随机固定造成的。中性突变是指对当前适
23、应度无影响的突变。”中性突变、连续突变压、随机固定否认自然选择在分子进化中的作用,认为生物大分子的进化主要因素是机会和突变压力。,分子进化中性论的若干依据分子层次上的大多数变异是选择中性的蛋白质和核苷酸分子的进化速率高且相对恒定突变压在分子进化中的作用得到研究证实按照群体遗传学的数学模型,自然选择的代价太高。,分子进化中性论的讨论1、中性论解释分子层次的进化现象自然选择只作用于表型,并不直接作用于分子。衡量尺度的区别:分子的显著性改变并不意味着表型的显著性改变。中性论只涉及生物大分子一级结构单元的替换,并不包含和解释分子层次的全部改变(如蛋白质三级结构、功能的改变)2、分子进化的保守性表明选择
24、仍然起作用负选择的存在:任何发生在重要功能的大分子或大分子保守区的突变,由于造成适应度的下降而被选择淘汰。(随机作用) 存在某种机制阻止功能重要的大分子或大分子保守区的突变产生。(非随机作用),3、选择中性突变的复杂调控系统中性突变的可能原因:复杂的调控机制。基因表达受到内外因素的制约。决定中性突变的调控系统受到自然选择的影响。4、选择在分子的适应进化中起作用在分子层次上可能存在两种进化形式:中性进化(导致分子多样性)适应进化(通过选择实现,导致分子适应),能否打倒的Darwinian进化论,?,4、分子钟(Molecular Clock),分子钟根据分子系统学研究与古生物学资料相结合,建立推
25、论生物进化事件发生的时间表。,假定分子进化速率r恒定,则分子进化改变量(替代数目或替代率)与进化时间成正比。以两条序列为例:其中,t是进化时间,d是这两条序列每个位点的替代数目。,分子钟成立的先决条件:分子进化速率恒定。,分子钟成立的证据:至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀; 许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。,建立分子钟的大致步骤1. 选择所要比较的生物大分子种类 根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。2. 选择所要比较的物种,确定各比较组合及其所代
26、表的进化事件3. 获得生物大分子一级结构的资料4. 获得有关的代表性进化事件发生的地质时间数据5. 通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异d,通过回归分析等统计方法得到大分子的进化速率r(t)6. 由此可以推断未知进化事件的发生时间,关于分子钟的讨论和争议对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加)不存在通用的分子钟;争议: 分子钟的准确性 中性理论(分子钟成立的基础),5、基因组计划与分子进化,基因组计划为许多生物进化关键问题的研究提供了基础基因组计划产生的大量数据为分子进化研究提供了新的素材; 人类基因组计划、模式生物基因组计划可以从生物大分子层次研究进化的机制进化机制:基因重复、拷贝?(低等生物高等生物)多基因家族的一致进化?提供有关重复基因、DNA缺失插入、基因易位、转座子插入等信息,为分子系统学研究提供更多的研究对象。,思 考 题 1. 生物进化的理论有哪些?简述主要的生物进化理论。 2. 分子进化分析的基础是什么? 3. 分子进化分析的意义在哪里? 4. 分子进化分析的主要方法有哪些? 5. 简述进行分子进化分析的主要过程。,