1、Fujian Agriculture and Forestry University 系统发育分析 Phylogenetic Analysis 2016.05 RAINDYOKQQ.COM 生物信息学课程要求 会根据序列特征选择建树方法 掌握常见建树方法的规范操作 NJ 法(MEGA) ML 法(MEGA、RaxmlGUI ) BI 法(Mrbayes)Part 3. How to perform phylogenetic analysis? Part 1. What is phylogenetic analysis ? Part 2. Why do we perform phylogenet
2、ic analysis ? 本章纲要01 PART ONE What is phylogenetic analysis ?系统发育(Phylogeny ),也叫系统发生,是指任何实体 (基因、个体、种群、物种等)的起源 和演化关系。 将进化论的原理拓展到DNA水平和蛋白质序列水平,通过 多重序列比对,研究一组相关的基因或蛋白质,推断和评估不 同基因间的进化关系,其中包括分子进化(基因树)和物种进 化(物种树)。 系统发育的定义多重序列比对 重建系统发育树 (最大似然法)基因树与物种树的区别 基因树 是根据DNA或蛋白质序列数据构 建的系 统树; 物种树是表达生物类群进化路径的系统树。 两者存在
3、差异: 来自两不同物种的两个基因的分化时间可能早于物种的分化; 基因树的拓扑结构可能与物种树不完全一致同源性是指从一些数据中推断出的两个基因或蛋白质序列 具有共同祖先的结论,属于质的判断。同源性分析中常常要 通过多重序列比对来找出序列之间的相互关系,常用的程序, 如 Clustal-Alignment 等。 相似性与同源性的区别 相似性将 待研究序列与已知DNA 或蛋白质 序列库进行比较, 找出与此序列相似的已知序列,反映是一种直接的数量关系; 常用的程序如BLAST 、FASTA 、Dot Plot 等。建树方法 邻接法(Neighbor-Joining, NJ ) 最大似然法(Maximu
4、m Likelihood, ML ) 最大简约法(Maximum Parsimony, MP ) 贝叶斯法( Bayesian inference, BI ) 特点: NJ 法 是基于 最小进化 原理 经常被使 用的 一种算法 ,它 构建的树 相对 准确, 假设少,计算速度快 ,只得一颗树。 缺点: 序列上的所有位点等同对 待,且 所分析 的序列 的进化 距离不 能太大 。 适用: 进化距离不大,信息位点 少的短 序列。 邻接法(Neighbor-Joining, NJ) 1 2 3 原理: 将每个位点所有可能出现 的残基 替换概 率进行 累加, 产生特 定位点 的似 然值,对所有可能的系统
5、发育树 都计算 似然函 数,似 然函数 值最大 的那颗 树 即最可能的系统发育树。 优点: 在进化模型确定的情况下 ,ML 法是 与进化 事实吻 合最好 的建树 算法 。 缺点: 计算强度非常大,极为耗 时。 最大似然法(Maximum Likehood, ML ) 特点: 基于进化过程中碱基替代 数目最 少这一 假说。 缺点: 推测的树不是唯一的,变 异大的 序列可 能会导 致建树 错误。 适用: 序列残基差别小,具有近 似变异 率,包 含信息 位点比 较多的 长序 列。 最大简约法(Maximum Parsimony, MP ) 1 2 3 4信息位点: 在两个及以上分类单元( 的序列 )
6、中存 在差异 ,且其 中至少 有两种 变 异类型在该位点出现两次 及以上 。 序列位点及性状 Pos 1 2 3 4 5 6 7 8 9 Seq1 A A G A G T G C A seq2 A G C C G T G C G seq3 A G A T A T C C A seq4 A G A G A T C C G点击这里查看信息位点 . 表示与Consensus (一致序列)中的碱基相同; 注: 请找出下面序列的信息位点 特点: 基于进化模型的统计推论法,具有完整而坚实的数学和统计学基础,可以处理 复杂而接近实际情况的进化模型,可以将现有的系统发育知识整合或体现在先验概 率中,通过后验概
7、率直观反映出各分支的可靠性 而不需要通过自举法检验 。 缺点: 对进化模型比较敏感,BI法中指定的每个氨基酸的后验概率建立在许多假说条 件下,在现实中可能不成立。 适用: 大或复杂的数据集。 贝叶斯法( Bayesian inference, BI )02 PART TWO Why do we perform phylogenetic analysis ? Find evolutionary ties between organisms (Analyze changes occurring in different organisms during evolution) Find (under
8、stand) relationships between an ancestral sequence and it descendants (Evolution of family of sequences) Estimate time of divergence between a group of organisms that share a common ancestorAnother field buoyed by the growth in genome sequencing is phylogenetics, the study of evolutionary relationsh
9、ips between species. Number 20 on the list is a paper12 that introduced the “neighbor-joining” method, a fast, efficient way of placing a large number of organisms into a phylogenetic tree according to some measure of evolutionary distance between them, such asNeighbor-joining tree showing expansion
10、s of ABC transporter genes03 PART THREE How to perform phylogenetic analysis ?如何规范 进行系统发育树的重建? 避免犯一些常识性的错误 严谨的科学方法 严肃的科学结论(Virology Journal, IF=2.09)maximum clade credibility tree (MCC tree) maximum likelihood tree (ML tree) Plant Pathology (2015) Doi: 10.1111/ppa.12314Fig 2. Unrooted Neighbour-join
11、ing phylogenetic tree of the CP gene of PVY遗传距离计算 不适合 NJ 平均距离1 0 平均距离1 进化模型选择 MP 法建树/ 评估 树的查看及美化 合适 NJ 法 NJ 法建树/ 评估 ML/BI 法建树 多序列比对 饱和度检测 饱和 未饱和 不适合建树 适合建树 规范流程 * 保守区选择,主要用于优化多 重比对 质量, 仅适用 于信息 位点足 够多的 长序列 。 保守区选择 *建树软件 主要软件 PAUP (MP/ML) PHYLIP (NJ/ML) MrBayes (BI) MEGA (ML/NJ/MP) RaxmlGUI (ML) PhyML
12、 (ML)多重比对 系统树的可视化 TreeView TreeGraph (J AVA ) FigTree (J AVA ) Clustalx/ClustalW MAFTT MUSCLE 模型选择 Modeltest 3.7 MrModeltest 2.3 jModelTest 辅 助 软 件PAUP 的DOS 命令控制台PHYLIP DOS 界面MrBayes 主界面MEGA5 主界面建树前提 序列是否存在重排 是否替换已经饱和 检测 PAUP 软件验证替换饱和: 在PAUP 中分别计算p距离和GTR+I+G 距离,然后在Excel 中做散点图。 如果散点分别在y=x 直线上,就说明没达到饱
13、和; 如果GTR+I+G 距离p距离就说明饱和了。 DAMBE 软件验证替换饱和: 若ISS小于ISS.c 且p=0.0000,极其显著?就说明序列替换未饱和,可以建树! 1 2 3 4 2 3 4 12 3 1建树步骤多重序列比对 MAFFT/ClustalX/ClustalW ClustalW(Codons) 、Muscle(codons) 1 st Clustal W/X Muscle MAFFT 速度:Muscle MAFFT Clustal W T-Coffee Protein-coding sequence 对象: Non-coding sequence Clustal W (Co
14、dons) Muscle (Codons) 准确性 :MAFFT Muscle T-Coffee Clustal W 多重序列比对的选择 * PRANK: Probabilistic Alignment Kit http:/www.ebi.ac.uk/goldman-srv/prank/prank/如何 FASTA 格式转为标准 Nexus 格式 1 2 3 将nucleotide 改为dnaexport file=yourname.nex format=nexus interleaved=no; 4 5 格式化为连续式的标准Nexus 格式序列保守区的选择 2 nd Raindy 注 :保守
15、区选择主要适用于信息位点足够多的序列,短序列此步可忽略保守区选择之在线 Gblock 篇 Note: When applied to shorter alignments, GBLOCKS often has an unwanted effect on topology and bootstrap values of the estimated phylogenies - the exclusion of so many columns from the final analysis by the program simply removing too much information fro
16、m the analysis. However, for longer alignments, it can be shown that it has a positive effect. 在线版本: http:/www.phylogeny.fr/one_task.cgi?task_type=gblocks2 3 1http:/www.phylogeny.fr/version2_cgi/one_task.cgi?task_type=gblocks4保守区选择之本地Gblock 篇 在实际分析过程中,由于服务器对序列文件的限制,大数据则无法进行在 线操作分析,故只能选择使用本地版Gblock 进
17、行处理。 下载链接:http:/www.phylogeny.fr/downloads.cgi Gblock 0.91b1. Block 参数设置 先行设置Block 参数,输入参数设置前面的英文字母b ,回车即可该参数主要是对于gap的处理,共有5条选项可供设置,其中第5条最为主要。 对于Gap 位置的处理有三个标准:None 、With half 和All ,即 对应全部删除Gap 、 保留一半Gap 和保留全部Gap ,具体依据数据分析需要而选择。2. 序列类型设置 输入o,提示输入文件名称(含扩展名),如RNA2.fas ,程序默认识别为蛋白质 序列(Protein),需要根据实际情况修
18、改需要类型此时需要根据实际情况修改,本例数据RNA.fas是基于密码子方式的比对,故 序列类型应为Codon,在Your Choice 后输入t 将序列类型切换至Codon即可。3. 获得保守区 参数设置完毕,返回主菜单(m ),输入g回车,程序会给出原始序列和裁切 后的序列长度信息Gblock处理后在目录下,生成两个文件:一个是-gb(默认扩展名,可修改),另一个 是htm 的网页文件。为方便后续分析,可以直接将文件名中的-gb移至.fas 前,此时扩展名发生变化,系统 会提示,可直接“是”确定。得到的序列为fas 序列文件,可以直接用MEGA打开,示例序列Gblock后长度为2466, 为
19、3的倍数(Codon比对)。 核苷酸替换模型的选择 MrMTGui :ModelTest 、MrModelTest (PAUP) jModelTest 氨基酸替换模型的选择 ProtTest 3 rd 进化模型的选择 同时支持核苷酸和氨基酸替换模型 ModelGenerator MrModel 、Modeltest 需要 结合PAUP 才 可以完成 ,可 以生成 Mrbayes 模块; jModelTest 为独立的Java程序, 可以独 立操作 ,但极 耗系统 资源; ModelGenerator 支持核苷酸和氨基酸替 换模型 ,以快 速著称 ,适用 于大 数据; 进化模型 核苷酸替换模型
20、氨基酸替换模式 MrModelTest (24种) ModelTest (56种) jModelTest (24-1624种) ModelGenerator (56种) ProtTest (15? 种) ModelGenerator (96种) 注意:模型越多越准确,但前提是建树软件能支持,否则模型再多,也无用! MEGA 自带模型选择 使用BI法时,推荐 Mrbayes + Mrmodeltest 与 BEAST+ jModelTest 组合。核苷酸替换模型核苷酸替换模型的选择流 程图 * 注意是连续的Nexus 文件 序列 jModelTest ModelGenerator ModelTe
21、st MrModelTest Nexus * Phylip 计算似然值 参考标准 Fasta 最佳模型3.3.1 MrMTgui 篇 设置PAUP 、ModelTest 、MrModelTest 的路径 启动 PAUP 选择 nexus 文件 * ,计算 scores 完成后scores 文件保存到PAUP 目录下,文件名为保存为 mrmodel.scores 运行MrModelTest ,最终显示在 MrMTgui 主界面中 操作流程图 * 注意是连续的Nexus 文件MrMTgui 主界面 2 3 1 4 1. 附带程序路径设置 4. 结果输出日志窗口 2. ModelTest 分析 3.
22、 MrModelTest 分析Step 1. 程序路径设置 PAUP 路径设置ModelTest 路径设置MrModelTest 路径设置1 2 1 2 Step 2. 运行PAUP 载入Nexus 文件3 4 Step 3. 保存Score 值保存mrmodel.scores/model.scores 到PAUP 安装目录下,注意文件名 56 Step 4. MrModelTest 分析会出现两个运行结果,一个是hLRT 得出的结果,如下图:另一个是AIC 给出的结果( 优先使 用), 如下图 :模型参数的PAUP 模块 模型参数的MrBayes 模块 最佳模型(用于ML法) 最佳模型(用于
23、BI法)3.3.2 jModelTest 篇 Darriba, D., Taboada, G. L., Doallo, R. and Posada, D. (2012) jModelTest 2: more models, new heuristics and parallel computing. Nat Meth, 9, 772-772.1 载入DNA比对序列2 计算似然值3 替换数方案,值不同,模型数也不同 n=3 ,模型数为24; n =5 ,模型数为56 ; n =11 ,模型数为88; n =203,模型为1624 ; 模型方案有5个模型方案选项,这 些模型结合碱基频率和速率变异
24、参数等可以,共有24-1624个模型 可供选择。 Raindy 注: 模型越多,有助于提高建树的精 确度,但前提是需要相关建树软 件的支持,否则模型再多,也无 用武之地。 大数据集优先推荐用BIONJ树(基于JC 校正距离),其他情况建议用ML 优化树。4 jModelTest 运算进度(非常耗系统资源)3 基于不同标准获得最佳模型 标准不同,所选的模型可能会不一致,此时推荐使用AIC 或BIC标准4 AIC 参数设置 当第一个选项AICc 选中,Sample size读框内会自动读取序列的长度大小; 如果需要得到PAUP 模块的命令参数,可选中“Write PAUP* block” 。5 查
25、看结果 表格形式 网页形式AICc = 0 对应的模型即为当前数据最佳的模式 以表格形式呈现结果 将结果以网页形式导出 6 导出网页日志6 最终结果3.3.3 ModelGenerator 篇3.3.4 ProtTest 篇1 载入数据,推荐首选Nexus 格式2 计算似然值3 4 勾选模型 似然值的不同计算方法5 查看结果6 AICc = 0 对应的模型即为当前数据最佳的模式3.3.5 MEGA篇MEGA中采用BIC标准,BIC 值最低的对应模型为最佳。 GTR: General Time Reversible; HKY: Hasegawa-Kishino-Yano; TN93: Tamur
26、a- Nei; T92: Tamura 3-parameter; K2: Kimura 2-parameter; JC: Jukes-Cantor. 4 th 系统发育分析及评估 PAUP (MP/ML) MEGA (ML/NJ/MP) MrBayes (BI) RaxmlGUI (ML)3.4.1 PAUP 建树篇 Step 1: 将模型参数添加在nexus格式的文件末尾,如图所示。 outgroup 外群名称 Set criterion=likelihood/parsimony( 默认值) Bootstrap nreps = 1000 keepall contree describetre
27、e 1/plot=both brlens=yes savetrees from = 1 to = 1000 逐条输入命令后,Execute 执行对应操作 Step 2: PAUP 打开上一步的nexus文件,逐条输入命令,如上图。set criterion=likelihood 将算法设置为似然法; Outgroup 命令设定外群; bootstrap nreps=1000 keepall=yes brlens=yes 此命令设定循环次数为1000次( 具体次 数可根 据实际 自定) ,保存 枝长; describetrees 1/plot=both brlens=yes 此命令设定了描述树的
28、方 式,即phylogram 和cladogram 均显示,显示枝长 ; savetrees from=1 to=1000 保存树 参数设置说明BEGIN PAUP; Lset Base=(0.3046 0.2127 0.2524) Nst=6 Rmat=(0.6727 4.7657 1.0440 0.1161 7.4568) Rates=gamma Shape=0.8563 Pinvar=0; Set criterion=likelihood; Bootstrap nreps = 1000 keepall; contree; describetree 1/plot=both brlens=y
29、es; savetrees from = 1 to = 1000; END; 当然,也可以将两个步骤 合二为 一,将 核苷酸 替换模 型参数 和自动 运行 添加序列文件的PAUP 模块, 如下图 所示:3.4.4 MEGA 建树篇 MEGA 重建NJ 树 不同算法,标尺的意义不 同。NJ 法中 是表示 遗传距 离; MEGA4 之后的版本,Bootstrap 一致树没有标尺标记!MEGA 重建ML 树 本示例数据,最佳替换模型为 GTR+G+ I ,对应设置如左图: 操作与NJ 法类似,关键 在 于模型等主要参数设置 Model Rates among sites建树流程 data.nex 文
30、件(Non-interleave 格式) 文件尾后添加 MrBayes block (含模型参数+ 批处理脚 本) 复制至 MrBayes 文件夹下 运行MrBayes 主程序,execute data.nex 3.4.3 MrBayes 建树篇#NEXUS Begin data; Dimensions ntax=56 nchar=479; Format datatype=dna gap=-; Matrix Sequence1 TATCGAGATCGTCATGGTATGGCCTCCAATGATTTTACCAAAAAGTGTGTGAAGCC Sequence2 TGTCGAGATCGTCATGG
31、TATGGCCTCCAATGATTTTACCAAGAAGTGTGTGAAGCG Sequence3 TATCGAGAACGTCATGGTATGGCCTCCAATGATTTTACCAACAAGTGTGTGAAGCCSequencex TCTGGAGATCGTCATGGTCTGGCCTCCAATGATTTTACCAAAAAGTGTGTGAAGCC ; End; begin mrbayes; outgroup Sequencex; lset nst=6 rates=invgamma; Prset statefreqpr=dirichlet(1,1,1,1); mcmcp savebrlens=yes
32、 ngen=2000000 samplefreq=100 nchains=4; mcmc; sump; sumt contype=allcompat burnin=5000; end; 数据模块,建树序列及属性 MrBayes 模块,模型和运行参数 Step 1. 在Nexus 格式的序列 末尾, 添加 Mrbayes 模块Begin data; Dimensions ntax=56 nchar=479; Format datatype=dna gap=-; Matrix Sequence1 TATCGAGATCGTCATGGTATGGCCTCCAATGATTTTACCAAAAAGTGTGTG
33、AAGCC Sequence2 TGTCGAGATCGTCATGGTATGGCCTCCAATGATTTTACCAAGAAGTGTGTGAAGCG Sequence3 TATCGAGAACGTCATGGTATGGCCTCCAATGATTTTACCAACAAGTGTGTGAAGCCSequencex TCTGGAGATCGTCATGGTCTGGCCTCCAATGATTTTACCAAAAAGTGTGTGAAGCC ; End; ntax taxa 类别数,若数据类型为序列时,即 :序列 条数 nchar 字符长度,若数据类型为序列时,即 :序列 长度 datatype 数据类型 ,若数据类型为序列时
34、, 有dna 和protein gap gap 的指示符号,默认为 - missing 缺失数据的指示符号,默认为 ? (1 )Data block 解析 Raindy 注:MrBayes 中不支持datatype为nucleotide,格式转换时需要检查ngen 共运行代数 samplefreq 抽样数=运行代数/抽样频率; nchains 运行链数,一般是3 冷1 热 burnin 舍弃的样本数,一般为树总数的25% (2 ) MrBayes block 解析 begin mrbayes; outgroup Sequencex; lset nst=6 rates=invgamma; Prs
35、et statefreqpr=dirichlet(1,1,1,1); mcmcp savebrlens=yes ngen=2000000 samplefreq=100 nchains=4; mcmc; sump; sumt contype=allcompat burnin=5000; end; 模型参数 批处理运行参数 Outgroup设置 3 1 2 1 outgroup SequenceX; outgroup SequenceY; outgroup SequenceZ; 设置outgroup时,直接输入在outgroup参数后添加应outgroup对应的taxa名称 。 如果需要设置多个o
36、utgroup,只需要每个outgroup一行,如下: 3 2 目前只有MrModeltest 可以直 接生成 核苷酸 替换模 型参数 , 其他模型选择软件需要手动编写; Raindy 注:burnin=ngen/samplefreq25% ,示例脚本中burnin=2000000/10025%=5000 。lset nst=6 rates=invgamma; Prset statefreqpr=dirichlet(1,1,1,1); Parameter Options Note nst 1/2/6/mixed F81/HKY/GTR/Mixed rates equal/gamma/propi
37、nv/Invgamma/adgamma statefreqpr dirichlet/fixed dirichlet(1,1,1,1) Raindy 注:+G: gamma; +G+I: invgamma; +I: propinv F or DNA Sequence GTR+G+Ilset rates=gamma statefreqpr=fixed(empirical); prset aamodelpr=fixed(jones); Parameter Options Note aamodelpr Fixed/Mixed Poisson/Jones/ Dayhoff/Mtrev/ Mtmam/Wa
38、g/ Rtrev/Cprev/Vt/ Blossum/mixed rates Equal/Gamma/Propinv/Invgamma/Adgamma statefreqpr Dirichlet/Fixed dirichlet(1,1,1,1) +F statefreqpr=fixed(empirical) JTT+G+F F or Amino Acid Sequence Raindy 注:+G: gamma; +G+I: invgamma; +I: propinvExe xxxxx.nex 回车即可 Step 2. 在 MrBayes 中运行添加 Mrbayes 模块后的Nexus 文件 推
39、荐将序列文件放在 Mrbayes 安装目录内0.013366 0.01 如果这个值 0.05,说明参数未收敛,需要继续增加运行代数,比如:10万代 在运行1000代后都会显示 Average standard deviation of split frequencies 当这个值 0.01 时,说明两次运行的结果差异很少,Convergence 已经达到; Step 3. 查看参数是否收敛?如果 Average standard deviation of split frequencies 低于0.01且稳 定,需 要 提前终止,可以通过键盘 按下组 合键:Ctr + C 即可完成BI 分析。
40、1 2 3 Step 4. 通过Tracer查看参数是否收 敛?ESS 200 4 当各项统计参数的ESS 值均大于200时,说明参数已 收敛!在系统发 育 分析过程 中 ,不用的 建 树方法重 建 不同的系 统 发育树, 为保证分析结果的可靠性 ,必须 要进行 系统发 育树的 评估, 主要采 用的方法是自举法(Bootstrap)。 Bootstrap 法就是从整个序列的碱 基或氨 基酸中 任何选 取一半 ,剩 下的一半序列随便补齐组 成一个 新的序 列,这 样一个 序列就 可以变 成许多序列,一个多序列 组可以 变成多 个序列 组,通 过不同 算法 (MP 、ML 、NJ), 每个序 列组
41、都 可以生 成一棵 树,将 生成的 许多 进化树进化比较,按照多 数规则 (majority-rule )就会 得到一 棵最 “逼真”的进化树。 系统发育树可靠性检验 Raindy 注: 贝叶斯法通过后验概率直观反映出各 分支的 可靠性 而不需要通过自举法检验MEGA中 系统发育树的评估The congruent maximum-likelihood and Bayesian topology. 100 86 后验概率 自举值系统发育树查看与美化 5 th Figtree TreeviewFigTree系统发育树的美化-MEGA 篇Step 1. 在MEGA 中设置参数 Tree 的相关选项
42、123456Step 2. 将设置好主要参数的树复 制到粘 贴板 78 9Step 3. 在Word 中编辑各元件属性 10111213多基因联合建树序列串联 SequenceMatrix 系统发育树重建 基因 1 同质性检验 合并的数据集 基因 2 基因 n-1 基因 n NEXUS PAUP PAUP FASTA + + + 数据分区 数据不分区 RaxML Mrbayes BEAST 方法同单基因Gene 2 Gene 4 Gene 1 Gene 2 Gene 3 Gene 4 GTR+G GTR+I GTR GTR+G+I Gene 1 Gene 2 Gene 3 Gene 4 GTR
43、+G GTR+I GTR GTR+G+I GTR+G+I 数据不分区 数据分区 原始数据 Gene 1 Gene 3Step 1. 使用 SequenceMatrix 将不同基因按前后顺序串联 1 2 3Raindy: SequenceMatrix 是根据序列文件名的顺序前后排序,如:A.fas (gene 2) 、会 自动排在 B.fas (gene 1)前,若与实际基因顺序不一致,可以通过重命名文件名方式修 改,如:2_A.fas (gene 2)、1_B.fas (gene 1),这样gene 1将排于gene 2 前。 基因1文件名 基因2文件名 不 同 基 因 的 序 列 名 称 必
44、 须 一 致2 Step 2. 导出合并后的数据为nexus 格式Export file=data.nex format=nexus interleaved=no; 用PAUP 格式化为标准 的nexus 格式 (Sequential ) 打开合并后的数据文件 xxx.nexus,在Console 中输入: 3begin set; CHARSET 01P1 = 1-825; CHARSET 02HC = 826-2220; CHARSET 03Vpg = 2221-2784; charpartition genes = gene1:01P1, gene2:02HC, gene3:03VPg;
45、end; Begin PAUP; log file=ildtest.log; hompart partition=genes nreps=100 / start=stepwise addseq=random nreps=10 savereps=no randomize=addseq rstatus=no hold=1 swap=tbr multrees=yes; log stop; End; ILD Test 检验参考脚本 将上步联合的序列文件保存为*.nex格式,并在文件尾加入以上脚本。 Step 3 . 同质检检验 ILD or PHT Test添加后的 ILD Test 检验脚本运行PA
46、UP ,打开加入脚本的*.nex格式,程序自动开始ILD 检验。 44 当异质性检验完成后,同一目录下会 生成一个日志文件(*.log),即为检验结 果,如图所示,P 值为 0.01。 vs. P 值 0.05 1. P value 0.05,可以联合 2. P value 0.05,最好不要联合Step 4.1 数据不分区建树 即合并后的数据集视为一体,只计算整体的核苷酸替换模型及参数,操作方法如 单基因的系统发育树重建。 Step 4.1 数据分区建树 即合并的数据集中,针对每个基因分别对应的核苷酸替换模型及相关参数。 目前支持分区的软件有RaxML 、Mrbayes 和BEAST 等。b
47、egin mrbayes; CHARSET 01P1 = 1-825; CHARSET 02HC = 826-2220; CHARSET 03VPg = 2221-2784; CHARSET 04CP = 2785-3585; partition gene=4: 01P1,02HC,03VPg,04CP; set partition=gene; lset applyto=(1) nst=6 rates=propinv; lset applyto=(2) nst=6 rates=invgamma; lset applyto=(3) nst=6 rates=gamma; lset applyto=
48、(4) nst=6 rates=propinv; Prset applyto=(all) statefreqpr=dirichlet(1,1,1,1); mcmcp savebrlens=yes ngen=2000000 samplefreq=100 nchains=4; mcmc; sumt contype=allcompat burnin=5000; end; Mrbayes 参考脚本:(科学出版社,2012) (科学出版社,2010) 延伸阅读:Yang Z, Rannala B. Molecular phylogenetics: principles and practice. Nat
49、ure Reviews. Genetics 2012, 13: 308-314.1. 请对示例数据进行核苷酸饱和度检测(DAMBE); 2. 请对示例数据进行保守区选择(本地 Gblock ); 3. 请分别用 MrMTgui 、jModeltest 、ModelGenerator 、 ProtTest 对示例数据进行进化模型选择; 4. 请使用MEGA分别基于NJ 法、ML 法重建系统树 5. 请使用Mrbayes 重建贝叶斯树请根据下列方法的描述, 写出MrBayes block 脚本 Bayesian inference analysis was carried out under the GTR+I model, which was determined by jModeltest. Markov chains were run for 5,000,000 generations sampling every 100