1、1系统发育树构建教程(PHYLIP )PHYLIP 网址: http:/evolution.genetics.washington.edu/phylip.html(一)序列的前期准备1 用 ENTREZ 或 SRS 搜索同源 DNA/蛋白质序列 (same sequence in different organisms)2 用 CLUSTALX 进行多条序列比对,在 output format option 选定 PHY 格式,构建进化树需要这个 phy 文件。Figure 4.1 用 clustalx 进行多条序列比对3 解压缩 phylip-3.68.exe,得到三个文件夹, doc 文件
2、夹里是关于所有 PHYLIP 子程序的使用说明,exe 文件夹里是直接可以使用的各个子程序, src 文件夹里是所有程序的源文件。4 打开 exe 文件夹,双击 SEQBOOTt 子程序(SEQBOOT 是一个利用 bootstrap 方法产生伪样本的程序) ,输入刚刚生成的 phy 文件的路径,点击 enter。5 所有 PHYLIP 程序默认的输入文件名为 infile, 输出文件名为 outfile。如果在 exe 文件夹里找不到默认的输入文件,会提示 cant find input file “infile”。Figure 4.2 seqboot 程序起始界面6 进入程序参数选择页面(
3、Figure 4.3) 。第一列中的 D、J、% 、B 、R、W、C、S 等代表可选的参数。想改变哪个参数,就键入此参数对应的字母,并点击回车键,对应参数将会发生改变。当我们设置好所有参数后, (这里我们可以不做任何修改) ,键入 Y,按回车。此时程序询问“random numbe r seed? ”,这是询问生成随机数的种子是多少,输入一个 4N+1 的数,点击回车程序开始运行,输出结果到文件 outfile,2保存在当前文件夹里。.Figure 4.3 seqboot 程序参数选择页面主要参数解释:D: 数据类型,有 Molecular sequence、discrete morpholo
4、gy、restriction sites 和 gene frequencies4 个选项。J: 伪样本产生方法,有 Bootstrap, Jackknife, Permute 和 rewrite4 个选项。B: 自举法窗口大小选择,可任意给定一个整数。R: 产生伪样本的数目。W:输入文件为字符还是权重。S: 输出字符数据还是权重。Figure 4.4 seqboot 程序运行过程页面程序默认产生 100 个伪样本,点击回车关闭 seqboot 程序后,将 outfile 更名为 seqb, 用写字板打开 seqb,可以看到里面是 100 套多条序列比对结果。 (Figure 4.5)3Figu
5、re 4.5 seqboot 运行后输出文件内容(二)最大简约法建树(Maximum Parsimony)1. 打开 DNAPARS(PROTPARS,如果序列是蛋白质) ,将刚才生成的 seqb 文件名输入。(Figure 4.6)如果上一步输出的 outfile 文件你忘了更名,将会有警告,询问你如何处理原来的 outfile,是替换,还是在原文件后面续写,或结果输出到另一个文件或退出程序。Figure 4.6 dnapars 程序起始页面2.改 M 选项为分析 multiple data sets(多个数据,Figure 4.7) ,其它参数不变,运行将生成两个文件 outfile 和
6、outtree,将 outfile 更名为 mpfile,将 outtree 更名为 mptree。用写字板打开mpfile(Figure 4.8) ,用 TREEVIEW 打开 mptree(Figure 4.9)后,可以看到这两个文件都含有 100 个进化树。Figure 4.7 dnapars 程序参数选择页面4主要参数解释:U:是否自动寻找自佳树,还是利用使用者所提供的树S: 寻找最佳树的搜寻方式,more thorough 或 less thoroughV: 保存多少个树 number of trees to saveJ: 是否更改输入序列的次序,如果选是,会要求输入一个种子,4N+
7、1 的数,然后询问打乱次数,随意给一个数,不要太大,以免运行时间过长。O:外群位置,默认不设外群,可以更改为任意一条序列。N:转移和颠换是否全部计算在内。W:位点之间是否权重不同M:是否分析多个数据。由于我们第一步 seqboot 产生了 100 个伪样本,每一步都要更改这个选项。Figure 4.8 outfile(更名为 mpfile)用写字板打开Figure 4.9 outtree(更名为 mptree)用 treeview 打开53. 打开 CONSENSE(将多个伪样本建成的不同树,根据 majority 原则,得出一致树)软件,将刚才生成的 mptree 文件输入。生成两个文件 o
8、utfile 和 outtree。Outfile 可用记事本打开,outtree 可用 TREEVIEW 打开。将两个文件更名为 cmpfile 和 cmptree,这就是我们采用 MP 方法,并使用 bootstrap 检验,最后得到的最优树。(三)最大似然法建树(Maximum Likelihood )1 打开 DNAML(PROTML)软件。将刚才生成的 seqb 文件输入,更改 M 选项为分析多个数据,生成两个文件 outfile 和 outtree。将 outfile 更名为 mlfile,将 outtree 更名为mltree。用记事本和 TREEVIEW 分别打开,可以看到这两个
9、文件都含有 100 个进化树。2 打开 CONSENSE 软件,将刚才生成的 mltree 文件输入,生成两个文件 outfile 和outtree。Outfile 可用记事本打开,Outtree 可用 TREEVIEW 打开。将两个文件更名为cmlfile 和 cmltree.。这是我们采用 ML 方法,并使用 bootstrap 检验,得到的最优树。(四)距离法建树(Distance Method)1 打开 DNADIST(PROTDIST)软件,将刚才生成的 seqb 文件输入,更改 M 选项为分析多个数据,运行后生成文件 outfile。该文件包含了与输入文件相同的 100 个 rep
10、licate,只不过每个伪样本是以两两序列的进化距离来表示,将 outfile 改名为 distfile。 (Figure 4.10)Figure 4.10 用 DNADIST 程序计算出来的序列两两之间的距离2 执行 NEIGHBOR 软件,这个软件包括了 NJ 和 UPGMA 两种建树方法。将上一步生成的 distfile 输入,更改 N,选择建树方法,更改 M 选项为分析多个数据,生成两个文件outfile 和 outtree。将其分别更名为 njfile/upgmafile 和 njtree/upgmatree。用记事本和TREEVIEW 打开后,可以看到这两个文件都含有 100 个进
11、化树。3 再将 njtree/upgmatree 文件输入 CONSENSE 软件,得到两个文件 outfile 和outtree。Outfile 可用记事本打开,Outtree 可用 TREEVIEW 打开。将两个文件更名为cnjfile/cupgmafile 和 cnjtree/cupgmatree. 这是我们采用 NJ/UPGMA 方法,并使用bootstrap 检验,得到的最优树。4 执行 FITCH 软件,将 distfile 输入,更改 M 选项为分析多个数据,生成两个文件outfile 和 outtree。将其分别更名为 fmfile 和 fmtree。用记事本和 TREEVIEW 打开后,可以看到这两个文件都含有 100 个进化树。5 再将 fmtree 文件输入 CONSENSE 软件,得到两个文件 outfile 和 outtree。Outfile 可用6记事本打开,Outtree 可用 TREEVIEW 打开。将两个文件更名为 cfmfile 和 cfmtree. 这是我们采用 FM 方法,并使用 bootstrap 检验,得到的最优树。