1、Example of codeml analysis Beginning guide,Codeml 是PAML软件包下的一个程序,在估算蛋白编码序列同义替换和非同义替换速率以及检测序列是否经受正选择方面受到广泛的使用。在本节中,我将简单描述一个例子来分析编码序列氨基酸位点是否存在正选择作用。,简单流程,以下步骤仅仅是针对于想初步了解codeml使用的朋友设计. 且以linux下codeml的运行为例.1. PAML软件包的安装 2. 必需文件的准备 3. 程序的运行与结果解释,PAML 的安装,软件下载:http:/abacus.gene.ucl.ac.uk/software/paml.htm
2、l#download 最新PamlX 或Paml4.7. 以Paml4.7 为例,(PamlX具有图形界面,不详述) 下载后解压.至目标文件夹.,文件的准备,1.序列比对文件准备 要求: 采用的是基于密码子的比对(核酸序列先翻译,后比对); 核酸序列要保证是3的倍数; 序列中不能出现纯数字、不能出现特殊符号(- 可以); 不能有额外的空格、换行符等等;可用bioedit 将编码序列翻译后再进行比对,然后保存成phylip格式,paml可以认识phylip格式。,文件的准备,2.树文件准备 要求: 任何可以正确描述序列文件中各序列文件的tree都可以. 如果没有可借鉴使用的树,可以用序列文件中序
3、列用Mrbayes,Phyml,PAUP 等软件建树. 先建立无根树。PhyML 产生的树格式可以被PAML识别,PAUP产的树可能由于格式复杂,可能不被识别,可用figtree软件转保存成NeWick格式,codeml程序运行,将序列比对文件和树文件同时拷到/paml.4.7/bin 文件夹下. 或者确保: codeml 程序文件 codeml.ctl 配置文件,比对好的 XXX.phy、序列文件 XXX.tree 树文件 四个文件处于同一文件夹中.,codeml程序运行,控制文件codeml.ctl参数设置:,codeml程序运行,seqfile = 序列比对文件 treefile = 树
4、文件 outfile = 输出文件 (任意命名,建议txt后缀便于打开) seqtype = 1 clock = 0 (使用无根树需设置为0,具体参见说明书) model =0 Nsites = 0 7 8 (0,为单一参数模型。7,8 为相似模型,均允许局部替换率可以变化,二者有一个参数差异,其二者结果将用于LRST检验以保证结果的可靠性。其余参数不是很重要,不作改变。具体参见英文说明书.,codeml程序运行,客户端打开文件目录 输入:codeml 按enter键 ,程序即开始运行静待结果。产生11个其它文件,codeml程序运行,找到outfile的输出文件,即主要结果输出文件,打开。
5、当前查看结果方式: A考虑序列整体的dN/dS,请查看Model 0 中结果。,codeml程序运行,Your target,codeml程序运行,B考虑单个氨基酸是的dN/dS, 要先比较Model7和Model8 的Lnl值,以确定那一个模型更适合序列,然后再选择该模型的结果。 方法与公式LRT = 2dl = abs(2 X (Lnl7-Lnl8) (abs=绝对值) Step1:打开输出文件,找到Model7, 和Model8两个lnL值相减,取绝对值,乘以2举例:2*|-5031.979846-(-5014.578562)|=35 (小数点后影响不大) Step2:终端打开PAML附
6、带的Chi2程序,分别输入自由度和刚才得到的数. 自由度直接取1(因为M7,M8一个参数差异). 在程序端输入:chi2 1 35 即出现:df = 1 prob = 0.025347319 = 2.535e-02 得到的p小于0.05则M8结果可靠,可以查看M8结果了。,值在这里,codeml程序运行,PAML采用NEB和BEB 分析检测显著性,但是作者推荐参考BEB的结果。M8的正选择位点,带有*号的即是通过检验的且结果显著的正选择位点。,位置信息,参考资料: http:/abacus.gene.ucl.ac.uk/software/pamlDOC.pdf http:/linxiao.name/archives/150 http:/www.fish- http:/