收藏 分享(赏)

两条序列比对与多序列比对.pdf

上传人:精品资料 文档编号:8278340 上传时间:2019-06-18 格式:PDF 页数:16 大小:1.10MB
下载 相关 举报
两条序列比对与多序列比对.pdf_第1页
第1页 / 共16页
两条序列比对与多序列比对.pdf_第2页
第2页 / 共16页
两条序列比对与多序列比对.pdf_第3页
第3页 / 共16页
两条序列比对与多序列比对.pdf_第4页
第4页 / 共16页
两条序列比对与多序列比对.pdf_第5页
第5页 / 共16页
点击查看更多>>
资源描述

1、实 验三 :两条 序列 比对 与多 序列 比对 实验目 的: 学会使用 MegAlign ,ClustalX 和 MUSCLE 进行 两条序列和多条序列比对分析 实验内容 : 双序列 比对 是使两 条序 列产生 最高 相似性 得分 的序列 排列 方式和 空格 插入方 式。 两条序 列比对是生物信息学最基础的研究手段。第一次实验我们用 dotplot 方法直观地认识了两条 序列比对。但是 dotplot 仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序 列比对。这里介绍进行两条序列比对的软件-MegAlign。 多序列比对是将多条序列同时比对, 使尽可能多的相同 (或相似) 字 符出现

2、在同一列中。 多序列 比对的 目标 是发 现多条 序列的 共性 。如 果说序 列两两 比对 主要 用于建 立两条 序列 的同 源关系 ,从而 推测 它们 的结构 和功能 ,那 么, 同时比 对多条 序列 对于 研究分 子结构 、功 能及 进化关系更为有用。 多序列比对对于系统发育分析、 蛋白质家族成员鉴定、 蛋白质结构预测、 保守模块的搜寻等具有非常重要的作用。 我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。 一、MegAlign DNASTAR 公司的 Lasergene 软件包是一个比 较全面的生物信息学软件, 它包含了 7 个模 块。其中 MegAlign 可进

3、 行两条或多条序列比对分析。 1. 两条序 列比对 1.1 安装程序 解压 DNASTAR Lasergene 软件压缩包,双 击 Lasergene710WinInstall.exe 文件, 按照默认 路径安装软件到自己电脑上。 1.2 载入序列 a. 点击 开始 程序LasergeneMegAlign ,打 开软件。 我们首先用演示序列 (demo sequence ) 学习软 件的使用。 演示序列所在位置: C:Program files DNASTAR Lasergene Demo Megalign Histone Sequences 。 b. 点击主菜单 FileEnter sequ

4、ence 选择序列所在文件夹,选择序列 tethis21.seq 和 tethis22.seq,点 击 Add , 这两条序列将出现在右侧 selected sequences 框中 (Figure 3.1) ,选 择 完毕点击 Done 回到程 序页面。 Figure 3.1 载入 序列 此时程序窗口分为三部分, 最左侧较窄的是 sequence name,中 间 显示的是序列起始位置, 最右侧显示序列末尾部分,可以通过拖动窗口底部滚动条,查看序列其它部分(Figure 3.2)。 若想改变字体显示方式,点击主菜单 OPTIONS ,选择 Font 改变字体 ,选择 Size 改变字号 大

5、小。若要移除序列,选中 sequence name 的序 列名,右击,选 clear 。 Figure 3.2 载入 序列 后(注 意 标注 的绿 色箭 头,即 为坐标 位置 ) 1.3 设定序列比对位置 MegAlign 允许使用者 选择序列的一部分进行比对分析, 例如, 可以 根据 GenBank 格 式的序列中 Features 部 分关于编码区(CDS )位置的描述,设定只对此编码区进行分析。 a. 点击最左侧 Sequence Name 框中的第一条 序列 tethis ,然后选择 主菜单 OPTIONS Set sequence limits from feature table。

6、( Figure 3.3) 此时根据 feature 内容, 出现四个可 以选择的片段, 第一个为全长, 从序列起始到末尾 (1-906) , 其它三 个则只包括序列的一 部分,选择最后一个 Histone H2B-1CDS , 点击 Change the Reset ,点击 OK,同样对第 二条序列进行上述操作 ,回到主界面工作区, 此时窗口中的序列起始 和终止位置已经发 生了变化。 (Figure 3.4 ) Figure 3.3 利用 Feature Table 选择 序列 特定 部分 Figure 3.4 选择 序列 特定部 分 b. 我们还可以通过设定序列坐标进行部分序列比对,首先选

7、定序列,选择主菜单OPTIONS Set sequence limits by coordinates ,输入起始和终止位置坐标来选择部分序列进 行分析。 注意:只 有 genbank 格 式的序列才可以 Set sequence limits from feature table , fasta 格式的 序列因为没有 feature 那一项内容,只可以 Set sequence limits by coordinates 。 1.4 进行两条序列比对 如果输入两条序列后不设置序列起始和终止位置,默认是全长序列进行比对。 按住Shift 选择序列tethis21 和tethis22 , 然后点

8、击主菜单Align-One pair , 由于目前输入的是 核酸序列, 此时有两个选项,Wilbur-Lipman Method和Martiner NW Method。如 果 输入的是蛋 白质序列,这两个选项将是灰色,只能用Lipman-Pearson Method进行比对。Wilbur-Lipman Method是一种以word 为 单位的 (word-based ) 启发式局部比对方法; Martiner NW Method是一 种改进了的全局动态规划算法。Lipman-Pearson Method是序列相似度搜索软件Fasta 的比对算 法 ,也 是一种以word 为 单位的快速启发式算

9、法。 选择其中一个, 出现 比对参数设定窗口 (Figure 3.5),选择默认参数不做更改,直接点击OK即可。 Figure 3.5 Wilbur-Lipman 比对 方法 参数 设定 这时出现一个新窗口,即为比对结果。可以选择OPTION-size ,放大字号观察比对结果。 可以看到在窗口上部显示的是比对方法名称,所用参数,两条序列各自的起止位置,相似度 值,比对结果中空位数目,长度和一致序列的长度。随后就是比对结果部分,其中第一行是 第一条序列, 它上面的v70是标尺, 其中的“V ” 的位置对应的是第一条序列的第70个核苷酸 所在位置;第三行是第二条序列,它下方的数字同样对应该序列位置

10、坐标;中间那行是根据 两条序列比对结果中匹配部分推断出来的一致序列(consensus sequence ),错配或空位显示 为空白(Figure 3.6)。 Figure 3.6 Wilbur-Lipman 方法比 对结 果 设置比对结果显示方式 : 点击比对结果窗口最左侧的 按钮,出现 Alignment View Options 窗口,可以选择匹配,错配和一致序列的字符颜色和其它显示选项。推荐使用设置: 选择 match 为红色, mismatch 为绿色, consensus 为蓝色, 并选择 show identities as vertical bars (一致序列显示为竖线) ,

11、 则得到 Figure 3.7。 还可以尝试选中或不选 show header, show ruler , show names ,show contest 四个选项,看看显示结果有何变化。 Figure 3.7 Alignment View Options TIP :MegAlign 分 析自己 下载 的序列 时要 注意序 列扩 展名 如果是从 NCBI 直接下 载的 fasta 格式文件, 可以象上面一样,用 enter sequence 直接 将序列读入程序。 但是如果序列文件是复制粘贴到 txt 文档中的,MegAlign 程序是无法识别 扩展 名为 txt 的文件 。此 时可 将每条

12、 序列 文件 (fasta 或 genbank 格 式皆 可) 扩展 名改 为 MegAlign 可以识别的类型 (核酸序列为seq, 蛋白质序列为pro) ,即可从File-Enter sequence 载入。 更 改文 件扩展 名的 方法:找到你要更改扩展名的文件,将.txt 改为.seq 或 .pro,此时会弹 窗口,提示“如果改变文件扩展名,可能会导致文件不可用。确实要更改吗?”选择“是” , 文件图标会变成MegAlign 特定图标, 说明修 改成功。 若扩展名自动 隐藏, 打开文件夹, 点 击 窗口上的主菜单 工具文件夹选项, 在打开的页面选择选项卡查看, 去掉 “隐藏已知文件 类

13、 型的扩展名”前面的对勾,确定退出。然后再用上述方法更改扩展名。 2. 多序列 比对 2.1 载入序列 进行多条序列比对的演示序列( demo sequence)在 c:program files dnastar lasergene demo megalign Calmodulin Sequences 文件夹里。 点击主菜单 File-Enter Sequence- 根 据路径到 达 Calmodulin Sequences 文件夹,点击 Add All,此 时 14 条序列全都出现在右侧的 selected sequences 框中, 点 击 Done , 回到主程序 工作 区 。( Fig

14、ure 3.8)这是 来自 14 个物种的钙调蛋白。 Figure 3.8 载入 14 条序列 2.2 序列比对 第一步, 选择比对所用的打分矩阵。 点击主菜单 Align Set residue Weight Table , 由于钙 调蛋白比较保守,我们选择 PAM100 作为打分矩阵,点击 OK 结束设 定(Figure 3.9) 。 Figure 3.9 选择 打分 矩阵 此时还可以通过点击 Align-Method Parameters 设定比对所用的其它参数。打开的新窗口 中包含三个选项卡, Jotun Hein、 Clustal V 和 Clustal W , 对应程序中多条序列比

15、对可用的三种 算法。推荐大家不做修改,使用默认参数即可。 第二步,比对。点击 Align-by Clustal V Method ,此时出现窗口显示比对进度,比对结束 后,回 到原来 工作 窗口 ,显示 比对结 果。 注意 序列上 方彩色 条块 ,颜 色代表 对应列 中相 似程 度,相似度由低到高,依次以深蓝、浅蓝、绿、黄、桔、红几种颜色代表。(Figure 3.10) Figure 3.10 比对 后结 果 2.3 查看比对结果 此时可以通过几种方式观察比对结果。 a. 点击 View-Sequence Distances 出现新窗口,显示两两序列 percent identity( 上半部

16、分) 和 divergence (下半部分) 。 Figure 3.11 比 对结 果一致度 (identity) b.点击 View-Residue Substitutions 出现新窗口 ,显示比对中所有替换的类型和数目。 Figure 3.12 比对 结果 替 换 情况 c. 点击 View-Phylogenetic Tree 出现新窗口,显 示根据 14 条序列比对结果构建出的进化树。 Figure 3.13 比 对结 果 进化树 d.点击 View-Alignment Reports 出现新窗口,显示比对结果报告。点击 OPTIONS-Alignment report content

17、s ,选中 show consensus strength ,其它不变,点击 OK 。在序列上方出现条块, 显示每一列序列的相似程度。 Figure 3.14 选择 show consensus strength 显示结 果 设置比对结果显示方式: 突出显示匹配或错配 的氨基酸。 点击 OPTIONS-New Decorations,在 alignment decoration name 框里输入 shade disagreements( 自己定义名字) ,选择 decoration parameters 为 shaderesidues differing fromthe consensus

18、,此时下 方出现新的选项,选择对 选定字符突出显示的颜色,选择完毕,点击 OK,则与 majority 序列 不同的字符将突出显示。 (Figure 3.15) Figure 3.15 修改 alignment report 显示 模式 二、Clustalx http:/www.clustal.org/ Clustal 是一种利用渐近法(progressive alignment)进行多条序列比对的软件。即从多条 序列中 最相似 (距 离最 近)的 两条序 列开 始比 对,按 照各个 序列 在进 化树上 的位置 ,由 近及 远的将其它序列依次加入到最终的比对结果。 (Figure 3.16)

19、Figure 3.16 clustal 算法 Clustal 软件有两个版本, 其中clustalw 采用命令行的形式在DOS 下运行的。 Clustalx 是可视化界面的程序,我们今天学习Clustalx 的使用。 2.1 安装clustalx 下载clustalx 软件,按照默认安装到自己的电脑上。 2.2 准备要比对的序列 将上节课搜索到的同源核酸fasta文件, 全部粘贴到一个文本文件中, 所有的蛋白质序列 存入另 一个文 本文 件。 注意序 列的登 录号 最好 是以NM 、NP、NR 开 头, 不要使 用NC、NT 或NW 开 头的序列,因为全基因组序列太长,分析起来速度非常慢。 T

20、IP: 可以在fasta序 列“”之后加上物种名称,加空位,方便看树时了解进化关系。 2.3 载入序列 点击 开始程序clustalX2clustalX2。 点主菜单File,选择Load Sequence-选择刚保存的序列文件,点打开。 注 意:ClustalX 程序 无法识别汉字、带空位的文件夹名,如 my document。不 要将 序列 文 件保 存在桌 面上 或带汉 字的 文件夹 中 ,推荐 保存在D 盘根目录下。 载入序列后在左侧窗口里是fasta 格式序列的标识号,取自序列第一行“”后的字符。 (Figure 3.17) TIP:如果每条序列单独保存为一个文件,可以使用 File

21、-Append sequence 选项将序列 一条条添加进来。 Figure 3.17 载入 序列 2.4 比对参数的选择 比对前先要设置两条序列比对的参数和多条序列比对的参数。 a.两条序列比对的参数 点击 Alilgnment 菜单,选择 Alignment Parameters, 再选择 Pairwise Alignment Parameters, 如 Figure 3.18. 首先可以选择比对的效果,是 slow/accurate 还是 fast/approximate。第一 种模 式采 用的 是动 态规 划算 法进 行比 对的 ,第 二种 模式 采用 的是 启 发式的 算法 。除非

22、序列 非常长 ,一 般采用 第一 种模式 。可 以选择 空位 罚分系 统,DNA 或蛋白 质替换矩阵,也可以自己上传某个替换矩阵进行比对。 Figure 3.18 Pairwise Alignment Parameters b.多条序列比对参数 点击 Alilgnment 菜单,选择 Alignment Parameters, 再选择 Multiple Alignment Parameters,如Figure 3.19. Figure 3.19 Multiple Alignment Parameters Delay divergent sequence 是指当两条序列的差异大于某个值(百分比)

23、时,这两条序 列的比对将推迟进行, 程序先比对相似序列, 对于相似度不够高的序列, 晚些时候进行比对, 加入到最终的多条序列比对结果时也要迟些。DNA transition Weight 等于 0 的时候,程序 将转换当作错配(mismatch)看待,等于 1 的时候,将转换和颠换同等看待。当参与比对的 序列差异较大时,DNA transition Weight 应该选择的小些(接近 0) ,如果参与比对的序列 差异较小时,DNA transition Weight 可选择的大些(接近1)。 2.5 更改输出格式 点击Alignment 菜单,选择Output Format Options,页

24、面如Figure 3.20 。 默认的是输出 clustal format,如果需要其它格式,可在复选框里打勾。如PHYLIP 格式 是利用PHYLIP 软件进行建树时, 需要输入的格式 (这里两种格式都选上, 以备下节课构建系 统发育树使用) 。 Figure 3.20 输出 格式 选项 2.6 进行比对 点击 Aliglnment 菜单 ,选择 Do Complete Alignment.此时出现一个对话框,提示比对 结果保 存的位 置, 上一 步选择 了多少 种输 出格 式,这 里就需 要给 出多 少个文 件的路 径。 选择 好了点OK 即可。 要得到 理想 的比对 结果 ,你可 能需

25、要选择 不同 的参数 ,进 行多次 比对 ,最后 再对 各种比 对结果进行分析,选择哪个是最合理的结果(result making biological sense)。 比对结束后生成的 aln 文件是多条序列比对的结果,可以用写字板打开浏览(Figure 3.21)。 在某一列比对 结果下方如果出现 “*” , 说明这列是完全匹配 。 生成的dnd 文件是比对 过程中利用NJ 方法生成的进化树, 可以用 treeview 程序浏览。treeview 软件 安装 和使用见 第 2.8 部 分内容 。 Figure 3.21 生成 的aln 文件 2.7迭代比对 可以采用迭代选项,多次迭代来寻找

26、最佳比对结果。 点击 Alignment 菜单, 选择 iteration,选择 iterate each alignment step 或 iterate final alignment. 然后再点击Aliglnment 菜单,选择 Do Complete Alignment 进行比对,即可达到迭代的 效果,将没有利用迭代比对得到的结果与迭代后的结果进行比较,看是否存在差异。 其它不详之处请参考clustalx.pdf 文件。 2.8 Treeview 下载地址:http:/taxonomy.zoology.gla.ac.uk/rod/treeview.html Treeview 是一个专门

27、绘制和浏览进化树的软件。Clustalx 产生的进化树(即后缀为 dnd 文件),可以通过treeview 软件浏览。 双击treeview_setup.exe 文件按照默认将程序安装到电脑上。 双击后缀为 dnd 的文件 ,选择 treeview 程序 打开即可。也可以打开 treeview 软件,将 dnd 文件拖放到treeview 软件窗口里打开。 TIP: 由于电脑中没有 安装打印机导致 treevie 无法正常显示解决方案。 我的电脑右击管理服务和应用程序服务printspooler- 点右键启 动。 如果仍 有问 题,点击 开始 设 备和 打印机 选 添加打 印机 按照 向导 提

28、示任意 添 加一个 打印机驱动即可。 三、 MUSCLE MUSCLE 是一 款非 常好 用的多 序列 比对 软件 , 它的速 度不 输于 Clustal, 但精 确度 要高的 多。 Figure 3.22 MUSCLE 算法 MUSCLE 的算法分为 三步:首 先计算 两两序 列共有的 短片段 (k-mer )数量, 以此为基 础构建初步引导树 (TREE1 ) , 参照引导树, 采用渐进算法得到多序列比对结果 MSA1 ; 然后, 根据 MSA1 计算两两 序列的距离,根据新的距离矩阵,构建更精确的引导树(TREE2), 比 较 TREE2 和 TREE1 , 将发生变动部分的序列重新比对

29、,得到新的多序列比对结果,重复前 面的过 程,即 根据 多序 列比对 结果构 建距 离矩 阵,计 算新的 引导 树, 比较新 树与旧 树差 异, 重新比 对部分 序列 ,得 到新的 多序列 比对 结果 ,等到 树型稳 定或 迭代 次数超 过一个 值, 这一 迭代即 可终止 ;第 三步 才是真 正意义 上的 迭代 ,以引 导树为 基础 将序 列分为 两组, 分别 比对 后再比 对得到 所有 序列 的比对 结果, 如果 新的 比对方 式使得 分增 加就 保留, 反之则 抛弃 ,这 样不断分组,比对,评估,直到比对得分收敛或迭代次数达到一定值。 MUSCLE 是一款DOS 环境的程序,EBI 还提供

30、了网页版的MUSCLE。 3.1 网页版MUSCLE: http:/www.ebi.ac.uk/Tools/msa/muscle/ Figure 3.23 MUSCLE EBI Figure 3.24 MUSCLE 比对结 果 页面 3.2 DOS 版MUSCLE 主页左侧一栏Download 可下载DOS 版程序,DOS 版本的也很容易使用。 点击开始菜单运行输入CMD利用DOS 命 令( cd)到 达 MUSCLE 所在文件夹。 在DOS 窗口中输入“MUSCLE in protein.txt out output.txt clw” 点回车即可 。这里解 释 一下上面参数的意义: -in

31、后面是待比对的序列文件名 (所有待比对fasta 序列放在一个文件中), 可自己定义。 -out 后面是输出文件名,同样可以自定。 -clw 输出格式类似clustal 程序,方便我们与clustal 方法的结果作比较。 运行结束打开输出文件(output.txt)即可查看。 Figure 3.25 4.19 DOS 版MUSCLE 运行 页面 Figure 3.26 MUSCLE 运行结 果 作业 1. 从上节课搜索到的同源序列中选择两条序列,使用 MegAlign 进行全 长比对,比对结果设 置为红色突出显示匹配字符。再选择序列部分区域进行比对通过 feature table 选择(需 G

32、enbank 格式序列) 或 通过坐标 coordinate 选 择(Fasta 格式序列即 可) , 设置比对结果为 匹配字符绿色,错配字符红色,用蓝色竖线表示一致序列,不显示标尺。 2. 利用 MegAlign 对之前 搜索到的同源核酸和蛋白质序列进行多序列比对分析。比对结果报 告( alignment report ) 以条状图显示每一列序列的相似程度, 并以红色突出显示错配字符。 3. 利用 ClustalX 对上题的序列进行多序列比对分析。说明你的参数如何设置,解释比对产 生的进 化树 (dnd 文件 ),并 对比 对结果 进行 分析( 序列 之间相 似度 关系, 是否 存在保守 位点及其所在位置等) 。 4. 利用 MUSCLE 将上题 中的序列进行多序列比对,比对结果以 Clustalw 格式输出。 5. 比较 MegAlign ,ClustalX 和 MUSCLE 三种方 法的结果是否存在差异?

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报