1、 翻译说明 1 原英文稿中附有许多示例 如输出窗口 序列等 译文一般用 参见英文稿 表示在阅读此段时请参见英文中的图示 对于一些较小的示例 如等式的推导 译文中保留 2 原英文稿中也给出了许多算法和程序的原始文献和网址 译者认为这是 BioEdit 的一个优点 如果想深入的学习不能不读一读原始的文献 译文中用 REFERENCE 表示请参考英文原稿 3 译文中对专业的词汇采用以下办法处理 即一般采用国内已有人使用的译法 如果未见到则译者给出一种译法并在旁边列出英文 译文中各节的标题都是这样处理的 前者如最简单的例子 Aligment 一词有 比对 对比 对排 等多种翻译 郝柏林院士建议译做 联
2、配 见 生物信息学手册 p175 方舟子译做 排列对比 见新语丝 网页 本译文采用 联配 的译法 后者如 mask 一词 文中专门有一节解释其含义 此词的普通含义有 面具 遮饰 译文中使用 屏蔽 并在旁边写mask 总之 此类词汇使用多了 自然明了其内在的含义 4 偶尔译者会对某处略做解释 旁边用 译者注 表示 表示译者的理解 请注意 5 翻译时在词汇的翻译和算法的理解上参考了以下资料 A 生物信息学手册 郝柏林等著 上海科学技术出版社 2000 年 B 生物信息学 基因和蛋白质分析的实用指南 Andreas D.Baxebanis 等原著 李衍达等译 清华大学出版社 2000 年 6 由于译
3、者占有的资料不多 水平有限 在译文中肯定有漏译 译的不全面甚至理解完全错误的地方 (尤其是算法上 ) 敬请指正关于 BioEdit 介绍 BioEdit 版本 5.0.6 版权 1997-2001 汤姆 霍尔 当前版本制作于 2001.12.2 BioEdit是一个生物序列编辑器 可在 Windows 95/98/NT/2000中运行 它的基本功能是提供蛋白质 核酸序列的编辑 排列 处理和分析 1.0版本是最早的 未完成的并有瑕疵的版本 1.0 版本也一直未完成 并有很多问题 但是比较前一个还是增加了一点东西 修正了一些问题 在 2.0版本中 在增加和配置附加分析应用程序上增加了一个界面 使其
4、能通过 BioEdit得到一个图形界面 而且 还增加了位置排列的信息基础动态描影 版本 3中增加了疏水 亲水面 互交的 2-D浮雕数据绘图和一些更多的序列操作法 版本 4为绘制和注解质粒载体增加了一个图形界面 在 4.7.1版本中 修改了处理序列信息和存储方法 而且增加了一个二进制文件格式 允许快速保存和打开大的排列 序列容量增加到20,000 在版本 5中 增加了自动注解序列或手动使用所有的标准 Genbank功能部件定义而且 在 Isis Pharmaceuticals公司的请求下 增加了序列排序和分型 组控制 注解行以及残基和非残基字符的鉴别 BioEdit并不打算成为一个强序列分析程序
5、 但是打算成为一个序列分析的友好用户界面 并连接其他在局域网和万维网上的更多的序列分析程序 它现在使用于大的排列 2000序列 文件界面最初模仿于一个非常好的程序 Don Gilbert编写的 SeqApp and SeqPup 印地安那州大学免费提供 SeqApp (用于个人计算机 ) and SeqPup (用于交换平台 ) 地址是 ftp:/iubio.bio.indiana.edu/molbio/seqpup/ GeneDoc是一个特别的排列程序 能够自由的在 Windows 9x 和 NT上使用 也是一个非常专业的程序 有很好的蛋白质排列注解和分析 描影和结构定义功能部件 就象一个反
6、映排列的内在的进化树 而这些在 BioEdit中是没有的 GeneDoc的网址是 http:/www.psc.edu/biomed/genedoc GeneDoc 有比 BioEdit 更好的描影和分类选项 有助于手工排列序列 还有更好的图形处理 缠绕和伸展的排列视图选项 动态共有序列和更平滑和更快速的排列卷曲和刷新 BioEdit 是用 Borlands C+ Builder 编写的 C+程序 我是北卡罗来纳州大学微生物系的研究生 不是专业的程序员 这是我学习 C+语言的入门 必然是个非专业的设计 这不是我博士工作的一部分 这个程序非常小而且很有效率 BioEdit 为序列排列 输出和一些分
7、析提供容易的工具 BioEdit功能 BioEdit的主要目的是 为那些不愿意被迫详细了解一个程序的使用方法的生物学家 提供一个有用的工具 BioEdit是直观的 菜单式的并有大量的图示 提供用户一个外部分析程序的图形界面 主要功能是提供明显的 容易使用的菜单选项 5.0.6版本提供以下功能 用于序列处理和编辑的 简单的图形界面 使用编辑选项 包括残基的 select and drag 选择和拖动 和 grab and drag 抓取和拖动 变量选择选项 鼠标点击插入和删除缺口 全框选择 全屏编辑中剪切 复制和粘贴 编辑窗口的自动刷新 固定序列框 保护排列中的固定残基 使用各种功能部件 内含子
8、 外显子 促进子 CDS和所有标准 GenBank功能部件类型自动的和手动的注解序列 使用一个模板序列 自动注解同一排列中的其他序列 序列分组 分为各个颜色编码家族 为同步手动排列锁定组成员 用户定义的适当功能部件 能够设定考虑任何功能部件 就像用于类似性描影 序列同一性矩阵和保存图表视图的核酸或氨基酸序列中的相关碱基 用户定义的基序搜索使用标准的 Prosite命名法和 IUPAC功能部件 允许搜索核酸或氨基酸序列 还有精确的文本搜索包括或忽略缺口 程序行可以定义为 DNA RNA 核酸 蛋白质 未定义或注解 注解可以用于保存普通的注释或东西 就象二级结构模糊定义 但是不能保存计算 根本的多
9、基因树图阅读器 支持节点翻转和打印 链接多基因树图到排列 并保存到 BioEdit格式排列文件 在一个排列末端添加另一个排列 配置附件应用程序界面 进入一个有 BioEdit产生的图形界面的外部分析程序 在外部应用程序中 自动提供信息和找回文件 外部应用程序进入分开的调度单位 允许同步应用BioEdit 外部程序的输出文件可以自动被其他程序打开 在 ABI自动序列模型 377 373 3700中显示 打印和编辑 ABI痕迹文件 在版本 2和 3中有SCF文件 就象用 Licor序列输出文件 RNA比较分析工具 包括共变 可能配对和互交信息分析 使用鼠标指示的动态数据视图的互交信息输出 2 D矩
10、阵图表 关于互交信息矩阵行和框的互交式的 1 D图表 用 BioEdit或 GanBank格式保存序列注解信息 通过氨基酸翻译 排列蛋白质编码核酸序列 在排列中搜索保存的残基 寻找好的 PCR目标或帮助定义基序 在核酸或蛋白质序列中搜索用户定义的基序 或用通配符搜索精确的文本 并选择包括或忽略缺口 用支持最多 20,000序列每个文档进行循环存储器分配 最多可以成功测定四百六十万个碱基 E. coli基因组 核糖体数据库中的原核细胞 16SRNA排列 29 Mb, 6205个序列将会被单独处理 在配置为 Pentium 233 Mhz 80 Mb RAM的计算机中 用 BioEdit计划文件格
11、式 最多只需要 10秒种可以写入一个 16S RNA排列 内部的读写 GenBank Fasta Phylip和 NBRF/PIR文件 用 Don Gilberts ReadSeq导入输出一些其他格式的文件 使用 BioEdit计划文件格式 快速读写大排列文件 使用自动更新的排列蛋白质全标题和 GenBank区域信息 进行 ClustalW多序列排列 Des Higgins et. al.编写的内部界面 外部程序 就象排列来自于核苷酸序列的蛋白质视图时的核苷酸编码序列 将残基块状复制到剪贴板 允许将全不排列或部分排列粘贴到文字处理器 基本序列处理 在文档之间复制 粘贴序列 翻译和还原编码 RN
12、ADNARNA 反转 互补 大写字母 小写字母 多文档界面 最多同时打开 20个文档 但是在其他打开的窗口不能设置限制 六框翻译核酸序列为 Fasta格式 ORF表 用矢量图进行半自动质粒 矢量绘图和注解 自动酶切位点和位置标记 自动多接头视图和用户控制绘图工具 将质粒文件保存为可编辑的矢量图形文件 如位图 复制到其他图形程序 并可以打印 氨基酸和核苷酸成分摘要和图表 Revert to Saved 恢复保存 和 undo 撤销 功能 编辑氨基酸和核酸序列 简单的指定色彩表编辑 蛋白质和核酸序列使用不同的色彩表 排列易感的描影法以信息为根据 其中包括排列位置 BioEdit 能够读写 GenB
13、ank, Fasta, NBRF/PIR, Phylip 3.2 和 Phylip 4格式 能够读ClustalW 和 GCG格式 . 10个附加格式的导入 输出过滤器 使用 Don Gilbert的 ReadSeq 导入 /添加一个文件到最后的另一个文件上 (不考虑文件格式 ) 基本的多文本编辑器 限制性内切酶图谱用于任何或所有形式的翻译 复酶和输出选项 包括酶的提供者和环状DNA选项 游览限制性内切酶创造商 自动连接到你喜欢的网页游览器 如 Netscape 或 Internet Explorer 程序和程序组的概述 BioEdit是用 Borland C+ Builder 3.0编写的
14、(开始时是用 C+ Builder 1.0) 这是 曾经是Borland公司的最新 C+产品 它结合了 Borland C+ 5和 Delphi的可视要素库 VCL 允许用户界面的可视开发 使用快速申请开发 RAD 环境的好处在于它能够容易的创造出大量的图形界面 它的缺点是编码不轻便 BioEdit只能在 Windows 95, 98, NT and 2000中使用 我原来计划可以使BioEdit在 Win16使用 但是自从 Windows 3.x过时了以后 我就不再计划这样做了 组织 BioEdit当前支持同时编辑最多 50个文件 主要的控制形式包括打开文件的菜单 创建新文档 调整球形选项如
15、色彩表 密码子表 分析参数选择 和一个窗口管理器 最初每个文档有它自己的整套处理菜单 可以限制文档 然而 这被一个更传统的多文档界面所替代 BioEdit没有使用额外的物理存储器 除非编辑大的排列 但是它看起来像占用了很多资源 BioEdit每个文档最多可以有 20,000个序列 但在序列大小上没有限制 在80MbRAM的 233MHz的个人计算机上 可以很好的处理一个来自于核糖体数据库的完整的原核 16S rRNA排列 6205个序列 每一个有 3319个字符 一旦用 BioEdit格式保存 这个文件可以在几秒钟打开 用 GenBank格式要几分钟才能打开 程序文件 (BioEdit.exe
16、)可以在主安装目录中找到 可能还有以下子目录 apps 附件程序 网页和网页书签 通常 以下文件会出现在 apps文件夹 按名称排列 accApp.ini (在首次安装时为 accApp.def) Bblast.html BioEdit.html blast_adv.gif blast_form_0.gif blastall.exe (在没有 BLAST的版本中不出现 ) blastcl3.exe (在没有 BLAST的版本中不出现 ) blast.txt bookmark.txt cap.doc cap.exe clear_inp.gif clustalw.exe clustalw.txt
17、cutter.html Dnadist.doc Dnadist.exe Dnamlk.doc Dnamlk.exe Dos4gw.exe (PHYLIP 程序需要 ) Expasy.gif fastDNAml.doc fastdnaml.exe Fitch.doc Fitch.exe formatdb.exe (在没有 BLAST的版本中不出现 ) IdPlot.exe isrecsmall.gif Kitsch.doc Kitsch.exe mod_ad.gif mod_submit.gif nnpredict.html Note.gif PFSCAN_form.html phi_blast
18、.gif PHIBlast.html Phylip.map Protdist.doc Protdist.exe Protpars.doc Protpars.exe psi_blast.gif PSIBlast.html Readseq.exe ReadSeq.txt scnpsit1.html Siblogo.gif smweb.gif database (是局部的 BLAST数据库 安装的版本必须有 BLAST工具 ). BioEdit (全版本 ) 有以下文件在 database文件夹 Ecoli.phr Ecoli.pin Ecoli.psq Ecoli_ORFs.txt (E. col
19、i 开放读码框架的文本文件 ). help BioEt BioEdit.GID (不是安装来的 出现在帮助文件第一次使用后 ) Bioedit.hlp tables Blosum62 codon.tab color.tab dayhoff defcolor.tab enzyme.tab Gc.val gonnet Identify match Pam120 Pam250 Pam40 Pam80 Seqcode.val 安装文件夹通常包括以下文件 _deisreg.isr (安装相关文件 ) _isreg32.dll (安装相关文件 ) BioEdit.exe (BioEdit 执行文件 ) D
20、eIsL1.isu (安装相关文件 ) RNaseP_prot.gb (蛋白质排列示例 ) RNaseP_prot_genes.gb (DNA排列示例 ) RNaseP_RNA.gb (RNA排列示例 ) PBSSK_plus.pmd (质粒绘图示例 ) bacterio.gb (附带 GenBank 信息的蛋白质排列示例 ) bacterio.bio (附带 GenBank信息 图式注解 记号标记和序列族的 BioEdit文件示例 ) YopD.gb (附带 GenBank信息的另一个示例文件 ) TreeView.zip (Roderic D.M. Page编写的极好的系统进化树阅读器 完
21、全安装才有 ) TreeView.txt (记录 TreeView的安装信息和配置 BioEdit与 tree-generating附件的连接 ) license.txt (BioEdit 许可证协议 ) ReadMe.txt (总说明 ) 重要的是 文件夹和文件的名字不能更改 如果更改了 BioEdit将不能正确安装 将会有一个 BioEdit.ini文件出现在你的 Windows主目录下 它包含 BioEdit的初始化默认值和参数选择 虽然这个文件可以手动编辑 但是我们推荐不要编辑和手动编辑这个文件 当前被支持功能部件和已知问题的列表 请看 BioEdit的功能和已知问题 局限性 已知问题
22、和局限性 BioEdit想要成为一个处理个别简单序列的多用途界面 带有适合于自动化多重排列选项的综合序列排列 最佳成对排列 并且着重于使手工排列更容易 随着时间的推移 增加了一些附件的功能 质粒绘图 限制性内切酶图谱 ABI和 SCF查阅 RNA比较分析和其他功能中的图式注解 然而 常用的查找功能 特殊化分析 如蛋白质二级结构 三级结构的预测 RNA结构的热动力学预测 排列性质的统计学分析 序列模式的概率或神经网络模型排列和结构的预测 不包括在这个程序之内 虽然用户可以配置命令行附件应用软件 有程序链接连到 ClustalW 局域 BLAST和 BLAST client 3 但是在 Clust
23、alW程序或 BLAST程序升级后 不能保证这些链接正确工作 虽然在BioEdit安装程序中提供的局域 BLAST和 Clustal程序将会继续工作 但在下一次 NCBI决定改变它的委托人时 BLAST client 3将不能正常工作 我也不再一直支持这个程序 源代码将在稍后提供下载 但是会有一些紊乱 没有很好注释 限制于 Borland C+ Builder 这是我毫无疑惑的发布源代码的原因 同样 自动网页链接为网页 如 BLAST PSI-BLAST PROSITE轮廓扫描网页 提供一个选择序列 它们的工作依赖于网页的局域 HTML模板 BioEdit编辑的资源包括查询文本区域的选择序列
24、因为万维网的高度易变性 这些也许不能长时间正常工作 如果一些地址变化 或者 HTML界面充分改变 这些将不再能正确工作 它们可能可以在 BioEdit/apps文件夹中局部的被新的同名更新网页所替代 但是它们是否能正常工作将依赖于 网页中必需的URL定位是否被指定为绝对路径或相对路径 它们是否依赖于局域 CGI或 Java程序和其他潜在的问题 想要配置命名行分析程序的界面很好的工作 可能不需要复杂的 scripting语言 然而 因为这个界面及其选项的静态特点 可能有程序不能正确的通过 BioEdit运行 虽然绝大多数接受命令行的程序可以被设置 总之 许多人可能宁愿为了更好的控制选项而从命令行
25、运行程序 BioEidt可以很好显示合适大小的排列 然而 对于一次打开的排列文档数量有限制 同样一个单一排列中的序列数量也有限制 现在 最多一次打开 50个排列文档 一个排列中的最多序列数是 20,000 序列数量的限制和序列长度是无关的 排列的绝对大小是有效的系统内存决定的 如果文档在系统中全部进入虚拟内存 编辑将会变得很慢 如果排列中有几千个 rRNA基因 或者全部基因组的序列列表 在 Win95/98或 NT系统中 至少需要 64到 128Mb的内存 在 Win2000系统中 至少需要 128Mb内存 在排列矩阵 N M 40,000,000 (N = 序列数 M=最长序列长度 )时 U
26、ndo 撤消 选项自动失效 BioEdit是由 Borland C+ Builder编写的 是 100% Windows基础 它是不可移植的 因为这个程序的大部分是图形界面 在 UNIX或 Mac中可能不好使用 BioEdit使用手册 序列编辑 处理 手工序列排列 下面是基本的 BioEdit排列文档窗口 如果你不喜欢现在的样子不要当心 字体 大小 背景颜色 残基颜色和标题窗口宽度都可以改变 鼠标箭头右下方的黄色条幅显示的是当前序列的绝对位置 这同样显示在控制栏的 Position 标题 选择关闭黄色条幅 就进入View-show sequence position by mouse arro
27、w 总的手工排序功能是 在编辑窗口有三个可应用的基本模式 选项可在 Sequence-Edit Mode 中找到 Select / Slide mode(选择 /调整模式 ) 用鼠标左键选择框住的残基 用鼠标来回的拖动选择默认值是朝你滑动的方向忽略 unlocked gaps 并在所选择的另一边开启新的 unlocked gaps 为了移动所选择的全部序列的下游 不管缺口 在移动时按住 shift 键 你也可以在按钮板上切换合适的按钮 见后 改变默认值为 移动所选择的全部序列的下游 选定选项后 在滑动时用 shift 键忽略 unlocked gaps 用 shift 键选择所有在现在选定的和
28、新选择的残基 CTRL 键可以在当前选择上增加一个新的选择 例如 你也许想在三个互不相连的序列中选择残基 Edit mode 编辑模式 在编辑残基模式中 你可以在文档的任何位置 除了标题 放置任何类型的光标 用箭头你可以在序列中走来走去 编辑有两种形式 插入和改写 当编辑器在编辑模式 可以看见在编辑模式的下拉菜单中有一个选项在其它两个排列模式 ,这个选项不会出现 . Grab BioEdit视图视窗只同时支持一个树 而且如果打开一个有多个树的树图文件 只有第一个树会被载入 然而 当在一个排列文件中导入树时 所有的树 最多 50个 都可以被载入排列 像单独的树一样 树图视窗规定树的格式为视图窗的
29、当前尺寸 现在不支持多页 全屏显示或手动指定尺寸所以它只适合于小的树 同样 打印也是原始的 只有打印页的范围 而且 不能复制到剪切板中 为了产生树的图像 我推荐 TreeView 它能像 Windows的图元文件一样 将树图复制到剪切板中 Importing Phylogenetic Trees into an alignment 将系统树导入排列 它可以有时方便的使用系统树 来显示排列中序列的相关性 因为这个原因 BioEdit5.0.6版本允许你在排列中导入一个或更多的系统树 只要它们是 Phylip格式的 并在一个 BioEdit格式的排列文件中保存这些树 你可以在一个文件中最多保存 5
30、0个树 通常 只有一个树是希望的 但是可能有一系列等同的树产生与过于简单的方法 或者可能你想要通过树来显示一个排列小组中序列的联系 想要在 BioEdit排列中导入一个树 打开排列 File-Open 选择 Alignment-Phylogenetic Tree-Import Tree 菜单将变成这样 你可以提示指定导入树图文件 想要观看导入的树图 选择 Alignment-Phylogenetic Tree-View Tree- (tree number) 例如 如果你有三个树图和一个排列联合 菜单就会像这样 你可以将你的文件保存为 BioEdit格式 而且你的相关的树图将会随文件而保存 记
31、住 如果文件没有保存 Revert to Saved 恢复保存 选项将同样删除任何没有保存在文件中的树图 你可以通过 Alignment-Phylogenetic Tree-Remove Tree 选项 删除树图 你也可以在树图视窗中打开一个树图 选择将其连接到一个打开的排列文件中 如果很容易就看见树图 可以确定它是正确的 想要做到这一点 从程序的任何位置上选择 File-Open命令 打开树图 确定你已经打开了一个排列文件 从树图视窗选择 File-Associate Tree With Alignment 你将见到一个对话框 其中有当前所有打开的排列 从中你可以选择合适的排列 File f
32、ormats 文件格式 File formats read and written by BioEdit BioEdit读写的文件格式 BioEdit 5.0.0版本可以读写以下格式 BioEdit Genbank Fasta NBRF/PIR Phylip 3.2 / 2 Phylip 4 另外 BioEdit 4.7.0版本和以上 可以读 ABI model 377 autosequencer文件 序列是提取的 痕迹显示在屏幕上 可以打印颜色 BioEdit 4.7.7版本和以上允许编辑可编辑序列当前版本同样可以读 SCF trace文件 版本 2和 3 ABI 373和 3700文件 BioEdit 4.7.7版本和以上 同样可以读 ClustalW和 GCG-格式文件 但是不能写 这些格式以外 提供一个外部导入 输出筛选 Don Gilberts ReadSeq 允许导入和输出以下格式 IG/Stanford EMBL GCG (single sequence only) DNAStrider