1、2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 1 - 蛋白质结构预测技术简介蛋白质结构预测技术简介蛋白质结构预测技术简介蛋白质结构预测技术简介 简介简介简介简介 蛋白质结构的解析对其功能的理解至关重要 。然而 ,由于技术手段的限制 ,利用实验方法(主要为 X-ray, NMR)解析蛋白质结构 投入大 、周期长 、风险大 。对于某些膜蛋白 ,只利用现有技术条件 ,其结构甚至无法解析 。另一方面 ,随着 分子 生物学 技术的成熟及 高通量测序技术的发展 ,越来越多 的基因 序列可以轻松被 找到 。这造成了现代蛋白 质科学中一个
2、奇怪的现象 :蛋白质序列数据的累积量及积累速度远远超过 蛋白质结构 。这种 序列与结构间 不平衡的 现象极大 地限制了我们对蛋白质功能及其相关作用机理的理解 。所以 我们需要一种能够简单 、快速且相对准确的技术来确定蛋白质的空间结构 。 蛋白质建模技术可以很好的解决上面的问题 。该方法利用信息技术的手段 ,可以直接从蛋白的一级结构 (氨基酸序列 )预测蛋白质的高级结构 (主要为三级结构 )。 根据最新一届国际建模大赛 ( CASP)的分类 ,目前主要的蛋白质建模方法包括两种 :基于模板的建模( Template-based Modeling)和自由建模 ( Free Modeling)。 前者
3、又包括两种方法 :同源建模法( Homology Modeling)和 “穿线法 ”( Threading)。 后者主要以 从头计算法 ( ab initio)为主。所有的建模方法中 ,以同源建模法 (Homology Modeling)使用最为广泛 ,预测结果的准确性最大 。 同源建模的理论基础为蛋白质三级结构的保守性远远超过一级序列的保守性 。因此 ,人们可以通过使用一个或多个已知结构的蛋白 (模板蛋白 , template)来构建未知结构 蛋白 (目标蛋白 , target)的空间结构 。其主要的步骤包括 : 1. 搜索用于建模的 template(s) 2. 将 target 与 te
4、mplates 进行比较 3. 将步骤 (2)中的比较信息用于建模 Discovery Studio 为用户提供了一整 套利用 Homology Modeling 方法 自动预测蛋白质空间结构的工具 。用户只需要提供蛋白质的氨基酸序列就可以 轻松 完成模型构建及模型可信度评估的工作 。 DS 的 Homology Modeling 主要基于 MODELER 程序 。目前 MODELER 已成为使用最为广泛 ,预测最为准确的 同源建模工具之一 。其主要的建模步骤包括 : 1. 使用序列相似性工具 BLAST 或 PSI-BLAST 搜寻目标序列的模板 2. 使用结构比对方法将模板进行比对 ,叠合
5、 3. 使用序列比对方法将目标序列与模板结构的序列进行比对 4. 使用 MODELLER 产生目标序列的模型 5. 模型的评估 本教程中 以一个胞外淀粉酶的模型构建 过程 为例子 ,展示如何使用 DS 为该淀粉酶自动构建空间结构 ,并对 所构建的模型进行评估 ,帮助大家获得 Homology Modeling 最直观的结果 。 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 2 - 1 识别模板识别模板识别模板识别模板 , ,比对模板 比对模板比对模板比对模板 本教程 使用 BLAST 来搜索 templates。进行 BL
6、AST 搜索时 ,数据库可以 使用 Protein Data Bank( PDB)数据库 也可以用 PDB_nr95( PDB 非冗余结构数据库 )。 为缩短搜索时间 ,本文使用 PDB_nr95 数据库来寻找模板 。 1.1 载入序列载入序列载入序列载入序列 从从从 从 Files Explorer, 打开打开打开打开 Samples | Tutorials | Protein Modeling | P41131.fasta. 1.2 BALST PDB_nr95 数据库数据库数据库数据库 , ,寻找模板 寻找模板寻找模板寻找模板 1.2.1 选择选择选择选择 target 在在在 在 Pr
7、otocols Explorer, 展开展开展开展开 Sequence Analysis 文件夹文件夹文件夹文件夹 , ,双击 双击双击双击 BLAST Search (DS Server). 在在在 在 the Parameters Explorer, 点击点击点击点击 the Input Sequence parameter , ,选择 选择选择选择 P41131:P41131 Input Sequence 中的文件名为 sequence window 的名字 ( P41131)与该窗口中的序列名称( P41131)的名字组合 。 1.2.2 选择选择选择选择 BLAST 数据库数据库数据
8、库数据库 Input Database 选择选择选择选择 PDB_nr95 注意注意注意注意 : PDB_nr95 序列数据库已经安装 在 DS server 上。如果需要 BAST 其它数据库 ,用户需要另外安装相应的数据库 。 注意注意注意注意 :如果改动默认参数或使用不同的 (或升级版 )的 PDB_nr95 数据库 , BLAST 结果可能与本教程的结果不一致 。 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 3 - 1.2.3 运行运行运行运行 Protocol 在在在 在 Protocols toolbar,
9、点击点击点击点击 运行运行运行运行 , ,等待计算完成 等待计算完成等待计算完成等待计算完成 . 计算完成后 ,会显示一个 “Job Completed”的对话框 。点击 OK。 1.2.4 查看计算结果查看计算结果查看计算结果查看计算结果 在在在 在 Jobs Explorer 中中中 中 , 双击双击双击双击 job 栏中完成的计算栏中完成的计算栏中完成的计算栏中完成的计算 “ Blast Search DS Server” 这将打开一个 Html 的窗口 ,里面包含 Reprot.htm 文件 (该文件为比对结果报告 ) Html 窗口中窗口中窗口中窗口中 , Output Files
10、部分部分部分部分 , 点击点击点击点击 the View Results . 这将打开 BLAST 搜索找到的序列 注 意注 意注 意注 意 : 由 于没 有设 置结 果 的保 存路 径 , BLAST 的结 果保 存于 默 认文 件夹 My DocumentsDiscovery Studio ClientResultsBLASTSearchDSServer_ 在在在 在 P41131 - Blast 窗口窗口窗口窗口 , 点击该窗口下的点击该窗口下的点击该窗口下的点击该窗口下的 Table View tab。 。 Table View 显示了命中的序列 。每行表示一条命中的氨基酸序列 。在
11、DS 中,灰色的 cell 不能被编辑 。 注意注意注意注意 :命中的序列按照 E 值(序列比对的可行度 )进行降序排序 。 E 值最低的序列 ,结果最可靠 ,排在第一行 。 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 4 - 点击点击点击点击 Map View tab. Map View 将命中结果 都显示 在一张图中 ,每条线表示一条序列 。每根横条根据打分不同而配以不同的颜色 (分数超过 400 为红色 ,最佳的命中结果 )。 本例中的 target P41131 放在窗口的最上方 ,为一条长度为 443 个氨基酸
12、的 直线。 用户可以将鼠标放置在某一个命中序列上 ,如下信息将会显示 (如上图 ): circle6 序列数据库的描述 circle6 序列的编号 circle6 目标序列中的起始氨基酸位置 circle6 数据库中命中序列的起始氨基酸位置 circle6 命中序列的长度 circle6 命中序列的分数 滑动鼠标的中间键可以滑动鼠标的中间键可以滑动鼠标的中间键可以滑动鼠标的中间键可以 放放放 放大 大大 大( ( (缩小 缩小缩小缩小 ) ) Map View 中的结果中的结果中的结果中的结果 这时用户可以看到 窗口顶端 target 的相应氨基酸 。可能需要放大几次才能看见具体的氨基酸类型
13、。 注意注意注意注意 : Map view 中命中序列的顺寻并没有改变 。 2 将模板进行比对将模板进行比对将模板进行比对将模板进行比对 为了 构建 target 的 3D 结构 ,我们需要挑选一个或多个合适 的同源模板 ( templates)。一2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 5 - 个理想的 template 需要涵盖整个 target 的长度 ,具有 较高 的序列等同性 ( Sequence identity),并且 E 值要够小 ( 110-5)。根据上述原则 ,我们选用前 4 个命中序列作为 te
14、mplate。 一般而言 ,若有多条模板 (模板之间相似度不能太高 )与 target 具有相似的同源性 ,那么我们 将使用多模板来构建同源模型 。这些模板在核心区域一般都高度保守 ,而在一些 loop区的构象上则有所不同 。 Target 可以与其中某个模板在某 loop 区匹配 ,而与另一个模板在另一 loop 区匹配 。因此 ,使用多模板可使建模过程中模型的每个部分都能找到最合适的模板 。 2.1 载入模板结构及其与载入模板结构及其与载入模板结构及其与载入模板结构及其与 target 的比对结果的比对结果的比对结果的比对结果 点击点击点击点击 P41131 - Blast Window.
15、 点击点击点击点击 Map View tab, 按住按住按住按住 SHIFT 键同时点击前四个命中序列键同时点击前四个命中序列键同时点击前四个命中序列键同时点击前四个命中序列 1G94_A, 3DHP_A, 1HX0_A, and 1JAE_A, ,将其选中 将其选中将其选中将其选中 点击点击点击点击 右键右键右键右键 , ,选择 选择选择选择 “Load Selected Structures” DS 将打开 中一个为新的 3D 窗口 (记为 1G94)。该窗口中 包含了上述四个 模板 结构的 A 链以及结构中的水分子和配体分子 。 2.2 模板结构间的结构比对模板结构间的结构比对模板结构间
16、的结构比对模板结构间的结构比对 序列保守性和结构保守性通常来说有所不同 ,所以序列比对的结果常常与结构比对的结果不同 。对于同源建模来说 ,在模板与 target 进行比对之前 ,最好能将模板基于其结构的相似性先进行一次比对 。 进行基于结构的序列比对之前 ,需要先调用每个模板的序列 。 在菜单栏中在菜单栏中在菜单栏中在菜单栏中 , ,点击 点击点击点击 Sequence | Show Sequence DS 将打开一个名为 1G94 的新的序列窗口 。该窗口中的序列 没有经过任何的序列比对 。 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tu
17、torials - 6 - 在在在 在 Protocols Explorer 中中中 中 , 展开展开展开展开 Protein Modeling 文件夹文件夹文件夹文件夹 , ,双击 双击双击双击 Align Structures (MODELER). 在参数在参数在参数在参数 Parameters Explorer, 单击单击单击单击 Input Sequence Alignment 并选择并选择并选择并选择 1G94. 展开展开展开展开 Input Sequence Alignment ( (点击前面的 点击前面的点击前面的点击前面的 “+”号号号 号), ), ), ), 可以观察到四个
18、蛋白质结构可以观察到四个蛋白质结构可以观察到四个蛋白质结构可以观察到四个蛋白质结构 1G94A, 3DHPA, 1HX0A, and 1JAEA 自动填充到自动填充到自动填充到自动填充到 Input Protein Structures 里面里面里面里面 . 在在在 在 Protocols toolbar 中中中 中 , 点击点击点击点击 运行运行运行运行 , ,等待计算完成 等待计算完成等待计算完成等待计算完成 等待结果计算完成之前等待结果计算完成之前等待结果计算完成之前等待结果计算完成之前 , ,可以在菜单栏 可以在菜单栏可以在菜单栏可以在菜单栏 里里里 里选中 选中选中选中 Window
19、s | Close All 关闭所有的窗口关闭所有的窗口关闭所有的窗口关闭所有的窗口 , ,若提 若提若提若提示示示 示是否 是否是否是否 需要保存结果需要保存结果需要保存结果需要保存结果 时时时 时, , ,选择否 选择否选择否选择否 。 。 计算完成后计算完成后计算完成后计算完成后 , ,在 在在 在 Jobs Explorer 中中中 中 , 双击双击双击双击 “Align Structure (MODELER)”. DS 将比对的结果文件 显示在一个新的 Html 窗口里 。 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorial
20、s - 7 - 2.4 查看结构查看结构查看结构查看结构 比对结果比对结果比对结果比对结果 在该在该在该在该 Html 窗口中窗口中窗口中窗口中 , 滚动页面至滚动页面至滚动页面至滚动页面至 Summary 部分部分部分部分 , ,可以查看每对结构之间两两比对时的主链 可以查看每对结构之间两两比对时的主链可以查看每对结构之间两两比对时的主链可以查看每对结构之间两两比对时的主链RMSD 值以及比对的氨基酸数量值以及比对的氨基酸数量值以及比对的氨基酸数量值以及比对的氨基酸数量 。 。 3DHPA 与与与 与 1HX0A 非常相似非常相似非常相似非常相似 , ,两者之间比对了 两者之间比对了两者之间
21、比对了两者之间比对了 496 个氨个氨个氨个氨基酸基酸基酸基酸 , , RMSD 值小于值小于值小于值小于 0.5 .。 。 1G94A and 1JAEA 与其它蛋白则不那么相似与其它蛋白则不那么相似与其它蛋白则不那么相似与其它蛋白则不那么相似 。 。 点击点击点击点击 该窗口中的该窗口中的该窗口中的该窗口中的 View Results。 。 这将打开两个新的窗口 。一个 是名为 1G94 的序列窗口 ,里面有 各模板 间的 序列 比对结果 。另一个 窗口是名为 1G94 的 3D 窗口 ,叠合后的模板分子都在该 窗口 中。所有叠合的结构都只以 C- stick 显示出来 。观察这些结构的叠
22、合找出它们不同的地方 。 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 8 - 关闭第一个名为关闭第一个名为关闭第一个名为关闭第一个名为 Report 的窗口的窗口的窗口的窗口 3 将目标序列与模板比对将目标序列与模板比对将目标序列与模板比对将目标序列与模板比对 同源建模中 ,根据目标序列与模板的相似性可以选用不同的比对方法将目标序列与模板序列进行比对 : circle6 当模板与目标序列的同源性很高时 (尤其序列等同性超过 60%), BLAST 可以清晰地识别正确的模板 , target 与模板序列间使用简单的多序列比
23、对就能获得很好的比对效果 circle6 当序列相似性不高但仍高于 “twilight”区(序列等同性为 25%60%)时,虽然 BLAST还是能够够识别出正确的模板 。但是 ,简单的多序列比对已不再能够产生正确的比对结果 。我们可以通过生成序列 profile 的方法来改进序列比对结果 。这可能是最常见的工作流程 。 circle6 若序列相似性低于 25%,必须使用 PSI-BLAST 来识别模板 ,而且必须使用序列profile 来比对 target 和 template。 由于本教程中的 target 与 template 的序列等同性为 25%60%之间 (最好的 template
24、为47%), 所以采用第二种比对方法 。一个好的序列 profile 必须包含了大量非冗余的同源序列比对结果 。 本教程中 ,我们分三步将 target 与模板 进行比对 。 1 利用 BLAST 搜索 UniRef90 数据库寻找 target 的同源序列 2 利用多重序列比对将 target 与命中序列进行比对 ,产生 一个序列 profile 3 将步骤 2 中产生的 sequence profile 与模板比对所产生的 profile 再进行比对 3.1 重新重新重新重新 载入载入载入载入 target 从从从 从 Files Explorer, 打开打开打开打开 Samples |
25、Tutorials | Protein Modeling | P41131.fasta. 序列 P41131 在 sequence 窗口中打开 。 现在 ,我们需要用 BLAST Search( DS Server) Protocol 来搜索 UniRef90 数据库 。 3.2 设置设置设置设置 Protocol 参数并运行参数并运行参数并运行参数并运行 Protocol 在在在 在 Protocols Explorer 中中中 中 , 展开展开展开展开 Sequence Analysis 文件夹文件夹文件夹文件夹 , ,双击 双击双击双击 BLAST Search (DS Server)
26、protocol. 若若若 若提示关闭已经打开的 提示关闭已经打开的提示关闭已经打开的提示关闭已经打开的 protocol 时时时 时, , ,点击 点击点击点击 Yes。 。 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 9 - 点击点击点击点击 Input Database, ,选择 选择选择选择 UniRef90. 注意 :用户需要提前安装 UniRef90 数据库 。 将将将 将 E-value Cutoff 更改为更改为更改为更改为 0.0001, , 将将将 将 Maximum Hits 更改为更改为更改为更改
27、为 500. 在在在 在 Protocols toolbar 中中中 中 , 点击点击点击点击 运行运行运行运行 , ,等待计算完成 等待计算完成等待计算完成等待计算完成 。 。 计算完成后计算完成后计算完成后计算完成后 , ,在 在在 在 Jobs Explorer 中中中 中, , ,双击完成的工作 双击完成的工作双击完成的工作双击完成的工作 。 。 DS 将打开一个名为 Report.htm 文件显示在一个新的 Html 窗口里 。 3.3 查看结果查看结果查看结果查看结果 在该在该在该在该 Html 窗口中窗口中窗口中窗口中 , , Output 文件部分文件部分文件部分文件部分 ,
28、,点击 点击点击点击 P41131_profile.pir 这将打开一个新的序列窗口 ,里面是 BLAST 搜索 UniRef90 数据库 的结果 。 3.4 将将将 将 target 与与与 与 BLAST 命中序列重新进行多序列比对命中序列重新进行多序列比对命中序列重新进行多序列比对命中序列重新进行多序列比对 在在在 在 Protocols Explorer 中中中 中 , 展开展开展开展开 Sequence Analysis 文件夹文件夹文件夹文件夹 , ,双击 双击双击双击 Align Multiple Sequences protocol. 点击点击点击点击 Input Sequen
29、ce Set parameter, 选择选择选择选择 P41131_profile. 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 10 - 点击点击点击点击 运行运行运行运行 , ,等待计算完成 等待计算完成等待计算完成等待计算完成 。 。 计算过程中计算过程中计算过程中计算过程中 , ,在菜单栏中选择 在菜单栏中选择在菜单栏中选择在菜单栏中选择 Window | Close All 关闭所有的窗口关闭所有的窗口关闭所有的窗口关闭所有的窗口 。 。若提示是否保存时 若提示是否保存时若提示是否保存时若提示是否保存时 , ,
30、选 选选 选择否择否择否择否 。 。 计算完成后计算完成后计算完成后计算完成后 ,在在在 在 Jobs Explorer 中中中 中 ,双击双击双击双击 刚计算完的工作刚计算完的工作刚计算完的工作刚计算完的工作 。 。 这将打开一个 Html 的窗口 ,里面为比对的结果 Report.htm 文件 3.5 将本轮序列比对的将本轮序列比对的将本轮序列比对的将本轮序列比对的 profile 与之前模板结构比对的与之前模板结构比对的与之前模板结构比对的与之前模板结构比对的 profile 进行比对进行比对进行比对进行比对 在在在 在 Html Window 中中中 中 , Output Files
31、部分部分部分部分 , 点击点击点击点击 P41131_profile.bsml 打开序列比对结果打开序列比对结果打开序列比对结果打开序列比对结果 . 在在在 在 Jobs Explorer, 双击之前已经完成的双击之前已经完成的双击之前已经完成的双击之前已经完成的 Align Structure (MODELER) 计算打开计算打开计算打开计算打开 Report.htm 文件文件文件文件 . 在在在 在 Html Window, Output Files 部分部分部分部分 , 点击点击点击点击 View Results 打开序列比对结果和叠合后的结打开序列比对结果和叠合后的结打开序列比对结果和
32、叠合后的结打开序列比对结果和叠合后的结构构构 构。 。 。 在在在 在 Protocols Explorer, 展开展开展开展开 Sequence Analysis 文件文件文件文件 , ,双击 双击双击双击 Align Multiple Sequences protocol. 若提示是否重新打开该若提示是否重新打开该若提示是否重新打开该若提示是否重新打开该 protocol 时时时 时, , ,选择 选择选择选择 yes。 。 点击点击点击点击 Alignment Type 选择选择选择选择 Align Two Profiles. 点击点击点击点击 Input Sequence Alignm
33、ent 选择选择选择选择 P41131_profile. 点击点击点击点击 Input Sequence Set parameter 选择选择选择选择 1G94. 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 11 - 点击点击点击点击 , ,进行运算 进行运算进行运算进行运算 。 。 3.6 查看查看查看查看 profile-profile 比对结果比对结果比对结果比对结果 关闭关闭关闭关闭 除结构叠合外所有的窗口除结构叠合外所有的窗口除结构叠合外所有的窗口除结构叠合外所有的窗口 。 。 计算完成后计算完成后计算完成后计
34、算完成后 , 在在在 在 Jobs Explorer 中中中 中 , 双击双击双击双击 刚完成的计算刚完成的计算刚完成的计算刚完成的计算 , , DS 将将将 将打开 打开打开打开 Report.htm 文件文件文件文件 . 在在在 在 Html Window 中中中 中 , Output Files 部分部分部分部分 , , 双击双击双击双击 P41131_profile-1G94.bsml 打开序列比对结打开序列比对结打开序列比对结打开序列比对结果果果 果 . 在在在 在 Html Window 中中中 中 , Output Files 部分部分部分部分 , , 双击双击双击双击 P411
35、31_profile-Sequence.bsml 打开序列比打开序列比打开序列比打开序列比对结果对结果对结果对结果 . 该序列比对结果为两个 profile(一个为基于 sequence 比对结果的 profile P41131_profile,另一个为基于 structure 比对结果的 profile 1G94)的比对结果 。 4 使用使用使用使用MODELER构建目标序列的构建目标序列的构建目标序列的构建目标序列的3D模型模型模型模型 在本小节 ,我们将使用上小节产生的比对结果构建目标序列 P41131 的 3D 模型 ,并从初始模型集中挑选出 1 个最合理的初始模型 。 4.1 构建模
36、型构建模型构建模型构建模型 在在在 在 Protocols Explorer 中中中 中 , 展开展开展开展开 Protein Modeling 文件文件文件文件 , , 双击双击双击双击 Build Homology Models. 在在在 在 Parameters Explorer 中中中 中 , 点击点击点击点击 Input Sequence Alignment , ,选择 选择选择选择 1G94-P41131_profile. 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 12 - 展开展开展开展开 Input S
37、equence Alignment. 点击点击点击点击 Input Model Sequence, ,选择 选择选择选择 P41131. 点击点击点击点击 Input Template Structures, ,选择所有 选择所有选择所有选择所有 4 个模板结个模板结个模板结个模板结 1G94A, 3DHPA, 1HX0A and 1JAEA. 点击点击点击点击 Optimization Level, ,选择 选择选择选择 low. 将 “Optimization Level”由默认值改为 Low,可以加快计算速度 ,但是产生的模型的精度下降 。 在在在 在 Protocols toolbar
38、 中中中 中 , 点击点击点击点击 运行运行运行运行 , ,等待计算完成 等待计算完成等待计算完成等待计算完成 。 。 计算结束后计算结束后计算结束后计算结束后 , ,双击 双击双击双击 Jobs Explorer 中中中 中刚完成的计算 刚完成的计算刚完成的计算刚完成的计算 打开打开打开打开 Report.htm 文件文件文件文件 4.2 根据根据根据根据 PDF 值挑选最优模型值挑选最优模型值挑选最优模型值挑选最优模型 在该结果窗口中在该结果窗口中在该结果窗口中在该结果窗口中 , ,查看 查看查看查看 summary 部分部分部分部分 。 。 建模过程中 , DS MODELER 首先会提
39、取模板 ( template)的几何特性 ,然后使用 PDF2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 13 - ( probability density function)函数来定义蛋白结构中诸如键长 、键角 、二面角等几何特性 。接着 它会对 PDF 函数施加一定的约束条件 ,并以此来构建 target 的 3D 结构 。所以 PDF 的函数值可以直接反应所构建模型的好坏 。一般 , PDF Total Energy 越小 ,表明模型能更好的满足所提取的同源约束条件 ,模型的可信度越大 。 本教程中 P41131.
40、B99990002 的 PDF Total Energy 分值最低 。 Report.htm 文件文件文件文件 , Output 部分部分部分部分 , ,点击 点击点击点击 P41131.B99990002.dsv 4.3 根据根据根据根据 DOPE 值挑选最优模型值挑选最优模型值挑选最优模型值挑选最优模型 DOPE 是一个基于原子统计势能的程序 ,主要用于模型评估 。它的分数 可以认为是衡量同一分子不同构象可信度的标准 ,能够帮助选择预测结构的最优模型 。分数越低 ,模型认为越可靠。 Report.htm 文件窗口文件窗口文件窗口文件窗口 , , Summary 部分部分部分部分 本教程中
41、P41131.B99990003 的 Dope 分值最低 。 Report.htm 文件文件文件文件 , Output 部分部分部分部分 , ,点击 点击点击点击 P41131.B99990003.dsv 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 14 - 注意 :本教程中 , DOPE score 挑选的最优模型与 PDF Total Energy 挑选的最优模型不一致 。这时 ,可以使用其他的模型评估软件进行进一步的评估分析以选取较合理的初始模型 。当没有其 他模型评估软件可以使用时 ,也可以粗略的选取 PDF T
42、otal Energy 最低的模型作为最合理的初始模型 。 本教程 中选用 PDF Total Energy 最低的初始模型 P41131.B99990002 作为后续模型评估的输入文件 。 5 模型评估模型评估模型评估模型评估 模型构建完成后 ,一般需要对其进行评估 。 DS 为用户提供了多种模型评估方式 。主要包括 : Ramachandran plot 和 Profile-3D。 在使用下列模型评估程序时 ,关闭除 P41131.B99990002 窗口外所有的窗口 。如提示时候保存时 ,选择否 。 5.1 使用使用使用使用 Ramanchandran Plot 评估模型评估模型评估模型
43、评估模型 Ramachandran plot 用于阐述蛋白质或肽立体结构中肽键内 碳原子和羰基碳原子间的键的旋转度 ( psi)对 碳原子和氮原子间的键的旋转度 ( phi), 主要用来指明蛋白质或肽类中氨基酸的允许和不允许的构象 (如下图 )。 通过对已知晶体结构的统计分析 ,人们可确定氨基酸在 Ramachandran plot 中经常出现的区2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 15 - 域。使用该图 ,用户可以确定结构中每个氨基酸的构象是否正确 。 本小节 以 P41131.B99990002.dsv 为例
44、 ,显示如何调用 Ramachandran plot。 Chart 菜单菜单菜单菜单 , 选择选择选择选择 Ramachandran plot 蓝色区域为 “最适区 ”,该区域含有的氨基酸个数越多 ,结构越可信 ;紫色区域为 “允许区 ”;其它区域的点 (红色点 )为 psi-phi 构象不合理的氨基 酸,很可能是建模的错误区 ,需要优化。 5.2 使用使用使用使用 Profile-3D 评估模型评估模型评估模型评估模型 Profile-3D 是 UCLA 的 David Eisenberg 教授开发的一种基于 “穿线 ”( threading)法的模型评估程序 。该方法采用 3D-1D 的打
45、分函数来检测所构建模型与自身氨基酸序列的匹配度关系 。分数越高 ,说明同源模型的可信度越大 。 Protocols Explorer, Protein Modeling 文件夹文件夹文件夹文件夹 , ,双击 双击双击双击 Verify Protein (Profiles-3D). In the Parameters Explorer, 点 击点 击点 击点 击 Input Protein Molecules , , 选 择 选 择选 择选 择 P41131 B99990002:P41131.B99990002 在在在 在 Protocols toolbar 中中中 中 , 点击点击点击点击 运
46、行运行运行运行 , ,等待计算完成 等待计算完成等待计算完成等待计算完成 。 。 Jobs Explorer 中中中 中 , 双击双击双击双击 Verify Protein (Profiles-3D) job 打开打开打开打开 Report.htm 文件文件文件文件 . 关闭关闭关闭关闭 P41131.99990002 窗口窗口窗口窗口 . 提示保存时选择不保存提示保存时选择不保存提示保存时选择不保存提示保存时选择不保存 . 在在在 在 Html 窗口中窗口中窗口中窗口中 , Output Files 部分部分部分部分 ,点击点击点击点击 P41131.B99990002.dsv. 这将打开一
47、个名称为 P4113.B99990002 的新的 Molecule 窗口 。里面的结构用不同宽度的 solid ribbon 显示 ,并根据 Verify score(得分越高 ,结构也好 )着色 。颜色的范围由蓝到白再到红2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 16 - 色。蓝色对应高分区 ,白色为平均分数区域 ,红色为 低分 区。 Ribbon 的宽度则与 Verify score的趋势相反 (结构越差 , ribbon 越宽 )。 在在在 在 Data Table View 中中中 中 , 点击点击点击点击 M
48、olecule tab, ,滚动 滚动滚动滚动 table 至至至 至 the Verify Expected High Score, Verify Expected Low Score, 以及以及以及以及 Verify Score . 如果模型的 Verify Score 高于 Verify Expected High Score,则模型的质量较高 。 Verify Score 越接近 Verify Expected High Score,模型的质量越好 。 点击点击点击点击 AminoAcid tab, ,滚动至 滚动至滚动至滚动至 table 的尾列的尾列的尾列的尾列 Verify Score. 点击点击点击点击 Verify Score 的题标选择整列的题标选择整列的题标选择整列的题标选择整列 . 从从从 从 menu 中选择中选择中选择中选择 Chart | Line Plot. 这将打开一个新的图表 ,图表中每个氨基酸的 score 都显示出来 。 2009 年计算机辅助药物设计和大 分子模拟技术暑期培训班 Discovery Studio Tutorials - 17 - 点击点击点击点击 P41131.B99990002 - Line Plot 窗口使之激活窗口使之激活窗口使之激活窗口