收藏 分享(赏)

蛋白质结构预测的原理与方法.ppt

上传人:精品资料 文档编号:10625969 上传时间:2019-12-10 格式:PPT 页数:77 大小:2.48MB
下载 相关 举报
蛋白质结构预测的原理与方法.ppt_第1页
第1页 / 共77页
蛋白质结构预测的原理与方法.ppt_第2页
第2页 / 共77页
蛋白质结构预测的原理与方法.ppt_第3页
第3页 / 共77页
蛋白质结构预测的原理与方法.ppt_第4页
第4页 / 共77页
蛋白质结构预测的原理与方法.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

1、1,主要内容,6.1 概述 6.2 蛋白质结构分析 6.3 二级结构预测 6.4 三级结构预测,2,http:/www.expasy.org/proteomics,ExPASy,主要分析软件资源,3,6.1 概述,5,一、基本概念,蛋白质结构预测:指从蛋白质的氨基酸序列预测出其三维空间结构。,蛋白质折叠:指蛋白质的氨基酸序列可折叠成具有生物活性的三维空间结构。,第二套遗传密码:蛋白质的氨基酸序列与其三维空间结构间的关系。,6,序列模体(motif):通常指蛋白质序列中相邻或相近的一组具有保守性的残基(或称基序),它与蛋白质分子及其家族的功能有关。,7,二、蛋白质结构数据的获得,圆二色性(cir

2、cular dichroism, CD),描绘了不对称分子的用左右圆偏振光吸收差异谱表示的光学活性。在160-240nm的CD光谱可以快速了解蛋白质的二级结构,因为螺旋,折叠和卷曲产生不同的CD谱。X射线晶体衍射核磁共振光谱(nuclear magnetic resonance spectroscopy, NMR),8,三、蛋白质结构预测要解决的问题,蛋白质结构预测问题“序列-结构-功能 ” 三者之间的关系,.-Gly-Ala-Glu-Phe-.,FUNCTION,9,又称蛋白质侵染因子。朊病毒是一类能侵染动物并在宿主细胞内复制的小分子无免疫性疏水蛋白质。,目前发现的由朊病毒引起的疾病并不多,

3、 主要有:人类中的库鲁病(Kuru病)、克雅氏综合症(CJD)、格斯特曼综合症(GSS)及致死性家族性失眠症(FFI),动物中的水貂脑软化病,羊搔症,马鹿和鹿的慢性消瘦病(萎缩病),猫的海绵状脑病,疯牛病。这些疾病主要是引起神经系统和肌肉组织的损坏。,案例:朊病毒,10,折叠,正常3 致病43,11,致病机理 1982年普鲁辛纳提出了朊病毒致病的“蛋白质构象致病假说”,以后魏斯曼等人对其逐步完善。其要点如下:朊病毒蛋白有两种构象:细胞型(正常型PrPc)和瘙痒型(致病型PrPsc)。两者的主要区别在于其空间构象上的差异。PrPc仅存在a螺旋,而PrPsc有多个折叠存在,后者溶解度低,且抗蛋白酶

4、解;Prpsc可胁迫PrPc转化为PrPsc,实现自我复制,并产生病理效应;基因突变可导致细胞型PrPsc中的螺旋结构不稳定,至一定量时产生自发性转化,片层增加,最终变为PrPsc型,并通过多米诺效应倍增致病。,12,.-Gly-Ala-Glu-Phe-.,结构预测问题,FUNCTION,关键限制因素,13,解决方法,.-Gly-Ala-Glu-Phe-.,FUNCTION,解决方案,14,四、蛋白质预测的一般流程,15,五、影响蛋白质折叠的因素,影响蛋白质结构稳定性的非共价键有:范德华力。偶极相互作用。部分电荷或完整电荷间静电相互作用。氢键。氢键是形成蛋白质中规则二级结构的主要作用力。熵效应

5、。,除了原子间的共价连接以外,蛋白质结构的形成及稳定性在很大程度上依赖于非键相互作用。,16,熵效应:是热力学的一个概念。它是指在一个封闭的并存在能量差异的系统中,虽然系统内总能量保持守衡,但能量却总是不可逆转地由高能区向低能区流动,最终达到能量的分散与平衡的一种状态和趋势。,6.2 蛋白质结构分析,18,一、蛋白质结构分类,蛋白质结构依据不同的层次可以分为四类:1)一级结构(氨基酸序列)2)二级结构(规则结构,如a螺旋、 折叠)3)三级结构(简单蛋白质的三维空间结构,或复 杂蛋白质亚基的三维空间结构)4)四级结构(亚基的组装),19,.-Gly-Ala-Glu-Phe-.,一级结构,二级结构

6、,三级结构,四级结构,20,四级结构(quaternary structure):由多个亚基组成的蛋白质分子的空间结构。,五级结构(quinternary structure):蛋白质与蛋白质、蛋白质与核酸相互作用时的空间位置关系。,21,二、周期性的二级结构,1)螺旋是蛋白质结构中最常见的二级结构,由于在螺旋内部每隔34个氨基酸残基形成氢键,因而本身的稳定性较好。螺旋由于与溶剂的作用或中间有脯氨酸等也会发生弯曲。不同的残基对于螺旋中间部位及N端或C端出现的倾向性不同。 2) 折叠片是由带状的折叠股间形成氢键而构成的,在氨基酸序列上往往是不连续的。几乎所有的折叠片在沿着折叠股的方向均发生右手的

7、扭曲,在折叠股间形成左手的扭曲。某些残基倾向于出现在折叠中。,22,三、非周期性的二级结构,连接规则二级结构间的区域统称为环区(loop或Coil,简写为C),这些环区本身的结构也是遵循一定规律的。 转角是由四个残基构成的,使得蛋白质主链的走向形成180度的回折。转角可以分为几种特定的类型,并具有一定的氨基酸残基倾向性。由三个残基构成的主链的回折称之为转角。反平行的折叠形成的发夹具有特定的结构。 螺旋间的短连接具有特定的结构与堆积。当较大的环区的N端与C端靠近时就形成环。非规则性环区也可以按照其平面性、手性及N端与C端的相对位置进行分类。,23,折叠,折叠,/折叠,+折叠,24,四、超二级结构

8、,二级结构间特定的组合构成超二级结构。 1)螺旋一般以特定的角度相堆积,使得一个螺旋的突出部分及凹槽部分与另外一个螺旋的凹槽部分及突出部分相嵌合。 2)折叠片/折叠片、螺旋/折叠片间的堆积有常出现的特定模式。 折叠片中的折叠股以多种拓扑结构相连接,如希腊钥匙型结构等。平行的折叠股间的连接(特别是单元)总是右手型的。随着已知蛋白质结构的增加,不断有新的超二级结构类型出现。,25,五、蛋白质结构域的折叠模式与蛋白质结构分类数据库,蛋白质结构域(domain): 是蛋白质分子中介于二级结构和三级结构之间的结构层次。在分子量较大的球形蛋白质分子中,一条多肽链可能折叠成两个或多个空间上互相独立的区域,称

9、为结构域。,结构域可以按照二级结构的种类及排列方式进行分类: 主要含有螺旋的/结构; 主要含有折叠片的/结构; 以螺旋和折叠交替出现的/结构; 混和型的结构; 小于100残基的不含有明显规则二级结构的小蛋白。,1 蛋白质结构域的折叠模式,26,2 蛋白质折叠模式的有限性,研究表明,一些序列功能很不同的蛋白质采用类似的结构,这就提示人们蛋白质折叠模式的种类可能是有限的。,当务之急发展快速的能够对蛋白质的折叠类型进行识别的方法。,27,3 蛋白质分类数据库,蛋白质结构分类数据库 对于蛋白质预测具有重要的意义。,两个重要的蛋白质结构分类数据库:1)SCOP数据库2)CATH数据库,28,六、蛋白质的

10、进化,1)同源性的蛋白质(homologous protein)是从一个共同的祖先进化而来的,往往具有相关的功能(例如丝氨酸蛋白酶)并采取相似的三维结构。2)序列的相似性有时可低到20以下,但三维结构在总体上是保守的。3)蛋白质结构的核心在序列上及三维结构上均比表面环区更保守。,同源的蛋白质往往具有相似的三维结构;但具有相似的三维结构的蛋白质序列不一定是同源的。,6.3 二级结构预测,30,蛋白质 序列: 二级结构:,蛋白质二级结构预测是蛋白质结构预测的主要组成部分之一 。,31,一、蛋白质二级结构预测概述,蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。

11、二级结构预测问题是模式分类问题二级结构预测的目标: 判断每一段中心的残基是否处于螺旋、折叠、转角(或其它状态)之一的二级结构态,即三态。,32,基本策略(1) 相似序列相似结构,QLMGERIRARRKKLK,QLMGAERIRARRKKLK,33,二、蛋白质二级结构预测的意义,蛋白质二级结构预测不仅仅可以给出二级结构信息,在实际工作中有广泛的用途。 由蛋白质二级结构统计分析得到的规则可用于全新蛋白质设计或蛋白质突变体的设计。 当序列同源性较低时,二级结构的指认有助于确定蛋白质间结构与功能的关系。 在同源蛋白质模建中,二级结构预测有助于建立正确的序列比对关系。 在基于二级结构片段堆积的三级结构

12、预测中正确的二级结构预测是第一步。 二级结构的预测有助于多维核磁共振中二级结构的指认,同时也有助于晶体结构的解析。,34,三、蛋白质二级结构预测的主要方法,二级结构预测的方法大体分为三代: 第一代是基于单个氨基酸残基统计分析 从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。 第二代预测方法是基于氨基酸片段的统计分析 统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据,35,第一代和第二代预测方法对三态预测的准确率都小于70%,而对折叠预测的准确率仅为28

13、48%。其主要原因是只利用局部信息第三代方法:考虑多条序列的同源进化信息运用长程信息和蛋白质序列的进化信息准确度有了比较大的提高,36,1 ChouFasman方法ChouFasman方法曾经是、现在仍然是最为普遍应用的方法。其基本出发点在于对于蛋白质20种不同的氨基酸残基在不同的二级结构中出现的几率进行统计分析得出在不同二级结构中出现的倾向性。,2 GOR方法GOR(GarnierOsguthorpeRobson)方法基于信息论算法,是所有统计算法中理论基础最好的。,3 最近邻居方法在最近邻居方法(nearest neighbor method)中新测定的序列被归类于与已知的最相近的序列具有

14、相同的二级结构。,37,4 神经网络方法相对而言神经网络方法便于应用,有较高的预测准确度。最大的缺点是没有明确的物理化学意义。 其中PHD方法 是广泛应用的预测方法。,5 基于多重序列比对的二级结构预测基于单个序列的二级结构预测方法的预测准确度相对较低,大约在58左右。而基于多重序列比对的二级结构预测方法PSI-PRED的预测准确度可达到77。,38,四、二级结构预测的准确度,二级结构预测方法针对不同蛋白质所给出的准确度可能会有很大差别。1)单序列的预测准确度在60左右。2)应用多重序列对比信息的二级结构预测准确度在 6585之间。,39,五、二级结构在线预测,许多蛋白质二级结构预测程序可以从

15、因特网上免费下载至本地计算机进行蛋白二级结构预测。另外,还可以进行在线计算:可以通过送Email的方式,也可以在因特网上实时计算。可以进行二级结构在线预测两个网站为: 1PHD算法PredictProtein网站的地址为:http:/www.predictprotein.org/ 2SSPro 4.0(神经网络)http:/scratch.proteomics.ics.uci.edu/,40,PredictProtein http:/www.predictprotein.org/ 可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息 该方法的平均准确率超过72%,最佳

16、残基预测准确率达90%以上。因此,被视为蛋白质二级结构预测的标准。 需要学术邮箱注册,41,PredictProtein提交界面,42,分析方法程序详解,43,跨膜区,非跨膜区,44,45,46,结果发送至邮箱,47,结果直接发送至邮箱,如下:,48,(a)-Type I membrane protein (b)-Type II membrane protein (c)-Multipass transmembrane proteins(多通道跨膜蛋白) (d)-Lipid chain-anchored membrane proteins(链吸附酯膜蛋白) (e)-GPI-anchored me

17、mbrane proteins(GPI吸附膜蛋白)(糖基磷脂酰肌醇),六、蛋白质跨膜区分析,49,螺旋跨膜区主要是由20-30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成。 亲水残基往往出现在疏水残基之间,对功能有重要的作用。 基于亲/疏水量和蛋白质膜区每个氨基酸的统计学分布偏好性量。,蛋白质跨膜区特性,50,跨膜蛋白序列“边界”原则 -Landolt Marticorena et al., 1993,胞外末端Asp(天冬氨酸)、Ser(丝氨酸)和Pro(脯氨酸) 胞外-内分界区域Trp(色氨酸) 跨膜区Leu(亮氨酸)、Ile(异亮氨酸)、Val(缬氨酸)、Met(

18、甲硫氨酸)、Phe(苯丙氨酸)、Trp(色氨酸)、Cys(半胱氨酸)、Ala(丙氨酸)、Pro(脯氨酸)和Gly(甘氨酸) 胞内-外分界区域Tyr(酪氨酸)、Trp(色氨酸)和Phe(苯丙氨酸) 胞内末端Lys(赖氨酸)和Arg(精氨酸),常用蛋白质跨膜区域分析工具,52,TMpred,TMpred工具:http:/www.ch.embnet.org/software/TMPRED_form.html 依靠跨膜蛋白数据库Tmbase 预测跨膜区和跨膜方向,在Expasy网站上有链接:http:/expasy.org/tools/,53,54,主要参数/选项,序列在线提交形式: 直接贴入蛋白序列

19、 填写SwissProt/TrEMBL/EMBL/EST的ID或AC,55,输出结果,包含四个部分 可能的跨膜螺旋区 相关性列表,56,56,跨膜拓扑模型及图示,57,TMHMM,http:/www.cbs.dtu.dk/services/TMHMM/,58,输出结果,6.4 三级结构预测,60,三维结构数据与一维序列数据在量上增长速度严重不协调。,原因:1直接测定法:速度慢2预测法:在方法上,还没有一个方法或程序可 以真正做到所谓的“从头”预测蛋白的三维结构。,61,一、同源蛋白质结构预测,又称同源模型化方法 主要思想:对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构

20、为模板,为未知结构的蛋白质建立结构模型。 依据:任何一对蛋白质,如果两者的序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。,62,同源蛋白质结构预测的方法,1)片段组装法:SWISS-MODEL2)距离几何法:MODELLER,SWISS-MODEL: http:/swissmodel.expasy.org/SWISS-MODEL.html,63,64,65,最后的预测结果,66,模板序列与查询序列的装载,结构的精细比对,分子骨架的形成,侧链形成和优化,加入氢原子、优化回环,能量最小化、结构封装,SWISS-MODE

21、L的工作过程:,67,二、蛋白质折叠类型识别,又称线索化方法 有很多蛋白质具有相似的空间结构,但它们的序列等同部分小于25%,即远程同源。对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。,68,对于一个未知结构的蛋白质(U),如果找到一个已知结构的远程同源蛋白质(T),那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。,U T(远程同源),69,线索化的主要思想:利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。,70,线索化方法一般有5个基本组成部分:(1)已知三维折叠结构的数

22、据库;(2)一种适合于进行序列-结构比对的三维折叠信息的表示方法;(3)一个序列-结构匹配函数,该函数对匹配程度进行打分;(4)建立最优线索的策略,或者是进行序列-结构比对的策略;(5)一种评价序列-结构比对显著性的方法。,71,假设存在有限数目的核心折叠(core folds) 核心折叠实际上是构成蛋白质空间形状的基本模式。建立核心折叠数据库 预测- 建立线索,U序列,与数据库核心折叠比对,取最佳核心折叠,U结构模型,72,http:/www.sbg.bio.ic.ac.uk/phyre/index.cgi,phyre,与已知折叠子比对,73,三、蛋白质结构从头预测,在既没有已知结构的同源蛋

23、白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法,即直接或仅仅根据序列本身来预测其结构。,74,从头预测方法一般由下列3个部分组成:(1)一种蛋白质几何的表示方法由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理。(2)一种势函数及其参数通过对已知结构的蛋白质进行统计分析确定势函数中的各个参数。(3)一种构象空间搜索技术构象空间搜索和势函数的建立是从头预测方法的关键。,75,能量函数和优化需要考虑的相互作用 疏水作用 氢键 二硫桥 静电作用 范德华力 溶剂作用,76,基于势函数或者力场的结构预测方法在实际应用中存在许多问题,主要原因: 我们还没有完全了解究竟是哪些力决定了蛋白质的折叠过程,同时这些力之间又是如何相互作用的。 力场参数不精确,没有对溶剂处理的好方法。 构象搜索过程容易陷入局部能量极小点。 自然折叠的蛋白质结构与一般蛋白质构象之间的能量差比较小。 研究蛋白质折叠的计算量非常大。,77,蛋白质三维结构预测方法比较,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报