收藏 分享(赏)

基于神经网络与遗传算法的蛋白质结构的研究汇总.docx

上传人:HR专家 文档编号:12109333 上传时间:2021-09-09 格式:DOCX 页数:85 大小:911.30KB
下载 相关 举报
基于神经网络与遗传算法的蛋白质结构的研究汇总.docx_第1页
第1页 / 共85页
基于神经网络与遗传算法的蛋白质结构的研究汇总.docx_第2页
第2页 / 共85页
基于神经网络与遗传算法的蛋白质结构的研究汇总.docx_第3页
第3页 / 共85页
基于神经网络与遗传算法的蛋白质结构的研究汇总.docx_第4页
第4页 / 共85页
基于神经网络与遗传算法的蛋白质结构的研究汇总.docx_第5页
第5页 / 共85页
点击查看更多>>
资源描述

1、华中科技大学硕士学位论文基于神经网络与遗传算法的蛋白质结构的研究姓名:王华伟申请学位级别:硕士专业:系统工程指导教师:许进2003.4.8华中科技大学硕士学位论文本文研究了神经网络预测蛋白质二级结构和用遗传算法来进行蛋白质折叠模拟 的各种模型,并且在前人的基础上对这些算法进行了一定改进。首先,对于本文的立论、研究目的和研究意义进行了论述。综述了蛋白质结构 预测问题的研究概况和用神经网络和遗传算法进行蛋白质结构预测的各种研究模型 和方法。(蛋白质折叠问题是当今生物研究的重要课题,通过对已知空间结构的蛋白质分 子的研究和分析,人们发现尽管一条多肽链可能采取的构象数目是相当大的,但是 在蛋白质分子中

2、,由二级结构组装而形成一定的空间结构的方式却是有限的。因此, 蛋白质的二级结构预测就成为解决由蛋白质的一级序列预测其空间结构这一问题的 最关键的步骤。人们已经用很多方法探索过这个问题。用神经网络预测蛋白质二级 结构是在1988年提出的,对预测蛋白质二级结构的三种状态:螺旋、折叠和卷曲预测总的正确率与之前的其他各种方法比较,正确率是比较高,。一本文将对原有的利用神经网络预测蛋白质二级结构的方法进行改进,考虑距离对结构的影响,从神经网络的输入层着手,添加反映残基和预测中心位置距离的单 元。I(早在50年代Anfmsen等人就已用实验证明:某些蛋白质在体外的一定条件下解 聚失活后可以自动折叠而恢复其

3、原有高级结构与活性。这就意味着蛋白质折叠的全 部信息蕴藏在蛋白质的一级结构中。蛋白质一级结构决定其高级结构是用各种方法 来进行蛋白质结构预测的理论基础。L/二本文也对蛋白质二维折叠模拟作了探讨。在利用Monte-Carl。方法和单纯遗传算法对二维晶格模型作模拟计算的基础上,研究了适用于蛋白质二维折叠模拟的混合 遗传算法。而且为了改进蛋白质折叠模拟,采取一种新的基于遗传算法的系统交叉 构象搜索方法。关键词:蛋白质二级结构,蛋白质折叠;神经网络$ 卷遗传算法, - - - , 一r _AbstractA research is made in this dissertation about som

4、e models of neural network for protein secondary structure prediction and genetic algorithms fbr protein folding simulations, and improved some models base on the others research.In the first, the theme, aim and meaning of the research are clarified. A survey is presented on protein structure predic

5、tion problem and all the method about protein structure prediction using neural network and genetic algorithms.Protein folding problem is an important problem in biology research today through researching and analyzing the protein molecule that has known the space structure, people found that despit

6、e the large number of possible conformations of a amino acid sequence, but in a protein molecule, the means of assembling and forming the space structure from secondary structure are limited. Then protein secondary structure prediction becomes tlie most important step of predicting the space conform

7、ation from protein molecule. People have researched this problem in many ways. In 1988, neural network have been employed fbr protein secondary structure prediction. For predicting the protein secondary structure such as helix, sheet and coil it is found that the neural network is superior to other

8、methods.In this dissertation, the traditional neural network for protein secondary structure prediction is improved. Considering the influence of distance, commencing with input layer of neural network, a unit is added to reflect the distance between residues and the predicting centerIn the 1950s, i

9、t was proved by Anfinsen that some polymerized and inactivity protein in some condition could be folded automatically and restore the original structure and activity It means that all the information of protein folding consist in the amino acid sequence. The amino acid sequence determining its senio

10、r structure is theoretical basis of various methods applying to protein structure prediction.A research on the protein two-dimensional folding is also made in this dissertation-Based on the method of Monte-Carlo and simple genetic algorithms for protein folding on two-dimensional lattice model, a me

11、thod of hybrid genetic algorithms for protein folding is researched, lb improve the protein folding simulation, I investigated a new search strategy in combination with the simple genetic algorithms, which is named systematic crossover.Keywords: Protein secondary structure Protein folding Neural net

12、workHybrid genetic algorithm Two-dimension lattice model Search strategyin1绪论摘要 本章将给出本文立论的来源、目的和意义,介绍蛋白质结构预测问题的研究概况,特别是基于神经网络与遗传算法的蛋白质结构预测的研究进展,并介绍 全文研究的内容和结构安排。1.1蛋白质结构研究的意义20世纪生命科学的巨大进展在于基本完成了从对生命现象的外观描述逐步进入 到认识生命现象本质的转变,这是人类认识自然以及认识自我的一大飞跃。这一转 变是数理科学广泛而深入地渗入生物学的结果,其标志是50年代初运用X射线衍射 技术探明了生命遗传物质脱氧核糖

13、核酸(DNA)分子的空间结构,即双螺旋结构。DNA双螺旋结构的发现阐明了遗传的本质,揭示了生物体世代相传现象的分子基础,从 现是经典生物学转变成近代生物学的里程碑。尽管自然界的生物物种千千万万,生 命现象繁杂纷飞,在分子水平研究生命,使我们认识到各种生命现象的基本原理却 是高度一致的!从最简单的单细胞生物到最高等的人类,它们最基本最重要的组成 物质都是蛋白质和核酸。核酸是生物体遗传信息的携带者,所有生物体能世代相传, 就是依靠核酸分子可以精确复制的性质。蛋白质则是生命活动的主要承担者。所有 的生命活动,呼吸、运动、消化、甚至感知、思维和学习,无一例外是依靠蛋白质 来完成的阳。而开创了在分子水平

14、上认识生命现象的新学科分子生物学”司。分子生物学的出二十世纪生物学领域最重要的成就之一,是继DNA双螺旋结构的发现总结出分子生物学的中心法则,揭示生命遗传信息传递的方向和途径。近半个世纪以来对阐 明中心法则有关问题有杰出贡献而获得诺贝尔奖的学者先后多达34位。分子生物学 的中心法则简单表达如下(图L1):分子生物学的中心法则中,DNA和核糖核酸 (RNA)的复制、DNA转录成RNA、RNA逆转录成DNA以及以信使RNA为模板 翻译成多肽链的过程和机制基本上已经阐明。现在的问题是,这一过程是怎样得 到调节控制以适应生物体在不同发育阶段和不同环境下的需要的。这不但是细胞发育分化的基础,也和生物体与

15、各种环境因素的相互作用有密切关系。另一个问题是, 蛋白质分子除有一定的氨基酸顺序外,还必须有一定的空间结构才能体现其生物功 能。因此,在核糖体上合成出来具有一定氨基酸顺序排列的多肽链,也就是新生肽, 怎样生成有一定空间结构的蛋白质,即新生肽链的折叠问题,也是属于分子生物学 中心法则范畴但目前还没有解决的问题。当前,通过遗传工程或蛋白工程得到的多 肽链不能自发折叠卷曲生成有一定空间结构并具有完整生物功能的蛋白质。蛋白质 的三维空间结构异常,就会产生各种“折叠病”。疯牛病、老年性痴呆症、囊性纤维 病变、家族性高胆固醇症、家族性淀粉样蛋白症、某些肿瘤、白内障等等都是“折 叠病”。这种三维空间结构异常

16、是由于致病蛋白质分子通过分子间作用感染正常蛋白 质而造成的。致病蛋白质分子与正常蛋白质分子的构成完全相同,只是空间结构不 同。基因突变造成蛋白质分子中仅仅一个氨基酸残基的变化就会引起疾病,即所谓“分子病”,如地中海镰刀状红血球贫血症就是因为血红蛋白分子中第六位的谷氨酸 突变成了颉氨酸。现在发现蛋白质分子的氨基酸序列没有改变,只是其结构或者说 构象有所改变。因此,研究蛋白质的折叠问题不仅具有重大的科学意义,而且在医 学和在生物工程领域具有极大的应用价值。除此之外,在生物工程上也有极大的应转录反转录翻译用价值26-叫基因工程和蛋白工程已经逐渐发展成为产值以数十亿美元计的大产业, 进入21世纪后,还

17、将会有更大的发展。但是当前经常遇到的困难,是在简单的微生 物细胞内引入异体DNA后所合成的多肽链往往不能正确折叠成为有生物活性的蛋 白质而形成不溶解的包含体或被降解。这一“瓶颈”问题的彻底解决有待于对新生肽 链折叠更多的认识。DNA蛋白质图1.1遗传信息的中心法则L2关于蛋白质结构预测问题的研究概况蛋白质结构预测主要问题是:如何根据蛋白质的氨基酸组成和顺序预测蛋白质 华中科技大学硕士学位论文的折叠类型,如何根据一个多肽链的氨基酸顺序预测其二级结构,不同的二级结构 又组成特定的三级结构,亚基又组装成完整分子。蛋白质结构预测的理论预测方法 可分为三大类,比较建模法,反向折叠法和从头预测法。比较建模

18、法主要是同源结构预测。反向折叠法是把未知蛋白质的序列和已知的这种结构进行匹配,找出一种 或几种匹配最好的结构作为未知蛋白质的预测结构,它的局限性是假定的蛋白质折 叠类型是有限的。从头预测法是根据蛋白质的氨基酸序列来预测蛋白质的二级结构 和高级结构。从头预测法又分为以下几种:二级结构预测、超二级结构预测、结构 类型的预测、三级结构的预测等值3尽管一条多肽链的能采取的构象的数目是相当大的,但在蛋白质分子中,由二 级结构组装而形成一定的空间结构的方式却是有限的,因此蛋白质的二级结构预测 就成为解决蛋白质的一级序列预测其空间结构这一问题的最关键的步骤。二级结构 预测成功率可以达到80%的话,就可以基本

19、准确的预测一个蛋白质分子的三维结构。以前几乎所有这些预测蛋白质三级结构的方法都假定蛋白质的二级结构主要是由邻 近残基间的短程相互作用所决定的,然后通过对一些已知空间结构的蛋白质分子进 行分析,归纳,制定出一套预测规则,并根据这些规则对其他一致或未知结构的蛋 白质分子的二级结构进行预测,这些都可以归类于已有知识的预测方法。有三种常 用的二级结构预测的方法,Chou-Fasman方法,GOR方法和Lim方法。ChouFasman 方法是统计学的方法,统计出20种氨基酸出现在a螺旋,力折叠,以及无规卷曲三 种构象中的频率然后计算出每种氨基酸出现在上述三种构象中的构象参数外,某个 残基的构象参数定义为

20、凡毛)/(乃(x=a螺旋,尸折叠,无视卷曲)其中/) 为整个数据库中构象x出现的频率,八%)位残基i中x出现的频率。构象参数值得 大小反映了该种残基出现在某一构象倾向性的大小,Chou和Fasman制定出一套a螺 旋的成核延伸和终止规则,用于对一个已知序列的多肽链进行二级结构预测。此方 法的优点是构象参数的物理意义明确,方法中二级结构的成核,延伸和中止规则可 能正确的反映了真实蛋白质中二级结构形成的过程。此方法简便,但是成功率仅为50%,是最低的预测方法。GOR方法是以信息论为基础的,本质仍属于统计学的方 法。这种方法不仅考虑了被预测位置本身氨基酸残基种类的影响,而且考虑了相邻 残基种类对该位

21、置构象的影响。假定相邻片断所含的信息可以近似表示为若干个直 接信息量的简单相加,根据这一公式和相应的直接信息量表,就可以对一条肽链中 任意位置残基的构象进行预测。预测的成功率可以达到63%0这种方法的优点是物 理意义清楚明确,数学上比较严格,很容易写出相应的计算机程序,但是表达式复 杂。Lim方法是物理化学的方法。它考虑了氨基酸残基的物理和化学性质,如亲水 性,疏水性,带电性以及体积大小,同时考虑了邻近残基间的相互作用,从而制定 出一套预测规则。Lim方法是这三种方法中预测成功率最高的,对无规则卷曲的预 测过多,对B折叠预测不足。对于序列长度小于50个氨基酸残基的多肽链,其预测 准确率高达73

22、%。经常使用的二级结构预测方法还有Cohen方法,模式识别,神经 网络方法川叫超二级结构预测是比二级结构的结构层次更高的结构预测,它实际上己经是局 域的空间结构预测问题。蛋白质结构类型的预测是指预测未知蛋白质的结构属于全a蛋白质(主要由螺旋组成的蛋白质),全月类蛋白质(主要由折叠组成的蛋白质),还是a/2类(由a螺旋和折叠交替排列组成的蛋白质),或a+夕类(由分开的a螺旋和折叠组成,其中折叠一般为平行结构)。结构类型预测出可以让人们了解蛋白质结构折叠的 大致情况外,对二级结构的预测也很有帮助【。蛋白质的三维结构预测主要分为两个大的方向:一是根据二级结构预测的结果以及蛋白质结构类型和折叠类型预测

23、的结果,考虑到结构间的立体化学性质,亲疏 水性质,氢键以及静电相互作用,把可信度较高的二级结构进一步组装,搭建出最 后的蛋白质空间结构。二是不依赖二级结构预测的结果,直接预测三维结构的方法。最原始的方法是借用成功的应用小分子构象研究的分子动力学和分子热力学方法。对整个构象空间进行搜索,然后找出能量最低的构象作为最后的预测构象。现在三 维结构预测已经转变为如何有效的搜索构象空间和如何区分天然结构和错误结构的 问题。在构象搜索空间方面,现在主要的发展有两个方向:一是把常规的构象搜索 技术和根据蛋白质结构特点相结合的算法。如系统搜索算法,Monto-Carlo方法,遗 传算法,模拟退火方法,晶格模型

24、,限制空间搜索。二是对蛋白质结构进行合理的 简化 口9一28。5华中科技大学硕士学位论文1.3 基于神经网络与遗传算法的蛋白质二级结构的研究进展目前,有关蛋白质结构的数据可由一些数据库提供,这些数据包括X射线及 NMR测试结果。在结构数据的基础上,采用人工神经网络可对蛋白质的模式或特征进行预测。先驱工作是Qian和Scjnowski对二级结构的预测,其后的研究就很快开 展起来了。用神经网络预测蛋白质二级结构的方法主要是根据构成蛋白质的氨基酸 种类及其排列顺序来判断蛋白质的二级结构。神经网络预测蛋白质二级结构的典型 结构为三层,即输入层、隐蔽层和输出层。运用这类神经网结构,80年代后期其预 测准

25、确率仅达64%。后来人们试图改善神经网络的性能,如除了氨基酸的组成外, 同时引入其它物理化学性质,如疏水性等。还有人运用二神经网络,即第一神经网 络的输出作为第二神经网络的输入以期改进所得结果收3%过去几年中,用遗传算法进行蛋白质结构预测也作了许多研究工作。尽管如此, 由于这个方法可以应用于不同层次的蛋白质结构预测,而且,从不同评估函数的效 率来区别搜索性质也存在一定困难,因此,建立实用的遗传算法的进展开始变得缓 慢起来未】。CASP(critical assessment of structure prediction)是上一个大型蛋白质结构预测评比活动(http:predictioncec

26、ter.llnl.eov/),它代表着蛋白质结构预测领域的世界前沿水 平。1994年由马里兰大学生物技术研究所的John Moult等倡议组织了第一次CASP, 此后每两年举办一次。组织者将这一活动作为一种大规模的实验,旨在对当时的蛋 白质结构预测技术水平有一个深入客观的了解,掌握当前的方法能够做什么,存在 的困难以及将来的发展方向。CASP主要包括三部分内容:目标蛋白质序列的收集, 来自结构测定者提供的届时将完成X射线晶体结构或NMR结构测定的蛋白质,或 者是己经测定但还没有公布的蛋白质。由于目标蛋白质的结构是未知的,所以实验 是全盲预测。蛋白质结构预测模型的收集。对于蛋白质结构预测领域的工

27、作者来 说。这是一次预测技术竞赛,它对所有人开放,世界各地的参赛者可以从互联网上 注册,获取目标蛋白质序列和提交预测模型。1994年的CASP1有35个参赛组提交 了 135个预测模型,发展到2000年的CASP4已经上升到160个参赛组提交了 11000 多个预测模型。蛋白质结构预测模型及方法的评估,组织会议公布和讨论结果。 由于在CASP中所提交的很多预测模型,尤其是比较好的预测模型很大程度上依赖 华中科技大学硕士学位论文于专家知识的参与,而要处理那些迅速增长的基因组序列,要求快速而且自动化的 预测方法,所以 Fischer (http:www.cs.bgu.ac.il/dfscher/C

28、AFASP2)等组织了 CAFASP (critical assessment of fully automated structure prediction),对完全自动化的蛋白质结 构预测方法进行评价,CAFASP2已经成为CASP4的一个组成部分四】。1.4 本文研究内容介绍本文的主要目的是利用一些智能化的优化方法来研究蛋白质的二级结构预测。研究蛋白质的折叠问题不仅具有重大的科学意义,而且在医学和在生物工程领域具 有极大的应用价值。本文在前人的基础上,对用人工神经网络、遗传算法预测蛋白 质二级结构的算法进行了研究。首先,在第二章,我们研究了蛋白质,和蛋白质的 二级结构,介绍了人工神经网络

29、和遗传算法的基本概念,工作原理,和实施步骤。对人工神经网络和遗传算法有了比较深入的了解。然后在第三章,我们在前人所作 的工作的基础上,对常规的人工神经网络模型进行了改进,考虑了蛋白质二级结构 预测的时候其相邻残基的影响作用,然后用这种方法对已知的蛋白质结构数据库中 的一些结构数据进行了预测。在第四章,我们对遗传算法在蛋白质二级结构预测中 的应用进行了研究。最后一章是全文的总结,总结了本文中的人工神经网络算法和 遗传算法在蛋白质二级结构预测中的成功率,并且对这些算法在应用在蛋白质结构 预测中进行了展望。6华中科技大学硕士学位论文2蛋白质结构与蛋白质结构预测2.1蛋白质结构蛋白质是一种生物大分子,

30、是生命活动的主要承担者,一切生命活动都与蛋白 质有关。有机界中蛋白质种类数在10210数量级。尽管如此,从细菌到人类的所 有物种的蛋白质主要由20种常见氨基酸组成。它们都有一个中心a-/原子(Q), ,与一个氢原子(H), 一个氨基(NH.、一个瘦基(COOH)和一个被称为侧 链的R基团相连。20种氨基酸的差别在于与相连的侧链基团我的不同。图2.1氮基酸分子结构在蛋白质分子中,一个氨基酸的a-蝮基与另一个氨基酸的a-氨基缩合脱去一分 子水而形成酰氨键(也成肽键)。多个氨基酸由肽键相连形成多肽链,它是一个没有 分支的链。多肽链中由一个氨基,一个a-碳原子以及一个瘦基(C =。)的重复单 位构成主

31、链,也成为骨架;与相连的R基团称为侧链;主链中从氨基的氮原子(N) 到埃基的碳原子(C)的一个单位成为残基。多肽链的构造单位两端不同,因此, 多肽链有方向,一般按N为起始端,向C端延伸。多肽链的氨基酸序列是从氨基端 残基开始的。蛋白质中氨基酸残基的排列次序成为蛋白质的一级结构,它由带有遗 传信息的RNA序列的三联密码决定。肽链中从一个a-碳原子到相邻a-碳原子之间 的结构成为肽单位。a-碳原子与银基之间形成纯碎的单键,可以自由转动,用”表 示。a-碳原子与氮原子间也是可以自由转动的单键,用伊表示。如果蛋白质中每个华中科技大学 硕士学 位论文RR2卜卜| | U0 I,JHK -CHCO OH

32、+H HN CH80K二 坨N 一3一CONH-pH-COOH图2.2肽键的形成H2N CHcoNH CH-CO-NH CHCO- NH CH-CO-NH- CH- COOH,基末段基末常留2.3多肽链结构氨基酸残基的“、3角已知,多肽链的构象就完全确定。在本文中,我们表示20种 氨基酸的方法是通过简写符号表示的。下表中,列出了 20种氨基酸的简写符号。表1氨基酸的简写符号名称三字母 游单?母胞名称m母 湾单?母 涛(alarire)AlaAOeucme)LeuL(agiwie)AigRbsK(aaragre)AsnN38 (mefticnine)MaM天冬氨酸apertcxid)AspDha

33、afarire)PheF半肤氨酸(cysteire)CPioP(gjutarine)GhQ(serine)SerSMJ (gjutanicacid)QuE另差酸(threonine)HrTttW(Gfcre)GtyG(tryffcjhan)lipW组氨酸(hstidre)(&HS88QK (tyrosine)立Y(fiohuone)leI燧酸(voire)MdV2.1.1蛋白质的二级结构蛋白质是在水溶液的环境中行使其生物功能,为减小其疏水侧链与水介质的相 互作用,蛋白质形成空间结构必须遵循的重要原则是:将疏水侧挂埋入分子内部, 将亲水侧链暴露在表面。自然界在进化过程中,选择的策略是在分子内部形

34、成二级华中科技大学硕士学位论文一 _ L 15%,夕力15%,并且多数(多于60%)折登链平行 排列。华中科技大学硕上学位论文2.1.3 蛋白质的三级结构和结构域在肽链局部的肽段形成二级结构以及它们之间进一步相互作用成为超二级结构 后仍有一些肽段中的单键在不断的运动旋转,台联中的各个部分,包括已经相对稳 定的超二级结构以及还未键合的部分,继续相互作用,使整个肽段的内能进一步降 低,分子变得更为稳定。由二级结构向三级结构过渡的过程中,目前认为有一种成 为熔球态的中间状态。在熔球态中,一些二级结构的构象单元已形成一定方式的立 体结构,但是和天然的构象还不尽相同,经过适当的调整后,才转变成为具有生物

35、 功能的立体结构。蛋白质结构就过渡到了更高的层次,三级结构。三级结构可以定 义为,蛋白质的肽链中所由肽键和残基间的相对位置,这些相对的位置可以用肽键 的两面角和一些原子间的距离定量的加以描述。稳定的三级结构主要是依靠各种共 价键和疏水作用,二硫健对蛋白质的稳定和三级结构的形成也起到相当重要的作用。 在蛋白质分子结构中,几个或多个超二级结构在组合成复杂超二级结构之后,常常 与一些二级结构进一步组合,形成紧密的球形结构,称之为结构域。结构域是由二 级结构单元。螺旋,0折叠,无规卷曲和超二级结构的不同组合而成的高级结构。 结构域是蛋白质整体结构中具有相对独立的区域,是蛋白质形式生物功能的基本单 位。对大分子量的多个结构域的球状蛋白质而言,整个蛋白质的三级结构是几个结 构域空间排列组合的结果,小分子量的单个结构域的球状蛋白质的三级结构也就是 结构域的三级结构。目前将结构域分为6种不同类型:a型蛋白,是以a螺旋这种 二级结构为主,有的甚至只含有a螺旋:尸型蛋白,有相当部分只含有夕折叠,或者其中夕折变的含量远远多于a螺旋(夕折叠15%, a螺旋10%); a与6分离型 蛋白(a+),同时含有夕折叠和a螺旋两种二级结构构想单元(尸折叠15%, a 螺旋10%),但是这两者构象单元分别聚集和分布在不同的区域;a与小相间型蛋 白(a/夕),同时含有折便和a螺旋

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报