1、,分类号注密级王 学位论文基于禁忌搜索的二级结构预测研究(题名和副题名)郝建瑞(作者姓名)指导教师姓名型爱国星!塾握电壬科撞太堂送都(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业名称论文提交日期计算机软件与理论论文答辩日期逝学位授予单位和日期电壬科撞太堂答辩委员会主席评阅人年月日注:注明国际 十进分类法的 类号。飞、一独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本
2、研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:沙一年月叫箔论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:之墨!三日期:加产年月 “日,氟惦“他摘要摘要核糖核苷酸(,)是重要的生物分子,不仅充当遗传载体和传递工具, 还具备催化剪接,加工和修饰前体,调控基因等重要功能。如何发挥上述功能,还具备
3、哪些功能,如何利用功能设计药物,治疗 疾病等问题亟待解决。此外,人 类基因组计划(,)于年完成序列测定,产生海量生物数据,加快功能研究具有重要意义。功能与其特定结构 紧密相联,其 结构分为三个层次:一级结构,二级结构和三级结构。相 对于的一级结构而言,二级结构和三级结构对于功能研究具有较多生物意义。了解的功能机制,需要从研究的具体结构入手。由于分子具有降解速度快,难以结晶等特点,利用射线晶体衍射方法和核磁共振(,)方法,虽然可以精确测定空间结构,但是 费时费力,代价高昂。尤其面对海量生物数据,上述物理 实验方法并不适合采用。目前,二级结构研究是空间结构研究的重要课题,基于计算机仿真的预测方法已
4、成为预测二级结构的重要途径。本论文探讨基于禁忌搜索的二级结构预测问题,论文工作包括:、阐述分子的生物学背景,给出二级结构相关描述;、从算法的设计思想角度,比较分析现有主要的二级结构预测方法,包括比较序列分析方法,动态规划方法和启发式方法,指出上述方法的优点和不足;、给出一个基于禁忌搜索的二级结构预测方法(,)。算法基于禁忌搜索思想,建立茎区相似度度量方法,通过增加、 删除和替换茎区策略构造当前解的邻域和扩充域,设计禁忌表和已 访问区域表及其访问区域半径,避免陷入迂回搜索并搜索未访问区域,采用集中性搜索和扩充性搜索两阶段搜索最小自由能二级结构。仿真实验表明,算法能有效获得最小自由能并预测二级结构
5、。关键词:二 级结构,最小自由能,禁忌搜索算法,厶。幡(),():,【,(),:,;,;(),鲷, ,铆】:,篆;以目录第一章绪论。研究背景及意义国内外研究现状论文工作与安排第二章序列与结构 的生物学背景一的生物学知识的组成一的种类及功能的生物结构的二级结构定义的二级结构二级结构图形表示二级结构数学定义本章小结第三章二级结构预测 模型。比较序列分析法共变 模型随机上下文无关语法模型动态规划算法最大碱基配对算法 最小自由能算法启发式算法遗传 算法。基于排列的进化算法本章小结第四章基于禁忌搜索的二级结构预测禁忌搜索算法目录的禁忌搜索算法的禁忌搜索算法模型结构模型转化中的问题的禁忌搜索算法实现的技术
6、问题的禁忌搜索算法实现算法流程描述集中性搜索实现步骤扩充性搜索 实现步骤算法终止条件算法算法开发平台算法编程实现的禁忌搜索算法实验集中性搜索实验对比参数设置两种算法实验对比本章小结第五章总结与展望总结展望致谢参考文献攻读硕士学位期间研究成果,第一章绪论研究背景及意义第一章绪论世纪 初,遗传学、生物化学、微生物学等生物学分支的研究迅猛发展,在生物信息科学领域内不断取得重大突破和进展。遗传学方面从年孟德尔定律的再发现以后与细胞学相结合而建立的基因论,到年代,基因论已经成为了生物个体水平和群体水平上研究性状遗传的指导理论。生物化学方面自年提取出离体的“酿酶”以后,对生物体内新陈代谢的研究进展迅速,到
7、年代生物体内分解代谢途径已经基本阐明。微生物学方面在世纪年代阐明了病毒与噬菌体的本质。遗传学、生物化学和微生物学三个分支学科各自的发展和相互交叉,为分子生物学的出 现奠定了基础。第二次世界大战之后,生物学领域的研究渗透到了其它领域的研究,如神经生物学中对大脑的研究对医学领域的研究产生了巨大影响。可以说世纪的生物学研究为农学,医学,产业革命的发展起到了巨大的推动力作用。随着分子生物学的不断研究发现,核糖核苷酸(,)在生命活动中所发挥的功能倍受生物学家们的关注。研究发现在细胞中不仅充当着遗传信息的载体和传递工具,还具有催化的剪接,加工和修饰前体,调控基因表达等重要功能。具有催化作用的称为核酶,它的
8、发现使得人们对进 一步研究的探求欲望加深。干涉可以用于功能基因 组学研究,也可用于克服转基因生物的基因沉默现象,使外源基因在遗传改良生物中能更好地表达,还用于基因治疗,抑制有害基因的表达等。经过多年的研究,生物学家们已经在细胞的不同部位发现了许多功能各不相同的,如核糖体、信使、转运、核内不均一和微等。的研究逐渐取得了与和蛋白质同等重要的地位。年,人类基因组计划(,)由诺贝尔生理医学奖得主提出,在美国国立卫生研究所、美国能源部的亿美元资助下,美国、英国、法国、德国、日本和中国六国共同参与下,从年开始,于年全部完成序列测定, 输出了海量的生物数据。基于在生命科学中所发挥的重要功能,加之随着的完成而
9、产生海量生物数据,有关的 结构与功能电子科技大学硕士学位论文的研究愈加成为了人们关注的热点。的各种功能是与其特定的结构紧密相联的,如核糖体的结构保证了核糖体功能的发挥,核内小的结构保证了其可以参与核内不均一的剪切和转运的功能等。深入探索的复杂功能和特性及其在细胞中的运作机制,需要从的具体结构入手。因此, 结构与功能的研究已经成为当今生物科学领域的一个非常重要的课题【,。的结构分 为三个层 次:一级结构,即核苷酸链;二级结构,即碱基,互补配对 ,核苷酸 链自我折叠形成的结构;空间结构,即二级结构中的结构单元间通过氢键长程关联或发生其他相互作用折叠形成的结构。研究中发现,结构上的保守性要大于其在序
10、列上的保守性。目前,关于真实结构的了解还相当贫乏,这对于复 杂功能的研究形成了很大的阻碍,因此加快研究空间结构 这一问题已经引起了研究者们越来越多的重视。目前,的空间结构可以通过射线晶体衍射和核磁共振(,)等物理实验方法精确地测定出,但是由于分子具有降解速度快,难以结 晶等特点,并且面对的是海量的生物序列,因此使用物理实验方法,花费成本高且时间长,显然不适合直接用于测定的空间结构。因为的空间结构的形成是通过对二级结构自身折叠进而产生空间结构中所有碱基相互作用的事实,另外二 级结构只需要考虑序列在二维平面上的排布,所以借助的二级结构的计算机模拟仿真预测是研究空间结构的一个捷径,这也是目前结 构的
11、主要 预测方法。国内外研究现状有关二级结构预测 已经经历了多年,随着生物信息科学的不断 发展,对二级结 构的研究也在随之不断完善和深入。研究现状最明显的表现为:一是研究者们对已有预测模型的不断改进或者是新的预测模型的提出,使结构预测精度进一步提高;二是 结构预测由不包含假结的预测到目前含有假结的结构预测【,】,使预测的结构更加趋向完整化。国内外研究预测结 构的方法主要分为两种:其一是用实验的方法,如射线晶体衍射方法和核磁共振方法等,该方式对空间结构预测准确,但其耗时且花费高昂;其二是借助数学理论和计算机模拟,通过软件预测二级结构,再在二级结构的基 础上进一步研究的空间结构。目前,有关空间第一章
12、绪论结构的研究更多地是基于软件预测二级结构来实现,其应用具有一定的可靠性。如教授提出的最小自由能算法,其通过相关的软件 实现预测二级结构预测,对于小于个碱基的序列预测可靠性高,并且己应用到了实际的药物研制中。有关二级结构的主流算法可必分成如下几类:比较序列分析法,动态规划法【, 组合优化法,启发式算法等。比较序列分析法是在已知的二级结构的序列的数据库中,首先,搜索与被预测序列具有类 似结构的同源性的已知的序列,然后,根据互补碱基共变联配的规则,对被预测的序列和搜索到的相似的序列建立通用的二级结构共变模型,最后,通 过对共变模型的不断训练使之达到预定的状态,从而将得到的最优的共变模型视为被预测序
13、列的二级结构。比较序列分析法,在二级结 构预测模型中,是预测准确性仅次于物理实验方法的一种传统方法。但是对于小样本的序列或者在序列来源差异很大的情况下,比较序列分析法的比较结果其可靠性将降低,因为联配的结果直接影响着预测结果。和首次设计出一个用于预级结构的算法最大碱基配对算法【 】,它是一种动态规划算法。该算法使用了两个矩阵:一个是(,歹),表示由弭口,之间任意间隔形成的碱基对的最大数目;另一种是(,),表示碱基和,相配对情况的矩 阵。利用上述两个矩阵,通过回溯过程推导出序列中含有的最大碱基对数目的配对碱基。这个含有最大碱基对数目的结构被视为预测的真实结构。通 过计算序列的碱基对数目来预测 结
14、构, 该方法未能考虑各结构的相互作用所带来的结构稳定性的影响,所以算法简单但却可靠性不高。和提出了最小自由能算法【,】,是动态规划法中经典的算法之一。最小自由能算法认为在一定温度下,分子通过自身折叠螺旋堆积后调整到某种热力学平衡,使自身达到最小自由能,从而形成最稳定的状态,此时的二级结构被认为是的真 实二级结构【 】。该 算法采用动态规划的思想和能量规则来计算二级结构的最小自由能,其针对各种不同的基本结构单元并具体到结构中不同的碱基组成,通过实验测得具体结构单元的自由能参数表,计算所要预测的序列自由能的全局最小值。 该算法多用于预,于个核苷酸长度的序列的结构。随着序列长度的增加,其可靠性随之下
15、降。最小自由能思想被许多预测模型广泛采用。螺旋区堆积法【】是一种 组合优化法,其 实现过程是给定一条序列,首先列出其中所有可能的由连续碱基配对构成的茎区,然后根据中心极限定理,用气电子科技大学硕士学位论文随机试验的方法估计出每一茎区的出现概率,然后再每一步迭代当中挑选茎区列表中概率较大自由能最小的那一个加到当前结构上并消除产生冲突的情况,直到再也没有茎区可加了,则当前结构就作为序列的最终二级结构。遗传算法是一种启发式算法,它是根据生物进化中优胜劣汰的思想,首先把各种可行解或非可行解进行某种形式的编码,构成一个“生物群体”,然后基于某个适应度函数, 对这些解进行选择、交叉、突 变等一系列遗传操作
16、, 产生一个进化了的新群体,这样一代一代进化下去最终达到我们所希望得到的优化解。在该算法的基础上,提出了 许多新的改善方法,如将模拟退火算法与其结合来预测二级结构【。神经网络算法,】可以看成一个 连续动力系统,有相 应的能量函数。随着系统的运动,其存 储的能量随时间的增长而衰减,直至趋于能量极小的平衡状态。神经网络算法首先构造出它的一个适当的能量函数,然后根据能量函数求解出相应的动力系统方程,最后用数值计算方法求出动力系统方程的平衡点,而平衡点就是所求的最优解。相应于二级结构即是考虑它的各种可能的茎区组合,通过能量函数求得其平衡点。上述简单描述了二 级结构预测研究史上较为经典的几种方法,此外还
17、有模拟退火算法, 动态权重匹配模型【 】等。随着生物信息科学的不断发展,有关二级结构预测也面临着许多问题:()已有的算法大都局限于长度较短的序列;()预测方法运行效率不高,时间复杂度和空间 复杂度较高;()大部分算法都没有预测二 级结构中的假结结构。生物科学的研究发展证实,中的假结结构在生命活动中起着重要作用。综上所述,有关二级结构预测的进一步研究重点将是如何提高算法的运行效率并使之可以预测更长的序列。论文工作与安排本论文介绍了有关的生物学知识, 总结了二 级结构预测方法的研究现状及进展,提出了基于禁忌搜索算法的二级结构预测的新思路,并详细介绍了二 级结构的禁忌搜索模型。本论文共分为五章,具体
18、安排如下:本章,从结构研究的背景出发,阐述了结构预测的重要研究意义及其必要性。同时介绍了预测算法的优缺点, 进而第二章,介绍 了有关的种类及其功能,然后描的结构图形表示法,最后数学定义。该 章内容为后第三章,介绍 当前主要的一些二级结构预测方法,并分析了这些方法存在的一些问题。首先 简单介绍了比较序列分析方法中的共变模型和随机上下文无关语法模型,其次介绍了动态规划算法中的最大碱基配对算法和最小自由能算法,并对两个算法的实现过程做了描述。最后详细介绍了启发式算法中的遗传算法和基于排列的进化算法的思想和实现步骤。第四章,研究了二级结构的禁忌搜索模型。我们首先阐述了禁忌搜索算法的基本思想,然后给出了
19、的禁忌搜索模型,实现技术及算法流程的描述。最后对算法中的参数取值作了讨论,并与第三章中介绍的基于排列的进化算法进行了实验对比分析, 实验结果证明了该算法的有效性。第五章,对全文工作 进行了总结,指出了基于禁忌搜索的结构预测模型的优点和不足,并对今后的研究工作进行了展望。电子科技大学硕士学位论文第二章序列与结构的生物学背景核糖核苷酸(,姒)从最初的发现到最终其命名的提出,时间经历了多年。早在年,瑞士生物化学家米歇尔从脓细胞的细胞核中提取出一种富含磷的酸性物质,并将其命名为“核素”。年,德国生物化学家奥尔特曼恩建立并完善了从酵母和动物组织中制备这种“核素的方法,并将其命名为“核酸。年,德国化学和生
20、理学家科塞尔成功地识别了组成核酸的四种碱基。年,德国化学家阿斯科里又发现了以一定比例存在于核酸中的另一个重要碱基尿嘧啶,为区分和打下了基础。年,俄裔美国生物化学家莱文等学者就已经准确地鉴定出存在于酵母核酸中的碳水化合物是一种戊糖(五碳糖),将其命名为“核糖”。年,莱文及其同事琼斯成功地鉴定了胸腺核酸中的碳水化合物,确定它是一个戊糖,但缺少核糖的一个氧原子,被称为一脱氧核糖【】。近年来,随着生物科学领域不断取得重大的突破和进展,在生命科学中的重要地位日益显著。 对于生物的遗传现象,是人类早已认识到的。世纪年代,遗传学的奠基人奥地利人孟德尔(,)从生物的性状出发,发现了遗传学的两个基本规律基因的分
21、离定律和基因的自由组合定律。到世纪中叶,科学家们已经从分子水平上来探讨遗传的本质。年,科学家克里克提出了遗传信息在细胞内生物大分子间转移的基本法则中心法则,其阐 明了在生命活动中核酸与蛋白质的分工和联系,核酸的功能是贮存和转移遗传信息,指 导和控制蛋白质的合成,蛋白质的主要功能是作为生物体的结构成分和调节新陈代谢活动,使遗传信息得到表达。如图为中心法则图解,我们可以清楚地理解在遗传学上所发挥的重要作用。(基因)墨(,一。一竺兰 蛋白质(性状)(基因)声弓蛋白质(性状)逆转录、一。图中心法则图解第二章序列与结构世纪 年代,遗传学家们提出了生物的性状是由 遗传因子控制的观点,世纪 初期,遗传学家们
22、通过果蝇的遗传实验,认识到基因存在于染色体上,并且在染色体上呈直线排列,从而得出了染色体是基因载体的结论。世纪年代以后,随着分子遗传学的发展,尤其是在沃森和克里克提出双螺旋结构模型以后,人们才真正认识了基因的本质,即基因是具有遗传效应的片段。基因的复制是通过分子的复制来完成的。基因不仅可以通过复制把遗传信息传递给下一代,还 可以使遗传信息以一定的方式反映到蛋白质的分子结构上来,从而使后代表现出与亲代相似的性状,遗传学上把这一过程叫做基因的表达。基因的表达是通过控制蛋白 质的合成来实现的。主要存在于细胞核中,蛋白质的合成是在细胞质里进行的,基因的表达需要的参与。在细胞核中先把的遗传 信息传递给
23、,此 过程称为转录 ,然后,进入细胞质,在蛋白质合成中起模板作用,此过程称为翻译。 转录是以的一条链为模板,按照碱基互补配对原则,合成的过程。翻译是以信使为模板,合成具有一定氨基酸顺序的蛋白质的过程。分子就把遗传信息传递到上,这种叫做信使。信使在细胞核中合成以后,从核孔进入到细胞质中,与核糖体结合起来。核糖体是细胞内利用氨基酸合成蛋白质的场所。转运将氨基酸运送到核糖体中的信使上去。当转运运 载着一个氨基酸进入到核糖体以后,就以信使为模板,按照碱基互补配对原则,把转运来的氨基酸放在相应的位置上,直到信使上出现终止密码子为止,最终合成一个具有一定氨基酸顺序的有一定功能的蛋白质分子。遗传学上把信使上
24、决定一个氨基酸的三个相邻的碱基称为一个密码子。在基因表达的过程中,是细胞中重要的遗传物质,它按照序列来制造蛋白质,充当着遗传信息的载体和传递工具。最新研究显示,人 类和其他哺乳动物的基因组中包含有一种源自伯尔纳病毒插入的,这种病毒能够在细胞核内进行复制和 转录。据美国 每日科学网站报道,日本和美国科学家最新研究发现,人 类的遗传物质来自一种病毒。不仅充当着 遗传信息的 载体和传递工具,还具有催化的剪接,加工和修饰前体,调控基因表达等重要功能。随着研究人员对的不断研究,的多种功能也不断被发现。年, 伦敦帝国学院和法国及的科学家们共同发现了一种分子,被称为,该分子可以抑制胰岛素分泌,从而帮助治疗糖
25、尿病。此项发现并发表在了生物化学杂志()上。年,在基因和发育杂志网络版上,美国怀 特海德研究所和新加坡国立大学的研究人员发表报告称,他们发现电子科技大学硕士学位论文了可破坏肿瘤抑制基因活性的一小段(即小)。此项研究结果将对癌症诊断和治疗产生重要影响。经过多年的研究,生物学家们已经发现了许多功能各不相同的,它们对于人类的生产生活产生着很大的影响。的生物学知识的组成在世纪早期,生物学家们化学降解分析从细胞核内提取出的一类物质,认识到核苷酸这种高分子质量物质是由很多个单独的核酸单位构成。核苷酸分为四种:鸟嘌呤核苷酸、腺嘌呤核苷酸、胞 嘧啶核苷酸和胸腺嘧啶核苷酸。核苷酸单元具体是由磷酸和核苷组成,其中
26、核苷是由一个核糖和不同种类的含氮杂环类的碱基构成。因此,一个磷酸基团、一个核糖和一个碱基构成一个核苷酸单元,再由重复的核苷酸单元构成核酸聚合体。碱基分子是一个平面的方向杂环,分为两类:嘌呤碱和嘧啶碱。在中,它含有的碱基分子为腺嘌呤(,)、鸟嘌呤(,)、胞嘧啶(,)、和尿嘧啶(,),这四种碱基的分子结构如图。 日一一久人。 国一凰冈忑 田人。,图的四种碱基分子,通常序列中间的磷酸常常省略不写,序列可以简写为如下形式:糖环图、结 构组成电子科技大学硕士学位论文冈鼬,朝细瞎:溆同 。豉图碱基对间的氢键构成中的碱基分为四种:腺 嘌呤(,)、 鸟嘌呤(,)、胞嘧啶(,)、和胸腺嘧啶(,)。对于双螺旋结构
27、的,其中碱基对中的两个碱基分别来自于的两条 单链,通过氢键相互连接并保持着双螺旋的结构的稳 定性。与结构相似,但在组成成份上略有不同。中的胸腺嘧啶在中被尿嘧啶代替。的胸腺嘧啶和的尿嘧啶的 结构如图。中的尿嘧啶碱基在戊糖的位置多了一个 额外的羟基,少了一个甲基,但不影响其同腺嘌呤的配对结合,而且由于少了甲基团的影响使得在空间中弯曲折叠 时比具有更大的柔性。游离的 羟基则使得较能产 生更多的修 饰组分,使除了能产生,磷酸二酯键外, 还可跟核苷酸形成,磷酸二酯键,从而 链甚至还可以具有分支和套索结构。如第一类内含子的自剪接就是其端以 ,磷酸键与其下游的一高度保守的腺嘌呤相连,形成一个套索结构再被切断
28、释放。此外,由于羟基的存在使得主链构象角因羟基(或其上的修饰基团)的立体效应而不同于的主链构象角,也导致了呈现出复 杂多样的折叠结构。的复杂多样的折叠结构决定了其功能的多样性【”】。甲基一胸腺嘧啶糖环图胸腺嘧啶和尿嘧啶尿嘧啶糖环羟 基?是核蛋白体的组成成分,形象地称其为核蛋白体;称为小核,在向转变过程的剪接中起十分重要的作用。、信使(,)在细胞核中把的遗传 信息传递给的 过 程称为转录。在真核生物中,将最初转录生成的称 为不均一核(,),是蛋白质的氨基酸序列的合成模板。是的未成熟前体。两者之间的差别主要有两点:一是中分为两类片段,一类片段就是内含子,这些内含子将不会出现在中,而另一类片段将保留
29、于中,称这类片段为外显子。经过剪接,去掉了内含子片段,余下的片段重新 连接在一起转变为;二是的末端有一个甲基化的 鸟苷酸,称为“帽结构”,在末端有一段长达个核苷酸左右的聚腺苷酸,称为“尾结构”。从末端到味端的结 构依次是帽子结构,末端非编码区,决定多肽氨基酸序列的编码区,末端非 编码区,和多聚腺苷酸尾巴。多聚腺苷酸尾一般由数十个至一百几十个腺苷酸连接而成。随着存在时间的延续,这段聚尾巴慢慢变短。因此,目前认为这种味端结构可能与增加转录活性以及使趋于相对稳定有关。在原核生物中的不存在这种首、尾结构【。、转运(,)在蛋白质合成中起着重要的作用,其可携带一种氨基酸,将其 转运到核蛋白体上,供蛋白质合
30、成使用。对于每一种氨基酸,能 够携带它参与蛋白质的合成的不止一种。除了作为氨基酸的转运工具之外,在细菌中能把携带的氨基酸直接交给细胞壁中的蛋白质分子或其它成熟的蛋白质分子。可以参与基因表达的控制,参与多种类型的生化调节以及核酸合成的调控。是细胞内分子量最小的一类核酸,由一核苷酸构成。中含有。的稀有碱基,如:甲基化的嘌呤,双 氢尿嘧啶、次黄 嘌呤等等。此外,内还电子科技大学硕士学位论文含有一些稀有核苷,如:胸腺嘧啶核糖核苷,假尿嘧啶核苷等。分子内的核苷酸通过碱基互补配对形成多处局部双螺旋结构,未成双螺旋的区带构成所谓的环。三 级结构的维 系主要是依赖核苷酸之间形成的各种氢键。各种分子的核苷酸序列和长度相差较大,但其三级结构均相似,提示这种空间结构与的功能有密切关系【。、核蛋白体(,)核蛋白体是细胞内含量最多的, 约占总量的以上,是蛋白质合成机器秦核蛋白体的组成成分。核糖体蛋(,)有数十种,大多是分子量不大的多肽类