收藏 分享(赏)

基于pdb的转录因子结合位点的预测毕业设计论文生物医学工程.doc

上传人:cjc2202537 文档编号:1527125 上传时间:2018-07-25 格式:DOC 页数:57 大小:3.18MB
下载 相关 举报
基于pdb的转录因子结合位点的预测毕业设计论文生物医学工程.doc_第1页
第1页 / 共57页
基于pdb的转录因子结合位点的预测毕业设计论文生物医学工程.doc_第2页
第2页 / 共57页
基于pdb的转录因子结合位点的预测毕业设计论文生物医学工程.doc_第3页
第3页 / 共57页
基于pdb的转录因子结合位点的预测毕业设计论文生物医学工程.doc_第4页
第4页 / 共57页
基于pdb的转录因子结合位点的预测毕业设计论文生物医学工程.doc_第5页
第5页 / 共57页
点击查看更多>>
资源描述

1、南京邮电大学毕 业 设 计 ( 论 文 )题 目 基于 PDB 的转录因子结合位点的预测专 业 生物医学工程毕业设计(论文)原创性声明本人郑重声明:所提交的毕业设计(论文),是本人在导师指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容外,本毕业设计(论文)不包含任何其他个人或集体已经发表或撰写过的作品成果。对本研究做出过重要贡献的个人和集体,均已在文中以明确方式标明并表示了谢意。论文作者签名:日期: 年 月 日摘 要mRNA 转录起始调控是调控的基本控制点,其实质是转录因子结合相应的调控元件,影响了 RNA 聚合酶的活性,从而影响了基因的转录水平。本文从蛋白-核酸复合物的结构数据出

2、发,利用复合物作用力计算软件得出复合物中可能存在的氨基酸侧链同核酸之间的作用对。统计复合物集合中氨基酸侧链-碱基作用对的使用情况,计算出使用频率。把频率差异转化成数量参数生成打分矩阵,再结合转录因子同 DNA 的结合模式,用于结合位点的预测。通过序列比对可以得出同家族中核酸序列部分也具有一定的相似性,初步得出结合模式,通过验证该结合模式下的打分值排名均非常靠前,但用于结合位点的预测具有相当大的局限性。最后在上述研究的基础上,构建了转录因子结合位点预测平台。关键词:基因调控;蛋白-核酸复合物;转录因子;结合位点AbstractmRNA transcription regulation is th

3、e basic step in gene regulation. Its essential is that transcription factors(TF) bind to elements to affect the RNA polymerases activeness. From the 3-D structural data of protein-DNA complexes, NUCPLOT software computes all the interaction between amino-acids side trains and DNA. This paper makes t

4、he present frequency of 20*4 kinds of amino acid-base interactions in each set. The difference of each sets present frequency is observed. So the quantity parameter is used to represent the preference of amino acid-base pairs in a protein-DNA complex data set. The parameter forms the scoring matrix,

5、 with the binding mode of TF to DNA, the potential binding sits of TF are predicted.Through the alignment approach we can learn that the nucleic acid sequences also have a certain similarity in the same family. So we can get the preliminary binding mode.By verifying we can find that the value of the

6、 binding mode is in very front rank.But we still cant use this binding mode to predict the binding sites.Based on this papers research results, a platform is created to predict the potential DNA binding site of TF.Key words: gene regulation;protein-DNA complex;transcription factor ;binding site目 录第一

7、章 绪论 .11.1 基因研究 11.2 基因表达调控原理 11.2.1 基因表达 11.2.2 基因调控 21.3 生物信息学及其在调控元件预测中的运用 21.3.1 生物信息学 .21.3.2 调控元件预测 31.4 课题研究内容 5第二章 氨基酸-碱基相互作用的研究 62.1 蛋白-核酸的空间结构 .62.1.1 脱氧核糖核酸(DNA)的空间结构 .62.1.2 蛋白质的空间结构 .72.1.3 蛋白与核酸结合 .82.2 蛋白-核酸复合物中作用力计算 102.2.1 蛋白-核酸复合物数据来源 102.2.2 NUCPLOT 简介 122.2.3 NUCPLOT 的安装 132.2.4

8、蛋白-核酸复合物数据分类 142.3 氨基酸-碱基作用对使用分析 16第三章 利用结构数据进行结合位点预测 .223.1 打分矩阵 .223.1.1 打分矩阵的生成 223.1.2 检验打分矩阵 253.2 预测转录因子的结合位点 273.2.1 预测 zif268 类蛋白因子的结合位点 283.2.2 Clustalx 简介 .303.2.3 预测 CAP 转录因子的结合位点 32第四章 结合模式和蛋白结合序列分析 .364.1 蛋白结合序列分析 364.2 结合模式 38第五章 基于结构数据的转录因子结合位点预测软件的实现 405.1 基本任务 405.2 软件设计说明 .415.3 数据

9、安排 415.4 软件各部分功能详解 .42结束语 47工作总结 .47毕设收获 .47致 谢 48参考文献 49附录 50南京邮电大学 2013 届本科生毕业设计(论文)1第一章 绪论1.1 基因研究对基因的深入研究是自上世纪以来生物科学最重要的研究成果,它奠定了分子生物学快速发展的基础。基因是遗传信息的物理和功能单位,因此基因研究对揭示生命的奥秘具有重大意义。自 2003 年 4 月 14 日国际人类基因组测序组宣布提前 2 年成功绘制人类基因组序列图起,人类进入后基因组时代,开始了“后基因组计划”的研究。所谓“后基因组计划”就是对基因功能的研究,即所谓的“功能基因组学”。基因功能的体现取

10、决于其结构和表达调控状况。基因表达的调控就是把这些基因结构变换成多种多样基因功能的操作者。毋庸置疑,基因表达调控的研究对重要生命现象的阐明、解释细胞行为和疾病的发病机理等研究都具有重要意义。生物体内存在着一整套复杂而有序的基因表达调控体系。基因表达的调控可在多级水平上进行,但 mRNA 转录起始调控是调控的基本控制点,也是最重要的一环。本课题就属于基因转录起始调控的研究范畴。1.2 基因表达调控原理1.2.1 基 因 表 达基因表达(gene expression)是指储存遗传信息的基因经过一系列步骤表现出其生物功能的整个过程。典型的基因表达是基因经过转录、翻译,产生有生物活性的蛋白质的过程。

11、以最简单的形式,基因表达可以总结为分子生物学的中心法则(Central dogma),如图 1-1。基因表达存在多种阶段,包括基因的准备、转录、RNA 加工、RNA 转运、RNA 去处、蛋白合成、蛋白修饰、蛋白定位等。图 1-1 中心法则基因组(genome)是指含有一个生物体生存、发育、活动和繁殖所需要的全部遗传信息的整套核酸。但生物基因组的遗传信息并不是同时全部都表达出来的。生物个体的各种组织细胞一般都有相同的染色体数目,每个细胞含的 DNA量基本相近。生殖细胞和体细胞都含有个体发育、生存和繁殖的全部遗传信息。南京邮电大学 2013 届本科生毕业设计(论文)2但这些遗传信息的表达是受到严格

12、调控的,通常各组织细胞只合成其自身结构和功能所需要的蛋白质。不同组织细胞中不仅表达的基因数量不相同,而且基因表达的强度和种类也各不相同。从上所述,不难看出:生物的基因表达不是杂乱无章的,而是受着严密、精确调控的,我们已经可以认识到,不仅生命的遗传信息是生物生存所必需的,而且遗传信息的表达调控也是生命本质所在。1.2.2 基 因 调 控基因调控(gene regulation)是指细胞用来控制各基因产物产出量的机制。基因调控可以在复制、扩增、基因激活、转录、转录后、翻译和翻译后等多级水平上行,但实际上,mRNA 转录起始是基因表达调控的基本控制点,也是最主要的控制点。因为这是表达的最初阶段,可以

13、避免那些不需要的转录所造成的资源浪费。转录起始调控的实质是 DNA蛋白质/蛋白质蛋白质间的相互作用对 RNA聚合酶活性的影响。核酸链上的顺式作用元件与反式作用蛋白因子相互作用而调控基因表达。因而,对于一个特定的转录因子而言,找到其结合位点,也就是受其调控的调控元件具有重要的意义。同时,对于一个基因来说,能找到相关的调控元件,对于研究该基因的功能也具有重要的意义。1.3 生物信息学及其在调控元件预测中的运用1.3.1 生 物 信 息 学1995 年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学(Bioinformatics)定义:生物信息学是一门交叉科学,它包含了生物

14、信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。生物信息学主要包括以下几个主要研究领域 1: 序列比对(Alignment)。 结构比对。南京邮电大学 2013 届本科生毕业设计(论文)3 蛋白质结构预测,包括 2 级和 3 级结构预测。 计算机辅助基因识别(仅指蛋白质编码基因)。 非编码区分析和 DNA 语言研究,是最重要的课题之一。 分子进化和比较基因组学,是最重要的课题之一。 序列重叠群(Contigs)装配。 遗传密码的起源。 基于结构的药物设计。1.3.2 调 控 元 件 预 测在基因表达

15、调控研究中,识别调控元件是关键的一步。随着人类基因组计划的进行,大量的各种数据被存储在各种生物数据库中。系统分析非编码序列所需要的实验工作量已超过了研究者的能力,因而迫切地需要借助生物信息学这个强有力的信息处理工具,研究识别调控元件的方法,再用预测得到的可能调控元件来指导实验研究 2。下面,我们从算法和研究数据两个方面出发做个介绍。目前,预测调控元件的方法有很多。从算法上看,有模式驱动算法(pattern-driven algorithms)、序列驱动算法( sequence-driven algorithms)等。 模式驱动算法: 由于蛋白因子结合 DNA 开启了转录,因而最初的识别方法采用

16、了这种简单的模式驱动算法。算法的具体步骤是:先用一批真实的结合位点来构造一个特征定义(characteristic definition)、模式(representation)或轮廓(profile),然后用得到的特征来识别结合位点,找到的结合位点可能不止一个,最后按照某些原则把这些识别的结合位点组装起来。 序列驱动算法(Sequence-driven algorithms)这个方法要处理的是一批包含结合位点的序列,但结合位点的位置和序列信息都不知道。功能相似的调控区域中,功能结合位点在相对顺序上经常是保守的;相反非功能结合位点是随机出现的。这种算法是基于这个事实来构建的。如果这些序列共享某些

17、功能特性,那通过序列比较分析能提取出他们的共同特征。包含结合位点的序列可以来自试验方法,例如通过南京邮电大学 2013 届本科生毕业设计(论文)4DNA 阵列(DNA-arrays)技术得到的一组共表达基因;还可以来自比较基因组,因为不同物种之间的基因调控模式经常是保守的,因而通过各物种之间的序列比对可以识别调控序列。 统计分析中,判别分析是一种标准的统计模式识别技术,它根据已知类别(两类以上)的事物的性质(表明观察量特征的变量值),建立函数式,利用已建立的函数式对未知类别的新事物进行判断并将之归入已知的类别的分析方法。Michael Q Zhang19曾利用这种方法来预测核心启动子。 人工神

18、经网络(Artificial Neural Network,简称 ANN)是一个用大量的简单处理单元经广泛并行互连所构成的人工网络,用于模拟人脑神经系统的结构和功能,它具有自学习、自组织、自适应、联想、模糊推理等方面的能力。S. Knudsen20利用神经网络来分类一个序列是否属于调控序列集合。因为 ANN 适合于非线性识别过程,所以可以用来处理大量的退化结合位点。利用遗传算法对 ANN 权重进行优化,可以得到最好的识别效果。这种方法只能判断一条序列是否是推定的调控元件,但无法判断调控元件所在的具体位置。 聚类分析就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事

19、物具有高度的相似性。在生物体中,一个明显正确的信号如果放到前后关系错误的基因组序列中,就不具有任何生物意义上的重要性。相反,如果把一个高度异常的调控元件放到同其他调控元件关联很强的位置上,那或许它就具有了生物功能。功能结合位点通常都是以类的方式出现的,例如启动子和增强子。因而可以利用这个方法搜索聚类的潜在结合位点。L.Pickert 21等人用二维模糊聚类分析方法来分析结合位点聚类。如果从研究的生物数据角度出发,又可分为基于基因组序列、基于结构数据和基于基因表达数据的研究 3。随着基因表达调控研究的进行,产生越来越多的结合位点序列、包含结合位点的调控区域序列和共调控表达序列等各种序列信息,利用

20、一些算法可以从中寻找调控元件的预测方法。上面介绍的各种算法都可以应用在这种基因序列信息分析中。这些方法比较直接,但也有相当的局限性,其准确性依赖于所给序列信息的质量。而且由于转录因子经常结合多个目标位点、并以协作的方式调控多条基因,因而结合位点预测是一个相当复杂的问题。南京邮电大学 2013 届本科生毕业设计(论文)5X 射线结晶学等研究物质微观结构技术的发展促使大量蛋白-核酸复合物的三维结构数据的产生。转录因子结合调控元件的过程中形成了蛋白-核酸复合物,通过对这些复合物的三维结构数据进行分析,就可以更好地理解蛋白同核酸结合的立体化学规则、理解因子如何识别特异目标序列。这些研究结果可以用来预测

21、因子的结合位点研究中。Harrison 4等人最先对 DNA 结合蛋白进行结构分类,分成不同家族,类似的分类也可在 SCOP5和 CATH6数据库中得到。这种分类简化了不同结合方法间的比较,也强调了蛋白-核酸复合物几何学图形上的差异,还发现 螺旋同 DNA 主沟间的作用占了半数以上蛋白家族的主要结合模式。研究发现沿 螺旋的每个氨基酸位置同 DNA 碱基间的作用随家族的不同而不同7,8 。另外,有些研究者在分子水平上研究了单个氨基酸-碱基间的作用,看是否存在对某些氨基酸-碱基作用对的使用偏好 9。建立在类似这些对结构研究的基础上,可以进行转录因子结合位点预测。但这种方法也存在着局限性,因为存在着

22、很多其他的必需考虑的因素。1.4 课题研究内容上个小节中介绍了基因表达调控的生物信息学研究方法,本课题从蛋白核酸复合物结构数据角度出发,通过分析氨基酸-碱基作用对,探索转录因子结合位点的预测方法。 本文选取 PDB 数据库中的所有蛋白-核酸复合物,通过作用力计算软件求出每个复合物中可能存在的氢键。对有计算结果的复合物进行分类,然后统计氨基酸-碱基作用对的使用情况。再计算出反映每种氨基酸-碱基对使用偏向性的打分矩阵,并对打分矩阵的有效性进行验证。转录因子通过一定的结合模式同 DNA 发生作用,最后尝试利用结合模式和打分矩阵来预测某种转录因子在基因上游调控区域内的可能结合位点的,以 zif268

23、类锌指蛋白和 CAP 蛋白为例。结果可以证明这种方法在一定程度上可以用来进行转录因子结合位点预测。南京邮电大学 2013 届本科生毕业设计(论文)6第二章 氨基酸-碱基相互作用的研究2.1 蛋白-核酸的空间结构2.1.1 脱 氧 核 糖 核 酸 ( DNA) 的 空 间 结 构脱氧核糖核酸 Deoxyribonucleic Acid(DNA)是一种分子量很大、能自行复制的双链分子,存在于一切活細胞内,是携带遗传信息的重要物质。其基本单位是脱氧核苷酸。D-2 脱氧核糖和碱基缩合形成脱氧核糖核苷,然后脱氧核糖核苷中的戊糖被磷酸酯化形成脱氧核苷酸。在所有的 DNA 分子中,磷酸和脱氧核糖是永远不变的

24、,而含氮碱基却是可变的。主要有 4 中,即:腺嘌呤adenine(A)、鸟嘌呤 guanine(G)、胞嘧啶 cytosine(C)、胸腺嘧啶 thymine(T)。脱氧核苷酸之间以去氧核糖磷酸二酯键共价连接而形成脱氧核糖核苷酸链,两条互补的脱氧核糖核苷酸链互相缠绕,形成一条 DNA 分子。见图 2-1。DNA 不仅有严格的化学组成,还有特殊的空间结构,它主要以有规则的双螺旋(double helix)形式存在。 DNA 分子由两条互相平行的脱氧核苷酸长链盘绕而成。脱氧核糖合磷酸交替连接,排在外测,构成螺旋的主链(back bone),碱基排列在内侧,因而受外界环境影响较小。两条链上的碱基通过

25、氢键相结合,形成碱基对,它的组成有一定的规律。这就是嘌呤与嘧啶配对,且腺嘌呤(A)只能与胸腺嘧啶(T)配对,鸟嘌呤(G)只能与胞嘧啶(C)配对。碱基之间的这种一一对应的关系叫碱基互补配对原则。由于碱基可以任何顺序排列,构成了 DNA 分子的多样性。每个 DNA 分子所具有的特定的碱基排列顺序构成了 DNA 分子的特异性。图 2-1 DNA 双链的分子示意图南京邮电大学 2013 届本科生毕业设计(论文)7由于碱基间的相互作用使得螺旋的表面并不是光滑的,而是有较宽的大沟(major groove)合较窄的小沟(minor groove)相间隔,这有利于序列特异的蛋白质与 DNA 间的相互作用。碱

26、基分子中处于大沟和小沟表面的分子如图 2-2 所示。W1 指外测(outer)主沟位置,包括 A 的 N7 原子和 G 的 N7 原子。W2指中心(central)主沟位置,包括 T 的 O4 原子,G 的 O6 原子,A 的 N6 原子和C 的 N4 原子。S1 指外测(outer)小沟位置,包括 T 的 O2 原子,C 的 O2 原子,A 的 N3 原子和 G 的 N3 原子。S2 指中心(central)小沟位置,包括 G 的 N2 原子。图 2-2 大、小沟中 DNA 位置图示2.1.2 蛋 白 质 的 空 间 结 构蛋白质是由一条或多条肽链组成的生物大分子,每一条多肽链是由一系列氨基

27、酸残基通过肽键一个一个连接而成的。见图 2-3。氨基酸(Amino Acids)是蛋白质的结构单体,具有 H2N-CHR-COOH 的普通结构的两性分子。每一个氨基酸都有一个中心的四价碳原子,它具有四个配位基团,其中三个(氨基、羧基和氢原子)是不变的,形成多肽链的(main chain)。第四个基团被成为残余基团(residual group)或侧链(side chain)。图 2-3 氨基酸 和 肽链示意图天然存在于蛋白质中的氨基酸共有 20 种。氨基酸可根据其侧链的物理化学性质归为不同的类别。一些完全由碳氢基团组成,是疏水的;另一些是极性的,包含酰氨基团或羧基,可以形成氢键;其他的包含带电

28、荷残基,可形成盐桥。南京邮电大学 2013 届本科生毕业设计(论文)8各种蛋白质分子都有特定的空间结构,即构象(conformation)。在天然蛋白质中观察到结构组织的几个不同水平。一级结构(primary structure)就是指蛋白质分子中多肽链的数目,多肽链之间的连接方式和连接部位,多肽链中氨基酸的数目、种类和顺序等。二级结构(secondary structure)是指蛋白质分子中的肽链向单一方向卷曲而形成的有周期性重复的主体结构,如 螺旋与 折叠。两个以上的二级结构往往聚集在一起形成更大更复杂的结构,可以被称为超二级结构(supersecondary structure)。他们可

29、能会在与其他胞内组分的相互作用中起到特定的作用。三级结构(tertiary structure)指多肽链的整体三维构型稳定了能量上最适合的折叠构象。结构域(domain)是蛋白质三级结构的最小单位,可能被认为是独立或准独立的功能单位。四级结构(quaternary structure)指多亚基蛋白质中多肽链亚基的排列。图示见图 2-4。图 2-4 蛋白质分子的构象示意图A:纤维状蛋白质(示二级结构)B:球状蛋白质(示三级结构)C:蛋白质四聚体(示四级结构)2.1.3 蛋 白 与 核 酸 结 合蛋白同核酸的相互作用特别重要,因为他们控制一些非常基本的生命过程,这些过程包括 DNA 复制,重组,D

30、NA 的修复,转录等。尽管蛋白核酸的相互作用在细胞中的功能多样,但他们的功能主要可分为四类:结构和包装作用、运输和定位作用、代谢和重排作用、基因表达作用。同核酸结合的蛋白可根据其底物的特殊性分为三大类:非特异性结合蛋白,序列特异性结合单位、结合非正常结构的蛋白。大部分核酸结合蛋白在一个内部结合位点以定位方式相互作南京邮电大学 2013 届本科生毕业设计(论文)9用。常常涉及用作识别因子的蛋白中的特定的二级结构,并往往根据包含这些因子组件的结构,将核酸结合蛋白分成不同的家族。Luscombe 10等人先利用人眼视觉,根据复合物中蛋白部分的相似性把复合物分成了 8 个 group,再进一步利用 S

31、SAP 结构比对软件比对复合物中的蛋白部分,根据分值,又分成了 54个 family。同一个 family 中的复合物中的蛋白有很高的相似性,同 DNA 作用的模式也很相似。图 2-5 给出了 2 个例子:Zipper-type group 中的 Leucine zipper family 和 Zinc-coordinating group 中的 -zinc finger family。图 2-5 同一家族中的复合物示例在分子水平上,核酸蛋白直接作用有四种途径,就是蛋白侧链同碱基的作用,蛋白主链同碱基的作用,蛋白侧链同磷酸骨架的作用,蛋白主链同磷酸骨架的作用。在基因表达调控的转录起始过程中,转

32、录因子结合调控元件是一个蛋白特异识别核酸的过程,而这个特异性相互作用的主要形式是蛋白侧链同碱基间的相互作用。许多序列特异性识别蛋白同 DNA 的复合物的结构已经被解析,大部分蛋白识别发生在闭合双链的前后。总体上,相互作用可归为两种形式:直接解读(direct readout)和非直接解读。直接解读涉及在大沟或小沟处蛋白和碱基之间的相互作用。非直接解读涉及蛋白和糖、磷酸骨架之间的相互作用。在这种情况下,由于一些序列造成的整个 DNA 的特殊构象,蛋白可以识别这些序列。通过直接解读的序列特异性识别涉及蛋白和碱基之间键的形成。这表明DNA 碱基中有一种隐含在键模式中的分子信号。这种信号可以通过研究在

33、大沟和小沟处的化学基团加以确定,在这些位置,碱基暴露在溶液中。大沟处,成南京邮电大学 2013 届本科生毕业设计(论文)10键基团模式对于每个碱基对是唯一的,因而可以在大沟进行明确的序列解读。而在小沟处,成键模式是简并的,仅存在 A/T 和 G/C 之间的区别。在大沟处,某些键的位置也是不确定的,因此大、小沟中都可识别变化的序列。在蛋白结合 DNA 的相互作用中,存在着许多不用类型的非共价相互作用:氢键、范德华力、疏水作用、球形吸引和排斥德静电作用以及特殊的静电键。蛋白和核酸磷酸骨架德相互作用常常涉及带负电德磷酸残基和带正电德氨基酸残基(如 Lys、Arg)之间的静电相互作用。此外,在磷酸骨架

34、和蛋白侧链之间也可形成氢键。在蛋白同核酸碱基之间的相互连接识别中,不管是开放性地(同单链)还是通过大沟、小沟(双链分子),主要是碱基和氨基酸残基侧链之间形成的氢键介导。这中接触可能是一一对应的,但是几个侧链可以同一个碱基对连接,长的侧链还可以横跨好几个碱基对。序列特异性的核酸结合蛋白倾向于利用其埋藏表面,例如一个插入大沟的 螺旋,是它们之间的接触最大化。蛋白残基和 DNA 碱基之间的相互作用对于序列特异性识别是非常重要的,但不是所有的接触都是特异的。例如,在糖皮质激素受体和 DNA 的相互作用时,就产生非特异性识别而形成的广泛的碱基和蛋白侧链的接触。上面我们提到,转录因子结合调控元件是一个蛋白

35、特异识别核酸的过程。随着分子和结构方面研究的发展,加深了人们对蛋白特异识别核酸的立体化学规则的理解,认识到这种特异性在结构上应满足:蛋白与 DNA 结合位点的结构互补;相互作用的蛋白质侧链基团和 DNA 碱基基团间的相容性。因而,我们可以从蛋白同核酸结合形成的蛋白-核酸复合物出发,寻找能反映这种相容性的度量。上文提到,蛋白侧链同核酸碱基之间的相互连接识别中,主要是碱基和氨基酸残基侧链之间形成的氢键介导。这样,我们可以尝试统计蛋白-核酸复合物中的碱基和氨基酸侧链之间的氢键,看是否存在氨基酸-碱基作用对的使用偏向性,用这种偏向性来反映这种相容性。2.2 蛋白-核酸复合物中作用力计算2.2.1 蛋

36、白 -核 酸 复 合 物 数 据 来 源蛋白-核酸复合物定义为任何一种包含一条或多条蛋白质链和至少一条长度大于 4bp 碱基的双链 DNA 的结构 10。随着人类基因组和结构生物学研究的进展,复合物的数据不断地增加。目前,Protein Data Bank(PDB)和 Nucleic Acid 南京邮电大学 2013 届本科生毕业设计(论文)11Database(NDB)数据库存放着大量的生物大分子结构数据。本文从 PDB 数据库中提取 X 射线结晶技术得到的蛋白-核酸复合物的结构数据进行分析。完整、精确地测定生物大分子三维结构的主要研究方法包括 X 射线衍射分析(X-Ray Crystall

37、ography)、二维和多维核磁共振( NMR)技术、电子衍射分析(电子结晶学)等 11,12。其中 X 射线衍射分析迄今为止仍然是生物大分子空间结构测定的主要方法。X 射线衍射分析,也称晶体结构分析,是阐述蛋白质、DNA 或其它生物分子的原子水平的三维结构的技术。这种方法的运用是基于首先使纯化的生物分子结晶为有序排列然后用 X 射线分析结晶体。之所以使用 X 射线是因为其波长和原子裂解时的波长一样,所以晶体作为分子衍射光栅衍射 X 射线,产生一种可以获取并分析的衍射图形。然后用计算机重建初始结构。在实际操作中这一衍射图形被反复地不断升高的分辨率处理,结晶学家不断在建立一个模型结构并按该模型计

38、算出的衍射图形与实际观察到的比较。每一次重复都使模型结构与实验结果更加吻合。当这两者之间的差异可以忽略时,这一衍射图形便得到求解。最终的模型提供了被研究分子平均时间上的三维原子水平结构。PDB 是结构生物信息学研究联合实验室(The Research Collaboratory for Structural Bioinformatics,RCSB)于 1971 年建立的全世界最完整的包括蛋白质、核酸、蛋白核酸复合物及病毒等生物大分子的三维结构数据库,网址为 http:/www.rcsb.org/pdb/。PDB 生物大分子结构数据库向用户提供与每个结构相关的各种信息,不仅包括生物学信息、文献信

39、息,还包括序列详细信息、原子坐标、结晶状况、利用不同方法计算的三维结构相邻元素、派生的几何数据、结构因子、三维图像以及其他资源链接。RCSB 与 EBI 和 NCBI 紧密合作,保持每个结构数据的一致性,并可以实现与蛋白质序列数据库、核酸序列数据库的交叉检索。每一个 PDB 数据在提交时都会分配一个标识符,由数字和字母组成的 4 位标识符,如 1aay,2or1。图 2-6 显示了一个 PDB 记录 20R1。图 2-6 pdb 中的复合物记录 2OR1在该网址提供的查询界面(图 2-7),我们用“protein+DNA+X-RAY”作为关键词对 PDB 数据库进行检索,找到数据库中的所有蛋白

40、-核酸复合物记录,到南京邮电大学 2013 届本科生毕业设计(论文)12目前为止共有 2655 个记录,我们选择*.pdb 格式下载,待进一步处理,计算出每个复合物中的氨基酸-碱基作用对信息。图 2-7 高级查询界面和目前位置查询到的记录数目2.2.2 NUCPLOT 简 介前文提到,蛋白侧链同核酸碱基之间的相互连接识别是靠蛋白同核酸之间的作用力完成的。而在这些力中,主要是碱基和氨基酸残基侧链之间形成的氢键介导。因而,这一小节中,我们从蛋白核酸复合物的三维结构数据出发,来计算复合物中存在的氨基酸碱基间的氢键作用对,这里我们采取NUCPLOT13软件来计算。NUCPLOT 软件对 PDB 文件中

41、复合物的三维结构信息进行处理,自动提取蛋白质侧链和 DNA 之间存在的作用力,包括氢键(hydrogen bonds)、非键作用(non-bonded contacts)和共价键(Covalent interactions),并以二维图示的方式显示出来。其中,输入文件是一个 PDB 文件,输出文件中包含有PostScript 文件(*.ps)和*.bond 文件。PostScript 文件是作用力的图形化显示文件,*.bond 文件是同核酸作用力的列表的文本文件。图 2-8 示例了对复合物 1aay 计算生成的结果,图左是 1aay.ps,图右是 1aay.bond。NUCPLOT 对复合物中

42、氢键的计算是利用 HBPLUS14来实现的。HBPLUS 计算氢键的算法是:对于与临近受体(acceptor atoms, A)满足特殊几何原则的供体南京邮电大学 2013 届本科生毕业设计(论文)13(donor atoms, D),计算所有可能的氢原子(hydrogen atoms, H)位置。使用的原则是:H-A 的距离2.7 埃,D-A 的距离小于 3.35 埃,D-H-A 的角度大于 90 度,H-A-AA 的角度大于 90 度(AA 是同受体 A 相邻的原子)。这样就可以计算出蛋白同核酸间、水分子同核酸间以及水分子介导的蛋白同核酸的氢键。另外规则中的参数是可以在程序运行时修改的。H

43、BPLUS 计算出复合物中的所有可能氢键,不仅是蛋白侧链和碱基之间的,还有蛋白主链和侧链原子间的氢键作用等。NUCPLOT 软件会从 HBPLUS 的输出结果中取出蛋白侧链和碱基中原子间的氢键。图 2-8 NUCPLOT 对 1AAY 处理的结构对于 nonbonded contact 的计算,认为一定距离之内的两个原子之间就存在这种作用力,默认的距离是 3.9 埃。计算时,应除去已经确定为氢键的情况。共价键可取一定域值距离内的两个原子或从 PDB 文件中提供的相关信息取出。2.2.3 NUCPLOT 的 安 装1、解压 nucplot、hbplus:gunzip hbplus.tar.Z t

44、ar -xvf hbplus.targunzip nucplot.tar.Z tar -xvf nucplot.tar2、编译:南京邮电大学 2013 届本科生毕业设计(论文)14Hbplus:由于压缩包中已经附带有 Makefile 文件,我们直接可以键入 make 命令,程序自动编译,生成可执行文件 hbplus;Nucplot:键入 cc -o nucplot nucplot.c lm 生成可执行文件 nucplot;其中,-lm 表示编译时加入了标准数学函数库。在压缩包中存在另外一组程序 hbadd,该程序主要用于数据的批处理。3、程序运行:首先我们必须设置 shell 环境变量,在这

45、里我们仅为当前 shell 添加hbplus 和 nucplot 可执行文件地址,输入:PATH = $PATH:/Desktop/nucplot:/Desktop/hbplus(注:新增加的地址为本文实验环境 hbplus 和 nucplot 可执行文件存放地址)根据上文可知,我们知道首先要使用 hbplus 来计算复合物中的氢键,然后再由 nucplot 处理得到同核酸作用力的列表的文本文件*.bond。以复合物 1AAY示范各运行过程:输入 hbplus 1AAY.pdb,此时要求输入输出文件存储的位置,输入/nucplot/output,我们将输出文件存入 nucplot 下的 out

46、put 文件夹中,此时可以看到 output 文件夹中生成了 1AAY.hb2 文件。输入 nucplot ./output/1AAY.hb2,生成 1AAY.bond 文件。编写 shell 脚本文件,批量处理所有*.pdb 文件,将处理结果导入 windows下做后续处理。2.2.4 蛋 白 -核 酸 复 合 物 数 据 分 类上面我们提到了,蛋白核酸复合物不仅包括调控过程中转录因子和调控元件结合形成的,还包括其他的。因而我们必须对复合物进行筛选,找出哪些是和调控过程相关的。SWISS-PROT 是含有详细注释内容的蛋白质序列数据库。创建于 1986 年,由瑞士生物信息学研究所(Swiss Institute for Bioinformatics, SIB)和欧洲生物信息学研究所(European Bioinformatics Institute, EBI)共同维护。南京邮电大学 2013 届本科生毕业设计(论文)15其网址为 http:/www.expasy.ch/sprot/sprot-top.html。SWISS-PROT 蛋白质序列数据库由大量序列条目组成,可以提供蛋白质序列的详细注释信息:序列注释包括蛋白质功能、蛋白质翻译后修饰、结构域和

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报