1、研 究 生 课 程 考 试 卷学 号 、 姓 名 : j20112001 苗天锦 年 级 、 专 业 :2011 生物化学与分子生物学培 养 层 次 : 硕士 课 程 名 称 : 生物信息学 授课学时学分: 32 学时 2 学分 考 试 成 绩 : 授课或主讲教师签字: 1生物信息学现状与展望摘要:生 物 信 息 学 是 一 门 新 兴 学 科 , 起 步 于 20 世 纪 90 年 代 , 至 今 已 进 入 “后 基 因 组时 代 “, 本文对生物信息学的产生背景及其研究现状等方面进行了综述,并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。关键词:生物信息学;生
2、物信息学背景;发展前景一、生物信息学概述1.生物信息学发展历史随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运 算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了 快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命 科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形 成的交叉学科生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼” 【1】 。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866 年孟德尔从实验上提出
3、了假设:基因是以生物成分存在。1944 年 Chargaff 发现了著名的 Chargaff 规律,即 DNA 中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins 与 Franklin 用 X 射线衍射技术测定了 DNA纤维的结构。1953 年 James Watson 和 FrancisCrick 在 Nature 杂志上推测出DNA 的三维结构(双螺旋) 。Kornberg 于 1956 年从大肠杆菌(E.coli)中分离出 DNA 聚合酶 I(DNA polymerase I) ,能使 4 种 dNTP 连接成 DNA。Meselson与 Stahl(1
4、958)用实验方法证明了 DNA 复制是一种半保留复制。Crick 于1954 年提出了遗传信息传递的规律,DNA 是合成 RNA 的模板,RNA 又是合成蛋白质的模板,称之为中心法则(Central dogma) ,这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过 Nirenberg 和Matthai(1963)的努力研究,编码 20 氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组 DNA 的克隆(clone)奠定了基因工程的技术基础 【2】 。自1990 年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约 40 多种生
5、物的全基因组测序工作,人基因组约 3x109碱基对的测序工作也接近完成。至 2000 年 6 月 26 日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。22.生物信息学研究方向2.1 序列比对序列比对是指为 确 定 两 个 或 多 个 序 列 之 间 的 相 似 性 以 至 于 同 源 性 , 而 将它 们 按 照 一 定 的 规 律 排 列 。 序 列 比 对 是 生 物 信 息 学 的 重 要 研 究 方 向 。 生 物信 息 学 的 研 究 重 点 主 要 体 现
6、 在 基 因 组 学 和 蛋 白 质 学 两 方 面 ,具 体 地 说 就 是 从核 酸 和 蛋 白 质 序 列 出 发 , 分 析 序 列 中 表 达 结 构 和 功 能 的 生 物 信 息 。 生 物 信 息学 的 基 本 任 务 是 对 各 种 生 物 分 析 序 列 进 行 分 析 , 也 就 是 研 究 新 的 计 算 机 方 法 , 从 大 量 的 序 列 信 息 中 获 取 基 因 结 构 、 功 能 和 进 化 等 知 识 。 而 在 序 列 分 析 中 , 将 未 知 序 列 同 已 知 序 列 进 行 相 似 性 比 较 是 一 种 强 有 力 的 研 究 手 段 ,从 序
7、 列 的片 段 测 定 , 拼 接 , 基 因 的 表 达 分 析 , 到 RNA 和 蛋 白 质 的 结 构 功 能 预 测 。 物种 亲 缘 树 的 构 建 都 需 要 进 行 生 物 分 子 序 列 的 相 似 性 比 较 。 生 物 信 息 学 中 的 序列 比 对 算 法 的 研 究 具 有 非 常 重 要 的 理 论 意 义 和 实 践 意 义 。 【3】2.2 分子进化和比较基因组学生 物 进 化 过 程 中 生 物 大 分 子 的 演 变 , 包 括 前 生 命 物 质 的 演 变 ; 蛋 白 质 分 子 和 核 酸 分 子 的演 变 以 及 细 胞 器 和 遗 传 机 构 (
8、 例 如 遗 传 密 码 ) 的 演 变 。 分 子 进 化 的 研 究 可 以 为 生 物 进 化过 程 提 供 佐 证 , 为 深 入 研 究 进 化 机 制 提 供 重 要 依 据 。 近 年 来 较 多 模 式 生 物 基 因 组 测 序任 务 的 完 成 , 人 们 可 从 整 个 基 因 组 的 角 度 来 研 究 分 子 进 化 。 在 匹 配 不 同 种 族 的 基 因 时 ,一 般 须 处 理 三 种 情 况 : Orthologous: 不 同 种 族 , 相 同 功 能 的 基 因 ; Paralogous: 相 同种 族 , 不 同 功 能 的 基 因 ; Xenolo
9、gs: 有 机 体 间 采 用 其 他 方 式 传 递 的 基 因 , 如 被 病 毒 注入 的 基 因 。 这 一 领 域 常 采 用 的 方 法 是 构 造 进 化 树 , 通 过 基 于 特 征 ( 即 DNA 序 列 或 蛋白 质 中 的 氨 基 酸 的 碱 基 的 特 定 位 置 ) 和 基 于 距 离 ( 对 齐 的 分 数 ) 的 方 法 和 一 些 传 统 的 聚类 方 法 ( 如 UPGMA) 来 实 现 【4】 。2.3 蛋白质信息学目前对蛋白质组研究的技术手段很多,常用的主要有双向凝胶电泳和测序质谱技术等。与它们相比,生物信息学在蛋白质组学的研究中将起着特殊的重要作用。因
10、为蛋白质组研究提供的数据的数量之大在生物学上是史无前例的。当前生物信息学已经不仅是高效地进行对蛋白质数据的分析,而且可以对已知的或新的基因产物进行全面的功能分析。对蛋白质的分析研究产生了蛋白质组信息学。蛋白质组信息学研究包括蛋白质序列对齐、序列比较分析、蛋白质结构-功能关系的研究、点突变的设计及家族鉴定,蛋白质空间结构预测、建模和分子设计以及蛋白质功能预测等。在蛋白质的结构预测方面,由于蛋白质的生物学功能在很大程度上依赖于其空间结构,因而进行蛋白质的结构预测对了解未知蛋白生物学3功能具有重要意义。而对蛋白质结构的预测离不开由许许多多的蛋白质数据形成的各种蛋白质数据库。蛋白质由氨基酸组成,它的结
11、构层次包括一级结构、二级结构、三级结构和四级结构等 【5】 。蛋白质空间结构预测就是利用已知的一级序列来构建其立体结构模型。目前对单一序列的二级结构预测的准确率较高,通过多序列比对可以显著提高预测的效能,如 PHDsec 程序。对蛋白质三级结构的预测由于蛋白质折叠过程的复杂性变得更难,目前在利用生物信息学对蛋白质三维空间结构预测方面的主要方法有同源模建、折叠识别和从头预测 3 种。一般先将目标蛋白与蛋白质结构数据库中的已知结构相比较,如果两者序列同源性较高,则可用同源模建方法对目标蛋白质的结构进行预测。同源模建方法在蛋白质结构预测及药物设计中起着重要的作用 【6】 。2.4 生物系统的建模和仿
12、真随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟,系统稳定性分析,系统鲁棒性分析等方面。以 SBML 为代表的建模语言在迅速发展之中,以布尔网络、微分方程、随机过程、离散动态事件系统等方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨识所需要的数据远远超过了目前
13、数据的产出能力 【7】 。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系统建模主要困难。系统描述和建模方法也需要开创性的发展 【8】 。3.生物信息学发展前景生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。这一点必须着重指出。预测生物信息学的未来主要就是要预测他对生物学的发展将带来什么样的根本性的突破。信息学的商业价值十分显著。国外很多大学,研究机构,软件公司甚至政府机构纷纷成立各种生物信息机构,建立自立的生物信息集成系统,研制这方面的软件,重金招聘人才,期望从中获取更多的生物信息和数据加以研究和利用,缩短药物开发周期,抢
14、注基因专利,获取更大利润 【9】 。国内一些科研单位已经开始摸索着从事这方面的工作。清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面,天津大学物理系和中科院理论物理所在相关算法方面,中科院生物物理所在基因组大规模测序数据的组装和标识方面,北京大学化学学院物理化学研究所在蛋白质分子设计方面,华大基因4组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究。随着生物信息学在国内受到越来越多人的重视和关注,我们有理由相信生物信息学会在未来迅速发展壮大 【10,11】 。参考文献:【1】生命科学发展战略调研小组.迎接生命科学世纪的挑战
15、.世界科技研究与发展,2001,23(1):1-6【2】陈润生.生物信息学.生物物理学报,1999,15(1):5-13.【3】Humphery Smith I,Cordwell SJ,Blackstock WP.Proteome research:complementarity and limitations with respect to the RNA and DNA worlds.Electrophoresis 1997,18(8):1217-42【4】郑国清,张瑞玲,段韶芬,徐丽敏;生物信息学的形成与发展,河南农业科学;2002(11)【5】殷志祥.蛋白质结构预测方法的研究进展,计算
16、机工程与应用,2004,40(20):54-7【6】Baker D,Sali A.Protein structure prediction and structural genomics.Science,2001,294(5540):93-6【7】Krawetz SA,Womble DD.Design and implementation of an introductory course for computer applications in molecular genetics,A case study.Molecular Biotechnology,2001,17(1):27-41【8】杨福愉. 展望 21 世纪的分子生物学 . 生物物理学报 ,1999 ;15 (1) :1-5【9】黄科,曹家树.生物信息学.情报学报,2002(8):491-496【10】陈成.生物信息学的现状与未来.生物技术通报,2000(2):51-53【11】郝鲁江,梁泉峰.生物信息学的发展及其应用.山东轻工业学院学报,2000,14(2):37-41