1、2018/10/14 1 生物信息学导论 Introduction to Bioinformatics 张举华 Email: Tel:010-68944927 2018/10/142003年 8月 2 张举华 北京理工大学 生命科学与技术学院 生物信息学导论 2018/10/14 3 主要内容 生物信息学概述 基因组信息学 2018/10/14 4 生物信息学概述 本节主要内容 什么是生物信息学 基因组、转录组、蛋白质组 生物信息学有什么用 生物信息学的起源 生物信息学往哪里去 2018/10/14 5 概述 什么是生物信息学 生物信息学是生物学和信息科学与技术的结合所派生出来的一门新兴学科
2、,包括了用来管理、分析和操作大规模生物数据集的任何计算方法和工具,也就是说生物信息学是一个为现代生物学的各个分支,如生物学、分子生物学、生物化学、生物物理学等,服务的数学和计算机科学与技术的整合平台。 2018/10/14 6 概述 基因组、转录组、蛋白质组 现在,生物学研究的范式已经发生了变化,生物学家已经不像上世纪 60 80年代的同行那样满足于研究单个基因和蛋白质,而是对一类细胞或组织中的所有基因和蛋白质同时感兴趣,希望了解这些生物分子之间是通过什么样的途径实现生命过程的。 2018/10/14 7 概述 基因组、转录组、蛋白质组 基因组是一个细胞或组织内全部基因的集合;转录组是一个细胞
3、或组织内全部 RNA(核糖核酸)的集合;蛋白质组是一个细胞或组织内所有类型蛋白质的集合。以此类推,我们还可以定义其它的“组”,例如蛋白质相互作用组就是一个细胞或组织内蛋白质间所有相互作用的集合。 2018/10/14 8 概述 基因组、转录组、蛋白质组 各种组学的发展与高通量检测与测量方法密切关联。“高通量”就是大量的信息或样本在同一时间内通过系统的任何过程。目前 , 这一概念被广泛应用于计算系统、药物发现、组合化学以及基因组和蛋白组学。 2018/10/14 9 概述 生物信息学有什么用 自 1990年以来,在生物医学科学领域,生物信息学已经成为生命科学研究和发展整体中的一个重要组成部分。无
4、论是处理由高通量实验技术产生的基因组、转录组和蛋白质组数据,还是组织、分析和管理由传统的生物技术收集到的数据,生物信息学都扮演着极其重要的角色。 2018/10/14 10 概述 生物信息学有什么用 上世纪 80 90年代建立的,以核苷酸或氨基酸序列为基础的,分析单个基因和蛋白质的方法被用于分析大量的基因和蛋白质,例如用于关联基因簇的分析和蛋白质相互作用网络的鉴定。当我们手中完整的基因组序列越来越多时,生物信息学就能够为探索细胞和组织的系统功能与行为提供原理基础和常用方法。 2018/10/14 11 概述 生物信息学的起源 分子序列数据的指数性增长始于 20世纪 80年代。当时, DNA测序
5、技术已趋完善,并作为常规实验手段得到广泛的应用,测序得到的数据被收集到数据库中。比如目前仍有广泛影响力的三个生物信息学一级数据库GenBank, EMBL(欧洲分子生物学实验室核苷酸序列数据库),和 DDBJ(日本 DNA数据银行)。另外 PIR(蛋白信息资源)和 SWISS-PROT是蛋白质方面非常重要的数据库。 数据的提取与分析的计算方法的发展是并行的。计算方法包括序列相似性比较与搜寻算法、结构与功能预测方法等等。 2018/10/14 12 概述 生物信息学的起源 现今的 “ 生物信息学 ” 始于上世纪 80年代计算生物学。后者主要包括 DNA和蛋白质的序列分析以及蛋白质的三维结构分析。
6、 上世纪最后十年的基因组计划所形成的冲击不仅是序列数据的增加,还包括了分子生物数据的多样性。一个基因组序列所展示的不仅是一个完整的基因集合和它们在染色体中的精确定位,而且包括基因组和跨物种间的基因相似性关联。 2018/10/14 13 概述 生物信息学的起源 DNA自动测序构成过巨大的冲击,因为它曾经是各种生物学数据高通量产出的前沿阵地。像表达序列标签( ESTs),单核苷多态性( SNPs)都和基因序列密切相关。随后发展的研究基因表达模式( profile)的 DNA微阵列技术、用于探测蛋白质相互作用的酵母双杂交系统、以及质谱技术极大地让生命科学类数据库飞速膨胀。结构基因组学方面的新技术还
7、不能大规模地产生数据,但它们正在导致蛋白质三维结构数据的增加。 2018/10/14 14 概述 生物信息学的起源 除了积累各种生物化学与分子生物学数据的实验技术的不断发展,二十世纪后十年同样见证了信息技术的发展。单项最重要的事件是互联网时代的到来。人们用它来传递、访问数据,浏览公共出版物等。生物信息学的兴起很大程度上归功于需要用复杂的方法处理与分析大规模生物学数据,但是互联网也是功臣,因为它的发明使得用户访问数据与软件的开发比过去容易了许多。 2018/10/14 15 概述 生物信息学往哪里去 尽管最近十年来,高通量检测技术与信息技术的结合让人们认识了大量的基因和蛋白质,但是和物理学、化学
8、相比较,生物学仍旧是一门不成熟的学科,因为对于生命过程,我们无法根据一般性原理做出像卫星轨道那样精确的预测。随着数据的不断膨胀和知识的积累,也借助于生物信息学,这种情形很有可能发生改变。 2018/10/14 16 概述 生物信息学往哪里去 生物信息学正在逐渐演变成为一门基础学科。生物信息学的最终目标是从大规模数据中抽象出知识与原理;提出细胞以至于整个生物体的完整数学与计算机表示;进而预测高度复杂的生物系统的行为,例如,预测在细胞过程中相互作用网络和整个生物体的表型。 表 18-1简要概括了生物信息学的过去,现在和将来。 2018/10/14 17 概述 生物信息学往哪里去 表 18-1生物信
9、息学的过去、现在和将来 主要内容 目的 二十世纪 90年代的生物信息学 大规模基因组学与蛋白质组学的实验数据形成的一级数据库及其相应的分析方法与工具 了解单个基因和蛋白质的功能与用途 当前的生物信息学 由一级数据库分类、归纳、注释得到的基因组学与蛋白质组学二级数据库 (知识库)及其相应的分析方法与工具 在分子、细胞和生物体水平了解功能与用途 未来的生物信息学 细胞和生物体的完全计算机表示 了解生物系统高度复杂性的基本原理 2018/10/14 18 主要内容 概述 基因组信息学 2018/10/14 19 基因组信息学 基因组信息学是生物信息学的源头,是到目前为止发展得比较完善的部分,也是应用
10、最为广泛的部分。本节内容将重点概述基因组生物信息学的主要特征。 2018/10/14 20 基因组信息学 本节主要内容 了不起的 BLAST BLAST已经不够用了 相互作用网络具有更高阶功能 生物信息数据库 序列比对的动态程序算法 复杂生物系统 2018/10/14 21 基因组信息学 了不起的 BLAST 在二十世纪后十年,生物信息学的第一个大突破是序列数据库快速搜寻工具 BLAST的引入。这个搜寻工具不仅比 80年代发展起来的 FASTA更有效,而且以不同的原理为基础。数据库搜寻就是将查询的系列与序列数据库中的每一个序列作两两比对。美国国家生物科技信息中心, http:/www.ncbi
11、.nlm.nih.gov/,提供了 BLAST链接。 2018/10/14 22 基因组信息学 了不起的 BLAS 传统上,比对通过优化查询进行。即通过相同字母数目的最大化,或者采用氨基酸突变矩阵,使相似分数最大化,得出优化系列比对。当允许间隙时,对于做比对的两个序列,具有可能性的比对数量巨大。然而,通过 “ 动态程序 ” 算法,总能找到优化的比对。动态程序算法系统地修剪含有各种可能比队的搜寻树的数枝,不幸的是,这种算法十分耗时,不适合大规模数据库。所以,FASTA的策略是采用一个被称之为 “ hash的数据结构,对两个系列的匹配区域先做一个快速、粗略的搜寻,然后再对该区域的近邻起用动态程序算
12、法。 2018/10/14 23 基因组信息学 了不起的 BLAST 不同于 FASTA遵循结合优化的传统, BLAST之于数学统计与人类直觉的耦合。例如,当人用肉眼对两个系列作比较时,我们绝对不会检查所有可能的细节,而是寻找两个系列共同的特征,然后再尝试扩展这些特征得到更长的匹配,因为我们知道关联的系列倾向于含有保守的系列模体( motifs)。这就是 BLAST所采取的策略。它以可靠的数学基础为依据,计算高分片段对( HSPs)的统计。高分片段对指的是分数不可能由系列的扩充或剪除改善的无间隙序列的局部比对。对于给定的查询序列的组合、被搜寻的数据库和打分系统,可以估计打分为 s的高分片段对的
13、概率极值( Extreme value),及所谓的 E值。目前, E值已经广泛用来作为系列相似性统计显著性估计的标准度量。 2018/10/14 24 基因组信息学 了不起的 BLAST 大约在 BLAST发展的同一时期,研究人员开始收集一种不同类型的数据 以基因为基础的表达序列标签位点或 ESTs。该数据的收集对数据库特征产生了非常大的影响。对于捕获具体细胞或组织中表达基因的完整序列,低质量和碎块序列的大量收集是一条捷径。在此方案中,无论对于在已存在的数据库中搜寻相似性,还是对数据库中所有的序列进行比较以建立相似序列的簇( cluster), BLAST都是一个可选的工具。 2018/10/
14、14 25 基因组信息学 BLAST已经不够用了 二十世纪 90年代中期,人们看到了完全不同类型的大量序列数据的收集,也就是为细胞生物体的全基因组建立数据库。目前已有 100多种生物体的完全基因组序列已经通过实验测定。更多生物体全基因组序列的测定正在进行中。 2018/10/14 26 基因组信息学 BLAST已经不够用了 如果系列分析的工具不更新与改进,大规模序列数据的增加并不必然导致生物学知识的增加。为了增加相似序列搜寻的灵敏度,人们已经精心设计了相应的方法。其中最成功的有 PSI-BLAST和隐马尔柯夫模型( HMMs)。对于搜寻微弱的相似性, PSI-BLAST是极其灵敏的方法。 PS
15、I-BLAST的核心是迭代算法,从而在程序运行过程中由标准 BLAST搜寻产生的位置特异性打分矩阵不断地得到改善。 2018/10/14 27 基因组信息学 BLAST已经不够用了 隐马尔柯夫模型根据多重序列比对构建。多重序列比对的结果可能是由 ClustalW或者 ClustalX产生的,但是它们显含插入或删除概率,并且能够搜寻 HMM库以探测微妙的序列特征。另外一些成功的序列分析方法是建立在神经网络基础上,它极大的改善了诸如蛋白质二级结构预测;或建立在以规则为基础的系统上,例如用于蛋白质定位的 PSORT,并被用来预测蛋白质的各种功能特征。 2018/10/14 28 基因组信息学 BLA
16、ST已经不够用了 尤其是, HMMs和 PSI-BLAST为蛋白质域数据库的发展提供了便利。该数据库可以用来对蛋白质的分子结构和相应的功能单元进行识别。通过一级数据库所做的相似性搜寻能够用来预测基因或蛋白质的功能,只要该数据库被充分注释。由于日益增加的序列数据库,为维持数据库的先进性和对数据进行充分的注释越来越困难,从而,就顾客来说,对二级数据库的依赖程度越来越高。二级数据库含有蛋白质域和功能位点,就这一点来说,这些二级库颇像是含有 “ 序列语言 ” 词汇与句子的词典。 2018/10/14 29 基因组信息学 BLAST已经不够用了 随着可以用作比较研究的基因组全序列数目的增加,人们发展了不
17、同类型的功能预测概念与方法。著名的有 “ 基因语境 ” ( gene context)和 “ 基因内容 ” ( content)分析。如果将基因组看成是一串基因,那么基因语境就相当于基因的位置关联。基因语境分析,包括基因顺序的比较和正常基因组的基因融合( Fusion),可探测蛋白质的功能关联,例如探测物理相互作用亚单元、相同通路、酶、和它的调控子( regulator)的数目。 2018/10/14 30 基因组信息学 BLAST已经不够用了 与基因语境分析相反,基因内容分析是跨基因组间基因指令系统的比较。当不同生物体之间两个基因的某种相互关联的方式出现或消失时,这两个基因之间或许有某种功能上的联系。对于这种分析的一个预先要求是建立直向同源关系,即起源于共同祖先的功能相同的基因。实际上,直向同源由序列的相似性定义。常常,在基因组两两比对中,直向同源内双向最好打击( bidirectional best hits)准确定义。在完全测序的基因组中,对于直向同源组,在知识组织方面, COG是较早的和取得最突出成就的数据库之一。