收藏 分享(赏)

生物信息学简介PPT课件.ppt

上传人:微传9988 文档编号:3444507 上传时间:2018-10-30 格式:PPT 页数:85 大小:4.57MB
下载 相关 举报
生物信息学简介PPT课件.ppt_第1页
第1页 / 共85页
生物信息学简介PPT课件.ppt_第2页
第2页 / 共85页
生物信息学简介PPT课件.ppt_第3页
第3页 / 共85页
生物信息学简介PPT课件.ppt_第4页
第4页 / 共85页
生物信息学简介PPT课件.ppt_第5页
第5页 / 共85页
点击查看更多>>
资源描述

1、生物信息基础,生物信息学简介,2018/10/30,2,主讲教师:高 昇 Cell: 13120144593 Email: Office:教三楼803-模式识别实验室,助教:莫能斌 Cell: 13401134371 Email: Office:教三楼803-模式识别实验室,2018/10/30,3,参考资料,孙啸等编著,生物信息学基础, 清华大学出版社,2005年5月. 王勇献等编著,生物信息学导论面向高性能计算的算法与应用,清华大学出版社,2011年6月. 陈宝林,最优化理论与算法(第二版),清华大学出版社,2005年10月. 课件存放邮箱: bioinfo_passwd: bioin

2、fo,2018/10/30,4,考核方式,期末成绩 40% 大作业 or 考试 平时成绩 40% 小作业 开放项目,鼓励自由参与 日常考勤 20%,2018/10/30,5,课程定位,Introduction to Life Science and Artificial Life 生物信息基础生命科学中的信息科学 利用信息科学的方法和技术,研究生物体系和生物过程中信息的存储、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息。Bioinformatics: 分析复杂生物学数据的学科:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 分子

3、生物信息学(Molecular Bioinformatics),2018/10/30,6,内容提要,生物信息学产生的背景 什么是生物信息学 生物信息学的研究意义 生物信息学的发展历史 生物信息学主要研究内容 生物信息学所用的方法和技术,2018/10/30,7,生命信息的组织、 传递、表达,物理,化学,分子 生物学,遗传学,信息技术,引言,8,历史回顾(1),1866年,神父Gregor Mendel通过对豌豆的杂交和遗传学研究,提出了传递遗传特征的基本单位-遗传因子(基因)的概念1944年, Avery & McCarty第一次发现了遗传信息的载体是染色体上的DNA(而不是先前认为的蛋白质)

4、.,9,历史回顾(2),1953年,James Watson & Francis Crick发现了DNA的双螺旋空间结构并推断出了DNA的复制方式,由此揭开了分子生物学研究的序幕。1990年,人类基因组计划启动,2018/10/30,10,人类历史上的三大科技工程,曼哈顿原子弹研制计划,人类基因组计划,阿波罗登月计划,1941.12.6 - 1945.7.16 罗斯福批准 耗资20亿美元,原子半径 10-10m 原子体积 10-30m3,1990.10.1 - 2003.4.23 克林顿、布莱尔批准 耗资30亿美元,1961.5.25 - 1969.7.20 肯尼迪批准 耗资240亿美元,人体

5、半径 100m 人体体积 100m3,太阳系半径 1012m 太阳系体积 1034m3,人类基因组计划,人类基因组计划(Human Genome Project, HGP) 1986年R.Dulbeccol在Science上撰文,建议对人类基因组进行全测序。 1990年美国政府正式启动人类基因组计划 耗资30亿美元、为期15年的计划,预期到2005年完成人类基因组大约30亿个碱基的全序列测定 美、英、日、法、德、中六国科学家共同参与 HGP的主要任务是:人类基因组以及一些模式生物体(细菌、酵母、线虫、果蝇等)基因组的作图、测序和基因识别。,人类基因组计划的发展历程,前期准备 1984年 DOE

6、(Department of Energy) 委托Alta, White R., Mendelsonhm M 科学家专业会议;1985年提出人类基因组计划的动议 1986年 McKusick V 称从整个基因组层次上研究遗传的科学为基因 组学 1986年 Dulbecco R 在Science上发表文章”肿瘤研究的转折 人类基因组的全序列分析”, 提出人类基因组计划 1986年 Gilbert W & Berg P 主持人类基因组计划专家会议 1987年 DOE(能源部)和NIH(国家健康研究院)下拨研究经费 1988年 NRC(原子能调整委员会)的专家发表mapping and sequen

7、cing the human genome报告 1988年 成立了国家人类基因组研究中心。Watson 第一任主任。,人类基因组计划的发展历程,正式启动 1990年 经过5年辩论, 美国国会通过“人类基因组计划” 1990年10月1日启动 计划15年,30亿美元 多国参与(英国1989, 法国1990, 德国1995, 中国1999) 1990年 6月, 欧共体通过“欧洲人类基因组计划”。 此外,丹麦,日本,韩国,俄罗斯和澳大利亚也加入行动行列 1999年 9月1日,杨焕明教授在第五次伦敦国际人类基因组战略讨论会上介绍情况。会议正式接受中国加入国际合作,划定了测序区域,正式承担的测序任务 20

8、00年 6月26日各国科学家公布了人类基因组工作草图 2004年 精度大于99%的完成图公布,人类基因组计划,参与HGP的国家 美国(54%) 英国(33%) 日本(7%) 法国(2.8%) 德国(2.2%) 中国(1%) 目标: 测定人类基因组DNA序列中的30亿个碱基顺序,获取四张图谱: 遗传图谱 物理图谱 序列图谱 基因图谱,HGP负责人 柯林斯(Collins ),已完成测序的基因组 (http:/www.ebi.ac.uk/genomes),103 Kilo 106 Mega 109 Giga 1012 Tera 1015 Peta 1018 Exa 1021 Zetta 1024

9、Yotta,一个普通生物实验室每年产生的数据量 100 Terra-bytes (1014) 人类迄今为止所说过的话(词语量) 5 exa-bytes (51018) 生物信息量至少是所有人类说过的话的200倍!,巨量的数据,http:/www.ncbi.nlm.nih.gov/Genbank/genbankstats.html,蛋白质序列,四种数据,原始数据(Original data) 科学文献(Scientific literature) 数据组合(Datasets) 综合性数据(Organized data),后基因组时代的呼唤,传统生物学:实验科学 现代生物学的发展: 数据获取日益实

10、现自动化、半工业化 从数据库中实现数据挖掘、知识发现 海量数据 难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选 更复杂层次的生物学问题 复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化,面对堆积如山的生物学数据,2018/10/30,22,HGP 生物数据的激增 (每15个月翻一番),生物学家,数学家,信息 科学家,生物信息学 (bioinfomatics) 的诞生,生物信息学概念,“We are not limited by the number of experiments that we can do, we are limited by o

11、ur ability to understand the information that is generated as a result of these experiments. “,Biology is quickly becoming an information science. 生物学日益成为一门信息科学,Biology easily has 500 years of exciting problems to work on. 生物学中有着至少500年也解决不完的有趣问题。 Donald E. KnuthLets begin our exploration of computat

12、ional and theoretical biology!,什么是生物信息学,生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透而形成的交叉学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学信息的科学。 从研究涉及的学科来看:多学科交叉 从研究内容来看:基因组信息学、蛋白质组信息学、结构模拟与分子设计等构成其主要组成部分,2018/10/30,26,生物体系和生物过程中信息 的存储、传递和表达,细胞、组织、器官的生理、病理 、药理过程的中各种生物信息,信息科学,生 命 科 学 中 的

13、 信 息 科 学,概念(广义),2018/10/30,27,生物 分子数据,深层次 生物学知识,分子生物信息学 Molecular Bioinformatics,挖掘,获取,概念(狭义),生物分子信息的获取、存储、分析和利用,2018/10/30,28,Bioinformatics,2018/10/30,29,细胞,分子,存储、复制、传递和表达 遗传信息的系统,生物信息的载体,生物分子信息,2018/10/30,30,主要研究两种信息载体,DNA分子 蛋白质分子,2018/10/30,31,生物分子至少携带三种信息,遗传信息 与功能相关的结构信息 进化信息,2018/10/30,32,遗传信息

14、的载体 - DNA,遗传信息的载体主要是DNA 控制生物体性状的基因是 - 系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达,33,DNA,7.5-101012,23对,2.8-3.5万,2018/10/30,34,蛋白质的结构决定其功能,蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。,2018/10/30,35,DNA分子和蛋白质分子 都含有进化信息,通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。 通过比较来自于不同种属的同源蛋白质,可以分析蛋白质甚至种属

15、之间的系统发生关系,推测它们共同的祖先蛋白质。,2018/10/30,36,2018/10/30,37,2018/10/30,38,生物分子信息的特征,生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系,2018/10/30,39,生物信息学的目标和任务,收集和管理生物分子数据 数据分析和挖掘 开发分析工具和实用软件 生物分子序列比较工具 基因识别工具 生物分子结构预测工具 基因表达数据分析工具,2018/10/30,40,生物分子信息处理流程,2018/10/30,43,2018/10/30,44,分子生物学的三大核心数据库,GenBank核酸序列数据库 SWISS-P

16、ROT蛋白质序列数据库 PDB生物大分子结构数据库,2018/10/30,45,生物信息学研究意义,认识生物本质 了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。 改变生物学的研究方式 改变传统研究方式,引进现代信息学方法 在医学上的重要意义 为疾病的诊断和治疗提供依据 为设计新药提供依据,2018/10/30,46,生物信息学的发展历史,2018/10/30,47,20世纪50年代,生物信息学开始孕育 20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来 20世纪70年代,生物信息学的真正开端 20世纪70年代到80年代初期 ,出现了一系列著名的序列比

17、较方法和生物信息分析方法 20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库 20世纪90年代后, HGP促进生物信息学的迅速发展,2018/10/30,48,生物信息学主要研究内容,序列分析/Sequence analysis Sequence alignment Structure and function prediction Gene finding 结构分析/Structure analysis Protein structure comparison Protein structure prediction RNA structure modeling 表达分析/Exp

18、ression analysis Gene clustering Gen expression analysis 蛋白质组学/Proteomics Protein-Protein Interaction,2018/10/30,49,基因组 数据库,蛋白质序列 数据库,蛋白质结构 数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,生物分子数据的收集与管理,序列分析,从DNA序列与蛋白质序列中进行信息及模式发现 寻找进化联系 寻找基因组的编码区 寻找序列中的功能信号区 全基因组序列的拼接与组装 识别非编码区,探索其功能 单核苷酸多态性SNP (Single nucl

19、eotide polymorphism),序列比对/alignment,序列分析,分子进化和比较基因组学,结构分析,蛋白质结构和功能的预测分析 蛋白质家族保守序列寻找 从氨基酸组成辨识蛋白质 蛋白质二级结构预测 蛋白质的三维结构 蛋白质的物理性质预测 其他特殊局部信息:其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(Coiled Coils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测,基因表达数据分析,基因表达数据:近年来 biochips, microarray 技术迅速发展起来,使得我们可能得到同一时间成千上万个基因的表达水平的数据。 上述基因表达数据为我们提供了深

20、入研究基因功能,基因相互作用,基因网络等复杂网络问题的有力工具。 基因表达数据分析面临维数极高,噪声大而且相关,数据重复度低等问题,对数理统计等学科提出了新问题。目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。,2018/10/30,55,基因调控网络与信号转导,基因的表达受到蛋白的调控,一个基因的表达与否,表达量,均受到细胞中各种蛋白的调控。所以基因的调控可以看作是细胞中各基因对应的 mRNA 与各种蛋白的一个相互作用网络。 信号转导指当细胞受到某种影响,其中某个蛋白的含量发生变化,而引起一系列的蛋白的表达变化的过程和路径。它

21、对于研究药理、病理、细胞的分化、发育、进化等重大问题都十分重要。 信号转导、基因网络与基因表达的数据分析是紧密相关的。,生物信息处理并行算法,2018/10/30,58,生物信息学主要研究内容,序列分析/Sequence analysis Sequence alignment Structure and function prediction Gene finding 结构分析/Structure analysis Protein structure comparison Protein structure prediction RNA structure modeling 表达分析/Expr

22、ession analysis Gene clustering Gen expression analysis 蛋白质组学/Proteomics Protein-Protein Interaction,2018/10/30,59,生物信息学所用的方法和技术,1、数学统计方法 2、动态规划方法 3、机器学习与模式识别技术 4、数据库技术及数据挖掘 5、人工神经网络技术 6、专家系统 7、分子模型化技术 8、生物分子的计算机模拟 9、因特网(Internet)技术,2018/10/30,60,数学统计方法,生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率

23、论和数学统计是现代生物学研究中一种常用的分析方法 数据统计、因素分析、多元回归分析是生物学研究必备的工具 隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),2018/10/30,61,动态规划方法,动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法 动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解,2018/10/30,62,机器

24、学习与模式识别技术,机器学习 机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验 遗传算法采用随机搜索方法,具有自适应能力和便于并行计算 神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义。,2018/10/30,63,机器学习与模式识别技术,模式识别 模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或相似的客体归入同类中 模式识别主要有两种方法: 根据对象的统计特征进行识别, 根据对象的结构特征进行识别,2018/10/30,64,环境,学习,知识库,执行,反馈,

25、机器学习系统的基本结构,2018/10/30,65,数据库技术及数据挖掘,数据挖掘(data mining) 又称作数据库中的知识发现 (Knowledge Discovery in Database),它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式 数据挖掘过程一般分为4个基本步骤:数据选择、数据转换、数据挖掘和结果分析,2018/10/30,66,人工神经网络技术,人工神经网络(Artificial Neural Network, 简称ANN

26、)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型,2018/10/30,67,输入层,隐藏层,输 出 层,2018/10/30,68,专家系统,专家系统(Expert System)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用.,2018/10/30,69,2018/10/30,70,分子模型化技术,分子模型化(Molecular modeling)是利用计算机模拟分子结构、研究分子之间相互作用的一种技术 分子模型化是进行分子设计的基础。分子图形学(Molecular Graphics)是进

27、行分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功,2018/10/30,71,2018/10/30,72,生物分子的计算机模拟,传统的生物分子研究主要是实验方法,如利用测序技术确定DNA分子的序列,通过分子遗传学方法确定基因的多态性,通过X-射线晶体衍射确定蛋白质分子的结构,通过生化实验研究生物大分子之间的相互作用、药物分子与靶分子的结合。 所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质,20

28、18/10/30,73,2018/10/30,74,因特网(Internet)技术,Internet已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所 通过网络查询或搜索所需要的生物信息,使用分析工具 将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回,75,复杂网络分析理论,社会网:社交网,演员合作网,姻亲关系网,科研合作网,Email网生物网:食物链网,神经网,新陈代谢网,蛋白质网,基因网络信息网络:WWW,专利使用,论文引用,计算机共享技术网络:电力网,Internet,电话线路网交通运输网:航线网,铁路网,

29、公路网,自然河流网,76,中药方剂网,虽然中药方剂的数量很大,但目前还没有统计用的数据库。不得不用手工进行统计,因此统计的数据量受到很大限制。选用了1536付药方,681种药物进行了统计。节点:药物,边:在一付方剂中药物的相互作用。方剂:药物、药物的相互作用构成的固定完全图局域网,同时也可以看作是节点(药物) 的合作成果。各个完全图通过共用的节点(药物)架起桥梁,构成网络。网络由完全图连接而成,如图所示。,77,中药方剂网示意图,点(药材), 边(药材之间相互作用), 局域网(方剂),78,中国淮扬菜肴网,节点-食料 边-菜肴中两种食料之间的相互作用 每道菜肴-局域网(完全图) 通过公共节点连

30、接构成中国淮扬菜肴网。 329道菜肴,242个顶点(食品),1713条边。 类似于中药方剂网的讨论。,79,江湖人物网络,(1)节点分类 在基于链接的节点( 对象) 分类问题中,图G =( O,L) 表示对象集合O 和它们之间的链接集合L,我们的任务是将O 中的成员赋予某一类标签。在复杂网络中,数据实例之间存在着具有描述性属性的关系( 链接) ,且相连对象的类别也是相关的。比如,某人加入一个组的概率取决于组内朋友的数目、朋友之间的连结性、组内交互的数目等等。因此,研究者注意到链接的属性与结构有助于节点分类任务,这与以往的机器学习方法不同。由于节点之间存在着链接,使用节点的局部结构特征之外还应该

31、考虑节点之间的关系结构特征,这将涉及关系学习( relational learning) 方法在复杂 网络分析中的进一步研究。,复杂网络分析的主要任务,81,(2)链接预测链接预测是复杂网络分析的另一个重要研究方向,通过节点属性和已观察到的链接来预测某链接是否存在。从机器学习的角度,链接预测可看成一个简单的两类分类问题: 对于可能有链接存在的两个节点,预测链接是1 还是0。链接预测的应用很广泛,例如预测蛋白质网络的相互作用关系、社会网络中人们之间的朋友关系、合作关系等等。作为一个二类分类问题,研究者把链接预测看成一个监督学习的过程。当社会网络的规模较大时,与训练样本相比,网络中存在着大量的未知

32、标签的样本。这些潜在样本的信息( 包括样本的结构信息) 可以更好帮助训练学习器。,复杂网络分析的主要任务,83,(3)社群检测 又称节点聚类,将有着共同特征的节点聚类,是复杂网络分析的一个经典问题。群体或者社团可由一组节点组成的子图表示,其内部存在很多链接而与外部存在较少链接,使得组内紧密而组间松散。 节点聚类可以使用机器学习中的聚类算法。比较经典的方法有: 谱图分割算法、图的核方法、分层聚类方法、基于概率关系模型的聚类 方法、基于随机游走的聚类方法等。在群体检测任务中,机器学习的研究重点主要是设计基于图结构数据( 节点间的链接或加权链接) 的聚类算法。当前算法的可扩展性限于至多几千个节点的网络,而非大规模网络。因此,对于现实应用中的大规模网络数据集,仍需要设计有效的算法。,复杂网络分析的主要任务,85,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 教育范文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报