1、现今生物信息学的发展情况仲银银摘要:生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。生物信息学研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,主要研究对象有序列比对、蛋白质结构比对和预测、基因识别,非编码区分析研究、分子进化和比较基因组学、序列重叠群(Contigs)装配、遗传密码的起源、基于结构的药物设计、生物图像、生物信息学技术方法的研究、生物系统的建模和仿真等。在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。关键词:生物信息学、计算机科学,基因组学,蛋白学,
2、分子生物学,信息学,研究对象 生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。生物信息学研究重点主要体现在基因组学(Genomics)和蛋白学(Prot
3、eomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。 现今的生物信息学的主要研究对象有:1、序列比对(Sequence Alignment)序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。2、蛋白质结构比
4、对和预测 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。3、基因识别,非编码区分析研究基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。4、分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。5、序列重叠群(Contigs
5、)装配把大量的较短的序列全体构成了重叠群(Contigs),逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。6、遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。7、基于结构的药物设计基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用
6、分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。8、生物系统的建模和仿真随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。9、生物信息学技术方法的研究生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需
7、要在生物信息学所面临的背景之中迅速发展。10、生物图像没有血缘关系的人,为什么长得那么像呢?外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?有什么生物学基础?基因是不是相似?这些都需要在生物信息学的发展中才能找到答案。11、 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学。从现在的发展不难看出,基因工程已经进入了后基因组时代。我们也有应对与生
8、物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。许多科研单位已经开始或准备开始从事这方面的研究工作。生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。虽然生物信息学为我们带来和即将带来很多的便利,但是,这些也无法排除它的发展会带来的一些隐忧。生物信
9、息学的目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因。从本质上说,是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用。我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢,现在说肯定的话也许为时尚早。综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。参考文献:1、 网站生物谷-生物研究-基因组学生物信息学应用,佚名2、 网站生命经纬-交叉研究-生物信息学生物信息学应用:序列分析,电子克隆等初探,佚名3、 期刊2004年 第20卷 第07期计算机科学在生物信息学中的应用,作者: 万卫兵, 施鹏飞园艺0601 仲银银 20063080