1、生物与计算机随着计算机的高速发展,生物与计算机(生物信息学)已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿,生物信息学是把基因组 DNA 序列信息分析作为源头,找到基因组序列中代表蛋白质和 RNA 基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在 DNA 序列中的遗传语文规律;在此基础上,归纳、整理与基因组遗传语文信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是“读懂“基因组的核苷酸顺序,即全部基因在染
2、色体上的确切位置以及各 DNA 片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律” ,解释生命的遗传语言。 生物信息学在短短十几年间,已经形成了多个研究方向,主要的研究重点:1、序列比对(Sequence Alignment)序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构 DNA 的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中
3、的 DNA 序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和 DNA 序列中的信息成分序列比对考虑了 DNA 序列的生物学特性,如序列局部发生的插入,删除(前两种简称为 indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的 DNA 序列高达 109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的 BAL
4、ST 和 FASTA 算法及相应的改进方法均是从此前提出发的。2、 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从 50 到10003000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的 3 维结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找 dockingdrugs 的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构
5、进行比对的原因是由于蛋白质的 3 维结构比其一级结构在进化中更稳定的保留,同时也包含了较 AA 序列更多的信息。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过 30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。3、 基因识别,非编码区分析研究。基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白
6、质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA 序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA 序列目前没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的 35%,显然,手工的搜索如此大的基因序列是难以想象的。侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(HiddenMarkov Model)和 GENSCAN,Splice Alignment
7、 等等。4、 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用 DNA 序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。在匹配不同种族的基因时,一般须处理三种情况:Orthologous:不同种族,相同功能的基因 Paralogous: 相同种族,不同功能的基因 Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入
8、的基因。这一领域常采用的方法是构造进化树,通过基于特征(即 DNA 序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如 UPGMA)来实现。5、 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出 500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。6、 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间
9、的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。7、 基于结构的药物设计人类基因工程的目的之一是要了解人体内约 10 万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质 3 级结构的基础上,可以利用分子对齐算法
10、,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。8、 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学。从现在的发展不难看出,基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入。常规的计算机算法仍可以
11、应用于生物数据分析中,但越来越不适用于序列分析问题。究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论。西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法。机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息。隐马尔可夫模型也广泛用于预测 DNA 的基因结构。在生物信息学中聚类方法已经用于microarray 数据分析中,癌症类型分类及其他方向中。机器学习也用于从基因数据库中获得相应的现象解释。机器学习加速了生物信息学的进展,也带了相应的问题。机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构。其次,机器学习方法中常采用“黑箱“操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚。不论如何,DNA 计算机的提出拓宽了人们的视野,启发人们用算法的观念研究生命,并向众多领域提出了挑战。相信生物会与计算机有着完美结合的一天。