1、生物信息学的发展历程生命科学领域原始研究数据,尤其是序列数据的快速积累,为发现重大生物学规律提供了可能。然而,原始数据并不等同于信息和知识,如何通过对海量数据的存储、比较、注释和分析,挖掘出这些数据所蕴含的生物学意义,是生命科学领域中最为关键的问题之一。在这一背景下,早期的生物信息学应运而生。它主要定位为一种技术支撑,其研究内容则主要取决于算法所服务或适用的分析领域,包括基因测序与序列装配、基因识别与注释、序列相似性比对、蛋白质结构比对和预测等。一些著名的生物信息学工具和数据库,如序列分析工具 BLAST、基因预测工具 GeneScan、 核酸序列数据库 GenBank 等,对生命科学研究产生
2、了深远的影响。自从 20 世纪 80 年代启动人类基因组测序计划以来,各种高通量技术引起生物数据的指数增长。2004 年,被誉为生命“阿波罗计划 ”的人类基因组计划宣告完成,自此人们开始了对基因组功能的系统解读,标志着生命科学研究进入“后基因组学”时代。生物学数据的积累不仅表现在 DNA 序列方面,与其同步的还有蛋白质的一级结构和高级结构数据、高通量转录表达谱数据和蛋白表达谱数据、表观遗传学数据、蛋白相互作用数据、疾病易感性数据和高通量成像数据等。此外,分子演化和比较基因组学、基于结构的药物设计、生物系统的建模和仿真、代谢网络分析等多个前沿交叉领域均产生了海量数据,分子生物学的研究进入到一个通
3、量化的“组学” 时代。Nucleic Acids Researc 杂志连续 21 年在其每年的第一期中详细介绍最新版本的各类生物数据库。根据该杂志的统计,截止到 2013 年 1 月,在上述海量数据基础上派生、整理出来的数据库已有 1512 个。海量生物数据的积累,促成了生物信息学由起初单纯的技术支撑,逐步发展到对生物学问题的系统诠释;从简单地提供数据管理和算法支持,发展为从海量数据出发,通过计算技术对其进行分析、整合、模拟,并在必要时辅以实验验证,最终发现生命科学新规律的新型学科体系。近年来,新一代测序技术(next generation sequencing,又名深度测序技术)的兴起进一步
4、加速了人们探索未知生命现象的进程,而生物信息学在这一新的时代背景下焕发出新的活力。以 HiSeq 2000新一代测序技术平台为例,该平台满负荷运转可实现在一周内完成对四个人类个体的全基因组重测序,而一个人全基因组测序仅需 5000 美元。在此平台基础上,经过对前期样本处理的适当调整,可实现在全基因组范围内对基因表达的精确定量、对基因结构和可变剪切事件的准确定义、对转录因子和 microRNA结合位点的准确鉴定等。通过巧妙的前期样本处理,这一核酸测序平台甚至可用于解决蛋白表达定量、DNA 三级结构等难题,例如,通过巧妙地对核糖体保护的 mRNA 片断进行测序,核糖体图谱技术可实现在全基因组范围内
5、对蛋白表达的定量,并对蛋白的翻译速度进行估计,很好地补充了现有的蛋白质组学技术。而通过对染色体相邻位置的交联和深度测序,Hi-C 等新技术实现了对染色体三维结构的从头重构,对理解长程的表达调控提供了结构基础。这些改进极大地拓展了新一代测序技术在多层次组学调控研究中的应用,而生物信息学则紧随这一进程,逐渐渗透到生命科学的各个研究环节,利用学科交叉优势创新尖端的技术,提出崭新的假设并最终致力于探索生命的新规律。下面,我们将围绕现代生物信息学研究生物医学问题的三个重要角度,结合实例,阐述如何运用生物信息学方法研究多层次的整体组学调控、如何运用分子演化理论解读医学组学信息、以及如何运用生物信息学数据库与在线软件,在整合丰富注释信息的基因组框架下理解基因功能与复杂疾病。