1、生物医学大数据的现状与展望 宁康 陈挺 中国科学院青岛生物能源与过程研究所,单细胞研究中心生物信息学团队 清华大学信息科学与技术国家实验室,生物信息研究部 清华大学计算机科学与技术系,智能技术与系统国家重点实验室 摘 要: 生物医学是一门新兴的前沿交叉学科,它综合了医学、生命科学和生物学的理论和方法而发展起来.近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术.大数据时代的来临对生物医学研究产生了重大影响.其中,一个重要发展趋势就是由假设驱动向数据驱动的转变.数十年来分子生物学水平上的实验目的是获得结论或者是提出一
2、种新的假设,而现在基于海量生物医学大数据,可以对海量数据的研究来探索其中的规律,直接提出假设或得出可靠的结论.随着先进的生物分析技术的不断推出和更新,生物医学数据迅速积累.基于此类大数据一些以往不能解决的问题将有望解决,同时相关生物医学研究的新问题也层出不穷.生物医学相关的大数据技术和相关应用主要包括:基于高通量测序的个性化基因组、转录组和蛋白组研究,单细胞水平基因型和表型研究,人类健康相关微生物群落研究,生物医学图像研究等.相关生物医学大数据分析任务均具有着数据密集和计算密集的双密集性特点.要充分地利用这些大数据解决一系列生物医学问题,迫切需要高通量、高效率、高准确性的生物信息存储和分析策略
3、.本文总结和回顾生物医学大数据的生成、管理和分析相关的一系列问题,其中重点讨论人体微生物群落、单细胞表型和基因型、生物医学图像等新近出现的生物医学大数据形式,以及相关数据分析和应用前景等.基于目前生物医学大数据的现状我们可以发现,生物医学大数据的研究正处于蓄势待发状态:适应于生物医学大数据的软硬件平台、大数据存储、大数据分析挖掘等方法等还不成熟,制约着生物大数据的研究.然而一旦相关研究获得突破并有所优化和应用,将会全方位地支撑生物医学大数据的深入解构;进而有助于对医学现象的趋势分析和预测,服务于相关的遗传疾病研究、公共卫生监控、医疗与医药开发等广泛生物医学应用.关键词: 生物医学; 大数据;
4、微生物群落; 单细胞; 医学图像; 数据挖掘; 作者简介:宁康 E-mail: ;作者简介:陈挺 收稿日期:2014-08-26基金:国家自然科学基金(30870572,61303161,61103167)Big data for biomedical research: Current status and prospectiveNING Kang CHEN Ting Computational Biology Group of Single Cell Center, Qingdao Institute of Bioenergy and Bioprocess Technology, Chin
5、ese Academy of Sciences; Bioinformatics Division, TNLIST, Tsinghua University; Abstract: At the frontier of cross-disciplinary sciences, biomedical research combines theory with methods, and biomedical sciences with computation. The recent in-depth integration of advanced equipment and information t
6、echnology in biotechnology has led to an explosion of data collection, and thus there is a great need for data storage and analysis. Furthermore, the big data era is impacting greatly on biomedical research. In particular, research is transforming from hypothesis-driven to data-driven investigations
7、. For decades, molecular biology research has been hypothesis driven, but the availability of massive biomedical data now allows researchers to directly explore the regularity contained in the data, make assumptions, and draw conclusions. With the fast accumulation of biomedical data, many problems
8、that were unsolvable in the past can now be solved by carefully designed data analysis methods. At the same time, many new problems in biomedical research have emerged. Examples of big data technologies and applications include personalized genomics, transcriptomic and proteomic studies, genotyping
9、and phenotyping of single cells, microbial community research, and biomedical imaging. All these applications are both data intensive and computation intensive, and thus advanced storage and analysis strategies characterized as being high throughput, high efficiency and high accuracy, are urgently n
10、eeded to process these massive biological data. In this article, we summarize and review several aspects of biomedical big data(data generation, management, and analysis) and focus on data analysis and the application prospects of newly emerging data including human microbiota, the phenotype and gen
11、otype of single cells, and biomedical imaging. We conclude that biomedical big data is gaining momentum, although current hardware and software platforms for data-driven analysis remain a significant hurdle. We expect that as big data analysis breaks through this bottleneck, the in-depth research of
12、 biomedical big data will make a more significant contribution to clinical diagnosis and treatment.Keyword: biomedical research; big data; microbial community; single-cell; bio-imaging; data mining; Received: 2014-08-26生物医学是应用生物医学信息、医学影像技术、 基因芯片、纳米技术、新材料等技术的学术研究和创新交叉领域. 随着以“社会-心理-生物”为代表的大医学模式的提出和系统生
13、物学的发展, 形成了现代系统生物医学1,2. 面向生物医学的系统生物学研究是与 21 世纪生物技术技术和大数据技术密切相关的领域, 是关系到提高医疗诊断水平和人类健康的重要研究领域.随着生物分析技术和计算技术的快速发展, 生物医学产生了大量的数据. 21 世纪以来, 随着高通量 DNA 测序的技术发展和逐步应用, 生命科学领域的数据量正在极速增长. 1977 年实现了 -X174 噬菌体全基因组测序; 2000 年, 人类基因组草图被绘制完成3. 21 世纪尤其是 2010 年以来, 随着新一代测序技术的发展, 更大数量级的基因组数据产出日渐增加 (从 GB, TB 级到 PB, EB 级):
14、 Illumina 公司最新的推出的 HISEQ X TEN 测序仪 3 天内测序约 1.8 TB 的碱基数据(http:/ 121127 另外美国在电子病历和大数据方面的推进14, 收集到来自全美数千家医院数百万病人的各类型电子病历. 这些高维度数据为发掘蕴含于高维数据中的深刻规律提供了基础, 同时在数据整合与分析方面提出了挑战. 第二, 生物医学研究目标和过程的复杂性包括: 不同组学数据的系统性整合需求、不同样本的比对需求、结果的统计验证等等, 均需要基于大数据进行数据建模并归纳生物学规律. 第三, 生物医学研究中样本在来源、处理方法、存储格式上的差异性(heterogeneity)导致研
15、究对象的高度不确定性和不吻合性, 需要智能化的数据模型来加以深入分析.与传统的逻辑推理研究不同, 大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等分析归纳, 进行相关性等分析. 大数据研究一个重要发展趋势就是由假设驱动向数据驱动的转变. 具体到生物医学大数据而言, 数十年来分子生物学水平上的实验目的是获得结论或者是提出一种新的假设, 而现在基于海量生物医学大数据, 可以对海量数据的研究来探索其中的规律, 直接提出假设或得出可靠的结论. 生物医学大数据的“3H”特点将会是一把双刃剑: 在大数据高速积累的同时, 数据的差异性将会形成数据整合方面的瓶颈; 但是一旦突破此一系列瓶颈, 在
16、大数据中蕴含的深刻生物学规律将会极大地促进对于人体健康的理解.然而, 和目前研究较为深入的互联网视频和社交网络等格式化数据相比, 生物医学大数据也有其独特之处. 首先, 生物大数据处理需要复杂的信息提取计算. 例如, 基因组测序的原始数据是大量的 DNA 短片段(reads), 不同的测序仪可产生长度从 100 碱基(bp)到 10000 碱基不同长度的短片段. 这些 DNA 片段所代表的生物学的信息需要通过数据处理才能取得. 若是对一个未知的物种的基因组测序, 通常这些片段需要通过复杂的拼接算法(de novo assembly),才能将得到基因组的长序列; 再通过复杂的统计模型, 才能克服
17、测序中的错误, 确认基因组中每一个碱基的可信度(base calling); 然后通过基因预测算法 (gene prediction), 预测物种的基因; 最后利用序列比对算法(sequence comparison),将物种的基因与其他物种功能已知的基因进行序列比较, 才能对这些基因进行功能注释(function annotation). 这些提取的信息才能提供后续的生物功能计算分析. 其次, 由于生命系统本身极其复杂, 例如, 通过对人类疾病的研究我们发现, 基因组中一个碱基的突变就可能对整个生物个体产生深远性的影响, 生物个体成长的过程的环境因素也直接或间接对生物体产生影响. 通过对单细
18、胞的研究也让我们看到, 不仅仅每一个生物个体都与其他个体不同, 同一个体内的每一个细胞都与其他细胞不同, 同一个细胞在不同时间的状态也不同. 因此, 要完整地研究这样复杂的生命系统,海量的生物医学数据样本也很难满足要求. 如果再考虑到生物医学数据获取的困难和高昂的代价, 因此生物医学大数据的分析就需要更多利用生命系统本身的规律和知识, 建立合理的假设和数学模型, 对数据进行分析和解释. 最后, 生物医学大数据的目标是科学的发现, 因此, 对于结果的验证和解释是必须的, 这也是它与其他大数据的不同之处.基于以上介绍的生物医学大数据的含义和特点,我们可以看出当前生物医学和大数据研究是相辅相成、互相
19、促进的, 其交叉结合共同促进相关基础和应用的研究. 以下我们分别介绍驱动现有生物医学大数据研究的应用, 生成相关生物医学大数据的先端生物技术; 然后介绍具体的生物医学大数据, 以及相关的大数据存储和云计算平台等计算技术; 最后介绍基于生物医学大数据的生物医学研究新趋势.2 生物医学大数据的典型应用典型的生物医学数据包括癌症、个性化医疗等数据, 其呈现形式包括功能基因组、单细胞、宏基因组 (又称元基因组)数据等. 所有这些数据存储于 NCBI 或EBI 等大型通用数据库中. 同时随着高通量测序技术的发展和应用以及生物技术与信息技术的融合,NCBI 等大型通用数据库中生物医学数据类型和数据规模不断
20、增大15(图 2).2.1 现有大型通用生物医学数据库现有生物医学大型通用数据库包括美国 NCBI 的 Gen Bank、欧洲的 EBI、日本的DDBJ 等. 针对于某些特定数据或研究对象的数据库如 Uni-Prot(蛋白数据库)、MG-RAST(微生物数据库)也正在快速发展. 这些都是从事生物信息数据的管理、汇聚、分析、发布等工作的大型数据库. 近年来, 随着高通量测序技术的发展等, 这些大型数据库数据量不断激增, 如表 1 所示.图 2 (网络版彩图)Gen Bank SRA 数据库近年数据量增长情况 Figure 2 (Color online) The increase of data
21、 sizes for Gen Bank SRA database 下载原图2.2 个人基因组以及个性化医疗2008 年 11 月 6 日, Nature 杂志刊登了“第一个亚洲人基因组图谱”论文, 封面名为“你的生命掌握在你手中”16. “第一个亚洲人基因组图谱”的完成是医学方面的重要成就, 这意味着未来 510 年, 一个人只需要花很少的费用就可以拥有自己的基因组图谱. 可以预见未来, 医生可以依据这个基因组图谱对病人进行更精确地诊断和治疗, 更可能在发病前就进行必要的干预. 甚至连药物都可以根据这个基因图谱为一个人单独设计. 可以说这是“你的生命掌握在你自己手中”, “个人基因组时代已经来
22、临”的先兆. 基因组图谱结合对基因表达调控等与医学有关知识,可以对人类认识疾病的发病过程, 对疾病的抵抗性研究将带来新思路. 有了“基因组图谱”不仅对疾病治疗有作用, 更重要的是在发病前人们就可以干预、 预防这些疾病了. 这样, 治病对人们来说将不再是千篇一律了, 甚至给病人的药物都有可能是根据每个人的特点专门设计的. 因此个人基因组是个性化医疗的基础, 21 世纪将是“个性化医疗”的时代, 在完成 1 万人的基因组图谱后, 真正的个人基因组时代将到来. 到 2014 年, 1000美元的个人基因组已经实现17.可以预计, 个人基因组图谱的绘制费用将越来越便宜, 并可能成为不少医院看病前的例行
23、程序.2012 年斯坦福大学著名生物学家 Snyder 教授等研究人员18使用个人的基因组图谱, 同时结合多个高通量生物技术定期监测人体的生理状态, 尝试个性化医疗的可行性. 他们提出综合个人组学图谱的概念, 简称为 i POP(integrative personal omics profile).i POP 对一个人进行长达 14 个月的医疗跟踪, 除了基因组测序之外, 期间通过血液样本对转录组, 蛋白质组, 代谢组, 微生物宏基因组, 以及个体自身抗体的分布进行测量, 对包括 2 型糖尿病在内的各种医疗风险进行分析. 分析结果展现个人的健康和疾病状态的各种分子成分和生物通路的广泛动态的变
24、化. 这项研究表明, 结合基因组图谱和各样动态的组学信息, 可以解释一个人的健康和疾病状态. 在整个实验的过程中间, i POP 产生了大量的高通量组学的数据,在 20 个时间点监测了总共大约30 亿个生物特征, 对这些数据进行复杂的计算分析. 可以预见, 未来个性化医疗的广泛应用意味着需要对每一个人的基因组测序, 同时定期地检测、计算分析各样的组学数据,根据分析的结果为每一个人提供个性化的防治、诊断、和治疗. 大量的高通量组学的数据将会产生, 如何存储、分析和保护这些含有个人隐私的生物医学大数据, 如何针对数据做医学上的解释诊断等等, 都是我们将要面对的挑战.针对个性化医疗的浪潮, 目前系统
25、生物学改变现代医疗系统的方式被总结为: 从以病征为主的疾病诊断和治疗, 向基于个体特征的精确治疗转变19. 特别是高通量的 DNA 测序和质谱仪技术的进步使得科学家和医疗人员能够对人体的细胞和组织、体液、身体的表皮、以及排泄物等采样, 非常准确地检测包括基因组、表观基因组(epigenome)、转录组、蛋白质组、 新陈代谢组(metabolome)、免疫组(autoantibodyome)、 微生物组(microbiome)、以及环境组(envirome)等在内的详细的各样组学信息. 综合这些信息不仅能使我们对一个人的健康状况有全局的了解, 而且提供了一个新的途径能够个性化地检测健康状况和提供
26、疾病的 防治 . 如何设定 样本采样 和数据采 集的标准20,21, 如何有效地利用和整合、计算分析这些数据将是未来最主要的挑战22.2.3 人体微生物群落研究人体微生物群落存在于人的皮肤、口腔、胃、肠道、血液等, 与人体共生, 对人的生理和营养有深远的影响. 随着人类对于人体微生物群落研究的深入,越来越多以人体为宿主的体内和体外微生物群落,特别是人体肠道群落等, 被广泛研究23. 据报道, 约有 100 万亿个细菌分布在人体内外, 细菌含量约为自身体细胞的 9 倍, 其携带的基因数目大约是人类的 1000 倍. 某些细菌甚至在人体生理机能中作用突出,比如某些细菌能够有效帮助人体构筑免疫系统2
27、4有些细菌对促进食物消化不可或缺25; 还有的可以防止病原体引发潜在病变26. 与其说宏基因组在研究微生物菌群, 不如说在研究人类“自身”. 已有研究称, 人类许多疾病如疟疾, 脑膜炎, 败血症与致病菌有关, 也有一些黏膜类疾病与菌群失调有关, 甚至某些精神类疾病如抑郁症患者, 其肠道内菌群都出现了异变27, 可以说人体内外的微生物与人体健康息息相关.表 1 现有生物医学相关典型数据库的数据量和项目数 Table 1 Data sizes and project numbers for current typical databases related with biomedical rese
28、arches 下载原表 目前在发炎性肠道疾病, 肥胖症和 2 型糖尿病的等的病人身上发现, 微生物和人体之的动态平衡关系遭到破坏. 美国国家卫生院(NIH)在 2008 年投入超过 1亿美元的资金建立人体微生物基因组研究计划 (Human Microbiome Project)http:/hmpdacc.org/, 用于研究人体内微生物与人体健康的关系28. 这些微生物与人体共生(symbiosis), 协助人体消化系统的运作, 为人体提供必要的维生素, 并在机体免疫方面发挥重要作用, 能保护人体免受有害细菌的攻击. 许多疾病的产生是由于这种共生的关系产生变化. 如美国华盛顿大学的研究小组在
29、2009 年发现肥胖病人的肠道微生物的多样性比正常人明显减少29. 近期的研究工作发现, 在肠道中, 微生物菌群在母亲怀孕的过程中自适应转变, 帮助母体能产生更多的营养, 同时可能导致母体在妊娠期增加体重和减少对葡萄糖耐受度30. 在免疫系统里 , 微生物群落被证明会影响人体的初始 T 细胞群, 说明微生物和人体的免疫系统共同进化31. 对人体发育而言 , 科学家证明生命早期的抗生素暴露会影响脂肪组织, 肌肉和骨骼的长远发展32. 在临床医学上 , 微生物群落的移植也成功地成为治疗 clostridium difficile 的主要方法33我国对宏基因组的研究虽然起步较晚, 但是进步却是非常快
30、速. 以华大基因为代表, 通过与欧洲 METAHIT CONSORTIUM 的合作, 华大基因对 124 例欧洲人肠道的微生物宏基因组测序分析34, 发现超过 3 百万的不同基因, 大多数的基因是以前未曾研究过的. 在另一项对糖尿病人肠道宏基因组的研究中35, 发现糖尿病人肠道微生物群落的多样性明显少于正常人肠道的微生物群落.因此, 可以预见在不远的未来, 不论是人类生存环境还是人类自身健康研究领域, 将会产生大量的宏基因组的测序数据. 如何存储、计算分析这些数据,如何利用这些数据为人类生存环境监控和个性化医疗提供信息, 对人类未来的发展至关重要.3 生成海量大数据的先端生物技术生物医学大数据
31、的研究依赖于高通量、高质量的数据生成线段生物技术和相关仪器. 目前生物医学大数据的来源主要有 3 种: (1) DNA 测序仪器; (2) 高通量高精度质谱仪; (3) 高通量高精度表观型分析仪器. 详见图 3.DNA 测序仪器: 454, Illumina, Pac Bio 等新一代测序技术的问世36( 表 2), 带来生物医学领域的革命 .新一代测序技术能够较经济地对基因组进行高效准确的测序37. 随着实验技术的成熟和数据分析算法的开发, 新一代测序技术不仅大量应用在生物医学数据研究38, 而且在一些复杂的医学研究项目中也得到实际应用39. 相关大数据数量级远超过太字节 (TB)级别(表
32、2).高通量高精度质谱仪: 蛋白质组学是继基因组测序计划后崛起的一门新兴学科, 逐渐成为后基因组时代的研究前沿和热点领域. 而代谢组学是继基因组、蛋白组后发展起来的一门学科, 主要研究的是作为各种代谢路径的底物和产物的小分子代谢物,在疾病诊断、新药研发、毒理方面都有非常大的应用.近年来随着研究人员对蛋白组学、代谢组学的不断重视以及质谱技术的高速发展, 高通量高精度质谱仪产生了越来越多的生物医学数据. 相关大数据累积的数量级也已超过太字节(TB)级别(表 3).高通量高精度表观型分析仪器: 首先, 随着荧光蛋白标记等标记式检测方法、红外和拉曼等非标记式细胞检测方法、单细胞操纵等技术的发展, 荧光
33、流式细胞分选仪(FACS)、活体单细胞拉曼分选仪(RACS) 等单细胞分析和操控平台日渐成熟40. 由于单物种群体或群落中的单细胞数量巨大, 相关单细胞表观型数据量大且积累迅速. 其次, 单细胞操纵技术的成熟开启了单细胞测序序幕, 相关的海量测序数据将会迅速被生成41. 最后, 高分辨显微图像的海量生成, 迅速地积累了更为海量的生物医学大数据42.图 3 (网络版彩图)现有生成海量大数据的先端生物技术以及相关仪器和数据库Figure 3 (Color online) Current advanced biotechnologies, equiptments and databases that
34、 have generated biomedical big-data 下载原图表 2 当前新一代测序技术(Pac Bio, 454, Solexa)的重要技术指标之比较Table 2 Comparison of key features of next generation sequencing technologies 下载原表 表 3 当前新一代高通量高精度质谱仪重要技术指标之比较 Table 3 Comparison of key features of high-throughput high-resolution mass spectrometers 下载原表 4 生物医学大数据的
35、分析生物医学大数据可以分为大数据存储和大数据分析两方面, 其中大数据存储服务于大数据的深入分析. 当今生物医学中的典型大数据包括各类基因组数据、宏基因组数据和单细胞数据以及生物医学图像数据等.4.1 基因组数据分析在高通量数据生成和系统化数据分析方面, 目前国际上对组学数据的高通量生成和系统化分析已经初步形成了若干通用流程. 在高通量基因组和转录组数据生成方面, 454, Solexa, Pac Bio 等新一代测序技术的引入和推广, 配合高通量数据分析方法, 使更加细致、深入的基因组和转录组数据分析成为可能. 在标准化数据分析流程方面, 包括华盛顿大学的 Tophat-Bowtie-Cuff
36、link 系列 , 华大基因 的 SOAP 系列43, 以及商业化的 CLCBio 系列 (http:/)等. 这些系统化分析流程整合了基因组、转录组和部分表观基因组等数据的分析, 极大地推动了生物系统的相关快速、标准化和深入的研究(在此不一一赘述). 随着高通量测序数据的快速积累, 更高水平上的基因组数据整合、挖掘与可视化等分析要求也在提高. 必须通过适应于大数据分析的软硬件系统优化、分析流程的整合、交互式可视化分析平台的建设等方法来实现.4.2 蛋白质组数据分析对于蛋白组学, 以高分辨多级串联质谱为代表的质谱分析技术日趋稳定; 通过收集海量的高分辨率一维质谱(MS)和二维质谱(MS/MS)数据, 一些大规模的蛋白组定性和定量分析工作也已完成. 目前蛋白质组学研究向着研究对象更全面(如