收藏 分享(赏)

大数据与化学数据挖掘.doc

上传人:无敌 文档编号:151917 上传时间:2018-03-22 格式:DOC 页数:18 大小:174.50KB
下载 相关 举报
大数据与化学数据挖掘.doc_第1页
第1页 / 共18页
大数据与化学数据挖掘.doc_第2页
第2页 / 共18页
大数据与化学数据挖掘.doc_第3页
第3页 / 共18页
大数据与化学数据挖掘.doc_第4页
第4页 / 共18页
大数据与化学数据挖掘.doc_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、大数据与化学数据挖掘 刘言 蔡文生 邵学广 南开大学化学学院分析科学研究中心 摘 要: 数据是重要的战略资源,大数据挖掘技术已成为学术界、企业界甚至各国政府关注的热点.本文介绍了大数据的基本概念及发展现状,综述了与化学研究有关的大数据研究状况,讨论了大数据在基础理论与关键技术 2 个层面上的主要问题以及大数据挖掘技术在化学各领域中的应用,并对大数据发展的未来及其在化学学科中的应用前景进行了展望.关键词: 大数据; 数据挖掘; 可视化; 云计算; 化学; 作者简介:邵学广,E-mail: 收稿日期:2014-11-03Big data and chemical data miningLIU Ya

2、n CAI WenSheng SHAO XueGuang Research Center for Analytical Sciences, College of Chemistry, Nankai University; Abstract: Big data is fast becoming an important resource and a hot topic in academic research, business and government. In this paper, we introduce the concept of big data, and review adva

3、nces in big data research, including technology for big data collection, cloud computing technology like Googles file system, Big Table, Map Reduce and Hadoop, and data mining and visualization methods for big data. Big data are commonly defined by the so-called 4 Vs, i.e., volume, variety, velocity

4、, and value. High volume data with large variety make the analysis of big data much more difficult. Since velocity is important, fast high performance analysis methods are needed for big data. Moreover, the high value of big data is precisely the reason for the importance of and research activity in

5、 this area. In this paper, we also summarize various applications of big data in chemistry. Professional information platforms like the Collaboratory for Multi-scale Chemical Sciences(CMCS) and Chemical Informatics and Cyberinfrastructure Collaboratory(CICC) have been developed to manage and researc

6、h chemical big data, while search engines like the Chem DB Portal have been established to extract chemical information from the internet. Software like the Integrated Project View and ArQ iologist can be used to assist in the design of new medicines in medicinal chemistry. A data management system

7、called BioG ames has been proposed to analyze microfluidics big data. Moreover, graphics processing units are widely used to improve the computational capabilities of molecular dynamics simulations, while compressed score plots have been proposed to solve visualization issues in the field of chemome

8、trics. In the era of big data, the analytical instruments, chemical data systems, and even the research methods may need to be changed and therefore, new strategies and techniques are still needed for the generation and processing of big data.Keyword: big data; data mining; visualization; cloud comp

9、uting; chemistry; Received: 2014-11-031 大数据的基本概念随着人类对自然和社会认识的进一步加深及人类活动的进一步扩展, 科学研究、互联网应用、电子商务、移动通讯等诸多领域产生了多种多样、数量巨大的数据. 在此背景下, 一个崭新的概念大数据(big data)应运而生, 成为世界各国关注的热点. 大数据挖掘技术及其应用创造了巨大价值, 对国家治理模式、企业决策、组织和业务流程以及个人生活方式都将产生巨大影响.大数据尚无统一的定义. 一般认为, 大数据是一种新现象, 具有 4 个带“V”字的特点: (1) 数据体量(volume) 巨大 , 达 TB 级 ,

10、甚至 PB 级 ; (2) 数据种类(variety)繁多、来源复杂、格式多样, 除了结构化数据, 还有半结构化和非结构化数据; (3) 价值(value)密度低, 在大量的数据中, 有价值的信息比例不高.例如在连续监控视频中, 有用数据可能仅为 1, 2 min,甚至 1, 2 s. 但是大数据中蕴藏的信息非常丰富, 可挖掘价值很高; (4) 速度(velocity)快, 数据的产生和增长速度快, 对数据的处理的速度也要快.当前, 各行各业都遇到大数据问题. 例如, 商界利用大数据关联分析, 通过了解消费者行为模式的变迁而发现新的商机1、优化库存和物流缓和供需矛盾、控制预算开支、提高服务质量

11、. 在医疗领域, 大数据分析被用于复杂疾病的早期诊断2、心血管病的远程治疗3、器官移植4、HIV 抗体的研究5等已经取得了一定的效果. 在生命科学领域, 大数据技术被用于基因组学6、生物医学7、生物信息学8等研究.此外, 大数据技术还被用于温室气体排放的检测9以及政府信息管理10等公共领域.2 大数据的发展现状2008 年 , Science 发表文章“Big data: Science inthe petabyte era”11. 2011 年, 麦肯锡公司发布了大数据: 下一个前沿, 竞争力、创新力和生产力的调研报告, 指出大数据研究将带来巨大价值. 2012 年,美国奥巴马政府宣布投资

12、2 亿美元启动“大数据研发计划”, 旨在提高和改进从海量和复杂数据中获取知识的能力, 加速美国在科学和工程领域发明的步伐,巩固国家安全. 大数据从此成为世界关注的热点.各国纷纷提出了自己的大数据研究计划, 其中美国和中国的投入最大. 在美国, 联邦政府建立了统一的门户开放网站Data.Gov, 开放部分公共数据, 鼓励民众对其进行自由开发. 美国的国家科学基金委员会(NSF)、美国国家卫生研究院(NIH)、美国能源部(DOE)、美国国防部(DOD)、美国地质勘探局(USGS)等部门联合推出了大数据计划, 旨在提升从大量复杂数据中获取知识和洞见的能力12.中国工业信息化部发布了物联网“十二五”规

13、划, 把信息处理技术作为 4 项关键技术创新工程之一. 海量数据存储、数据挖掘、图像视频智能分析是大数据研究的重要组成部分. 另外 3 项, 即信息感知技术、信息传输技术和信息安全技术, 也与大数据密切相关. 2012 年中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项, 其任务之一就是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统. 同时, 中国计算机学会成立了大数据专家委员会; 为探讨中国大数据的发展战略, 中国科学院计算机研究所举办了以“网络数据科学与工程一门新兴的交叉学科”为主题的会议, 与国内外知名专家学者一起为中国大数据发展战略建言献计; 2013

14、年, 中华人民共和国科学技术部正式启动国家高技术研究发展计划“面向大数据的先进存储结构及关键技术”, 启动了多个大数据课题.有关大数据的基础和应用研究近几年得到了迅速发展. 图 1 是 web of science核心期刊数据库以“bigdata”为关键词进行检索得到的历年发表文章数的统计结果(截止日期为 2014-11-28). 从图中可以清楚地看出, 近几年与大数据相关的文献数量呈现出爆炸性增长态势. 2004 年前后与大数据相关的文献每年仅有几篇, 到 2010 年左右文献数量增加到每年十几篇.而到 2012 年, 这一数字跃增到 256 篇, 2013 年更是突增到 985 篇. 截止

15、到 2014 年 11 月, 发表文章数目已达到 843 篇. 预计大数据研究将会持续升温.图 1 (网络版彩色)Web of science 上以“big data”为关键词检索得到的历年文献数 Figure 1 (Color online) The number of literatures in each year by searching the key words “big data” on web of science 下载原图正是由于中美两国的巨大投入, 在大数据方面的研究成果也最为突出. 图 2 是web of science 核心期刊数据库以“big data”为关键词进行检

16、索得到的相关文献按国籍进行统计的结果(截止日期为 2014-1128). 从图中可以清晰地看出, 美国发表的与大数据相关的文献占了总数的 39.56%, 在所有国家中列第 1 位. 这一数量超过了排名第 24 位国家文献数量的总和, 也超过了排名在第 5 位之后的所有国家文献数量的总和. 中国以 15.62%排名第 2 位, 虽然文献数量比排名第 3 的英国(6.26%)和第 4 的德国(5.39%)高出不少, 但是与美国相比仍然存在不小的差距.从 web of science 核心期刊数据库的检索结果还可以看出大数据研究的学科分布. 统计结果表明, 计算科学、工程和电信类的文献数量排在前 3

17、 位, 相关文献数多达 1116, 608 和 157, 分别占文献总数的 50.98%, 27.78%和 7.17%. 这一结果表明针对大数据的基础理论研究以及大数据应用上某些关键技术的研究仍是目前科学界关注的重点. 而排名 48 位的则是大数据应用比较广泛的商业、健康保障服务和医疗信息学等领域. 这一结果说明大数据在这些领域应用广泛, 相关的研究工作也在进行展开. 但是与化学学科相关研究方向的文献数量则相对较少, 生物化学和分析生物学领域的文献数量排在第 11 位, 而化学类文献数量则更少, 只排在第 20 位, 文献数量仅有 31 篇, 占总数的 1.42%. 因此, 与计算机、商业等领

18、域相比, 化学领域与大数据相关的文献数量仍然比较少, 大数据技术在化学及其相关学科之中的应用与发展, 仍然处于起步阶段, 有着很大的上升空间. 在当前化学数据飞速增加的时代, 化学大数据的挖掘仍需要更大的投入.图 2 (网络版彩色)Web of science 上以“big data”为关键词检索得到各国文献数所点比例 Figure 2 (Color online) The percentage of literatures in each country by searching the key words “big data” on web of science 下载原图3 大数据的研究内

19、容一般认为, 大数据的处理过程包括采集、处理与集成、分析和解释 4 个步骤13.大数据研究的主要内容涉及这 4 个步骤在实际实施过程中的相关问题. 数据采集是大数据处理流程中最为基础的一步, 即使用传感器收取、射频识别(RFID)、搜索引擎、条形码识别等数据采集技术, 从外界获取数据. 大数据的“大”, 原本就意味着数量多、种类复杂, 因此, 通过各种不同的方法获取数据信息便显得格外重要. 数据的处理与集成主要是对已经采集到的数据进行适当的处理并进一步集成后进行存储. 大数据另一个特点便是其多样性, 这就决定了经过各种渠道获取的数据种类和结构都非常复杂, 这给之后的数据分析处理带了极大的困难.

20、 通过数据处理与集成, 将结构复杂的数据转换为单一或便于处理结构的数据,为以后的数据分析打下良好的基础. 同时, 由于采集到的数据中往往会掺杂很多噪音和干扰, 还需要对这些数据进行“去噪”和“清洗”, 以保证数据的质量以及可靠性. 常用的方法是在数据处理的过程中设计一些数据过滤器, 通过聚类或关联分析的规则方法将无用或错误的离群数据挑出来过滤掉, 防止其对最终数据结果产生不利影响. 然后将这些整理好的数据进行集成和存储. 目前主要的方法是针对特定种类的数据建立专门的数据库, 将这些不同种类的数据信息分门别类的放置, 这样可以有效地减少数据查询和访问的时间, 提高数据提取速度.数据分析是整个大数

21、据处理流程里最为核心的部分, 在数据分析的过程中, 会发现数据的价值所在. 由于大数据其本质上来说仍然是数据, 因此传统的数据处理分析方法, 包括聚类分析、因子分析、相关分析、回归分析14等仍然可以用于对大数据进行分析. 但这些方法在处理大数据时也存在这许多问题. 首先, 传统数据分析方法大多数都是通过对原始数据集进行抽样或者过滤, 然后对数据样本进行分析, 寻找特征和规律, 其最大的特点是通过复杂的算法从有限的样本空间中获取尽可能多的信息由于大数据极大的数据量, 而大数据本身巨大的数据量对于机器硬件以及算法本身都是严峻的考验. 其次, 大数据的应用常常具有实时性的特点, 算法的准确率不再是大

22、数据应用的最主要指标, 很多实际应用过程中算法需要在处理的实时性和准确率之间取得一个平衡, 这便要求传统的分析方法能够根据应用的需求进行调整. 最后, 当数据量增长到一定规模以后, 可以从小量数据中挖掘出有效信息的算法并不一定适用于大数据. 正是由于这些局限性, 传统的分析方法在对大数据进行分析时必须进行调整和改进.此外, 为了更好地对大数据进行分析, 出现了许多专门针对大数据的分析方法. 大数据分析方法与传统分析方法的最大区别在于分析的对象是全体数据,而不是数据样本, 其最大的特点在于不追求算法的复杂性和精确性, 而追求可以高效地对整个数据集的分析. 目前一些大数据具体处理方法主要有散列法1

23、5、布隆过滤器(Bloom Filter)16、Trie 树17,18等. 同时, 针对不同类型的数据, 也存在不同的分析方法.如对文本进行分析的自然语言处理(NLP)技术19、对 Web 进行分析的 Page Rank 法20和 CLEVER 法21、对多媒体进行分析的摘要系统以及对社交网络进行分析的概率法22和线性代数法23等.如前所述, 大数据本身巨大的数据量对于机器硬件以及算法本身都是严峻的考验. 随着数据量的膨胀, 单台机器在性能上已经无法满足分析和处理的需要. 为了实现对大数据的分析, 并行计算和分布式的存储与管理, 也就是云技术势在必行24. 云技术最早由 Google 公司提出

24、, 主要由分布式文件系统(GFS)25、分布式数据库(Big Table)26、批处理技术(Map Reduce)27,28以及开源实现平台(Hadoop)294 大部分组成. 其中, GFS 是基于分布式集群的大型分布式处理系统, 通过数据分块、追加更新等方式实现海量数据的高效存储, 为 Map Reduce 计算框架提供低层数据存储和数据可靠性的保障; Big Table 是分布式数据库, 通过一个多维稀疏排序表以及多个服务器实现对大数据的分布管理. Map Reduce 是云技术的核心 , 即通过批 处理的方 法实现对 大数据的 分析 ;Map Reduce 技术主要由 Map 和 Re

25、duce 2 部分组成, 首先将用户的原始数据源进行分块, 然后分别交给不同的 Map 任务区处理. Map 任务从输入中解析出链/值(Key/Value)对集合 , 然后对这些集合执行用户自行定义的 Map 函数得到中间结果, 并将该结果写入本地硬盘. Reduce 任务从硬盘上读取数据之后会根据Key 值进行排序 , 将具有相同 Key 值的组织在一起 ;最后用户自定义的 Reduce函数会作用于这些排好序的结果并输出最终结果. Map Reduce 的设计思想在于将问题分而治之, 同时把计算推到数据而不是把数据推到计算, 有效地避免数据传输过程中产生的大量通信开销. Hadoop 是一个

26、由 Java 编写的云计算开源平台, 通过 Hadoop 可以将前面提到的传统数据分析技术以及专门针对大数据的分析技术编写成基于 Map Reduce 计算框架的程序 , 实现对大数据的分析 .云技术使得前面叙述的各类分析方法能够在实际应用中得到实现, 意义十分重大. 因此, 出现了大量针对云技术的研究与应用, 如针对 GFS 的改进, 出现了Colosass, Hay-stack 和 TFS 等新的管 理系统 ; 针对 Map Reduce 的改进, 出现了 Pregel, Dremel 和 Dryad 等新的并行计算方法; 同时也出现了与 Big Table 功能类似的 Dynamo 和

27、PNUTS 等新的数 据库 ; 而各种对 Hadoop 改进并将其应用于各种场景的大数据处理 ,更是成为新的研究热点.对于广大的数据信息使用者来讲, 最关心的并非是数据的分析处理过程, 而是对大数据分析结果的解释与展示. 因此, 在一个完善的大数据分析流程中, 数据结果的解释步骤至关重要. 若数据分析的结果不能得到恰当的显示, 则会对大数据使用者产生困扰, 甚至会误导使用者. 传统的数据展示方式是用文本形式下载输出或用户个人电脑显示处理结果,但随着数据量的加大, 数据分析结果往往也越复杂,用传统的数据显示方法已经不足以满足大数据分析结果输出的需求. 因此, 为了提升对大数据的解释和展示能力,

28、数据可视化技术作为一种解释大数据最有力的方式, 得到了广泛的应用和蓬勃的发展. 通过可视化结果分析, 抽象的数据表现成为可见的图形或图像在屏幕上显示出来, 以图形化的方式更形象地向使用者展示数据分析结果, 方便使用者对结果的理解和接受. 目前 , 学术科研界不停地致力于大数据可视化的研究, 发展出了基于集合的可视化技术、基于图标的技术、基于图像的技术、面向像素的技术和分布式技术等. 同时, 商业上已经有了很多经典成功的可视化应用案例. 如网络上用于标示不同标签对象的标签云(Tag Cloud)技术36, 用于可视化文档编辑的历史流图(History Flow)37等. 最近,俄罗斯工程师 Ru

29、slan Enikeev 将 196 个国家的35 万个网站数据整合起来, 并根据这些网站相互之间的链接关系设 计开发了 互联网宇 宙 (the Internet Map,http:/internet- 化学及其相关学科中的大数据研究目前, 由于实验方法的丰富和学科之间交流的加快, 化学学科的发展同样进入了一个数据量爆炸性增长的时期. 在化学学科中的某些领域中也出现了大数据的身影, 给大数据技术在化学领域的应用带来了极大的空间. 与其他学科和领域不同, 化学是一门比较保守的学科, 在研究时不擅于分享数据, 化学家们对于从数据中得到结论的重视程度远大于数据本身. 而这一点正随着大数据的产生而发生

30、改变,越来越多的化学家们认识到了数据收集和交流的重要性. 以化学信息搜索和分析为研究领域的化学信息学家, 敏锐地发现这一点, 许多工作也因此而展开.为了方便化学家更好地进行交流, 对化学物质名字进行统一和标准化成为了一项重要的工作. 为此 , 国际纯粹 与应用化 学联合会 (IUPAC) 推出了International Chemical Identifier(In Ch I)以及与之配套的 In Ch IKey. 该系统取代了旧有的 Simplified Molecular-Input Line-Entry System(SMILES)方法, 成为一种标准化的、可以被索引和机器识别的化学结构

31、表达方式, 这极大地方便了数字时代下的化学家之间的交流和研究工作. 在一些与计算化学和分子模拟等与计算机相关的领域, 大数据的研究和应用工作正在进行. 一些学者尝试将各种各样的分子描述符进行统一和集成, 以便统一进行管理, 方便机器查找和索引 . 同时 , 旧有的信 息分析平 台如CambridgeStructural Database(CSD)和 Protein Data Bank(PDB)被改造和升级以适应大数据时代的需要, 更有许多新的数据检 索平台 , 如Collaboratory for Multi-scaleChemical Sciences (CMCS) 和 Chemical I

32、nformaticsand Cyberinfrastructure Collaboratory(CICC)等出现以方便化学家进行数据的收集和交流38.我国在化学信息搜索和分析方面也做出了大量的工作. 李晓霞课题组开发了化学深层网检索引擎 Chem DB Portal, 具备通过不同检索方式, 包括名称、分子式、CAS 号检索、结构检索等方式, 实时在线检索多来源网络数据库的功能, 实现了化合物数据信息的多途径集成检索和利用. 利用 Chem DBPortal, 用户仅需输入一次查询请求(可以是 1 个化合物的 CAS 号/名称/分子式或者在线画出的化学结构图或提交分子结构的 mol 文件),

33、该系统就可自动检索网络上的多个专业数据库(包括物化性质、化合物安全数据表 MSDS、试剂供应商等), 把从各库检索得到结果统一返回给用户. 目前, Chem DB Portal 索引了约 50 万个化合物、超过 100 万种产品的信息, 可在线同时检索十几个化学数据库的物性数据、MSDS 等数据源. 以此为基础, Chem DB Portal 可以逐步衍生出更多的数据服务如建立化学品与化学文献的动态链接、建立原始实验数据的respository、构建基于化学品的在线计算服务如毒性预测等各种功能. 姚建华课题组43开发了化学信息管理系统 CISOC-Ch IMS,具有化学结构检索以及文字检索 2

34、 大检索功能, 可以进行数据库的维护、中文处理、图形存储, 尤其是中文处理功能弥补了其他国外开发的化学信息管理系统在中文处理上的不足. Hou 课题组44开发了作为计算生物学和计算机辅助药物设计(CADD)相关软件的开发基础的函数库(molecular objects and relevanttemplates, MORT). 与其他的 一些函数 库相比 ,MORT 使用 C+编写, 充分利用了 C+的面向对象的思想, 使其易于理解并具有良好的可拓展性; 同时,在表征分子时, MORT 采用了关系模型, 与那些使用层次模型的函数库相比有着更大的灵活性; 此外,MORT中包含了大量的功能函数 ,

35、 能对一个分子进行各种处理, 这对于计算生物学和CADD 的程序开发者来说是极大的便利. Li 课题组设计开发了基于结构特异性得分矩阵(SPSSM)的蛋白质二级结构的数据库. 该数据库记录了 900 万种蛋白质序列的结构特异性得分矩阵, 通过该数据库可以很容易地对未知蛋白质的二级结构进行预测, 是一种比较成功的蛋白质二级结构预测工具.在药物化学领域, 大数据的出现已经深远地影响了药物化学家的开发和研究新型药物的方式. 传统的药物开发由设计、合成、测试、评价 4 个流程的交替循环组成49, 但这一流程随着药物化学领域数据量的直线上升而受到极大地冲击. 根据 ChemicalAbstract Se

36、rvices Registry 2014 年提供的数据, 已知的药物基准物质已经达到了 74000000 种, 而这一数量还在逐年增加. 同时, 随着实验技术的提高, 各种检测手段层出不穷, 这也使得实验数据与以往相比呈现了级数式的增长. 分析这些海量的数据并作出决策, 使用传统的分析手段往往需要耗费大量的时间, 而在分析的过程中, 往往又会产生了大量的新实验数据. 由于数据的更新速度大于决策速度, 而更新产生的数据又有可能改变设计决策的方向, 这使得制定设计决策变得越来越困难. 因此, 必须加强和大数据相关的计算机领域的合作, 借鉴和学习其管理与分析大数据的经验. 为了方便药物化学家进行大数

37、据的管理与决策, 许多专业的数据存储库以及决策支持工具, 如 Integrated Project View(IPV)50,Ar Qule 公司的 Ar Qiologist51, Amgen 公司的 AmgensData Access Analysis Prediction Tools (ADAAPT)52,Actelion 公司的 OSIRIS53和 Johnson&Johnson 公司的 Advanced Biological and Chemical Discovery System(ABCD)54等被开发出来. 在这些管理软件的帮助下,实验者们可以在自己电脑屏幕上分析和管理自己的实验数

38、据, 分析和决策也变得相对容易. 同时, 大数据的出现对药物化学本身也提出了新的要求. 为了对大数据进行分析, 常用的数据分析方法主成分分析、线性回归、k 均值聚类、贝叶斯方法、交叉验证等各种监督学习、模型预测、聚类分析、数据挖掘理论成为了药物化学家必须掌握的基础理论. 药物化学家也要由传统的根据研究做出决策的研究模式改为根据数据做出决策的研究模式. 数据的来源变得多样化, 可以是自己实验获得的, 也可以是公共数据和他人的数据. 许多的研究成果甚至可以不进行实验,仅对数据库中的数据进行分析就可以得到重要的结论, 如 Lipinski 通过对 2245 个药物分子进行分析, 得到口服药物的通用性

39、质55、通过对数据库进行分析得到 G 蛋白偶联受体的标靶药物的通用性质等.微流控芯片技术, 作为化学领域一个比较热门的领域, 从诞生之初就倍受关注. 近年来, 随着微流控芯片技术的发展, 芯片实验室产生的数据量和数据种类大量增加, 大数据的出现, 为管理和研究这些数据, 提供了一个可行的方案. 例如, Ozcan 课题组59提出了的 一种微流 控芯片大 数据管理 平台 Bio Games, 对于下一代微流控芯片数据的管理有很大的启示作用. Bio Games 的核心是一种基于智能群体分包(crowed-scoured)的二元判定(binary decision)系统. Ozcan 及其团队开发

40、了一款可以在手机、电脑及平板上运行的游戏, 游戏的内容十分简单, 只需要玩家根据给定的图像在另一组图像中找出与之类似的图像. 其中, 给定的图像为微流控技术得到的患有某类疾病的人体细胞图像, 另一组图像则为微流控技术得到的疑似病人的细胞图像. 通过收集游戏玩家的选择结果, 开发者们对疑似病人进行二次判断, 从而得到最终的诊断结果. 作者以疟疾为例对该平台的诊断效果进行了检测, 超过 60 个国家接近 1000 名玩家参与了该游戏, 结果显示, 大量未经训练的普通人参与游戏后统计得到的诊断结果与专家的判断结果类似, 系统的有效性得到了很好的验证. 随着便携低成本的成像、传感技术与高通量的微流控芯

41、片技术相结合, 将会有大量多尺度的生物医学、环境等方面的数据出现. Bio Games 通过智能群体分包和数字游戏的策略来实现诊断的概念可以帮助我们更好地处理下一代成像、传感、微流控技术产生的大数据.5 化学计量学中的大数据问题作为化学领域中专门处理数据的学科, 化学计量学有着特殊的地位. 通过统计学或数学方法将对化学体系的测量值与体系的状态之间建立联系, 化学计量学实现了对化学数据的分析与挖掘. 目前, 化学计量学的方法已经广泛应用于化学的各个领域,分析与挖掘各种类型的化学数据. 分子模拟、计算机辅助药物设计、虚拟筛选(VHTS)和定量构效关系(QSAR)等化学计量学技术推动了生命科学和生物

42、医药领域的发展, 促进了新药的研发和创制. 理论化学在理解物质结构和性质、解释化学反应机理等方面取得了飞速发展, 在结构化学、材料科学和生命科学领域中发挥着不可替代的作用64. 由于多元校正及模式识别技术的发展, 近红外光谱(NIR)技术得到了广泛应用, 已成为复杂体系分析、产品质量评价与控制、环境检测与控制、生命与健康等领域的关键技术之一. 同时 , 复杂信号和高维分析化学信号的解析技术推动了分析化学的发展, 大大增强了分析化学解决实际问题的能力68.随着化学计量学在化学各个领域的深入发展,分析数据的数量级逐渐变大, 许多数据分析的过程中均出现了“大数据化”的特征, 而相应的方法也随着数据量

43、的增大而随之发展. 如在分子模拟领域, 随着图形处理单元(graphics processing unit, GPU)快速发展, GPU 在计算能力和存储器带宽上的优势使之为提高分子动力学模拟的计算能力提供了新的可能.GPU 作为一种具有极强运算能力的多核处理器 , 成为高性能计算领域的主要发展方向, 大量的研究工作也随之展开. 在药物设计领域 , 研究者发现生物体内存在大量被称为化学基元(chemoyl)的基本结构单元, 这些结构单元在生物的活动过程中起着重要作用. 在此基础上, 出现了以超级计算与大数据挖掘技术为基础, 研究各种化学基元的结构、组装与演化的基本规律的药物分子设计的新理论化学

44、基元学72,73. 化学基元学通过揭示生物系统制备化学多样性的规律, 发展仿生合成方法制备类天然化合物库(quasi natural product libraries)以供药物筛选, 成功解决了药物设计领域药物筛选资源日益枯竭这样一个瓶颈问题. 目前, 该理论已发展出了在超级计算支持下基于分子动力学的虚拟筛选方法(MDVS)74, 基于 GPU 的分子三维叠合并行算法 g WEGA75, 面向系统性疾病治疗药物设计的药理网络76以及分子活性构象预测的新技术77等. 在近红外光谱的应用领域,由于大量在线数据的出现, 传统的定性定量分析开始逐渐向在线分析与过程质量控制进行转变78,79.在许多领

45、域, 基于近红外光谱的物联网系统和数据库系统也在逐渐形成并成为发展的主要趋势.大数据的可视化问题一直是大数据研究的热点问题. 在化学计量学领域, 学者们提出探索性资料分析(exploratory data analysis, EDA)的概念80, 用于对不同类型的化学数据进行挖掘, 以研究其中的规律.其中, 主成分分析(PCA)和偏最小二乘(PLS)是 2 种最为常用且有效的分析方法. 两者均是基于数据本身潜在结构的投影模型, 原始数据通过投影计算被表示成几个不同主成分(principle component)或者潜变量 (latent variable)下的得分 , 并通过得 分图 (sco

46、replot)显示出来. 由于得分图具有直观的表现形式, 可以让研究人员很容易地发现数据内部潜在的规律,成为了一种非常行之有效的可视化工具. 然而, 随着数据量的增大, 大量样品的得分在传统的得分图上往往由于重叠无法很好地进行观察, 这在一定程度上影响到了研究人员从得分图中获得有效信息. 同时,数据量的增大也降低了 PCA 与 PLS 的计算速度, 对于某些数据而言, 其分析计算的速度甚至赶不上数据更新的速度, 从而严重影响到了数据分析的有效性. 为此, Camacho81提出了压缩得分图(compressed scoreplots)的概念, 对传统的得分图进行改进, 使之能够直观地表现大容量

47、和快速更新的化学数据. 对于大容量的数据, 使用聚类的方法来减少得分图上的数据点数量, 以绘制聚类的中心点来代替原始数据点的得分, 有效减少了得分图上的数据点数. 同时, 为了最大限度地保留原始得分图上的信息, 对于聚类得到的中心点, 以中心点的大小来表示该点中包含原始数据点的多少. 为了减少每次计算的耗时, 使用并行计算的理论(基于分布式文件系统的 Hadoop)来进行计算和编程. 对于更新速度较快的数据, 采用指数加权移动平均(exponentially weighted moving average)的方法来对其进行更新操作, 避免了对全部数据的重复计算, 有效减少了计算耗时. 化学计量

48、学领域的此类方法, 对于解决大数据可视化问题, 有着很重要的借鉴意义.6 大数据的未来及其对化学学科发展的影响随着近年来大数据热潮的不断升温, 人们认识到“大数据”并非是指“大规模的数据”, 而是一种规模更大、种类更多、数据更广泛、价值更高同时处理难度更大的全新数据模式. 大数据的出现, 对产业界、学术界和教育界正在产生巨大影响. 随着科学家对大数据研究的不断深入, 人们意识到对数据的利用可以为其生产生活带来巨大便利的同时, 也带来了不小的挑战. 其中, 大数据的安全与隐私问题、大数据的集成与管理问题、大数据的 IT 技术架构问题以及大数据的生态环境问题成为大数据发展过程中出现的亟待解决的几个

49、重要问题. 如何面对这几个问题的挑战, 对大数据未来的发展至关重要.对化学学科而言, 大数据在其中的应用仍然处于起步阶段. 目前化学领域大数据的应用都是数据标准化、数据挖掘、数据可视化等比较简单的应用.而大型数据的管理与分析、云计算以及基于网络的数据传输和运算, 大型分析软件的开发等大数据的核心技术以及真正的优势部分, 在化学领域的应用体现的不够多. 这从另一个角度说明大数据在化学学科内的应用存在着广阔的应用空间. 在未来, 随着大数据技术的发展和完善, 以采集、处理、分析为基础的传统分析仪器将会逐步被小型化、便携式的新型分析仪器所取代. 分析仪器最终将简化为一个带有数据传输功能的检测器, 在采集数据之后将数据直接传输到大数据的分析平台上, 所有的数据处理与分析功能均在这个平台上完成. 同样, 基于 PC机、小容量、统一数据类型的传统化学数据管理方式也会逐渐被以云技术为代表的大数据管理和存储模式所取代新的数据管理和存储模式以大型服务器为基础, 可以轻松管理海量不同领域、不同类型

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报