大数据时代科学数据整合研究.doc-道客多多

资源描述

1、“大数据”时代科学数据整合研究白如江冷伏海中国科学院国家科学图书馆山东理工大学图书馆摘要：随着信息与网络技术的发展, 科学研究过程中产生出了大量的原生数字科学数据。在“大数据”时代, 科学数据日趋发展的今天, 整合集成科学数据, 实现科学数据共享与互操作具有重要的意义。文章首先梳理了与“大数据”有关的基本概念以及相关研究发展脉络, 然后针对“大数据”环境下科学研究的特点, 指出了“大数据”时代科学数据整合的挑战。详细论述了目前科学数据整合的主要理论与方法, 并选取了 3 个具有代表性的科学数据整合系统平台进行了介绍。关键词：大数据; 科学数据; 整合研究; 作者简介：白如江,

2、男, 1979 年生, 讲师。研究方向:信息处理和高科技信息分析。作者简介：冷伏海, 男, 1963 年生, 研究员。研究方向:竞争情报和高科技信息分析。收稿日期：2013-07-09基金：山东理工大学青年教师发展支持计划研究成果之一Research on the Integration of Scientific Data in the Era of“Big Data”Bai Rujiang Abstract： With the development of information and network technology, a large number of native digita

3、l scientific data has been produced in the scientific research process. In the era of“big data”when scientific data is increasingly developing, it has an important meaning to integrate scientific data and realize the sharing and interoperability of scientific data. First, the paper combs the basic c

4、oncepts related to the“big data”as well as the related research development. Then, the paper points out the challenges from scientific data integration in the era of“big data”according to the characteristics of scientific research in the environment of “big data”. Finally, the paper discusses the ma

5、in theories and methods of the current scientific data integration in depth, and selects 3 representative scientific data integration platforms for introduction.Keyword： big data; scientific data; integration research; Received： 2013-07-091 背景科学研究正在进入到一个崭新的阶段。随着信息与网络技术的发展, 科学研究在计算机仿真、模拟、传播等过程中产生出了大量

6、的原生数字科学数据。这些数据包括实验模拟数据、仪器观测数据等。除去以论文、图书形式发布的科学数据外, 大量的蕴藏着科学理论的科学数据经常被淹没在零零散散的实验室里。而我们现在需要将这些科学数据像纸质文献一样长期保存起来, 让科研人员公开获取。这样科学家可以从存储的科学数据中发现和理解自然与世界。未来的科学研究更多的是数据驱动的、协作的和跨学科的。这就是微软发布的基于数据密集型计算的科学研究第四范式。除此之外, 科学数据的爆炸式增长也给前沿科学项目带来了巨大挑战。数据集的增长已经超过数十万亿字节, 正如美国奥巴马总统委员会的科技顾问 S. Brobst 所说: “过去 3 年里产生的数据量比以往

7、 4 万年的数据量还要多”。“大数据”时代的来临已经毋庸置疑。我们即将面临一场科学研究范式变革, 大科学数据管理将成为未来科学研究的当务之急。因此, 在科学研究范式发生革命性转变, “大数据”日趋发展的今天, 整合集成科学数据, 实现科学数据共享与互操作性, 构造基于科学数据的、开放协同的科学研究新范式具有重要的意义。2“大数据” 时代科学数据整合面临的挑战在 “大数据”时代, 典型的科学研究场景描述如下。某科学家准备开展碳纳米管制备方面的研究。在做这方面的研究之前, 该科学家需要了解该研究领域的研究现状, 于是他就利用 Web of Science ( Wo S) 数据库查找此研究领域的文

8、献资料。由于 Web of Science 数据库只提供了文摘信息, 看到感兴趣的文献后, 该科学家不得不又到该文献的全文数据库 ( 如Elsevier) 中获得全文。当然, Wo S 数据库也提供全文链接, 但是有些全文数据库, 该科学家所在的单位没有购买, 只好又通过其他途径获得, 比如到Google Scholar 或 Microsoft Academic Search 中获取。为了获取该领域的研究文献该科学家就花费了相当长的时间。获得该研究领域的文献后, 该科学家还想了解碳纳米管研究领域的专利申请情况, 于是就到专利数据库进行搜索查询。文献专利了解了以后, 该科学家还想知道碳纳米管的

9、主要化学或者物理性质是什么, 这些信息可能存在于某个事实数据库 ( 如相图数据库或Springer 的 Protocol 数据库) , 该科学家又登录到这些事实数据库中进行碳纳米管的相关物理化学性质查找。图 1“大数据”时代典型科学研究场景下载原图除此之外, 该科学家还需要知道目前制备碳纳米管的主要方法是什么, 用什么设备, 目前制备碳纳米管的技术水平如何, 比如强度指标、电学性能、力学性能、热学性能。由于这方面的资料可能会在文献中提到, 也可能存在技术报告中, 所以该科学家又利用搜索引擎进行搜索, 到世界上制备碳纳米管的主要实验室网站上寻求答案。该科学家想获得碳纳米管的详细实验方案以及实验

10、结果的详细数据, 由于论文受到发表刊物的版面限制, 在论述实验过程方案, 展示实验结果时只能选择重点部分论述, 不可能太详细。如果想获得这些数据, 只能求助于作者或其他途径。存储这些科学数据的格式也是五花八门。比如, 实验结果数据可能存在于某个关系型数据库中 ( 如 SQL Server) ; 作者为了分析实验结果数据可能会编制一些软件; 实验结果的展示可能由许多照片组成, 格式可能是 TIF、JPG 等; 作者还有可能会用视频的方式把实验过程也录制下来用多媒体格式存储。这些资料相对于发表出来的论文对科研工作者可能更有意义, 可现实情况是这些宝贵的资料大部分存在于各个实验室中, 一般是不公开

11、的, 即使公开由于文件格式等障碍也很难加以利用。科学家希望能有一个科学数据整合机制, 将这些非常有价值的科学数据统一展示并利用起来。接下来的问题是在 “大数据”时代, 科学家在实验过程中产生了大量数据, 导致计算机存储不下。由于科学数据量的急剧增加, 导致目前主要的计算机算法失效, 不能进行实验数据分析。如图1 所示。针对科学研究过程中的各种问题, 进行科学数据整合已是迫不及待了。通过上述对 “大数据”时代典型科研场景的描述, 不难看出科学数据的整合面临的主要挑战有以下几个方面。1 ) 系统异构。主要包括网络协议异构 ( 如 http, ftp, Grid FTP, SOAP ) 、远程执

12、行方案异构 ( 如 Web services, RMI, CORBA) 、用户平台异构 ( 如操作系统异构) 以及认证机制异构 ( 如 Kerberos, GSI) 。如何使这些异构的系统之间进行通信成为挑战之一。2) 科学数据描述语法不统一。科学数据有存储在关系型数据中的, 有以文本文件存储的, 有以视频文件存储的。而且它们的描述语法不同 ( 如 html, xml 等) 。如果使用 XML 格式作为统一的整合交换语法, 能够帮助解决语法异构的问题。但是在科学研究中, 各实验用的应用系统不一样, 对 XML 的支持也不一样, 如何在语法级别上支持不同格式、不同版本系统集成成为挑战之一。3)

13、科学数据元数据格式不统一。同样或相似的科学数据元数据标准不统一 ( 如 DC, MODS, METS 等) , 给科学数据整合带来挑战。需要克服的主要困难有, 如何获得一个统一的集成元数据描述格式, 如何寻找一个从源元数据格式到集成元数据格式的正确映射, 如何正确处理元数据的不完整性和冲突等。4) 科学数据之间缺乏语义关联。科学家在进行某项研究时可能会用到多种科学数据, 这些科学数据之间有什么样的语义关联是进行科学数据整合的又一巨大挑战。以前通过实体联系 ( ER) 图来表示各个实体之间的关系。但是, 这些信息不能用来查询科学数据, 并且 ER 图很难对实体之间的联系进行精确的描述。传统的元

14、数据方案可以部分地为科学家提供科学数据间的语义信息, 帮助科学家理解科学数据的内容、范围等信息。但是, 为了某项特定的研究, 科学家需要访问很多不同的数据源, 就需要对科学数据语义异构信息进行整合。比如某项实验的参数和标准是什么, 使用的协议是什么, 数据间的关系和编码是如何进行的? 如果能对这些科学数据进行精确的语义编码, 很显然能够让科学家更加有效地利用这些科学数据。为了实现科学数据语义实体的整合, 要求能够将实体和它们之间的关系描述清楚, 或者参照其他更好的本体库进行 ( 如使用标准的本体描述语言 OWL 或者通过受控词表等) 标注。5) 基于科学数据流程构建的综合科学数据整合。例如有

15、位科学家希望进行两个阶段的科学实验 ( 实验 A 和实验 B) , 如图 2 所示。图 2 科学数据流程构建的科学实验下载原图问题是实验 A 输出的实验结果 Y 能否直接输入到实验 B 中, 符合实验 B 所要求的数据格式吗? 如果不符合如何对其格式进行转换? 此外, 还有就是这样的科学实验流程构建得合适吗? 也就是说实验 A 和实验 B 的连接是否有意义。所以基于科学实验流程的整合其巨大的挑战在于实验流程设计构建的合理性, 以及实验数据格式的互操作性。6) “大数据” 时代科学数据整合的效率及有效性。 “大数据”时代的科学数据数量庞大, 进行实质的物理整合, 既不现实也没必要。其最终解决思

16、路应该是进行虚拟整合, 整合模型和整合效率成为关键。目的是让科学家感觉不到科学数据所在的物理位置和存储方式, 当科学家需要什么科学数据时, 通过科学数据虚拟整合平台随时随地毫无障碍地获取。3 科学数据整合的主要理论与方法科学数据整合研究是从传统的数据整合研究发展而来的。与数据整合不同的是科学数据整合还需要研究科学数据的表示、元数据标准、科学数据格式转换以及从混合科学数据源中提取语义信息等。传统的科学数据整合被分成 3 个部分, 即语法、结构以及语义角度进行整合。3. 1 科学数据集成方法科学数据集成可以定义为一个三元组。 G 表示全局视图 ( Global Schema) , S 表示异构数

17、据源, M 为 G 到 S 的映射, 也叫中间件 ( Mediator) 。科学数据集成就是通过 M 将异构数据源信息 S 映射到全局视图 G, 用户可以通过全局视图 G 来获取不同数据源 S 的科学数据。科学数据集成过程中关键问题是中间件的构建, 一个好的中间件可以高效准确地进行科学数据集成。目前, 中间件构建方法主要有两种, 分别是基于 XML 和基于语义 ( 模型) 的中间件构建。1) 基于 XML 集成中间件构建。其基本思路是将各个异构数据库的元数据信息通过相应的映射文件转换成全局虚拟视图。首先, 每个异构数据库需要按照一定的规则, 通过包装器 ( Wrapper) 生成自己的 XML

18、视图。当客户端进行查询时, 根据客户端的查询需求, 生成集成的 XML 查询视图 V。然后查询视图 V 通过中间件的分析, 将针对逻辑虚拟视图的查询转换为针对各个物理数据库的子查询, 并将查询结果以 XML 文档返回。该方式可以让用户灵活定制查询规则, 将各个XML 子文档过滤、合并。最后将合成的 XML 文档加入相应的样式文件, 通过用户访问接口返回给客户端。2) 基于语义 ( 模型) 的中间件构建。由于 XML 只是在语法级别上对科学数据进行了整合, 随着 “大数据” 时代的到来, 以及科学研究需求的提升, 仅仅依靠语法层面上的科学数据集成已经不能满足科学家的需要了。这样基于语义 ( 模

19、型) 的中间件构建就随之产生。基于语义 ( 模型) 的中间件构建在 XML 包装器上面又加了一层 CM- Wrapper, 其主要作用是将隐藏在资源背后的语义信息揭示出来。CM-Wrapper 由三部分组成 OM ( S) 、KB ( S) 和 CON ( S) 。其中, OM ( S) 为对象模型 ( Object Model) , 是科学数据中对象存储器, 运用面向对象的方法将科学数据表示存储起来。KB ( S) 为知识库 ( Knowledge Base) , 在对象模型的基础上生成逻辑规则 ( Logic Rules) , 将隐含在科学数据中的语义信息明确表示出来。CON ( S) 基

20、于上下文理解的模型 ( Contextualization) , 综合运用领域地图 ( Domain Maps, DMs, concepts + roles ) 和时序地图 ( Process Saps, PMs, states + transitions) 方法将科学数据中与其相关联的概念规则以及时序信息抽取表示存储起来。除了在 XML 包装器上增加 CM-Wrapper, 在中间件引擎上还增加了集成视图定义 ( Integrated View Definition , IVD) 。利用领域地图和时序地图对用户的查询进行面向对象的逻辑分析和解释。基于 XML 的中间件构建和基于语义 ( 模型

21、) 的中间件构建的主要区别在于, 基于语义 ( 模型) 的中间件构建将 XML 的对象进行分类, 标准各对象间的关系如is-a, has-a 等。采用胶合映射 ( Glue Maps) , 把不同的模型整合在一起用来解释用户查询意图。3. 2 科学数据集成模式映射关系构建不管采用基于 XML 的中间件构建还是基于语义 ( 模型) 的中间件构建, 两种方法都涉及原始数据和用户查询意图映射的问题。目前, 模式间映射关系构建的基本方法主要有两种: GAV ( Global-as-View) 方法和 LAV ( Lo- cal-as-View) 方法, 如图 3 所示。图 3 GAV 方法和 LAV

22、方法下载原图GAV 方法是将各本地数据源的局部视图映射到全局视图, 即全局模式被描述为源模式上的一组视图。用户查询直接作用于全局视图。GAV 方法的优点是查询效率比较高, 缺点是用这种方法构建出来的映射关系的可扩展性较差, 不适合数据源存在动态变化的情况。因为任何一个局部数据源发生改变, 全局视图都必须进行修改, 维护起来较困难, 开销也比较大。LAV 方法是将全局视图映射到各数据源上的本地局部视图, 即各数据源模式被描述为全局模式上的视图。当用户提交某个查询时, 中介系统通过整合不同的数据源视图决定如何应答查询。这种方法可看成是利用视图回答查询。该方法的优点是映射关系的可扩展性好, 适合于

23、信息源变化比较大的情况, 缺点是可能会造成信息丢失、信息查询效率偏低。举个例子来具体说明 GAV 和 LAV 两种方法的使用。例如在全局模式上有一个类 paper ( Author, Journal) , 表示某篇论文的作者和发表期刊, 在某个具体数据源上提供了作者关系 Institute ( Author1, Author2) 。如果按照 LAV 的方式, 可以把作者关系数据源表示为:Institute ( Authorl, Author2 ) : _ paper ( Authorl, Jour- nal) 另一方面需要将全局 ODL 的查询转换为各个不同数据源能够接受的查询格式, 并将各数

24、据源的查询结果返回给中间件。2 中间件, 中间件包括 SI-Designer 和 Query Manager。SI-Desig- ner 负责处理包装器返回的元数据信息。SI-Designer 参照外部本体库, 如 Word Net 等, 生成全局查询视图。Query Manager 负责将 SI-Designer 生成的全局视图分解成适合各个包装器操作的子查询视图, 并将不同包装器的返回结果整合返回给 SI-Designer。MOMIS 的系统结构如图 5 所示。图 5 MOMIS 的系统结构下载原图这些科学数据集成系统各自具有不同的特点。比如, GEON 将地理学的图片、3D模型等整合在

25、一起为科学家进行研究提供方便。TAMBIS 项目和 MOMIS 都采用包装器/中间件模式对不同科学数据源进行整合, 借助部分本体库对用户查询意图进行解释, 让科学家在进行资料查找时更加方便。随着 “大数据”时代的来临, 上述这些整合系统不得不面对海量科学数据处理的问题。目前, 还没有发现能够在 “大数据” 时代对海量科学数据进行有效整合的系统。5 分析与展望“大数据”不仅是一个概念, 更是给当代科学研究带来了巨大的挑战, 是科学研究范式的一场变革。面对这场变革, 整合集成大科学数据, 实现科学数据共享与互操作性, 构造基于科学数据的、开放协同的科学研究新范式具有深远的意义。通过对 “大数据”有

26、关的基本概念、起源以及相关研究发展脉络梳理, 希望给读者一个 “大数据” 时代科学数据管理的基本认识轮廓。本文给出了在 “大数据” 环境下科学研究的典型场景, 通过典型科研场景的描述, 指出了 “大数据”时代科学数据整合的挑战。然后详细论述了目前科学数据整合的主要理论与方法, 并选取了 3 个具有代表性的科学数据整合系统平台进行了介绍。由于 “大数据”研究刚刚起步, 还有许多问题需要解决, 希望在以后的研究中逐渐理清这些问题。参考文献1SZALAY S, GRAY J.Science in an exponential wordJ.Nature, 2006, 440:23-24. 2HEY T

27、, TANSLEY S, TOLL K.The fourth paradigm data-intensive scientific discoveryM.USA:Microsoft Research, 2009. 3HULL R, ZHOU Gang.A framework for supporting data integration using the materialized and virtual approachesC.ACMSIGMOD Record.Proceedings of the 1996ACM SIGMOD international conference on Mana

28、gement of data.USA:ACM.1996:103-106. 4SHETH A.Changing focus on interoperability in information systems:from system, syntax, structure to semanticsJ.Interoperating Geographic Information Systems, 1998, 13 (6) :5-30. 5STRUIK L, QUAT M, DAVENPORT P, et al.A preliminary schemefor multihierarchical rock classification for use with thematic computer-based query systems.Technical Report 2002-D10, Geological Survey of Canada,

展开阅读全文