收藏 分享(赏)

大数据时代的数字图书馆异构数据集成研究.doc

上传人:无敌 文档编号:150362 上传时间:2018-03-22 格式:DOC 页数:7 大小:85KB
下载 相关 举报
大数据时代的数字图书馆异构数据集成研究.doc_第1页
第1页 / 共7页
大数据时代的数字图书馆异构数据集成研究.doc_第2页
第2页 / 共7页
大数据时代的数字图书馆异构数据集成研究.doc_第3页
第3页 / 共7页
大数据时代的数字图书馆异构数据集成研究.doc_第4页
第4页 / 共7页
大数据时代的数字图书馆异构数据集成研究.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、大数据时代的数字图书馆异构数据集成研究 温浩宇 李京京 西安电子科技大学经济与管理学院 摘 要: 在大数据时代, 数字图书馆的数据处理及服务将会发生明显的变化, 将从传统的信息查询、推送等服务转向在海量的数据中分析和挖掘出潜在有价值的信息, 而关系型数据库的结构和机制不能很好地适应这种变化。针对数字图书馆在大数据背景下异构数据的集成问题, 提出了基于 NoSQL 的中间件模型的数据集成方法。该方法有利于数字图书馆存储各种结构的数据, 同时能够很好地适应海量数据分布式存储。关键词: 大数据; 数字图书馆; 非关系型数据库; 异构数据; 数据集成; 分布式存储; 作者简介:温浩宇 (1972-)

2、男, 博士, 教授, 硕士生导师, 研究方向:信息管理, 数据挖掘;作者简介:李京京 (1988-) 男, 硕士研究生, 研究方向:信息管理, 数据挖掘。收稿日期:2013-05-10Research on Digital Library Heterogeneous Data Integration in the Big Data AgeWen Haoyu Li Jingjing School of Economics and Management, Xidian University; Abstract: In the big data age, data processing and se

3、rvices of digital library will change dramatically from the traditional information query and push services to analyzing and mining the potential value of mass data. However, the structures and mechanisms of relational database are not well- adapted to the change. For the problem of digital library

4、heterogeneous data integration in the context of big data, this paper proposed a middleware model heterogeneous data integration method based on NoSQL, which is conducive to digital library storing a variety of data, and well- adapted to mass data distributed storage.Keyword: big data digital librar

5、y NoSQL heterogeneous data data integration distributed storage; Received: 2013-05-100 引言数字图书馆是为实现资源共享、使用户方便快捷地获取信息资源而建设的。数字图书馆保存了大量的数字化信息资源, 如论文、书目、会议记录、期刊等, 而不同种类的资源往往是异构的;同时在“大数据”时代产生了海量的结构化、半结构化、非结构化的数据。如何把这些海量、分散、异构的信息资源集成起来, 从中分析和挖掘出潜在的价值, 是数字图书馆新的阶段所面临的主要问题, 并且数据结构由结构化转向无固定结构和数据的存储开始采用新的数据存储方

6、式来应对数据爆炸, 造成传统的异构数据集成方法无法适应在海量数据的条件下对数据的集成。因此, 在“大数据”时代针对数字图书馆异构数据集成的问题开展进一步的研究具有一定的理论价值和现实意义。1“大数据”时代数字图书馆的数据异构问题1.1“大数据”时代来临随着云计算和物联网等技术的兴起, 数据以前所未有的增长速度增长, 同时以微博、社交网络等新型信息发布方式的不断出现, “大数据”时代已经来临。早在 2008 年Nature就推出了 Big Data 的专刊1, 此后各计算社区联盟和science2都在讨论大数据的问题。2011 年 6 月著名咨询公司麦肯锡发表了一份关于大数据的报告3“Big d

7、ata:the next frontier for innovation, competition, and productivity”对大数据的影响、应用领域和关键技术做了详细的分析。“大数据”也受到了各国政府的重视, 2012 年 3 月奥巴马政府宣布推出“big data research and development initiative”4, 计划投资 2亿美元以上, 大力推动以及改善与大数据相关的采集、组织、分析、决策工具与技术。同时我国也开始规划大数据的产业园5, 实现对大数据的存储、分析、应用。虽然学术界对大数据还没一个统一、公认的定义, 但不同的定义基本是根据大数据的特点总

8、结出来的。其中比较有代表性的就是 4V6定义, 认为大数据需满足 4 个特点:规模性 (volume) 、多样性 (variety) 、高速型 (velocity) 和价值性 (value) 。规模性 (volume) :数据量巨大, 数据存储的级别由 TB 增长到 PB 级别, 甚至可能会更高。多样性 (variety) :海量的数据没有固定的结构, 包括结构、半结构和非结构化数据。高速型 (velocity) :数据实时生成, 同时按照用户需求提供实时的数据分析。价值型 (value) :大数据的价值往往是稀疏的, 即单条的数据并无太多价值。但把大量的数据进行综合和分析, 会挖掘出大量有价

9、值的信息。1.2 数据图书馆具有了“大数据”特征随着数字图书馆信息化建设的深入以及在 web2.0 时代用户对数字图书馆的需求的提高, 数字图书馆在已经具有了“大数据”的特征。数字图书馆的馆藏资源种类繁多, 有传统的图书资源信息, 如:期刊、图书、音像资料等, 还有一些在 Web2.0 时代兴起的资源, 如:读者评价信息、网络资源链接信息等。数字图书馆的信息数据结构多样, 单一的元数据描述方法很难将其完整地表达出来。其次, 数字图书馆的信息资源总量日益庞大并且在不断的增长中, 到 2010 年低, 国家数字图书馆数字资源总量已经达到 480TB7, 再伴随着数字图书馆的用户的增加, 各种用户信

10、息、用户访问信息以及对用户的服务信息也是在不断的增加, 虽然总量目前暂未达到 PB 级别, 但全国的数字图书馆资源和服务信息总量仍然是个庞大的数据集。最后, 随着信息技术的发展, 用户对数字图书馆信息服务的要求也在不断的提高, 不再仅仅局限于信息查询等一些简单的信息服务, 转向更深层次的数据挖掘与数据分析。数字图书馆必须根据用户的需求做出服务策略的改变, 对大数据的分析以及挖掘潜在价值尤为必要。1.3 大数据时代数字图书馆面临的问题数据集成的问题, 过去数字图书馆的数据种类单一, 往往只有一种或几种, 而这些数据又以结构化数据为主。大数据时代数字图书馆的数据种类繁多, 无固定的结构, 而且半结

11、构和非结构化的数据所占的比例越来越大。同时传统关系数据库难以满足在“大数据”时代, 用户对数字图书馆开展知识服务、提供决策支持等需求8。如何对这些异构的数据进行集成, 进而对数据的分析和挖掘是数字图书馆面临的首要问题。数据存储的问题, 由于数据量的急速增加, 尤其是非结构化数据的增长使得数字图书馆的存储规模不断的增长。数据量远远超过了单机所能容纳的数据量, 因此就必须采用分布式的存储方式, 而传统的关系型数据库在系统的扩展性上有很大的局限性9。同时传统数据库都是先有的数据模式, 再有的数据。而在大数据时代很多数据无法事先确定模式, 只有在数据出现后才能确定数据的模式, 随着数据的增长和演变数据

12、的模式会越来越多。传统的关系数据库不能适应这种数据量大、模式不固定的数据存储。2 基于 No SQL 解决元数据异构的方法2.1 No SQL 技术及其特点非关系型数据库 (NoSQL=Not Only SQL) 最早可以追溯到 1991 年 Berkeley DB的第一版, Berkeley DB 是一个键值存储的 Hash 数据库。No SQL 真正被关注是2007 年 Google 和 Amazon 的工程师发表关于有关 Big Table10和 Dynamo11的数据库论文, 描述这两种新型数据库的设计思想。Info Sys Technonlgies 的首席技术架构师 Sourav M

13、 azumder12提出对“非关系型数据库”的一个较为全面的描述:可以用可扩展的松耦合类型数据模式对数据进行逻辑建模;为跨多节点数据分布模型而设计, 支持水平伸缩;拥有在磁盘或者内存中的数据持久化的能力;支持多种“Non-SQL”接口来访问数据。可以看出, No SQL 对比关系型数据库有两个主要的改变:一是数据模式。No SQL 使用松耦合、可扩展的数据结构, 如 Key-Value 键值对、文档、图标等, 同样也可以使用关系型数据库的二维表, 数据结构还可以在系统运行中动态的更改。这样有利于数字图书馆的非结构化和半结构化数据集成。二是横向的伸缩。No SQL 就是为分布式系统设计的, 支持

14、横向扩展, 能够很好地适应数字图书馆飞速增长的海量数据, 并且可以在分布式架构下达到较高的性能。比如:新浪的微博系统采用了 Redis 作为非关系数据的存储系统, 通过 400 多台服务器的分布式运算支撑这大量用户的并发数据访问;优酷网根据功能需求采用了多种NoSQL 解决方案:在用户评论系统上使用了 M ongo DB, 在运营数据分析及数据挖掘系统中使用了 HBase。2.2 信息资源著录样例分析No SQL 的数据模型主要有列式模型、Key-Value 模型和文档模型。本文主要讨论文档模型非关系数据库对数字图书馆中不同种类的信息资源的描述。我们以一条 DC 格式的论文数据 (王珊, 王会

15、举, 覃雄派, 架构大数据:挑战、现状与展望) 和一条 M ARC 格式的学术著作数据 (王珊, 萨师煊数据库系统概论) 为例, 将这两种来源不同、结构各异的数据集成于基于 No SQL 模型的 Mongo DB 中。数据库中的部分记录文本如下所示:对于 MARC 格式的信息, 本文参照文献13中提供的 DC 与 MARC 映射关系, 把“010$a”和“010$d”对应为“Identifier”, “200 1$a”和“314$a”对应为“Creator”, “210$a”, “210$c”, “210$d”对应为“Publisher”等。从上述代码可以看到, 转换后的 MARC 格式信息没

16、有 Subject 属性, 同时Identifier、Format 和 Creator 属性类型都不相同, 但在文档模型非关系型数据库中这两条异构数据可以同时放在一个集合里。其中, 记录 2 的 Creator 和Subject 属性对应的是数组, Source 属性对应的是键值对。这样的主从关系在关系型的数据库中需要通过主从表的方式来实现, 即:除主表 DC 表之外, 还需要创建包含 Journal、Year、Volume 和 Page S-ource 等字段的 Source 表。2.3 数字图书馆异构数据的主要集成方法为了解决异构数据的集成问题, 从实现的体系结构角度出发, 信息的集成方法

17、主要有联邦数据库、中间件技术和数据仓库技术。联邦数据库是对各个独立的数据源进行数据交换而产生的方法。联邦数据库通过对不同的数字图书馆之间的数据格式进行转换, 从而达到数字图书馆之间的通信、交流、信息传递。但这种方法需要编写大量的接口程序, 开发难度高。其次, 系统的耦合性较高, 对系统的扩充和模块的复用都比较困难。数据仓库的集成方法就是按照预先设计好的全局模式, 把来自各个数字图书馆不同的数据副本按照统一的要求和格式进行抽取、转换和加载 (ETL) , 构成数据仓库。但这种方法也面临这数据重复存储和实时更新困难等问题。中间件技术就是通过软件的方式, 将异构数据经过处理转换成预先设计好的数据模式

18、的集成技术。首先中间件把基于全局模式的查询转换成局部数据库的查询, 然后由局部数据库完成数据的操作, 返回结果。以上三种数据集成的方法都是基于关系数据库, 都需要把异构的数据转换成一个统一的格式。但结构化的数据的转换会带来数据的丢失和部分失真, 很难适应在“大数据”时代数据的无固定格式、数据量大等特点。2.4 基于 No SQL 的中间件模型基于关系模型的异构数据集成技术, 通常需要把异构的数据整合转换成一个统一的格式。但结构化的数据的转换会带来数据的丢失和部分失真14。在上文给出的基于 No SQL 的数据格式基础上, 本文采用基于 No SQL 服务器的中间件来响应查询请求和对查询结果进行

19、集成。系统的核心是利用 No SQL 元数据映射解决元数据异构的问题, 其体系结构如图 1 所示。图 1 基于 No SQL 中间件模型体系结构 下载原图基于 No SQL 异构数据集成模型主要分为三层:数据层、中间件层和用户接口层。数据层封装了各种数据源的接口, 其处理的数据可以为结构化、半结构化和非结构化数据。中间件层主要负责对数据结构的转换、集成以及对查询请求的响应。不同的数据源有不同的数据包装器, 通过不同的数据包装器, 提取出相对应的数据源的模式及数据。当有新数据源加入时, 只需要增加相对应的数据包装器, 无需再做其他的改变。No SQL 服务器通过对下层提供的异构数据进行处理, 将

20、各数字图书馆传送来的异构数据进行包装, 把异构的数据存放在 No SQL 集合中, 并对外提供一致的数据访问服务。用户接口层提供了平台与用户交互的界面。由于在 No SQL 集合中获取的查询结果依然保存了数据的异构性特征, 因此需要针对不同结构的数据提供不同的显示方式。数据结构与显示方式之间的匹配可以通过 MVC (Model View Controller) 设计模式来实现。3 总结与展望基于非关系型数据库的数字图书馆异构数据的集成方案具有高扩展性、高可用性等特点, 有助于“大数据”时代数字图书馆之间的沟通和信息交换。非关系型数据库在数字图书馆中的应用可以帮助数字图书馆由传统信息服务走向知识

21、服务、充分利用海量的异构数据进行知识挖掘、为用户提供决策支持等方向发展。参考文献1Nature.Big DataEB/OL.2013-05-06.http:/ 2Science.Special Online Collection:Dealing with DataEB/OL.2013-05-06.http:/www.sciencemag.org/site/special/data/ 3Big data:The Next Frontier for Innovation, Competition, and ProductivityR/OL.2013-05-06.http:/ 4The white

22、House.Big Data Across the Federal GovernmentR/OL.2013-05-06.http:/www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet.pdf 5李晋荣.迎接大数据时代的到来N.光明日报.2012-12-14 (5) 6Barwick H.The“four Vs”of Big Data.Implementing Information Infrastructure SymposiumEB/OL.2013-05-06.http:/.au/article

23、/396198/iiis_four_vs_big_data/ 7国家图书“十二五”规划纲要EB/OL.2013-05-06.http:/ 8王珊, 王会举, 覃雄派等.架构大数据:挑战、现状与展望J.计算机学报, 2011, 34 (10) :1741-1752 9孟小峰, 慈祥.大数据管理:概念、技术与挑战J.计算机研究与发展, 2013, 50 (1) :146-169 10Fay C, Jeffery D, Sanjay G et al.BigTable:a Distributed Storage System for Structured DataJ.ACM Transactions

24、on Computer Systems, 2008, 26 (2) :1-26 11G iuseppe D, Deniz H, Madan J et al.Dynamo:Amazons Highly Available Key-value StoreJ.ACM SIGOPS Operating Systems Review-SOSP07 Homepage, 2007, 41 (6) :205-220 12Sourav M.NOSQL in the EnterpriseJ.Architect, 2010, (8) :62-74 13刘园园.谈 CNMARC 与 Dublin Core 的匹配与转换J.情报杂志, 2007, (6) :134-136 14覃雄派, 王会举, 杜小勇等.大数据分析 RDBMS 与 MapReduce 的竞争与共生J.软件学报, 2012, 23 (1) :32-45

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报