1、数字图书馆建设中大数据问题初探 李白杨 张心源 郑州大学信息管理系 摘 要: 大数据是近两年来 IT 领域的研究热点, 数字图书馆建设同样离不开对大数据的存储和利用。结合国家图书馆数字资源建设情况和大数据时代图书馆的实际需求, 采用跨学科分析法, 提出了数字图书馆建设中的数据存储、数据处理和数据分析的方法。关键词: 数字图书馆; 大数据; 数据存储; 云计算; 作者简介:李白杨 (1991-) , 男, 河南人, 硕士研究生, 主要从事数字图书馆和信息资源建设研究.收稿日期:2013-02-21Preliminary Study of the Big Data Mechanism in Dig
2、ital Library ConstructionLI Bai-yang ZHANG Xin-yuan Department of Information Management, Zhengzhou University; Abstract: Recent years, big data has become one of the hottest topics in the field of IT.The construction of digital library is based on big data methods: data storage, data mining, data a
3、nalysis.In order to improve the quality of library and upgrade library services, that this research adopt the interdisciplinary analysis method to discovery how to use big data in the library construction.At last, this article find a effective way to manage big data resource which is based on cloud
4、computing, SAN, Hadoop, MapReduce and other methods.Keyword: digital library; big data; data management; cloud computing; Received: 2013-02-211 引言近年来, 人们生产、存储的巨量且复杂的数据开始激增。正如摩尔定律所言:当价格不变时, 集成电路上可容纳的晶体管数目, 约每隔 18 个月便会增加一倍, 性能也将提升一倍。希捷公司的前任 CTO Mark Kryder 也提出过一个类似的理论:硬盘每平方英寸的存储量每隔 12-18 个月也将翻一番。随着数据量
5、从 GB 时代迈入 TB 时代, 一个新的概念“大数据 (Big Data) ”应运而生。在数字图书馆建设中, 日益膨胀和复杂的数据使技术人员不得不面对大数据问题。本文采用实证分析法、跨学科分析法, 以求证图书馆正在面对大数据问题, 结合图书馆对大数据的实际需求, 对数字图书馆建设中如何高效存储和有效利用大数据提供了意见。2 大数据概览2.1 大数据的起源和定义麦肯锡公司在 2011 年 5 月发布的Bia Data:the Next Frontier for Innovation报告中, 首次使用了“大数据”这一概念, 随之引发各个行业对大数据的研究热潮。到目前为止, 对于大数据还没有一个统
6、一的定义, 有人认为大数据的关键特征是数据的总量大, 相反的观点则认为是数据的复杂性, 但是被普遍接受的观点认为大数据是指无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。这个集合一是数据量巨大, 二是包含了大量非结构化和半结构化数据, 一般总结为四个特点:数据量巨大、数据类型繁多、价值密度低、处理速度块, 亦即 4V-Volume, Variety, Value, Velocity的概念。从数据量上来看, 目前一般认为大数据的量是 10TB 到 1PB 之间。大数据的处理主要有数据存储、数据挖掘、数据分析三个部分。2.2 大数据研究的发展大数据研究热潮甫一开始, 就得到了
7、众多 IT 厂商的支持。市场咨询公司IDC、Gartner、麦肯锡等, 均展开了大数据专项业务和服务支持;IBM、SAP、EMC、Oracle 等国际软硬件厂商纷纷整合自身的软硬件优势, 推出大数据从存储到分析的全套方案。2012 年 3 月 29 日, 奥巴马政府宣布的 2 亿美元投资大数据计划, 则是大数据研究从商业行为上升到国家科技战略的里程碑。对大数据的研究逐渐从理论到实践、从硬件到软件配套、从企业行为到国家战略。2.3 图书馆与大数据在图书馆领域, 大数据是存在的, 可以说是数字图书馆中海量数据的一个发展。二者相同之处是都涉及巨量的数据, 不同之处是大数据比海量数据结构更复杂、价值密
8、度略低、开发难度更大、使用价值更大。在数字图书馆建设过程中, 大数据问题是不可回避的, 图书馆作为信息服务平台, 必须深入了解大数据的特征、技术、应用、3 图书馆的大数据特征3.1 数据总量增长迅速对于图书馆来说, 每年都有大量新增的数据, 这包括了新购数据库、馆藏资源数字化、随书光盘视音频资源等。动辄上 TB 的数据资源使图书馆不得不建立更大的数据中心。如图 1、2 所示, 以国家图书馆为例, 截止 2011 年底, 其馆藏数字资源建设总量达到了 561.3TB, 而在 2007 年, 这个数字只有 200TB。短短五年内, 其数字资源建设总量就增长了 2.8 倍。如此增长的大数据, 给图书
9、馆带来了巨大的存储压力, 同时图书馆普遍存在的经费短缺现象更是加剧了存储压力。图 1 国家图书馆 2007 年-2011 年资源建设情况 下载原图图 2 2011 年国家图书馆数字资源建设情况 下载原图3.2 数据类型日益复杂随着数字图书馆建设的进一步发展, 许多馆都开展了馆藏特色资源数字化建设, 如本校硕师生著作, 自编讲义、教学参考书、教学视频, 地方志和地方名人著作, 金石拓片碑文等等, 共同构成了一个复杂的图书馆数字资源体系。如图 3所示, 这其中有结构化数据、半结构化数据和非结构化数据, 符合大数据定义的又一特征。图 3 图书馆产生的数据类型越来越复杂 下载原图3.3 数据使用价值大
10、许多知识和资源蕴藏在碎片化的数据中, 例如可能一个 1 小时的视频中, 有 3分钟是宝贵的资源, 但要从数以 TB 的视频中找出这 3 分钟, 就得利用大数据分析的方法来处理;对数据库进行大数据的分析, 能够在海量的信息中找出学科发展的前沿、动态, 为科研活动提供更好地参考咨询服务。3.4 图书馆人的专业特性图书馆人特别擅长的就是信息管理和信息组织, 这是进行数据科学研究的核心能力。在大数据问题中首要解决的就是决策者需要从海量的数据中挖掘出有用的情报。4 大数据时代图书馆的需求分析4.1 数据管理的需求面对大数据, 图书馆不得不对其进行管理-存储、采集、挖掘、分析。因为无序化的数据只是一种信息
11、资源, 而非知识或者情报, 图书馆作为知识的中介机构具有对数据进行组织并提供给用户的职能。因此, 图书馆必须对大数据进行贯穿其整个生命周期的管理, 将其从数据提炼到知识, 从而实现从数据管理到知识管理的过程。4.2 业务升级的需求利用好大数据给图书馆提供了一个业务升级和拓展的宝贵机遇。一方面, 大数据分析可以使图书馆更真实地了解读者的需求;另一方面, 大数据挖掘可以分析科研用户的隐形需求, 并从繁杂的数据库和网络信息资源中挖掘出更加准确全面的科研信息和热点, 实现从普通参考咨询服务到主动知识咨询服务的转变。其他方面, 如可以利用大数据进行学科导航、布局 Map Reduce 进行更加快速的检索
12、等。4.3 应对挑战的需求日益智能的搜索引擎和社交引用使得图书馆面临着各种现实挑战, 如何把用户留在图书馆和图书馆的主页上成为未来图书馆发展的一个巨大挑战。因此只有图书馆重视利用大数据资源进行开发、升级传统服务、拓展新型服务, 才能在面对挑战时更加从容。5 图书馆应对大数据的方案初探5.1 数据存储支撑大数据的核心硬件, 是存储系统, 从存储系统传输到应用服务器分析计算, 整个过程数据会在存储系统和应用服务器之间往返多次。存储技术的不断改进, 其实归根到底是存储容量的不断扩大、传输速率地不断提高和计算能力的不断增强。传统技术上, 图书馆多采用 DAS (Direct Attached Stor
13、age, 直接外挂存储) 、NAS (Network Attached Storage, 网络附加存储) 和 SAN (Storage Area Network, 存储域网络) 三种存储方式。SAN 独立的直接附加存储和高速传输网络相对于 DAS 和 NAS 拥有更高的资源拥有率, 但是多数情况下利用率还是低于最优值, 而且 SAN 的采购成本很高, 每个图书馆都或多或少地面对着经费紧张的情况, 不可能随时按照需求采购 SAN 存储系统。SAN 技术的高性能主要依赖于三个重要的性能支持:存储容量、计算能力和传输能力。在存储性能上, SAN 存储系统可以叠加数千 TB 的磁盘阵列, 但是在计算性
14、能上却存在瓶颈, 见表 1。表 1 DAS、NAS、SAN 三种存储方案对比分析 下载原表 5.2 数据挖掘平台-云计算近年来火热的云计算, 正是解决大数据问题的利器。美国国家标准与技术研究院对云计算的定义是“把无处不在的, 方便的, 按需分配的网络访问赋予给一个共享的, 可以配置的计算资源池。这些资源可以快速地分配和释放, 而只需极少的管理工作和服务提供商的互动。”云计算分为 Iaa S (基础设施即服务) 、Paa S (平台即服务) 和 Saa S (软件即服务) 三种类型, 目前还没有一个统计的技术架构, 但有五个统一的特性:宽带网络访问、资源池化、快速弹性、可评测的服务和按需分配的自
15、助服务。如图 4 所示, 云计算技术体系分为四层:物理资源层、资源池层、管理中间间层和 SOA 构架层。大数据的应用过程, 主要是数据存储、数据挖掘和数据分析。云计算能够快速地对大量数据进行部署, 而消耗的资源和空间是很少的。我们常用的数据挖掘和数据分析软件, 可以方便地接入云计算平台。由于云计算是基于分布式计算和并行计算的, 其分析数据的效率也比传统服务器布局方式更有优势。云计算的弹性特征也使它成为大数据分析的理想选择, 能够很好地完成对大容量非结构化数据的可视化分析。图 4 云计算流程及原理 下载原图5.3 数据分析大数据虽然在不同领域有统一的定义, 但也有不同的特征。在图书馆中, 大数据
16、就显得比在商业公司中更容易分析, 因为图书馆中的结构化数据比例会更多。在数字图书馆的建设中, 数据库是最为重要的一环, 也是利用价值最大的一环, 所以数据库必须作为数据分析的选择。SQL 是高层次, 能够重复使用, 而且能够适用于各种数据库结构的。所以基于结构化数据的分析, SQL 是一种最容易接受的方法。但是 SQL 有时候处理问题会比较繁琐, 难以表达, 查询效率很低。对于更大容量数据的分析, 我们可以采用基于分布式系统构架的 Hadoop 工具进行分析。Hadoop 具有高效性、高扩展性、高可靠性和高容错性的特征, 最为可贵的一点是, 目前 Intel 推出了免费的 Hadoop 版本,
17、 这对于资金相对紧缺的图书馆来说是一大利好。6 结语图书馆目前正在面临着新技术、新思想、新服务、新用户需求的全面冲击。未来图书馆如果定位, 数字图书馆向何处发展, 都亟待解决。但困扰我们的不是日益增长的庞大数据本身, 而是我们缺乏的相关理论和技术。长期以来, 图书馆都运行在一个“供应文献”的状态下。随着网络信息服务的崛起, 图书馆面临着巨大的挑战。如果图书馆不转变思路, 说不定有一天新型互联网服务真的就能将我们取而代之。如何从图书馆掌握的大数据中提取到可用的资源、分析用户的阅读习惯, 是图书馆未来转型为“以用户需求为主导”的模型的主要一环。参考文献1 Stanton J.Big Data an
18、d the Library ProfessionalJ.Journal of the Library Administration&ManagementSection, 2012, (5) :22-24. 2 McKinsey Global Institute.Big data:The next frontierfor innovation, competition, and productivityEB/OL.http:/ 2013-03-18. 3 陈明奇, 姜禾, 张娟, 廖方宇.大数据时代的美国信息网络安全新战略分析C.第 27 次全国计算机安全学术交流论文集, 2012, (8) :
19、42-45. 4 Terence K.Big data, Big FutureJ.Computers in Libraries, 2012, (6) :21-22. 5 国家图书馆.数字资源建设EB/OL.Http:/ 6 Ronald R.A view on big data and its relation to InformaticsJ.Chinese Journal of Library and InformationScience, 2012, (3-5) :12-26. 7 白广思.FC SAN 与 IP SAN 架构比较新论J.情报科学, 2007, (9) :1369-1372. 8 付长东, 舒继武, 沈美明.网络存储体系结构的发展和研究J.小型微型计算机系统, 2004, (4) :485-489. 9 陈全, 邓倩妮.云计算及其关键技术J.计算机应用, 2009, (9) :2562-2567. 10 Peter M, Timothy G.The NIST Definition of CloudComputingS.Recommendation of the National Institute of Standards and Technology, 2011.