1、大数据时代图书馆数据整合系统构建研究 马晓亭 兰州商学院信息工程学院 摘 要: 随着大数据时代的到来, 图书馆用户个性化服务的数据总量正在快速增长, 对图书馆 IT 系统架构和计算能力带来了极大的挑战。采用多层次的系统结构设计构建的图书馆大数据资源整合平台具有较强的扩展能力, 并以松散耦合度方式运行。该系统在保证数据质量的前提下, 实现了核心数据的集成与共享, 有助于实现图书馆的信息资源整合。关键词: 大数据; 图书馆; 数据整合系统; 作者简介:马晓亭, 女, 1974 年生, 硕士, 副教授, 研究方向为大数据、数字图书馆建设。收稿日期:2014-02-15Research on the
2、Construction of the Data Integration System of Libraries in the Era of Big DataAbstract: With the coming of the era of big data, the data amount of data user personalized services of libraries is growing rapidly, which brings the big challenge to IT system architecture and the computing capacity of
3、libraries. The big data resource integration platform of libraries which is constructed with the multi-level system architecture design has the strong expansion capability and runs in the way of a loose coupling. The system realizes the integration and sharing of core data under the premise of ensur
4、ing data quality, and would help to realize the information resource integration of libraries.Keyword: Big data; Library; Data integration system; Received: 2014-02-15目前, 随着用户服务模式和服务内容的变革, 图书馆在不断提高读者个性化阅读愉悦感和满意度的同时, 其数据中心的用户服务数据、系统管理数据、系统运行监控数据和用户行为数据呈现爆炸式增长, 数据量正在以每 18 个月翻一倍的惊人速度累积, 图书馆已跨入大数据时代。全球畅
5、销书社会消费网络营销的作者拉里韦伯认为:“所谓大数据包括企业信息化的用户交易数据、社会化媒体中用户的行为数据和关系数据以及无线互联网中的地理位置数据。”1大数据资源的持续、快速增长在增强图书馆系统管理能力、服务能力、市场竞争力及为发掘商业价值提供可靠大数据分析支持的同时, 也带来了数据中心 IT 基础设施架构庞大、管理复杂、能耗巨大、运维成本飙升和服务效率下降等问题。因此, 如何通过大数据资源的高效整合来提高其价值密度和数据可用性, 是关系图书馆大数据应用高效、大规模用户个性化服务可用、系统运营绿色和经济的关键。1 大数据时代图书馆数据整合需求与面临的挑战1.1 图书馆 IT 基础设施架构优化
6、和系统安全运营的需求首先, 图书馆 IT 基础设施架构的优化, 应主要涉及 IT 基础设施组织架构是否有利于大数据资源和系统硬件设施的整合, 数据中心 IT 基础设施资源是否易于扩展、管理和维护, 数据中心是否具有较低的管理、运营和维护成本, 并在异构环境中是否具有较强的安全性和可控性。其次, 当数据中心系统因整合而减少 IT 结构复杂度和设备数量时, 用户服务和数据存储将在少量的单点设备上运行, 数据中心是否具有较低的单点故障率和数据存储安全性。第三, 虚拟化是IT 基础设施架构整合的关键技术。数据中心不能因虚拟化技术的大量应用, 而导致系统安全隐患大幅增加和自身抗风险能力降低。第四, 为了
7、增强图书馆的用户服务性能和系统可靠性, 图书馆通常会在不同地域构建若干个子数据中心来提高其用户服务的效率和可靠性。对位于不同地域的子数据中心数据进行有效的分析、挖掘和整合, 也是关系图书馆 IT 基础设施架构优化和系统运营安全的一个重要问题2。1.2 数据中心异构系统与应用服务整合的需求首先, 目前图书馆数据中心通常将关系系统安全、管理效率和用户服务质量的关键应用部署在大型主机、Unix 平台上, 而将一些非关键应用部署在 Unix 或x86 平台上, 导致 IT 基础设施架构多平台化、应用多元化、系统异构、数据分散和信息孤岛现象突出。其次, 不同的操作系统、应用服务和虚拟化平台的安全需求与安
8、全标准不同, 很难将大数据流的获取、组织、管理、分析、决策平台的软硬件系统一体化和预先集成。第三, 如何以用户需求和图书馆服务能力建设为指导, 在保证不同系统平台效率的前提下, 将数据中心原有系统和新开发系统在大数据层面上实现无缝整合, 是提高大数据平台综合效率与大数据服务有效性的关键3。第四, 图书馆系统异构主要可分为操作系统异构、系统运行平台异构、数据库管理系统异构、网络协议异构、用户平台异构、认证机制异构、远程执行方案异构、数据自身的异构等几个方面, 这些异构大幅度增加了数据整合的难度和复杂性。1.3 增强大数据价值密度和可控性的需求IBM 硅谷实验室大数据项目总监 Steven Sit
9、, 在 2012 年 8 月 23 日举办的以“技术维新, 预见未来”为主题的 2012IBM 软件技术峰会上表示:“大数据现象才刚刚开始, 估计到 2015 年全球将会有超过 15 个 ZB 的数据容量。”4同样, 随着多媒体个性化服务、移动阅读和智能阅读终端的推广与普及, 图书馆数据将呈现海量递增、多样性、非结构化和时效性等特点。首先, 在大数据时代, 图书馆服务已从过去以资源消耗为主, 转变为以大数据资源保障为核心的个性化“绿色”服务。因此, 大数据资源的价值密度与可控性关系到图书馆的服务创新能力和市场竞争力。其次, 随着读者需求和服务过程复杂度的增长, 图书馆面临着业务繁杂、数据存储成
10、本激增、计算需求增大、能耗巨大、成本控制和服务质量保证等挑战, 而大数据整合的有效性则是服务安全、高效、绿色和可控的保障。第四, 大数据环境下, 数据通常以碎片信息数据流的形式存在, 单一、无规律的碎片信息数据无法呈现出大数据的分析、评估和预测价值。因此, 图书馆必须以用户服务需求为中心, 对数据碎片进行系统性的细分、搭配、重组与整合, 才能提高数据的价值密度、可用性和可控性, 最终实现大数据向大服务的转变5。1.4 图书馆智慧服务与智慧管理的需求图书馆可利用大数据技术构建智慧图书馆, 实现服务系统的智慧管理与智慧服务。首先, 图书馆只有通过对历史数据与当前数据的价值发现、数据整合与度量, 完
11、成对图书馆系统构建要素关系、服务模式与内容、服务市场、服务对象的准确数据挖掘和现状感知, 才能正确把握图书馆基础设施结构科学性、系统管理与服务能力、服务市场竞争环境和读者个性化阅读需求的实际情况。其次, 图书馆只有对所采集的全量数据、流式数据和离线数据进行整合与关联分析, 以及对用户需求态势与服务效率进行判定与调控, 才能完成对未来服务模式与内容变革、服务市场环境特点、用户需求和个性化阅读 QOS (Quality of Service, 服务质量) 的判定标准进行准确预测。第三, 智慧服务保障是图书馆智慧管理的最终目的。因此, 图书馆大数据资源整合只有坚持以增强服务系统整体保障能力和服务资源
12、综合利用率为目的, 才能提升大数据资源的价值密度和大数据服务的支撑力6。第四, 数据整合的有效性和数据结构的科学性决定着大数据平台处理海量动态、快速变化数据的效率与能力, 关系着高速数据在短时间内的价值有效性和即时服务质量。因此, 图书馆应通过大数据平台对实时采集的数据流进行快速整合, 以保证数据计算和存储系统、信息发现和处理系统、业务决策系统和用户服务系统的服务安全、高效、实时和优质7。1.5 大数据资源描述语法和元数据格式统一的需求图书馆采集的大数据资源主要由用户服务数据、系统管理与运营监控数据、用户行为数据、用户阅读活动和社会关系数据、读者论坛与博客反馈数据、读者位置数据等组成。这些元数
13、据的数据格式、标准和描述语法不统一, 数据之间具有较强的冲突和不完整性。其次, 数据资源之间结构复杂并缺少规律性, 数据之间无法进行有效的语义关联, 大幅度增加了无关数据语义关联和整合的难度。第三, 数据整合流程的科学性和结构合理性以及实验数据格式的互操作性与可控性, 也是关系大数据资源整合有效性的关键因素。第四, 为了提高大数据资源整合的效率和降低整合成本, 图书馆通常采用虚拟化方式进行数据整合。如何摆脱数据物理存储方式、途径和位置对虚拟化存储的限制, 提高虚拟化融合模型的科学性和效率是图书馆应关注的一个重要问题8。2 图书馆大数据资源整合平台的设计与整合策略2.1 图书馆大数据资源整合平台
14、的设计大数据资源整合是指共享或者合并来自于两个或更多应用的数据, 创建一个具有更多功能的企业应用的过程。因此, 图书馆大数据资源整合平台设计应采用多层次的系统结构设计, 保证系统平台具有较强的扩展能力和以松散耦合度方式运行。同时, 任何功能模式的增加、修改和删除, 均不能降低大数据资源整合平台整体的功能性、易用性和可控性。笔者设计的图书馆大数据资源整合平台系统架构如图 1 所示。图书馆大数据资源整合平台系统架构主要由管理操作层、数据预清洗与过滤层、数据整合层和大数据资源层四部分组成。管理操作层是用户对平台系统管理与应用的接口, 管理员通过对该层的操作完成大数据资源整合平台系统的控制、管理、维护
15、和应用。数据预清洗与过滤层依据定义的数据清洗与过滤规则, 对所采集的大数据资源进行错误与可用性检查、数据质量分析、数据过滤与清洗, 保证大数据资源进行数据整合时具有较高的价值密度和可操作性。数据整合层是将临时数据库中已进行预清洗与过滤的数据, 通过数据源的读取、数据转换规则的解析和系统加载, 将已转换的数据写入主数据库, 最终完成图书馆大数据资源的整合。大数据资源层主要由不同终端和监控设备采集的大数据资源、临时数据库、主数据库和应用系统数据库组成。图书馆采集的大数据资源暂时存放于临时数据库中, 并根据预先定义好的规则进行数据清洗与过滤, 在进行数据整合操作后导入主数据库中。数据同步机制确保应用
16、系统数据和主数据库中数据具有一致性, 为图书馆大数据应用提供了安全、高价值密度、可控和易用的数据支持9。图 1 图书馆大数据资源整合平台系统架构图 下载原图2.2 图书馆大数据资源整合的策略2.2.1 实现数据中心 IT 基础设施架构的高效整合与优化据 IDC (International Data Corporation, 国际调查和研究公司) 的研究表明, 包含结构化和非结构化的大数据资源正在以每年 60% 的增长率持续增长, 2020 年全球数据总量将增长 44 倍, 总量达到 35.2ZB10。因此, 图书馆必须加强数据中心 IT 基础设施架构的高效整合与优化, 才能统一图书馆系统异构
17、平台和大数据资源模式, 才能对具有海量数据、种类繁多、实时性强和低价值密度的大数据资源进行有效整合。首先, 图书馆数据中心 IT 基础设施架构的整合与优化, 面临着风险控制、降低成本、节约能耗和质量保证的需求。因此, IT 基础设施架构的高效整合应以计算、存储、网络和数据备份设备的虚拟化整合为核心, 以产品整合、信息整合和业务整合为目标, 将系统资源划分为资源池的方式进行统一调度、使用, 以减少 IT 基础设施设备的冗余量, 提高总体使用率。其次, IT 基础设施架构的高效整合与优化, 应坚持统一数据环境和统一数据架构的原则, 确保图书馆可在统一整合标准、动态和透明的环境中, 安全、灵活、快速
18、地部署、支持、管理和无缝访问所有数据。第三, 对于图书馆数据中心的用户服务器、数据存储集群系统和网络传输平台硬件等工厂基础设施的虚拟化整合, 应坚持安全、高效、可靠、低碳和可扩展的原则, 确保大数据资源整合平台可依据用户的服务需求, 进行数据的访问、发现、清洗、集成和交付。第四, 图书馆在数据中心IT 基础设施架构优化中, 应保证 IT 基础设施架构具备较强的灵活性、服务弹性和异构环境适应性, 其可根据未来数据环境特点和整合需求进行灵活的扩展和伸缩, 并具有智能、自动化的管理与维护功能11。2.2.2 大数据资源整合平台应具备较强的功能性和可控性图书馆在大数据资源整合平台的设计和采购中, 首先
19、应关注平台系统功能模块软件的开源性和独立性, 确保系统功能强大、易于开发和成本低廉。此外, 平台系统架构应具备高弹性和可扩充特性, 用户可依靠其内嵌平台定制开发Java、C+等组件完成系统功能的扩充, 以满足数据组合快速变动和提升整体绩效的需求。其次, 整合平台在复杂的数据整合工作流程管理设计中, 应采用工作排程的管理整合, 将复杂的数据整合工作流程以创新的分布式架构执行。第三, 按照用户服务的实时性划分, 图书馆大数据资源整合平台主要整合两类数据。一类是数据海量但实时性要求不高的数据, 主要为系统日志、用户行为数据、阅读关系数据、系统配置数据等;另一类是实时性要求高的数据, 主要为读者个性化
20、阅读即时需求、用户实时服务数据、读者位置信息、系统安全防范与实时控制数据。图书馆大数据整合平台应具备对数据重要性和实时性优先级别的判定功能, 在数据整合时可根据数据的实时性判定等级划分顺序进行整合。第四, 图书馆在大数据资源整合平台设计中, 应注重利用原有关系数据库系统在处理结构化数据方面的效率优势, 并在此基础上加强系统对非结构化数据和流数据的整合, 在不影响数据整合功能性和可用性的前提下, 大幅度降低系统设计的成本投入。第五, 图书馆应加强大数据资源整合平台数据输入和输出接口的智能化管理, 确保平台输入端口可识别数据的类型和整合需求, 并将拟整合数据快速、准确地发送至恰当的处理模块进行处理
21、。同时, 处理后的数据应自动发送至主数据库和相关应用数据库进行保存和使用12。2.2.3 利用云计算技术确保数据整合的高效和经济随着服务模式的变革和用户需求的不断发展, 图书馆总数据量将呈现海量和级数增长的态势。依靠增加 IT 基础设施设备数量、提升数据处理和存储的性能、增强数据存储和搜索的科学性、降低用户服务 QOS 标准等方法, 已经不能有效解决未来复杂的大数据环境下大数据资源整合存在的问题。因此, 图书馆必须依靠云计算的技术支持, 为大数据整合提供安全、高效、经济和可靠的云服务保障。根据数据的重要性和对图书馆用户服务质量影响力的大小, 大数据资源可划分为服务系统运营与安全监控数据、用户个
22、体特征与社会关系数据、用户阅读需求与行为隐私数据、用户位置信息与行为预测等高安全级别的数据, 以及系统运行日志、阅读服务数据、用户群需求数据、服务环境分析数据和客户关系保障等安全级别低的数据。这些大数据资源具有数据总量增加快、时效性强、存储与搜索难度大等特点。因此, 图书馆必须将云计算技术与大数据整合需求相结合, 才能确保数据整合的高效和经济13。首先, 图书馆应根据自身的经济实力、技术水平和大数据整合需求, 采用自建私有云和租赁云服务商服务的方式, 依靠外部云数据托管系统来存储和备份他们的数据, 以减少 IT 基础设施硬件、软件系统建设和数据整合成本。其次, 图书馆应将安全级别较高的数据存放
23、在私有云中, 如果因经济与技术实力等原因必须存放在公有云中时, 应与云服务商签署科学、详细的数据存储、维护和灾难恢复协议, 明确双方的权利和职责。第三, 云服务商对图书馆用户进行身份识别和权限认证后, 应提供相应的大数据资源 Web 远程访问、管理、部署和备份功能, 保证大数据资源整合与管理过程安全、灵活、经济和便捷。第四, 所构建的云数据库应具备较强的数据管理、搜索、分析和依据用户需求构建数据模型的功能, 不能影响已整合数据的查询、下载和应用效率14。2.2.4 以图书馆大数据服务 QOS 保障为目标读者作为图书馆个性化服务的承载者, 具有较强的社会属性。因此, 图书馆大数据服务的模式、内容
24、、方法和途径也应具有较强的社会属性, 大数据整合应以用户大数据服务的 QOS 保障为目标。首先, 大数据整合应有效保障图书馆运营从大生产向大服务的转型。图书馆应依据大数据资源的整合优势, 将读者服务竞争力从传统 IT 环境下以数据中心硬件设备运营性能的竞争, 向大数据环境下图书馆大数据分析与决策能力的竞争转变, 准确、快速和适时地分析、判断读者个性化阅读需求, 依据读者阅读需求变化为其提供相应的大数据个性化服务产品。其次, 大数据整合应以优化图书馆服务流程、提升服务速度与时效、提高营销管理效率和个性化用户服务相关性为目标, 将不同终端设备采集的大数据资源进行科学整合。第三, 大数据资源整合应以
25、提升图书馆业务的挖掘深度、服务针对性、用户感知能力和用户对服务产品的适应性为目标, 实现大数据库内部数据和服务资源的整合, 最终完成以用户大数据分析结果为依据, 实现用户服务内容和模式的定制与推送。第四, 大数据整合应以提升图书馆对读者阅读关系、阅读爱好、情绪与行为等数据价值获取的能力为目的, 依据数据分析结果来判断所提供服务的准确性和用户适应性。此外, 图书馆还可依据大数据分析结果, 实现图书馆与第三方大数据商、服务运营商的跨界整合, 扩展大数据服务的内容和质量15。2.2.5 统一系统数据架构和实现智能化整合首先, 在构建统一的数据环境时, 图书馆会面临系统管理与用户服务过程中产生的各种新
26、型数据类型和系统。这种新型数据类型与系统的多样性会严重影响大数据价值发现、挖掘、分析与提取的有效性, 也严重影响图书馆服务能力和业务洞察力的提高。因此, 图书馆的大数据资源整合必须首先实现系统数据架构的统一与标准化。其次, 在大数据资源整合平台构建中, 平台系统设计者应保证系统平台模块之间的数据连接器可以安全、高效、透明、无缝地实现数据的输入与输出。同时, 平台系统可以根据主动监控事件和安全预警来识别风险和系统故障, 并通过反馈控制进行智能化的安全管理和安全事件报警。第三, 大数据整合平台应拥有统一的管理界面和较低的系统复杂度, 具备较高的系统运行效率与数据加载能力, 可辅助管理员智能化地管理
27、、分析海量的结构化、非结构化及多种结构化的数据。第四, 大数据整合应以图书馆服务能力的提升和用户需求为核心, 以低碳、环保为目标, 通过优化、整合软硬件平台系统, 实现大数据资源的高效、“绿色”整合。同时, 图书馆还应加强大数据资源整合过程中的法律和制度保障, 以及图书馆在大数据备份、存储、使用和共享过程的安全管理, 并执行符合大数据资源整合生命周期管理的应用策略, 确保大数据整合过程的可管、可控和可监督16。3 结 语大数据时代, 数据结构的科学性、可共享性、价值量和易操作性, 是关系图书馆系统运营安全性和效率、用户服务模式与内容变革、服务能力提升和客户关系管理有效性的重要因素。如何构建科学
28、的 IT 基础设施架构和采用科学、合理的策略, 对低价值密度、海量、无序和分散的大数据资源进行采集、清洗、转换和整合, 使数据资源结构合理、高价值密度、可管理和易用, 是图书馆获取新的市场洞察和预测分析能力, 科学匹配、优化服务资源和满足读者个性化需求的关键17。因此, 图书馆必须以提高读者个性化服务保障力和大数据资源的价值总量为目标, 构建科学的大数据整合、管理平台和服务资源整合体系。同时, 图书馆应结合用户服务系统的保障需求与特点, 仔细分析图书馆大数据资源的结构特征、价值属性、可控性和可用性, 并对不同数据源、数据格式、性质和应用对象的数据进行高效整合, 才能增强数据之间的关联性, 消除
29、信息孤岛和提高知识发现的广度与深度, 为图书馆用户服务决策的制定、系统管理与运营、服务资源的整体优化和客户关系管理提供可靠的大数据支持18。参考文献1Weber L.Marketing to the Social Web:How Digital Customer Communities Build Your BusinessM.John Wiley&Sons, 2007. 2刘雪琼, 武刚, 邓厚平.Web 信息整合中的数据去重方法J.计算机应用, 2013, 33 (9) :2493-2496. 3叶焕倬, 吴迪.相似重复记录清理方法研究综述J.现代图书情报技术, 2010 (9) :56-
30、66. 42012 年 IBM 软件技术峰会专题EB/OL.2013-05-01.http:/ 5何非, 何克清.大数据及其科学问题与方法的探讨J.武汉大学学报:理学版, 2014, 60 (1) :1-12. 6白如江, 冷伏海“.大数据”时代科学数据整合研究J.情报理论与实践, 2014, 37 (1) :94-99. 7周晓方, 陆嘉恒, 李翠平, 等.从数据管理视角看大数据挑战J.中国计算机学会通讯, 2012, 8 (9) :16-20. 8Lee K P, Hu J K.XMLSchema Representation of DICOM Structured ReportingJ.
31、Journal of the American Medical Informatics Association, 2003, 10 (2) :213-223. 9毕亿默, 卢超, 王华.一种数据交换整合平台的设计与实现J.计算机应用与软件, 2013, 30 (12) :127-129, 136. 10IBM 展示业界最完整大数据解决方案EB/OL.2013-05-01.http:/ 11侯丽, 李姣.健康信息资源公益性开发中异构数据整合方案的研究与应用J.现代图书情报技术, 2013 (4) :83-896. 12管进.基于关联数据的图书馆知识服务策略研究J.图书馆理论与实践, 2012 (
32、6) :9-11. 13Heterogeneous Database SystemEB/OL.2013-03-14.http:/en.wikipedia.org/wiki/Heterogeneous Database_System. 14程学旗.大数据的应用与科学问题探讨R.数学与大数据科学论坛.北京:中国科学院, 2013:43-52. 15姜山, 王刚.大数据对图书馆的启示J.图书馆工作与研究, 2013 (4) :52-54, 79 16秦鸿, 钱国富, 钟远薪.三种发现服务系统的比较研究J.大学图书馆学报, 2012 (5) :5-11, 17. 17李国杰.大数据研究的科学价值J.中国计算机学会通讯, 2012, 8 (9) :8-15. 18王元卓, 靳小龙, 程学旗.网络大数据:现状与展望J.计算机学报, 2013, 36 (6) :1125-1138.