收藏 分享(赏)

大数据环境下移动数字图书馆信息推送策略研究.doc

上传人:无敌 文档编号:154968 上传时间:2018-03-22 格式:DOC 页数:7 大小:66.50KB
下载 相关 举报
大数据环境下移动数字图书馆信息推送策略研究.doc_第1页
第1页 / 共7页
大数据环境下移动数字图书馆信息推送策略研究.doc_第2页
第2页 / 共7页
大数据环境下移动数字图书馆信息推送策略研究.doc_第3页
第3页 / 共7页
大数据环境下移动数字图书馆信息推送策略研究.doc_第4页
第4页 / 共7页
大数据环境下移动数字图书馆信息推送策略研究.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、大数据环境下移动数字图书馆信息推送策略研究 李可风 沈扬 南昌大学管理学院信息管理系 摘 要: 大数据给数字图书馆信息推送带来了极大的挑战,数字图书馆的信息推送业务存在数据来源各异,数据量大以及数据非结构化问题。为解决这些问题,在海量数据和图书信息构建分析的基础上,构建大数据生态环境下移动图书馆信息推送模型,其主要步骤包括信息获取、分析、整理和推送。在此模型的基础上讨论如何有效利用 Hadoop 大数据生态圈中的工具解决基于海量数据的数字图书资源信息推送问题,并提出相应的推送策略。最后,展望大数据时代图书信息推送的未来。关键词: 海量数据; 数字图书馆; 信息过滤; 推送模型; 基金:国家青年

2、科学基金项目“图嵌入方法在大规模数据密集型系统中的应用研究”(编号:61402217)的研究成果之一A Research of Digital Mobile Library Information Push Strategy in Big DataLi Kefeng Shen Yang Abstract: Big data bring the enormous challenge to the digital library information push,and digital library information push service has problems on differe

3、nt data sources,big data volume and non-structured data. In order to solve these problems,based on the analysis of the massive data and the construction of book information,the push method model of the library information in the big data ecological environment is put forward,and steps including info

4、rmation acquisition,analysis,sorting and pushing are discussed. Then,the push strategy is set up for digital library information resources based on massive data ecological circle of Hadoop. Furthermore,the future of library information push is prospected in the age of big data.Keyword: massive data

5、digital library information filter push model; 不同行业和领域的读者都能非常便捷地从各种不同的终端设备或终端应用中获取大量数据。随着手机等移动设备的普及,读者普遍使用移动设备进行信息获取,除了图书馆,读者还有很多其他越来越丰富的可选信息源。 这些信息源的数据以PB、TB 为计数单位,数据变化速度快,来源各异,读者在大量数据前很难找到自己感兴趣的信息,而图书馆作为信息中心使用传统的图书信息管理系统已经无法驾驭海量数据。因此,不管是读者,还是图书馆自身,都需要相应作出改变。图书馆给用户提供的服务不能再局限于简单的由用户主导的在线查询,也不能再局限于由数

6、字图书馆简单地推送图书归还提醒、预约到书提醒,新书推介信息、电子资源实时更新服务等等。 图书馆信息服务的用户黏度将很大程度取决于移动数字图书馆的服务环境和方式。1 大数据给数字图书馆信息推送带来的挑战与数字图书馆相关的数据量是巨大的,而且数据来源不同,图书馆自身拥有与图书资源和读者信息相关的一系列结构化数据,同时也有与日常服务相关的非结构化数据。如读者检索查询时输入的关键词、读者对资源的评价、读者的借阅信息和借阅频率、图书资源的更新信息、科研文献引用信息等等。图书馆所记录的数据随着图书馆原有系统的运行,呈几何级数大量增长,而且大多数的数据是未经处理的非结构化数据,同时数据分析和处理要求极高的时

7、效。这些特征正是目前大数据所特有的 4V 特征: Volume ( 大量) 、Velocity ( 高速) 、Variety ( 多样) 、Value ( 价值) 。面对信息量大,信息流转速度快的特点,读者对数字资源挖掘、信息评价以及数据分析等服务提出了更进一步的需要。如果数字图书馆能够对数据进行除常规分析外的广度和深度分析,能够对图书信息进行全面对比分析,对科技创新水平进行全面评价,对创新进行预测性分析,并且主动将这些第一手信息推送并分享给用户,那么将给图书馆的各级用户带来前所未有的极富价值性的智能型服务。面对大数据的冲击,图书馆现有的推送服务要么是由图书馆主导,要么是由用户主导,两者均不能

8、适应新的应用需求。由用户主导的图书馆信息推送服务早在 1999 年 RSS 技术出现后就已经被人们熟知,RSS 是一种用于共享新闻标题以及网络内容的 XML 格式。它是一种应用得非常广泛的 “推”技术。但是 RSS 技术不具有分析预测能力, 它只是简单地根据用户预订内容推送已有的既定信息。智能手机平台、移动设备平台上的各种软件也能提供推送服务,如微信公众平台、微博等,目前它们也只是在用户主导订阅后,简单地将数字图书馆已有的信息在不作任何处理的情况下推送给用户。由于数据量巨大,数据更新的速度极快,数据又具有复杂的多样性,不采取有效措施,读者自身很难在浩瀚的信息海洋里订阅到自己满意的信息。因此,这

9、种单纯由用户发起的 RSS 推送模式在大数据的环境下已经不能适应读者的需求,由此造成图书馆用户大量流失,对图书馆业务提出了极大的挑战。由图书馆主导的信息推送主要来自于图书馆所使用的业务系统,如大型的图书信息管理系统。但是,目前大多数图书信息管理系统仍然使用传统的基于客户服务模式的关系数据库管理,这种管理模式只能存储、查询以及分析结构化数据,而大数据环境下,数据大多是即时的非结构化数据。因此,如果不采取整体性的更新换代,作为现代信息中心的图书馆已经很难为读者提供优质精准的服务。经过上述分析,可以看出,大数据给数字图书馆信息推送带来了极大的挑战。数字图书馆的信息推送业务主要存在如下问题。第一,图书

10、馆数据来源各异,现有的数据存储方式不能适应非结构化数据的存储。第二,数据量巨大,现有的文件管理方式也不能适应数据的多样性和巨量性,无法实现有效的查找和定位。第三,图书馆信息系统中提供的信息分析方法只能简单地停留在对结构化数据的查询、修改、分析和挖掘上, 对非结构化数据的即时处理和实时挖掘则束手无策。为解决上述问题,可考虑使用适应大数据特点的平台和工具大幅改进图书馆的整体数据管理架构。云计算平台乃至大数据的庞大生态圈给各行各业提供了丰富的工具,以便各机构都能找到适合自己的方式来分析和使用数据。这些工具当中,能在数字图书馆业务中发挥作用的工具有 Hadoop、MapReduce、Pig、Hive、

11、R 语言、HDFS、Sqoop、Mahout、HBase 等。其中,Hadoop 是一个开源的分布式计算架构,由 Apache 组织设计。Hadoop 框架中最核心的设计就是 HDFS 和 MapReduce。HDFS ( Hadoop Distributed File System) 是一个分布式文件系统,它为海量的数据提供了分布式存储; MapReduce 是一种编程模型,Hadoop 使用它来分析海量数据。HDFS 不仅具有高容错性,而且可以部署在低廉的硬件设备上,同时它也能为应用程序的执行大幅提供吞吐量。更重要的是 HDFS 能大量地存储流数据,并提供基于流的文件访问方式,可以有效存储

12、以及快速检索所有结构化数据、非结构化数据以及半结构化数据。数字图书馆原有的结构化数据不仅能方便快捷地导入到 HDFS 中,在业务进行过程中的大量数据仍然也能迅速存放。 因此,图书馆信息推送过程中的信息存放和文件管理问题可以使用 HDFS 来解决。Pig 是一种操作数据流的脚本语言,使用它可以轻松地处理 HDFS 中的数据。Hive 为存储在 HDFS 上的数据提供了类 SQL 接口,使用 Pig 和 Hive 结合,能使原来熟悉关系数据库 SQL 语言的图书馆信息数据的管理员快速熟悉管理环境。借助工具,图书馆管理员还可以很方便地使用 Sqoop 将传统关系型数据库( 如 My Sql,Post

13、grepsql, Oracle,Sql Server) 中的数据与 Hadoop 框架中的数据实现互相导入导出。HBase 是一个面向列的分布式数据库,它提供即时数据的存储、读写和分析功能,可以极大地满足大数据的实时性要求。HBase 以键值对的形式存储,可以快速地在数十亿行数据中定位所需的数据并访问它。R 语言主要用于数据统计分析、数据挖掘以及绘图。另外,Mahout 实现了经典的机器学习算法,如聚类、分类、推荐过滤、 频繁子项挖掘等。这些工具的使用可以从根本上解决大数据环境给图书馆信息推送带来的一系列问题。如何将这些工具有机地结合起来,找到适用于图书馆业务模式的推送策略,将给图书馆的服务质

14、量带来巨大的提升,并极大地提高图书馆用户的使用频度。2 大数据环境下数字图书馆信息推送模型大数据环境下的数字图书信息推送,是和 RSS 订阅、微信平台以及邮件订阅等不同的一种推送服务,它不需要用户提出明确的要求,而是分析用户使用习惯和用户个体特性并预测用户需求后,主动向用户提供其需要的信息服务。大数据环境下的图书馆信息推送步骤和过程如图 1 所示。首先,进行全方位数据收集,随时对用户使用过程中访问过的数字资源、读者信息等进行在线收集,存入数据中心的分布式文件系统中。其次,后台管理端根据用户行为,文献引用情况,数字资源动态信息,以及动态借阅信息,来整理和分析所收集的信息,并设置预测和推送规则。最

15、后根据预设规则生成与用户相对应的推送内容, 精准地推送给用户。各个阶段的具体方法详细描述如下。图 1 数字图书馆信息推送方法 下载原图2. 1 信息收集在收集数据的过程中不仅要考虑数据的量,也要关注数据的聚合度,只有围绕真正的分析进行的数据收集量才有意义。在信息的收集阶段,可以考虑使用分布式、稳定且有效的数据收集、聚合工具,并能把大量流式数据存到分布式文件系统HDFS 中。数据源可以是普通用户程序,可以是关系数据库,也可以是日志文件,甚至还可以是 RSS 订阅。对于非结构化的 Web 日志、点击流、服务器日志等数据,使用数据流获取工具Webdav,Chukwa, Flume 和 Scribe

16、获取; 对于 Web 页面数据,使用网页爬虫工具Nutch 收集; 数字图书馆中原有的关系型数据库数据也能够方便地加入到Hadoop 的 HDFS 中,使用 Sqoop 可以将大部分的关系型数据库数据加载到 HDFS中。2. 2 信息存储HDFS 中的数据可以是结构化、半结构化数据和非结构化数据,与 HDFS 比较,HBase 中的数据更多的是实时性数据。2. 3 信息分析信息分析是数字图书馆信息推送的关键一步,可以采用 Java 或任何的流语言或管道语言,进一步可以使用 Pig、Hive 和 HBase 对数据进行整理,使得所有的数据,即使是非结构化的数据都能以关系数据库的形式进行最后的分析

17、和输出。如可以使用 Pig、Hive 或 R 构建 MapReduce 框架用于编码并进行分析,采用Mahout 进行样本训练和机器学习。关键是要建立分析和处理模型进行智能分析,将数据中蕴含的有效信息定向、个性化地提炼和摘取出来,并在其中发现数据中隐藏的规律和新含义。高质量的数据分析是信息推送的点睛之笔。2. 4 信息推送与数字图书馆相关的信息推送是建立在有效的信息收集、整理和分析的基础之上的。数据在经过分析后,必将为每位使用图书馆数据的用户产生一系列的个性化数据。这样,针对每一用户有策略地给出为其量身定制的数据分析结果后,用户就能够更好地驾驭数据分析结果并有针对性地加以利用。可以考虑在各种不

18、同的平台上进行信息推送,如微信平台推送、Web 页面推送、邮件推送以及即时通讯平台推送等等。本小节主要讨论了在大数据生态环境下,要达成信息推送需要采用的 4 个主要步骤和方法。这些方法主要基于开源框架 Hadoop。面向海量数据的信息推送在信息的收集、存储、组织以及推送模式上完全不同于以往的 RSS 订阅,不同于简单的数据挖掘方法,不同于一般的语义知识系统。3 图书馆海量数字资源推送策略3. 1 推送工作过程推送模型与发布订阅以及分发操作紧密相连。推送的执行需要满足同步性、即时性、准确性、定制性以及个性化等特点。为了满足这些需求,推送将分两个步骤: 发布订阅和分发。其中,发布订阅是在信息收集、

19、整理、 分析的基础上实现的。当读者、书籍和文献的一些个性化信息、使用偏好以及引用兴趣点等信息产生后,管理端在整理和分析所获得的消息后,获得大量的个性化待推送消息,后台管理端通过大量的待推送信息,产生订阅规则,存入推送规则库。发布和订阅通道建立起来后,通过推送查询接口分发推送信息给用户( 见图 2) 。图 2 数字图书馆推送模型 下载原图3. 2 发布和订阅发布和订阅过程和后台管理端、推送规则库以及推送信息库关系紧密。后台管理端根据推送信息库中的推送信息自定义推荐规则,控制不应该显示的推送信息,并将最容易被用户注意的推送信息生成规则。推送规则库用来存放数字图书资源管理中的推荐权重以及被屏蔽的待推

20、荐信息。推送信息库中存放 Mahout 计算出来的待推荐结果,以及管理端自定义的推荐信息。发布过程用来收集数据,将数据存储在 Hadoop 框架的分布式文件系统 HDFS 中。HDFS 根据用户以往的浏览历史、借阅情况、知识文献查询行为、引用文献频次来生成样本训练库,进行样本训练和学习。使用 Mahout 机器学习库中基于项目的协同过滤算法来生成训练样本,推送信息。基本思想是根据用户之前的喜好以及与用户兴趣相近的用户的选择来生成推送信息。主要包括 3 个步骤,首先根据每个用户借阅搜索、知识文献查询的过程,得到用户对每个兴趣点的关注程度,为这些关注程度进行评分。其次,对用户产生的兴趣点进行最近邻

21、搜索。最后, 产生推荐。3. 3 分发推送信息当推荐信息产生后,统一由推送查询接口管理。在推送查询接口中,根据不同的推送客户端,产生不同形式的推送信息,从而实现分发。3. 4 比较分析基于 Hadoop 框架的推送策略与传统的图书信息管理系统使用的挖掘和推送技术存在很大的区别。首先,基于 Hadoop 的框架结构能够吸收大量的异构型数据,包括原有的数据库数据、简单的非结构化的文本数据。所有数据存储在数据中心,用户兴趣点的产生、数据分析和推送的准确性是以大量的数据积累和训练样本为基础自动产生。而传统的图书信息管理系统主要采用基于语义的挖掘技术,这种技术需要人为设置特征词,训练集和样本集,数据密集

22、情况下,这将成为系统效率提高的瓶颈。其次,基于 Hadoop 框架的样本分析技术可以使用 MapReduce 编程模型,只需要设置 Map 和 Reduce 两个过程以及 Mahout 的机器学习库即可,实现过程短,效率高。而传统的图书信息管理系统采用的基于语义的挖掘技术虽然也能实现自动分析和推理,但无法应用既定的编程模型,所有的程序均需要从头开始设置和编写,不仅耗费时间而且效率低下,同时也不能适应大数据的 4V 特征。因此,显然基于 Hadoop 框架的推送策略更能适应大数据的高时效和异构性等特点。4 总结和展望本文探讨了大数据环境下如何构建数字图书信息推送策略,本着高效率、实用性、个性化的原则建立了推送策略模型,具体描述了大数据环境下实现推送的方法和步骤以及推送的发布订阅过程。系统可以根据用户的行为特征、图书信息的更新特征、知识文献信息的引用行为自动分析,将符合用户意愿的兴趣点主动实时地通过各种形式推送给用户,提高了用户在短时间内寻找资源、迅速判断资源关联性的可行性。同时,此策略的应用也能提高知识文献信息的利用率和读取率。下一步的研究将着重将文中的理论设计付诸实施,探讨并设计更好的关联算法,进一步提高推送的精准度和用户黏度。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报