1、基于大数据平台下论数字图书馆信息检索的新模式 王宏波 天津商业大学 摘 要: 在快速发展的今天, 数字化已经遍及全世界的每一个角落。本文通过介绍传统图书馆的基本功能, 突出数字图书馆的特点:信息存储量大并且方便信息交流, 并且对数字图书馆信息检索的模式进行了详细分析。最后, 重点介绍了基于大数据背景下的数字图书馆信息检索模式的新途径:移动视觉搜索 (MVS) 的架构、移动视觉搜索模式以及移动视觉搜索服务进行重点介绍。关键词: 大数据; 数字图书馆; 信息检索; 基金:天津市科委科普重点项目“互联网+时代基于百姓生活的信息检索” (16KPXMSF00260) 一大数据平台图书馆的构建(一) 图
2、书馆的基本功能图书馆可以保存人类悠久的历史文化遗产, 每当人们有疑惑或是想要了解的问题, 去图书馆看其藏书即可。总的说来, 图书馆的基本功能可以概括为:图书馆是科学传递的媒介, 图书馆丰富的藏书和系统全面知识网是图书馆成为科学媒介的物质基础;图书馆也为人类提供文化娱乐, 丰富人们的业余时间, 陶冶人们情操, 提高人们的科技文化水平。1. 信息存储。在当今社会, 数字图书馆与日俱进, 与传统图书馆相比, 数字图书馆有信息存储量大、传递速度快、快捷方便等特点。数字图书馆有庞大的存储空间, 例如云空间等, 其庞大的数据库可供用户方便使用。2. 信息交流。数字图书馆还可以进行信息交流, 实时更新, 达
3、到资源共享。我们在搜索引擎上输入关键词后, 系统会罗列出一些列与关键词相关的信息, 此时, 我们可以进行对比, 优化信息资源, 获取关键和有用信息资源。(二) 大数据平台下数字图书馆信息检索的特征数字图书馆信息检索将收集用户所需的资料和信息并对此进行筛选和优化, 并针对用户的浏览痕迹和历史记录对所搜集的资料和信息按照其重要程度在浏览器上进行排序, 做到快速挖掘每一位用户的需求的目的。同时, 数字图书馆信息检索也实时优化用户需求:数字图书馆具有信息量大、种类繁多并且处理速度快等特点。所以, 数字图书馆要想做到真正的个性化搜索, 实时更新优化信息至关重要, 这就对搜索引擎的要求非常高, 即通过对信
4、息搜索引擎的实时更新优化来满足每一位用户的需求。搜索引擎所搜索的资料所罗列的顺序并非根据网站的知名度而是根据用户对其资料的需求程度进行顺序排列。而且, 数字图书馆的搜索引擎更新要也要考虑每一位用户的个人习惯进行优化。考虑以上罗列的几点以实时优化用户需求。并且, 数字图书馆信息检索需要移动搜索需求。在大数据背景下, 用户期望其获取信息的方式不受时间、空间等限制, 这也要求数字图书馆需具备移动搜索需求以满足用户所要求的条件。移动搜索需求即是指要一周七日 24 小时的资源、阅读终端系统。二数字图书馆信息检索模式分析(一) 数字图书馆信息检索的流程首先, 在搜索引擎输入地址并登录网页, 后单击需要进行
5、搜索的相应的子模块, 检索到需要的信息。其中, 期刊可按照“作者”、“刊名”、“文章名”、“关键词”或“任一字段”的全部或一部分进行检索, 在检索词输入框输入对应的检索词后, 点击“搜索”按钮既可以显示检索到的内容。同时也可以进行“期刊浏览”菜单进行期刊名浏览搜索或选择“高级检索”菜单进行逻辑检索。(二) 数字图书馆信息检索中特殊性数据信息为人类提供便利, 利用搜索引擎输入关键字即可找到用户想要的信息;但其也有弊端, 其弊端在于如此庞大的数据, 对于筛选用户想要的信息是一项巨大的工程。1. 信息筛选。数字图书馆大数据之多我们可想而知, 进而用户在搜索引擎上输入关键字时, 会罗列所有信息, 这些
6、信息并非全部符合用户搜索的目标, 这时我们需要进行信息筛选, 在大量所罗列的信息中筛选真正有用的信息和目标。针对信息筛选这类情况, 可通过优化网络设置, 构建 Web 服务为用户在大量信息中过滤一些不必要的信息或广告, 将客户真正需要的信息返回用户客户端, 这样不仅方便快捷, 更节约了客户的时间, 提高用户的工作效率。2. 资源共享。对于生活在 21 世纪互联网时代的我们而言, 一台电脑或是一部手机便可以走天下, 所有的信息咨询尽在其中。以前我们对某些知识或是科研等方面有疑惑, 还要特意跑去图书馆翻看一大推图书才能解决这些拿不准的知识, 这样不仅浪费时间同时也效率不高。而数字图书馆中的信息和资
7、料, 可以实现资源共享, 凡是登录其搜索引擎的用户便都可以搜索到这些信息。而且目前国内外一些高级组织机构正在对用户实现分级分层资源共享服务, 如国家科技图书文献中心 (NSTL) 。NSTL 通过自身的网络向其用户提供文献检索、期刊目录等服务, 形成面向全国的服务体系。3. 信息搜索。智能化搜索引擎突破了传统搜索引擎必须要求非常精准的关键词等弊端, 实现基于不规范的知识层面来分析用户的所要求的难题。智能化搜索引擎可以通过程序信息以明确用户的搜索目的、识别用户有兴趣且关键的信息, 进而进行推送信息并过滤无用信息。三大数据平台下数字图书馆信息视觉检索新途径(一) 移动视觉搜索架构移动视觉搜索 (M
8、obile Visual Search, MVS) 是一种检索全世界各地的视觉图像、视频或是地图等进而获得关键信息, 并且最终显示在移动终端上的信息检索方式, 称之为移动视觉搜索, 例如我们常用的 Google Earth 等。标准架构是指当智能化终端获取用户需要的移动视觉后, 需要在本地压缩编码后将用户所需的移动视觉通过无线网络上传至远程服务器, 在远程服务器上完成其匹配后返回智能化终端的过程;本地化架构是指利用用户的历史搜索痕迹以及其搜索关键词, 自动地智能化终端建立临时的数据库, 当智能终端获取移动视觉后, 其可以先在临时数据库中进行搜索, 当在本地临时数据库中无法找到用户所要求的信息后
9、, 再利用无线网络至远程服务器, 完成视觉匹配1, 最终返回至智能化终端的架构;混合架构是指前两者架构的结合, 即获得移动视觉后, 提取局部视觉特征并进行编码, 然后, 利用无线网络上传至服务器, 通过服务器进对所编码的移动视觉进行匹配, 最终返回至智能化终端的架构2。三者各有利弊, 一般而言, 目前使用混合架构的用户居多。(二) 移动视觉搜索服务基于大数据背景下的数字图书馆的移动视觉搜索服务模式主要可以分为以下三个部分:视觉大数据资源的识别与获取、视觉大数据资源的存储与分析和移动视觉搜索服务支撑平台3。视觉大数据资源的识别与获取主要是指把较为分散、异构的大数据视觉资源通过限定视觉数据的获取的
10、范围 (领域、类型、行业等) 。这样可以快速准确的形成符合视觉数据资源特性的移动视觉搜索模型。其主要有视觉大数据资源勘探与发掘、视觉大数据资源定位与标识以及视觉大数据资源获取与更新等。视觉大数据资源的存储与分析:一般而言, 大数据存储采用云计算技术, 但此技术并不能很好的解决爆炸式的大数据所带来的挑战, 进而提出了视觉大数据资源存储方式。而通过视觉大数据资源存储机制、资源特征提取机制和资源处理与分析机制的分析可获取视觉资源的关联关系。视觉大数据资源的分析主要是关联视觉对象与视觉对象的资源。四结语与传统图书馆相比, 数字图书馆具有信息存储量大, 内容丰富、涉及面广等特点, 可以说一台电脑甚至一部
11、手机便可以获取相关信息。同时数字图书馆具有信息交流、资源共享等特性, 且可做到实时更新信息源, 这些都是传统图书馆所不可匹及的。但是随之而来的问题在于如何从快速增加的数据中快速准确地获取用户真正需要的信息, 因而数字图书馆也需要实时更新智能化引擎以及时匹配用户所需的最新的信息, 智能化搜索引擎可以通过用户所输入的关键词明确搜索目的、识别用户所需信息, 并实时更新信息来源和资料, 并将通过信息与用户所需信息的匹配程度进行罗列, 推送信息并过滤无用信息。同时也可通过优化网络设置, 过滤一些不必要的信息或广告 (例如, 构建 Web 服务) , 将客户真正需要的信息返回用户客户端, 这样不仅方便快捷
12、, 更节约了客户的时间, 提高用户的工作效率。资源共享也是数字图书馆的所具有的的特殊性之一, 包括国家科技图书文献中心 (NSTL) 在内的一些数字图书馆正在实现对用户的分级分层资源共享服务, 其可以向用户提供文献检索、期刊目录等, 最终形成面向全国的服务体系。对于当今的数字图书馆而言, 其大多数还只局限于文字搜索层面, 而对于图像、视频、地图等搜索还不够全面。移动视觉搜索作为检索全世界各地的视觉图像、视频或是地图等进而获得关键信息, 进而从互联网另一端进行传输与数字图书馆相关的有用信息以及资源, 例如从数字图书馆中利用 MVS 搜索与教学方面相关的视频、图像、课件等, 进而从中获取实地图书的藏书地点等, 这样可以为用户节约时间进而提高工作效率, 是数字图书馆以后的发展的方向。参考文献1张兴旺, 黄晓斌.国外移动视觉搜索研究述评J.中国图书馆学报.2013 (40) :114-128. 2刘喜球, 张兴旺.移动视觉搜索:“互联网+”时代数字图书馆信息检索新模式J.情报理论与实践 (ITA) .2016 (5) :58-63. 3陈丹.基于 XML 的 Web 信息筛选器的设计与实现J.电子设计工程.2012 (14) :129-134.