收藏 分享(赏)

大数据时代下图书馆的挑战及其应对策略[J].doc

上传人:weiwoduzun 文档编号:2322642 上传时间:2018-09-10 格式:DOC 页数:9 大小:94.50KB
下载 相关 举报
大数据时代下图书馆的挑战及其应对策略[J].doc_第1页
第1页 / 共9页
大数据时代下图书馆的挑战及其应对策略[J].doc_第2页
第2页 / 共9页
大数据时代下图书馆的挑战及其应对策略[J].doc_第3页
第3页 / 共9页
大数据时代下图书馆的挑战及其应对策略[J].doc_第4页
第4页 / 共9页
大数据时代下图书馆的挑战及其应对策略[J].doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、1大数据时代下图书馆的挑战及其应对策略朱静薇 (合肥工业大学图书馆 合肥 230009)李红艳 (合肥工业大学图书馆 合肥 230009)摘要 文章首先阐述了大数据的特征与内涵,指出了大数据在图书馆工作中的重要性及两者之间的关系,分析了大数据所带来的数据管理、数据存储、数据挖掘等方面的挑战。然后研究了图书馆应从数据管理、数据技术及数据队伍建设上所采取的策略。最后探讨了大数据驱动下的图书馆服务新模式,如基于数据整合的一站式资源服务,基于数据处理的学科知识服务、信息可视化服务及基于数据挖掘的个性化智慧服务。关键词 大数据 数据处理 数据挖掘 数据服务 图书馆Analysis of Challeng

2、es and Responses to the Library in the era of Big DataZhu Jingwei (Library of Hefei University of Technology, Hefei 230009)LI Hongyan (Library of Hefei University of Technology, Hefei 230009)Abstract:The article first elaborates the characteristics and content of the data , points out that the relat

3、ionship between the importance and both work in the library and discussed it brings data management , data storage , data mining challenges . Then the library should be taken in data management and data technology and data team building strategy . Finally, we discuss a new model of large data -drive

4、n library services , such as those based on One-stop resource for services based on data integration.Key words: big data , data processing, data mining, data services , library1 引言随着社会高速的发展,泛互联网的进程加快,数据量的增加已经到达了前所未有的速度。Facebook 每天生成 300TB(注:1024GB=1TB;1024TB=1PB;1024PB=1EB ;1024 EB=1ZB)以上的日志数据, Goog

5、le 公司每个月处理的数据量超过 400PB,百度每天约处理几十 PB 数据,淘宝网每天交易能产生约 20TB 数据 1。根据国际数据公司 IDC 2011 年发布的Digital Universe Study,全球信息总量每过两年,就会增长一倍。仅在 2011 年,全球被创建和被复制的数据总量为 1.8ZB,且每年以 60%增加,2020 年全球每年产生的数字信息将达到 35ZB2。数据的爆炸式增长超出人们的想象。 “大数据”(Big Data)时代已经来临。大数据是继云计算、物联网以后,信息科技等行业又一次大的技术变革。最早提出“大数据” 概念是全球知名麦肯锡公司(Mckinsey and

6、 Company) 。2011 年 5 月,麦肯锡公司在大数据的报告中指出 3:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。其后,大数据迅速成为政府及信息科技等行业关注的热点。2012 年 3 月,美国政府启动 “大数据研究和发展计划”, 将“大数据研究”上升为国家战略高度 4;一些著名企业如 IBM、EMC、 Microsoft 开始对大数据进行研究。大数据最典型的应用是在沃尔玛公司利用大数据技术创造的“啤酒与尿布”的经典商业案例 5。互联网企业 Google 及 Facebook 之所以取得令人瞩目的成绩,其核心的本质就是其公司记录和分析了用户网络操作的大数据,从而精确

7、掌握用户行为、形成预判。图书馆是信息搜集、存储和进行知识服务的机构。在大数据时代下,如何进行数据管理?如何以“大数据” 为基础,2帮助用户从海量的数据中快捷发现与获取信息资源?如何挖掘用户行为特征,实现个性化、定制化的智慧服务等等都是图书馆面临的新的挑战与机遇。本文对此进行了深入的分析与研究,主要阐述了大数据带给图书馆的影响与挑战,分析了大数据对图书馆的重要性,重点探讨了图书馆的大数据建设若干策略及图书馆的大数据服务模式。2 大数据的特征与内涵什么是大数据? 目前,还没有一个统一的定义,简单一点可以理解为超出传统数据管理工具处理能力的大规模、复杂的数据集合。IBM 公司认为大数据具有“3V”

8、特点, 即种类(Variety )多、速度(Velocity) ,快、容量(Volume)大 6。但以 IDC 为代表的业界将其归纳为具有”4V”特征海量(Volume)、多样性(Variety)、高速(Velocity)和易变性(Variability)。不管是“3V” ,还是”4V”,其内涵包含了以下这些特性。第一,数据体量巨大。“大 ”是指数据规模,一般指在 10TB 规模以上的数据量。一部史记 ,共 52 万 6 千 500字,约 1MB 数据,一组用于基因研究的染色体照片数据量超过 2TB。第二,数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。互联网的迅猛发展,

9、现在的数据类型早已不是单一的文本形式,还包含了大量的网络日志、微博、视频、图片、邮件等大量的半结构化与非结构化数据。第三,价值密度低。价值密度的高低与数据总量的大小成反比。大数据中有很多垃圾,有很多不相关的信息,只有一些有用的信息隐藏在大数据信息里面。以视频为例,一部一小时的视频监控过程中,可能有用的数据仅仅只有一两秒。第四,处理速度快。大数据里面很多是实时数据,像微博、社会网络、SNS 这些,要求它进行立竿见影的分析和处理,而不是事后追诉。3 图书馆与大数据之关系随着信息化建设的发展,图书馆除了本身包含的大量数字资源外,日益增长的电子资源,高速网络及移动图书馆的普及,云计算、RFID、语义网

10、、社交网络等新技术的发展提供了广泛的数据来源,图书馆正在迎接大数据时代的到来。3.1 各种电子资源(电子书刊,多媒体资源等)的积累,给图书馆提供了海量数据信息技术的发展极大地促进了图书馆数字资源的生产,形成了包括电子图书、电子期刊、数据库、音视频资源、网络资源在内的海量数字资源,电子资源种类和数量正在超越纸本资源。据调查,全球新产出的信息量每 3 年翻一番,大约 90%的信息都是以数据形式储存。截至 2011 年底,中文网页数量达 866 亿个,年增长率达 44.3% 文献的出版方式发生巨大的变化,数字出版日益普及,截至 2010 年底,中国电子书总量已达 115 万种,年新增 18 万种;单

11、独出版的数字报已达 700 份以上,电子期刊已近万种。2010 年底,清华图书馆机房有 110 台服务器,集中存储 170TB,国家图书馆资源总量就得到 470TB。这些资源分布在不同的系统中,形态不同,组织方式各异,既包括传统文献的数字化,也包括各种类型的原生数字资源,还包括其它虚拟馆藏等各种多媒体资源。各种电子资源的积累,给图书馆提供了海量数据。3.2 智能手机、高速网络及移动图书馆的普及, 使数据量呈现指数上升的趋势信息技术、网络技术迅猛发展,手机上网、数字电视等跨网络等业务发展迅速,截至2011 年底,我国网民人数达 5.13 亿,互联网普及率达 38.3%,手机用户已突破 9 亿人,

12、其3中手机上网达 3.56 亿,数字电视用户超过 1000 万户,为数字图书馆提供了基于多网络平台的信息传输途径和服务渠道。近几年,移动设备如雨后春笋,智能手机、平板电脑为学习者提供了新的学习途径,并以其它设备无法比拟的优势提高学习体验并与人产生更多的交互,使得数据快速增加。自 2003 年以来,移动图书馆越来越普及,移动阅读,移动搜索等服务类型也不断增加。未来 3 年内,移动设备所产生的数据量呈现翻倍的趋势。3.3 云计算、 RFID、语义网、社交网络等新技术的发展, 为大数据提供了广泛的数据来源云计算的到来,突破了传统图书馆发展局限,超强的数据处理能力,信息资源的整合,动态资源分配,简化的

13、 IT 结构,云计算为大数据的的诞生创造了物质基础。利用 RFID 技术,可实现图书自动借还,智能盘点,自动分拣,图书位置与信息的实时跟踪导航。以Facebook、Twitter/微博为代表的社会网络因为体现了开放、共享、参与、个性化、用户驱动等 web2.0 特性而深入人心。语义网是人们经过研究,期待已久,能够使信息发生 “革命”,从而上升到“知识”的技术。2009 年,美国康奈尔大学和六家机构筹建一个 Facebook风格的专业社交网络VIVO 网,其宗旨是建立一个连接开发数据的语义 Web。科学家通过 VIVO 网可以看到网络中的研究人员正在进行的其它科学研究,更便于快捷地找到同行并建立

14、联系,由此将导致新的发现和创新。由此可知,信息时代的发展,使得图书馆具备大数据的特征。科学研究和科技创新越来越依赖于对数据的管理和利用,学科知识服务依赖于大数据的分析与挖掘。 但是,我们看到:要面临的数据非常复杂,图书馆将遇到很多挑战。4 大数据时代下图书馆的挑战与建设策略大数据不仅挑战图书馆传统的 IT 架构与数据获取、数据存储、数据处理的模式,而且来自数据管理及数据应用、数据服务对图书馆的挑战将更为突出。但从潜在的机会看,数据量的增加为图书馆提供了精确把握用户群体和个体网络行为模式的基础,如果能够充分利用,就可以探索个性化,精确化和智能化地进行推送和服务,帮助用户从海量的信息中迅速找到所需

15、要的信息,提升图书馆的数字知识服务水平,促进数字图书馆领域的发展。当前,图书馆的大数据挑战主要集中在以下三个方面:问题一:传统的网络架构不适应“大数据” 时代传统的网络结构设计是以用户端向服务器发出请求,由服务器应答返回结果给客户的垂直结构。而在大数据时代,这种垂直结构的服务请求将变得越来越少,取而代之的是水平结构的横向请求服务。 “大数据”时代,大量的数据都存储在分布广泛、不同地域、各种类型的服务器中。当用户发出一个搜索或查询请求时,最多的运算是服务器之间的信息交换,最后将结果返回给用户。传统的网络架构已经不能满足大数据时代网络应用需求。新一代网络架构要适应 Web2.0 时代的水平服务应用

16、 7。问题二:数据中心将面临巨大压力传统的数据仓库是通过 ETL 工具将数字资源中的数据抽取到数据仓库进行集中存储和管理,然后组织数据,并进一步从数据仓库中读取及访问数据,并进行数据分析。但在大数据时代,图书馆数据库里的内容不仅仅是多,而且结构已发生了极大改变,不是以二维表的规范结构存储。大量的数据是非结构化的办公文档、文本、图片、XML、HTML、各类报表、图片和音频/视频等,面临如此大量的非结构化数据,其移动和修改将耗费大量的人力物力,数据移动代价太高,读取效率也将越来越低。更多的网络设备将同时访问数据中心,传统数据中心难以适应快速变化,面临巨大压力 7。4问题三:如何快速找到自已的资源?

17、如何获取、管理和分析这些用户信息行为数据并加以利用及服务在大数据时代,用户面对众多图书馆的数据资源,深受大数据所带来的困扰,很难方便、快捷、准确地检索到所需数据资料。2011 年麦肯锡公司在报告中指出全球新的数据不断增长,但是却有 87.5%的数据,并没有形成真正的知识源以供研究人员利用 3。对于图书馆,如何提供更加便捷的资源发现与获取服务?如何全面、快速地使用户得到正确的信息?如何让用户按照他们自身习惯的方式来进行搜索?如何对这些数据进行挖掘和分析,提供实现个性化、定制化的知识服务及智慧服务? 大数据时代,图书馆面临大数据管理、技术和应用等方面存在的问题和挑战,但是,我们还需要冷静面对,对这

18、些问题的思考,未来图书馆,是以数据为纽带,其形态将从物理图书馆逐渐转变为“数据图书馆”及“智慧图书馆” 。由此,图书馆应采取以下应对策略:4.1 管理层次上:成立数据管理部门与机构,制定数据管理政策、统一的标准及共享平台大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。为此,图书馆应成立新的数据管理部门,负责数据管理,建立统一的数据获取、使用、管理、分享的政策,加强校内,外各部门的数据协调工作。如在美国高校中,现在有些学校如 MIT、弗吉尼亚大学及康奈尔大学图书馆成立了专门的“研究数据管理服务工作组( RD

19、MSG) ”,负责有关数据管理中所涉及的问题:如元数据标准,数据存储,数据共享和重用、数据管理计划、处理数据版权和合理使用数据问题,举办知识产权、开放数据、开放科研等主题的培训和讲座,研究数据知识库的评估、管理、推介、导航服务等 8。4.2 技术层次上:构建图书馆大数据架构,研究解决大数据采集、存储,处理及分析相关技术问题大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。迎战大数据,进行技术前倾是关键。要把大数据作为一系统工程来考虑,从数据采集,数据存储到数据处理,数据分析及数据应用等方面考虑,构成图书馆大数据架构图,见图 1。5图 1 图书

20、馆大数据架构图在大数据技术中,从图书馆系统角度,主要解决下面几方面的关键技术:4.2.1 大数据的统一表示及融合图书馆大数据中包括越来越多不同格式的数据,从电子资源,到简单的电子邮件、数据日志和阅读记录,社交网络,再到实验等科研中收集到的科学研究数据以及丰富的媒体数据(包括课件,照片、音乐、视频资源等) ,这些不同格式的数据也需要不同的处理方法,给我们处理数据带来了一定麻烦。从某种意义上来说,目前表示数据的方法,不一定能直观地展现出数据本身的意义。数据不整合就发挥不出大数据的重大价值。大数据面临的一个基本问题是各种数据和信息能否规范、统一的表示及方便地融合,构建文献与数字资源体系。因此,要研究

21、通过对海量的,来自异构资源的数据和各种对象数据进行抽取,映射、收割、导入等手段进行预收集,并通过归并映射到一个标准表达式,进行预聚合及融合,形成格式统一,内容丰富、结构清晰的数据,进而灵活构建各种分类和界面,按照知识本体进行组织和揭示,并进而保障强大高效的检索能力和良好的结果相关度排序。4.2.2 解决大数据量存储的问题在大数据的挑战问题中,大数据的第一个关键技术问题:就是对大数据的高效率存储和访问需求,对数据库高可扩展性和高可用性的需求,随着数据库技术以及云计算技术的迅猛发展,大规模数据存储要借助非关系型的数据库分析技术-NoSQL、MapReduce 和Hadoop,它们的优势具有大规模并

22、行处理、简单易用等特点,非常适合非结构数据处理,也成为大数据分析领域的主流技术。大数据存储也可采用基于云计算的分布式存储技术,利用分布式的数据云存储技术和与之相关的虚拟技术使得整合后的图书馆海量数据更加统一有序,能够方便快捷地通过网络,根据需求访问计算与存储等服务。4.2.3 解决非结构化数据的分析和挖掘的问题大数据中包含数据信息量大且复杂多样,但有意义的信息变得越来越稀薄,数据需要做增值服务,否则数据就没有价值,因此数据分析和挖掘工作具有重要作用。传统的数据挖掘是对关系型数据,对非结构化的、半结构化的数据,显得力不从心。对于图书馆大数6据中,待处理的非结构化数据与读者兴趣密切相关,通过分析读

23、者显性行为和挖掘隐性行为,为读者提供个性化服务。目前使用的推荐方法是基于内容的推荐方法和协同过滤的推荐方法。协同过滤算法是目前最为成功的算法,但依然存在读者兴趣变化、数据稀疏性、读者评分的真实性及差异性等问题,因此,如何根据读者信息数据构建个性化读者行为模型,结合基于读者行为的协同过滤算法,挖掘模型中存在的规则,从而产生个性化服务值得研究。4.3 队伍建设上:培养一支高素质的数据管理的馆员队伍大数据环境下,图书馆传统的管理模式、工作内容、工作方式发生了本质的变化,而目前不断增长的数据共享和数据管理需求为图书馆服务开辟了新的领域,图书馆需要抓住这个机遇,尽快开展数据管理服务,拓展支持研究的服务内

24、容和能力,使图书馆员成为数据管理服务的提供者。美国国家科学委员会(NSB)提出的以数据获取、处理、保存、分析、利用和可视化为职业的“数据科学家(Data Scientist)中,其中含信息与计算机科学家,学科专家、数据处理员及图书馆员等。美国研究图书馆协会也已提出,研究数据管理将成为下一代图书馆员的能力之一 9,10 。因此,我们必须培养和造就一支懂技术、懂管理的大数据建设专业队伍。当前的任务是如何在现有基础上,拓宽馆员知识面,增强业务能力,培养出能满足图书馆数据服务需求的高素质的“数据馆员” ,并使之成为学科信息资源的组织者、传播者、导航者、教育者,促进图书馆事业更好的发展。5 基于大数据的

25、图书馆的服务模式研究大数据时代下的图书馆将从“物理图书馆”转变为“ 数据图书馆” ,图书馆服务不管是服务的方式、途径、模式等也都将发生改变。从服务的理念上转变为基于数据的服务。以“大数据” 为基础,围绕从数据汇聚到信息加工,知识服务,智慧服务的四个层次展开服务,见图 2。下面具体对数据驱动下的图书馆的服务模式进行分析研究。图 2 图书馆大数据服务层次75.1 基于数据整合的一站式资源服务大数据时代下,数据资源是海量的,理论上一个图书馆可以收集所有的数据资源,如各类文献资源,科研成果,学术交流,甚至包括各种访问,社交等日志信息等各种网络资源等。但是,这些数据来源于不同的机构知识库或读者个人,图书

26、馆可以充分利用机构优势有组织地通过对各类数据源的定位和连接,实现数据的采集、传输和汇聚。鼓励读者开放存取各种数字资源,使用户不仅是资源的接受者和学习者,而且是资源的的发布者和贡献者 11。由于数据资源具有数量巨大、类型多样、变化快、无序等特点,因此很有必要建立数据的统一标准,迎合对于飞速增长的异构系统进行有效整合的需求,提供资源之间的无缝链接,提供各种数据管理服务,包括存储备份、元数据加工、数据发布,数据共享等。在数据的洪流中,异构、分布和海量的各种数据资源得以汇聚及融合,形成中心知识库,通过预索引的方式,为用户提供快速,简单,易用的资源发现及获取服务,建立一站式数据资源服务平台 8。5.2

27、基于数据分析的学科知识服务图书馆作为知识服务平台,通过对汇集数据的加工整理,数据建模,提高数据的价值密度,探索以数据为基础的知识发现分析,通过基于数据的增值服务,面向用户、满足用户的学科知识需求,开展知识服务。如以学科为基础,将不同学科用户的检索浏览下载的信息行为数据进行分类;分析用户检索浏览下载的文献(全文、摘要、关键词)特征,加入时间纬度,归纳出某个学科某一时期的用户感兴趣的主题; 利用数据挖掘、数据检验、相关性分析、回归分析、聚类分析、社会网络分析等进行学科热点预测和交叉学科分析研究。构建基于图书馆流通日志的图书借阅数据仓库维度模型,构建基于 OPAC 日志点击流数据仓库,基于大数据的关

28、联关系分析, 发现及展示学者、合作者、期刊、会议、文章之间的知识网络;基于大数据的学科趋势分析,通过对大数据的的有序处理来提升图书馆服务的品质。5.3 基于数据应用的信息可视化服务大数据中包含大量重要信息,人们期待进行深层次分析,以便更好的从数据中发现知识。信息可视化作为一种关键服务理念与技术手段,在处理复杂异构的图书馆大数据方面有很大的优势,能为用户提供了一个方便易用的知识环境。如从检索过程、检索结果以及结果之间关系的角度实现主题可视化,到数据库分布可视化、时间分布可视化和作者合著关系可视化,也可将信息可视化技术与科学计量学方法等相结合, 生成具有各种属性的科学地图, 表达学科、领域、专业、

29、文献、著者之间的关系, 解释知识领域的结构、映射知识领域的发展趋势, 促进信息获取、使知识结构更加明显, 将数据集中看不见的抽象数据和数据之间的语义关系以一种可视化的方式呈现在用户场景中,让用户充分发掘信息资源中潜在的价值资源,帮助用户更好地组织、分析与利用信息。信息可视化作为将信息有效组织、分析、揭示的一种新技术,为大数据提供了一种新的服务模式。5.4 基于数据挖掘的智慧服务随着读者对知识需求的转变,知识服务正在朝个性化,智慧化的方向发展。个性化服务是基于读者对信息使用行为习惯及对信息的特定需求,是一种在分析预测用户个体信息8需求基础上向用户主动提供其可能需求但又无法获取的信息资源的服务方式

30、,是解决海量信息困惑问题的重要方法。智慧服务是知识服务的升华。智慧服务则是建在知识服务基础上的的创造性服务模式,是图书馆知识服务的核心。图书馆大数据存在大量的用户信息行为产生的数据;如用户查询书目产生的 OPAC 日志,用户借还书产生的流通日志数据,用户检索浏览下载电子资源产生的日志数据,用户访问产生的流量数据及各种社交网络等。这些数据中除了用于记录读者的个人信息外,还隐藏着许多重要的信息,因此可通过对这些数据进行挖掘分析,知识发现、智能代理等技术,描述用户的行为,准确定位读者需求,向读者提供主动式推送服务,满足其个性化的智能服务。6 结语数字信息的爆炸式增长催生出“大数据”概念,正席卷整个

31、IT 相关行业,大数据已经渐渐的渗入到了图书情报工作中,挑战与机遇同在。展望未来,大数据服务技术等热点将不断涌现,将对图书馆知识服务的拓展和深化带来重大影响,未来的工作将是“数据驱动”的图书情报工作。本文重点探讨了在大数据时代下图书馆的建设策略及基于大数据的一站式服务,学科知识及个性化智慧服务等服务模式。但是,我们也看到,图书馆的大数据技术及服务是一项复杂的系统工程,涉及到数据管理的水平,数据处理的技术及数据服务的创新等等,均需要我们图书馆员的共同努力。参考文献1 李国杰. 大数据研究的科学价值J.中国计算机学会通讯,2012(9):8-15.2 海量数据爆发大数据时代来临的五个转变EB/OL

32、.2012-08-01. http:/ Big data: The next frontier for innovation, competition,and productivity. EB/OL. 2011-05.http/ Big Data is a Big Deal. EB/OL. 2012-03-29. http/www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.5 高勇. 啤酒与尿布:神奇的购物篮分析M. 北京:清华大学出版社, 2008.6 MapR and Informatica Combine to Conquer Vo

33、lume,Variety and Velocity of Big DataEB/OL .2012-07-21.http:/ -Flashes/-MapR -and -Informatica -Join -Forces -to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.7 王 珊,王会举,覃雄派等. 架构大数据: 挑战、现状与展望 J.计算机学报,2011(10):1741-1752.8 马建玲, 祝忠明, 王楠,等. 美国高校图书馆参与研究数据管理服务研究 J.图书情报工作,2012(21):77-82.9 Geoffr

34、ey Little. MANAGING TECHNOLOGY Managing the Data DelugeJ. The Journal of Academic Librarianship,2012(5): 263264.10 王学勤, Amy Stout, Howard Silver. 建立数据驱动的 e-Science 图书馆服务: 机遇和挑战J.图书情报工作,2011(13):80-83.11 张晓林,李麟, 刘细文,等.开放获取学术信息资源:逼近“主流化”转折点J.图书情报工作,2012(9):42-47.9作者简介朱静薇,女,1962 年生,合肥工业大学图书馆馆员。 (联系电话:15077921690;邮箱:).李红艳,女,1969 年生,合肥工业大学图书馆副研究馆员,信息系统部主任。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报