1、图书馆数据统计和分析的优化解决方案研究 徐璟 陈嘉懿 上海交通大学图书馆 摘 要: 准确完善的数据统计工作可以促进图书馆对各项工作进行科学规范的管理及全面细致地总结, 在大数据时代, 图书馆服务过程中产生的众多数据, 通过分析和凝练可以为提升图书馆服务质量提供更多的依据。如何对这些数据进行聚类、采集、分析和呈现, 是一个系统而复杂的工程。本文以上海交通大学图书馆为例, 提出一个优化的解决方案, 即建设图书馆数据统计平台。关键词: 数据统计; 分析; 系统平台; 整合; 优化; 作者简介:徐璟 女, 上海交通大学图书馆, 馆员。发表论文 10 余篇。E-mail: 上海 200240作者简介:陈
2、嘉懿 上海交通大学图书馆系统部, 馆员。研究方向:图书情报技术、数字图书馆、图书馆 RFID 应用。上海 200240收稿日期:2013-12-20Optimization Solution of the Library Statistics and AnalysisXu Jing Chen Jiayi Shanghai Jiao Tong University Library; Abstract: Accurate statistics can promote scientifi c management and comprehensive review of library work. I
3、n the age of big data, data generated during library service can help improve the library service quality after smart analysis. How to collect, analyse and then present these data is a systematic and complex project. In this paper, taking the library of Shanghai Jiao Tong University as an example, t
4、he paper proposes a solution of optimization, namely, the construction of library statistics platform.Keyword: Library statistics; Analysis; Statistics platform; Integration; Optimize; Received: 2013-12-200 引言图书馆数据统计和分析工作可以促进图书馆对各项工作进行科学规范的管理, 这些统计数据为定量研究图书馆整体发展、特征、规模、结构及水平等指标提供重要的依据。例如, 教育部高等学校图书情报
5、工作指导委员会每年都要开展“教育部高校图书馆事实数据库”的上报工作, 其中各项数据将为中国图书馆事业发展报告 (蓝皮书) 、中国图书馆年鉴及年度高校图书馆发展报告1提供主要内容。美国图书馆协会 (American LibraryAssociation, ALA) 每年都对外公布图书馆状况统计数据2。通过调研我们发现介绍国内外图书馆开展数据统计工作的资料非常少, 已有的文章也大都从理论角度围绕如何建立服务统计指标体系 3-4、阐述数据统计工作的重要性等方面展开。目前, 教育部全国高校图书馆事实数据库系统于2005 年采用“统计云服务方式”在全国高校范围内实施, 能检索并统计高校图书馆的建设、管理
6、与服务情况, 为各高校图书馆提供本统计与评估服务5。清华大学图书馆于 2005 年开展了基于 iReport 报表服务器的业务统计工作系统, 但该经验仅适用于统计工作的初级阶段, 即数据积累阶段6;也有文章对 J2EE的平台整合 AJAX 技术开发图书馆统计平台系统7进行了技术层面的介绍, 但并未提及系统具体的成效和实践效果。可以说, 数据统计工作不仅仅是简单的数据累加过程, 而是体现图书馆整体发展水平及能力的重要依据。准确完善的数据统计工作可以促进图书馆对各项工作进行科学规范的管理及全面细致地总结, 从中发现优势与不足, 进而实现各项工作的不断提升和飞跃。如何做好图书馆的数据统计和分析工作,
7、 从而为评价和分析图书馆服务提供更多帮助, 从而有效提升图书馆服务质量, 是我们值得思考的问题。1 数据统计和分析面临的困难准确全面及有效地做好数据统计工作的难题主要表现在:(1) 数据统计指标体系不完整。由于每个图书馆都有个性的需求, 同时许多新开展的创新服务难以用客观准确的标准加以定量化统计, 例如, 学科服务的内容在初期是不断拓展和变化的, 所以传统的图书馆服务指标体系已不能满足现有需求, 数据统计指标难以确定和完善。(2) 数据分散导致数据采集难度增大。图书馆服务过程中的数据分散在不同的业务流程平台及服务过程中, 造成有些数据无法整合, 有些数据无法获取, 或者无法准确获取;例如, 人
8、力资源信息和信息素养教育的信息分别分散在不同系统, 读者报名与反馈信息又在第三个系统中, 导致数据无法归拢。或者各个系统在设计之初并未考虑数据的统一途径, 造成了例如馆员个人信息在各个系统中都存在的现象 (用于系统登录等) , 而数据又不完全一致, 带来很大困扰。(3) 数据统计指标不一导致数据统计口径不一致。在面对不同指标体系的各种统计报表时, 往往是花费了很多时间却未必得到最终的准确数据, 例如, 针对资源数据的上报, 不同类型的资源按“种”、“册”、“份”、“篇”等不同单位均有统计, 是否去重标准不一。这样无形增加了人力、物力成本, 而且重复发送也容易造成输入误差, 也可能出现口径不一致
9、、数据误差等现象, 这些对于定量的数据统计工作来说是不应该出现的现象。(4) 大数据环境下数据分析难度加大。相较于图书馆所拥有的不断增长的数据量而言, 图书馆能够分析的数据比例在不断降低, 如何充分把握大数据所带来的技术优势与数据分析方法, 有效提高图书馆能够分析的数据比例, 加强知识服务的智能辅助决策能力。2 数据统计和分析的优化解决方案搭建集成融汇的图书馆数据统计平台针对数据统计和分析工作所面临的难题, 我们要求做到:不管数据统计的需求来自多少不同的部门, 相同的数据栏目所体现的数据是一致的, 不能出现数据口径不一致的现象;针对不同类型的核心业务统计工作, 已利用一些工具实现了部分零散数据
10、的统计, 要尽可能利用各种系统工具, 最终建立起一个系统真实、可靠、唯一的数据视图, 为统计部门和各级决策者以及图书馆各项服务提供唯一真实可靠的数据视角。集成融汇行为即把集成融汇应用系统包含的功能操作划分为一个个服务组件对象, 对每个组件对象的基本属性信息、调用接口、输入与输出参数等进行描述, 同时定义多个功能组件的调用次序、组合逻辑, 实现复杂集成融汇工作流的定义8。对于汇总各类分散数据及不同类型的数据统计工作是一个极好的方式, 所以, 为了克服数据统计和分析工作中的难题, 搭建集成融汇的图书馆数据统计平台是一个很好的优化解决方案。2.1 平台建设的整体流程整体上说, 建设图书馆数据统计平台
11、是一个系统而复杂的过程 (见后页图 1) , 要将其作为数据统计的优化解决方案, 就必须针对数据统计的需求进行缜密地分析, 同时要做好数据统计工作的统筹和分工, 有效地实现涉及数据统计部门间的联动。在实施过程应该遵循几项原则: (1) 顶层设计:根据需求分析对平台的设计准确定位, 确定整体框架; (2) 效率优先:不要指望系统平台是万能的, 可以以部分功能实现为起点不断完善和修改系统功能; (3) 集中整合功能:图书馆数据统计涉及的业务面广, 统计平台要具备一定的兼容性, 将原有分散的若干系统整合在一起; (4) 允许手工录入:尽管数据统计的理想状态是系统生成, 但总有部分数据的统计是只能手工
12、录入的, 不能让手工录入的功能成为制约数据统计平台建设的元素, 允许部分数据的手工录入, 也是有效提升工作效率的方式。根据平台建设的整体流程, 我们可以看出, 前期的需求分析及内容整理环节是非常重要的准备工作, 它可以为确定数据统计指标体系奠定良好的基础, 同时对后期平台功能的实现有着重要的影响。图 1 数据统计平台搭建流程 下载原图2.2 平台建设的集成融汇经过数据统计的需求分析后, 如何将原本分散的内容进行梳理、合并和关联, 整理各个项目在数据平台上的数据产生方式就是接下来的重要环节了。基本的数据统计内容 (见图 2) 涵盖了图书馆所有业务服务、人力资源、经费管理及硬件设备等事实数据, 如
13、流通数据、进馆人数、馆舍情况、人员情况、馆藏数据、经费支出、设备数据、服务数据等。各个图书馆还可根据自身需求, 将其他数据纳入统计平台中, 如来访接待、科研管理、外出交流、获得荣誉等。总之, 数据统计平台的内容设计既有统一的事实数据, 又有个性的需求, 做好内容的汇总和整合将使数据统计平台成为图书馆各项统计工作的重要工具。2.3 系统功能实现数据的自动抽取和汇总基于集成融汇的图书馆数据统计平台的功能设计是平台搭建的核心内容。要加快数据资源整合和功能优化, 深化数据共享和数据处理应用, 构建数据管理平台。根据上述的数据统计需求分析及内容整理, 实现数据统计工作效率的最大化。图 2 图书馆数据统计
14、内容 下载原图搭建集成融汇的数据统计平台, 需要从图书馆各个不同的应用平台进行数据的抽取工作, 例如人力资源信息、馆舍信息、馆藏信息等单独建库, 其他所有系统都要做修改从该系统提取数据, 避免数据不一致的情况, 然后再加以处理。目前有多种方式可实现数据的自动抽取, 第一种是通过建立 ODBC 接口直接利用SQL 查询语句从对应系统的数据库中实时获取感兴趣的数据, 包括 My SQL、SQL Server、Oracle 等大型数据库的数据;第二种是创建定时作业机制, 在指定的时间里触发作业, 将对应远程数据库的数据同步更新至本地数据库;第三种是直接使用框架等嵌入方式将应用平台嵌入到统计系统的界面
15、中来。三种方式各有优缺点, 第一种方式在程序上实现起来最简单直接, 而且数据始终保持同步, 缺点是一旦该应用平台的数据库连接或数据库本身发生问题, 则会影响统计系统数据的抓取;第二种方式优点是保证统计系统内的数据不会因为个别应用系统的数据库发生问题而受到牵连, 容错性较强, 缺点是数据同步性不够, 数据的同步更新有一定的时间间隔, 而且数据传输需要消耗时间与服务器资源;第三种方式则是直接利用原有应用平台的统计功能, 优点是无需重新开发定制, 节约人力, 缺点是无法根据统计平台的需求做界面或者统计项的定制修改。我们应该根据各个不同业务平台的特点来选择合适的数据抓取方式。如果需抓取的数据量较大,
16、那么可使用方式一, 节约时间与资源成本;如果数据量不大且对数据同步时间间隔不敏感, 那么可使用方式二;假如本身的统计功能或界面已经比较完善, 那么可以使用第三种方式。3 案例分析上海交通大学图书馆为例上海交通大学图书馆针对数据统计和分析进行统筹安排, 从数据需求到数据收集到数据整理和数据关联, 确保每个环节的链接, 使得数据统计工作成为一套完整的数据链, 并达到数据输出一致的效果。3.1 分工明确针对数据统计工作, 图书馆组织了由行政办公室和系统发展部牵头的项目工作组, 行政办公室统筹数据的汇总及统一发布工作, 系统发展部提供所有的技术支持工作, 每个业务部门都要负责相关数据的统计工作。这样,
17、 使得数据统计工作得到全馆所有部门的重视和参与 (见图 3) 。3.2 需求分析上海交通大学图书馆每年需要统计的数据主要包括:教育部高校图工委数据统计12 大类 175 项, 校规划处图书数据统计 31 项, 校资产处图书数据统计, 校财务处经费数据统计, 图书馆综合数据统计 6 大类 118 项。这些数据将用在不同方面的资料中, 如上海交通大学本科教学质量评估报告、上海交通大学年鉴、上海交通大学年度统计资料汇编、图书馆主页发布、图书馆简介及信息素养教育等相关 PPT、图书馆年度报告和新生指南等。总之, 数据统计平台的需求是多方面的。 (见表 1) 3.3 统计指标体系构建上海交通大学图书馆在
18、整合所有数据统计需求的项目后, 根据不同部门和数据的需求, 确定了图书馆数据统计的各项指标9, 既满足统一的数据提交标准, 又满足本馆的数据统计需求。同时, 根据集成融汇数据统计平台的特点, 明确了各项指标的数据产生方式 (见表 2) , 即哪些是从已有系统中调用, 哪些通过手工录入方式实现。其实即使是手工录入的方式, 也减少了各方数据汇总的麻烦, 提高了工作效率, 从近两年的实现效果上看, 还是非常有效的。上海交通大学图书馆数据统计平台首页, 目前它主要包括馆藏资源统计、流通活动统计、学科服务统计、科研及培训统计、系统应用统计、工作统计 (行政事务及工会工作等) 以及基础信息统计等七大模块。
19、这些数据分别来源于已有的系统和手工录入。3.4 功能设计上海交通大学图书馆的数据统计平台, 技术实现上的特点主要包括:智能身份认证、海量数据的智能抽取、多平台数据的融合汇总和多维度的揭示方式。3.4.1 采用智能身份认证系统配置为上海交通大学 Jaccount 统一认证方式登录, 在数据库后台还具备精确到各模块的个人权限表, 通过权限表可识别馆员的部门、权限和学科分类等, 只有经过授权才能访问对应的模块, 同时在学科统计、总表等模块中可智能地判断馆员所属的学科及部门等, 为馆员推送相应的页面, 例如在学科工作录入中自动为馆员选择所属的部门与学科点。分管领导也可以随时登录系统随时了解各项业务的情
20、况。图 3 上海交通大学图书馆数据统计工作组及职责 下载原图表 1 上海交通大学图书馆数据统计需求 下载原表 表 2 上海交通大学图书馆数据统计平台指标体系 下载原表 3.4.2 实现数据自动抽取通过不同的方式, 实现对不同数据的自动抽取功能, 快速完成数据在后台的处理工作。有效提高工作效率。例如, 数据统计平台中整合了图书馆门禁系统, 通过数据统计平台不仅可以独立查阅每个图书馆的访问人数, 在最终的年访问人数报表中, 将自动抽取年度数据, 无需手工操作;信息素养教育的人数统计, 通过整合信息素养教育的录入和反馈平台, 年度统计报表中的数据与可实现实时汇总和查阅, 非常方便。3.4.3 实现数
21、据的关联和融合在图书馆的统计总表中包含了手工录入数据与大量抽取而来数据的汇总工作。不同部门的馆员只能查看或录入本部门的数据。数据抽取由系统自动完成并显示在页面上, 各个不同平台的数据可经由总表统一的检索方式来进行筛选并集成融汇在同一个表单中, 并且系统能根据公式自动完成一些数据统计项的计算工作, 将所有需求的数据融合在一起。例如, 在图书馆需要上报的教育部高校图工委数据统计和校规划处、资产处、财务处等单位的图书数据统计, 及图书馆自行设计和发布的综合数据统计中, 关于资源、服务等方面的很多数据都是一致的, 所以, 这些一致的数据都统一与来源数据进行关联, 这样可以确保数据的口径一致。图 4 统
22、计系统总表中的馆舍信息 下载原图以图 4 所示的馆舍信息数据统计为例, 统计总表中的馆舍信息数据, 事实上是来自于系统中另一个单独的馆舍情况模块, 各种数据来源统一, 但又相互关联与融合, 总表中的大部分信息不需要再进行手工录入, 而是抽取与融汇自不同来源的系统数据。3.4.4 多维度的揭示方式除了传统网页表单的揭示方式外, 还有图形化的数据统计界面, 可根据不同的检索条件显示对应的数据图形, 对比强烈, 还可以将数据导出成 excel 表格, 便于数据的进一步优化处理。直接嵌入原有平台的统计界面的方式, 与统计系统无缝链接, 能提供更丰富的视觉体验, 如图 5 所示。3.5 实践成效3.5.
23、1 有效提高图书馆管理水平的科学化程度通过构建集成融汇的数据统计平台, 建立并完善数据统计指标体系, 使数据统计工作从根本上得到全馆各层面的足够重视, 形成顺畅的工作流程和有效的工作方法, 产生真实有效的数据;图书馆数据统计平台便于日常工作的统计和记录, 减少手工统计和汇总的易出现的差错的缺点, 实现系统后台的数据绑定, 有效提高数据统计工作效率;同时, 统计内容兼顾共性需求和图书馆自身特点, 方便可靠。总之, 图书馆数据统计和分析是图书馆内部管理的重要组成部分之一, 要树立重要数据统计的意识, 重视数据统计工作。数据统计工作的规范化意味着图书馆管理水平的科学化发展。图 5 统计系统中的图表揭
24、示方式 下载原图3.5.2 实时获取相关数据进行及时统计和分析, 及时发现工作中的问题通过数据的自动抽取和关联, 馆领导和业务馆员可以实时获取各项数据, 包括读者进馆统计、藏书统计、流通日志统计等各项基础数据, 随时了解服务的变化和发展情况, 同时, 还可以通过各项数据的同时期和年度的比对, 为日常工作的开展提供决策支持。可以通过分析资源 (包括软硬件资源、网络资源、信息资源、服务资源及知识资源等) 的状况来预测可能的故障, 或对于资源突然的波动可以帮助图书馆制定应对策略。10例如, 一站式发现系统“思源探索”检索平台的使用统计, 在数据统计平台中, 我们可以看到高峰使用时段和不同功能的使用情
25、况, 甚至可以查看到每小时段的使用数据情况。我们就可以根据数据来判断用户的使用习惯, 从而调整服务功能或定期突出宣传读者不太了解的功能。3.5.3 有效督促日常工作开展, 提升服务质量通过定期统计工作量使馆员对所负责服务的开展情况心中有数, 例如学科馆员必须按月上报学科服务的相关数据, 这些数据包括:咨询服务、信息素养教育、科技查新、学科博客、LibGuides、课题服务和资源推荐等所有日常服务项目, 通过月报和统计汇总的情况, 各个学科团队可以进行比较和监督, 同时也可以平衡各项服务的开展, 不因个人喜好和习惯而忽略一些服务项目。分管领导也可以随时掌握不同学科点的工作, 进行有效的定量绩效评
26、估, 对好的工作经验进行及时的分享和交流, 提升学科服务团队的整体水平。对于最基础的借阅工作, 统计平台中可以提供精确到小时的借还书数量, 这些数据可以为服务窗口合理安排人员提供有效的依据, 也有效督促日常工作的开展并提升了服务的质量。4 结语目前该数据统计平台还将根据工作的实际需要和变化, 及时增加新的统计内容, 不断完善统计指标体系。传统的统计平台只能分析存储结构化的数据, 对于非结构化的数据束手无策, 在建设平台时我们也要考虑非结构化数据的特点, 预留用于存储图片、音视频、文本等各种形式数据的空间, 为将来关联数据、非结构化数据的统计分析打好基础。同时制定科学化与规范化的统计制度, 完善
27、数据统计工作的流程, 尽可能推广到其他兄弟单位, 实现该统计系统的实用价值。此外, 我们还将进一步提高统计分析功能, 研究数据分析方法, 充分利用基础数据挖掘规律, 提高数据统计工作的水平。参考文献1教育部高等学校图书情报工作指导委员会主页EB/OL.2013-03-15.http:/ 2American Library Association, ALA.Library StatisticsEB/OL.2013-08-10.http:/www.ala.org/research/librarystats. 3穆祥望.关于高校图书馆业务统计工作的思考J.图书情报工作, 2006 (7) :142-
28、144, 147. 4李海英, 李柏洲.图书馆服务统计指标体系建立初探J.现代情报, 2006 (10) :16-22. 5陈放, 王晓平.图书馆统计云服务的技术与应用J.大学图书馆学报, 2010 (3) :116-120, 115. 6王平, 庄玫, 赵熊.清华大学图书馆业务统计工作模式的创新与实践J.大学图书馆学报, 2009 (4) :24-28. 7吕弘, 黄伟纳.基于 AJAX 技术的图书馆统计平台的设计J.中国科技信息, 2012 (1) :75-76. 8李春旺, 费大羽, 周强.集成融汇工作流引擎研究J.现代图书情报技术, 2012 (12) :27-31. 9上海交通大学图书馆统计平台EB/OL.2013-03-15.http:/ 10樊伟红, 李晨晖, 张兴旺, 等.图书馆需要怎样的“大数据”J.图书馆杂志, 2012 (11) :63-68, 77.