收藏 分享(赏)

电子书资源查重系统.doc

上传人:weiwoduzun 文档编号:1837565 上传时间:2018-08-28 格式:DOC 页数:10 大小:407.50KB
下载 相关 举报
电子书资源查重系统.doc_第1页
第1页 / 共10页
电子书资源查重系统.doc_第2页
第2页 / 共10页
电子书资源查重系统.doc_第3页
第3页 / 共10页
电子书资源查重系统.doc_第4页
第4页 / 共10页
电子书资源查重系统.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、电子书资源查重系统余育仁 刘悦如 陈欣(同济大学图书馆 上海200092)摘 要电子书资源是馆藏资源建设中不可或缺的核心环节,而采访查重工作不仅可以防止和避免资源的重复订购,保证资源采购经费的合理使用,还能够提高资源质量。因此,采用科学合理查重算法可以帮助采访人员有效地剔除重复资源,减轻采访人员的工作。由于ISBN号的局限性,本文提出一种查重策略:规范化关键字段后按照多个字段查重。同济大学图书馆基于该策略开发了电子书资源查重系统,经过多年的使用证实其的可靠性,进一步提高了电子书资源的馆藏质量。关键词电子书资源; 采访; 查重策略; 方法中图分类号G250 EBook Resources Dup

2、lication-checking SystemYu Yu-ren, Liu Yue-ru, Chen Xin(Tongji University, Shanghai 200092)Abstract: eBook resources take an important role in the construction of library resources. Effective duplication-checking method can avoid duplicated resource order and save the purchasing fund. Therefore, the

3、 effective duplication- checking algorithm can help eliminate duplication of resources and reduce the workload of librarians. Due to the limitations of ISBN, the passage proposes a duplication-checking strategy: after the standardization of key fields, the system will duplication-check more fields.

4、Tongji University Library eBook resources duplication-checking system is based on the strategy and proved its reliability after being used for several years. The system improves the quality of library resources. Keywords: eBook resources; purchase; duplication-checking strategy; method查重对于图书馆的采访、验收和

5、编目等工作流程来说是必不可少的一个重要环节 1。特别是在电子资源的购买过程中,查重占据重要地位,在很大程度上影响资源购买的数量。因此查重算法是否科学,效果是否明显,对节约资源购买经费以及资源的质量十分重要。1 电子书资源查重的研究背景网络时代,电子书已成为人们阅读生活中不可或缺的部分,图书馆拥有大量优质的电子书资源,但是目前在电子书的采访工作中存在着一些问题,即资源重复的判定。因此,采用行之有效的查重策略成为图书馆进一步提高电子书的馆藏质量亟待解决的问题。电子书资源采访查重就是对决定要购买的电子图书进行核查重复记录 2。那么如何定义重复记录呢? 以纸质书籍为例,目前高校多以 ISBN为标准,在

6、汇文系统查重时以 ISBN为检索字段。从理论而言,ISBN 作为国际标准书号,能使不同出版者的每一种图书在世界范围内具有唯一性 3,因此在图书馆的采购查重中被作为重要的查重标准而被广泛采用。但是在实际采访中,ISBN 仍然存在一些问题 4:如丛书系列公用一个 ISBN号;80 年以前出版的图书没有ISBN号;电子书商不提供 ISBN字段或者提供信息有著录错误。因此在对电子资源进行查重时需要对多个字段进行查重。目前电子书资源供应商提供了相应的书目数据,但并不能够保证其数据质量,这些数据往往存在诸多问题,如 ISBN不准确、分类不准确、信息不完整等5。同时不同的电子书资源供应商在处理特殊符号格式、

7、特殊字段时采用不同的方法,因而在查重前需要对关键字段进行规范化。本文就电子资源查重提出了一些查重策略,并按照该策略制作了电子书资源查重系统,供采访人员使用,取得了一定的成效。2 系统的运行流程和设计框架如图 2.1所示,电子书资源查重系统可以化为四个板块。 。供 应 商 书 目图 书 馆 已 购资 源 书 目标 准 化 处 理 模 块下 载 系 统 推荐 书 目 清 单查 重 模 块领 导 审 核上 传 人 工筛 选 结 果人 工 筛 选数 据 录 入确 认 购 买( 1 ) 上 传 文 件( 2 ) 书 目 查 重( 3 ) 人 工 调 整( 4 ) 确 认 购 买提供下载剔 除 非 高 校

8、类 书 目图 2.1 系统流程和设计框架(1)上传文件电子书资源供应商上传的待查重书目清单必须包含有题名、作者、出版社、出版日期四个字段,其他字段作为可选字段予以保留。由于供应商一次提供的书目在 510 万册,因此系统采用 ACCESS数据库,即供应商用户可以上传 MDB格式的书目清单。(2)书目查重书目查重是系统最重要的部分,分为三个步骤。首先通过字段标准化处理模块,统一规范化必要字段。由于电子书资源供应商运营对象广泛,提供的书目清单中可能含有初高中图书馆适合的书目,因而在查重前可以提前剔除这批非高校类的书目。最后进入查重模块,系统删除自重复以及与已购书目重复的资源;形成推荐购买的书目清单。

9、(3)人工调整书目查重后,系统剔除了无需购买的书目数据,同时提供采访人员推荐购买的书目明细。采访人员在此基础上进行人工筛选,根据馆内实际需求再做挑选。选择完毕后,将结果再次上传到系统。(4)确认购买针对人工筛选的结果,由馆内领导最后审核。确认购买电子书资源购后,将已经购买的电子书目信息导入图书馆已购资源书目的表中,作为下一批书目的比对数据。3 系统难点书目查重详述书目查重部分是系统开发中的难点部分,过程描述如下:(1)标准化书目字段:由于不同的供应商在著录书目数据时有不同的著录方式,著录数据时也会有误差发生,所以在查重之前,标准化书目字段是十分有必要的。(2)剔除非高校类书籍:将不适用于高校读

10、者的书目提前删除,不参与查重。(3)书目自查重:同批次书目中相同的书目剔除,减少查重工作量。(4)与已买书目比对:标准化后的书目按照查重原则进行比对,可以有效地排除已经购买的书目。3.1 规范化字段根据笔者的经验,标准化字段时需要着重考虑书名、作者、出版社、出版年这 4个字段。为了妥善规范化字段,笔者根据电子书目中常见的几种问题提供了解决方案。根据实际情况考证,方案是行之有效的。3.1.1 繁体字化为简体字早期出版的书目中,书名是采用繁体字的,有些供应商著录时按照原文仍然著录繁体字,而有些供应商著录时则改为繁体字。如图 3.1 所示, 春秋一书的书名包含有繁简字两种。因此在查重之前将繁体字都化

11、为简体字,可以有效查出因著录繁简字而被电脑判定为不重复的书。图 3.1 繁体字书本示例3.1.2 阿拉伯数字统一为汉字数字对于包含多册的书目而言,有些供应商著录时用汉字表示,有些则采用阿拉伯数字。如图 3.2所示, 静静的顿河有多部,供应商 A在著录时分别按照“第一部”和“第 1部”重复著录了两次。如果根据书名字段查重,程序将判定为两本不同的书,导致重复购买。因此在查重之前,需要将数字规范化。本系统将数字统一为汉字形式。图 3.2 同一书名数字的不同形式示例3.1.3 英文字母统一为大写半角供应商著录时还会因为英文字母大小写、全半角的因素而产生书目重复。以图 3.3为例, AutoCAD 辅助

12、园林制图一书书名的英文部分,第一次著录则全部大写,第二次著录时按照“AutoCAD”常见的输入方式,大小写都有。所以,查重前将英文著录方式的差异解决,可以使查重的结果更加精确。图 3.3 同一书名的英文大小写差异示例3.1.4 删除标点符号在著录时,由于误操作可能会著录多余或者错误的标点符号,如:“” ?、等等。有时标点符号会因为著录时输入法不同而导致字段不同。以图 3.4为例,供应商 B的书花季的梦:英汉对照为例,第一次在英文输入法下著录“:” ,第二次在中文输入法下著录“:” ,因而书名不一致。所以,查重前可以将标点符号都删除,仅仅比对汉字的差异,减少因标点符号带来的误差。图 3.4 同一

13、书名的标点符号差异示例3.1.5 作者字段规范化在著录作者字段时,有些供应商会将责任方式同时著录到作者字段,有些供应商会著录作者的国籍信息。这些信息都有可能导致同一本书的作者字段不同。以图 3.5为例,由徐杰主编的经济法教程 ,供应商 A第一次著录时将责任方式“主编”著录到作者字段,第二次著录时则按照规范的编目格式,作者字段没有著录多余的信息。在机器查重时,需要将作者字段规范化,删除责任方式以及作者的限定词,这样才能提高查重的精确度。图 3.5 同一书名的作者著录方式差异示例3.1.6 出版日期规范化不同的供应商著录方式不同。如图 3.6所示,供应商 A(第一行)著录时仅仅著录了出版年份,而供

14、应商 B(第二行)著录时输入了详细的信息,精确到年月日。在将出版时期作为查重比对因素之一时,因著录格式不同而判定为不同的书是不可取的。根据下文提到的查重策略,在“同一年中,同一出版社出版同一作者相同书名的作品”的概率很低。因而在供应商 A不能再提供更加详细的出版时间的情况下,可以统一出版日期字段为四位数的出版年份。图 3.6 同一书名的出版年差异示例3.2剔除非高校类书籍在资金有限的情况下,不适合高校类的书籍就无须购买,在查重前剔除这类非高校读者使用的书籍可以提高查重的效率。如书名包含有“高一” 、 “幼儿”等词汇的书,显然是不适合高校读者的,提前剔除可以减轻查重的工作量。3.3 自查重供应商

15、提供的同批次书目中会有自重复的情况发生,即相同的一本书重复著录了多次。笔者认为,根据“书名、作者、出版社、出版日期一致即为同一本书”原则,可以有效地查重自重复的书目。图 3.7 自重复示例以图 3.7为例, 人都是要死的一书由译林出版社于 1997年出版,作者是法国的西门娜德波伏瓦。供应商 B在著录作者字段时著录了限定词国籍,第一次著录国籍“法国” ,第二次仅著录“法” 。通过规范化处理以后,作者字段规范为西门娜德波伏瓦。此时,按照“书名、作者、出版社、出版日期一致”的原则,可以判断这是同一本书。3.4 查重有些供应商著录时会将书名的丛书名一同著录导致书名判断不一致。以图3.8为例,供应商 A

16、著录领导公共关系 ,而供应商 B将丛书名一同著录现代素质教育丛书:领导公共关系 。供应商 A著录的书名是包含在供应商 B著录的书名之中的。因此制定查重策略时,要考虑到丛书名是否著录,即书名之间是否有包含关系。图 3.8 查重示例在对多批电子书目查重的过程中,笔者发现,按照原则“书名包含,作者一致,出版社一致,出版日期一致”进行比对查重,可以有效地判断电子书是否已经购买。也就是说,在同一年份同一出版社为同一作者只会出版相同书名的书籍一本(套) ,即使有例外也在小概率范围内,可以忽略不计。仍以图 3.8为例,简述查重的流程。供应商 A与供应商 B提供的电子书目,每一个字段都是不同的,并且没有提供有

17、效的 ISBN号。如果单纯按照某一字段进行比对,这两本书会被判定为不重复。因此系统首先对书目字段进行规范化处理。作者字段删除责任方式,规范为“徐湘江” ;出版社字段删除多余的空格和“/” ,规范为“吉林文史出版社吉林音像出版社” ;出版年份规范为“2006” 。比对是,供应商 A的书名字段“领导公共关系”包含在供应商 B的书名字段“现代素质教育丛书领导公共关系” (规范化后的) ,两者的作者一致、出版社一致、出版年份一致,因而判断这是同一本书,即我馆已经购买了供应商 A的领导公共关系 ,没有必要再购买供应商 B的现代素质教育丛书:领导公共关系 。4 关键技术的实现以及系统效果鉴于查重的数据量等

18、因素,系统采用了 Visual Studio 2008与 SQL Server2005相结合的常规模式。4.1 查重表的结构设计在后台设计方面,设计了多张表用于查重以及用户信息记录。表 codetable用于繁简字转换,如表 4.1所示,对应于本文 3.1.1内容。GB字段与 Big字段一一对应,表中存有常用 4000个的简繁体字对照表。字段名 含义Gb 简体字Big 繁体字表 4.1 繁简字转换表表 special用于不规则字符规范化,如表 4.2所示,对应于本文3.1.23.1.5 的内容。 。函数将 Special字段的不规则字符转换成 Format字段的对应标准化格式;将作者名中包含有

19、 authorname字段的字符删除,使规范化作者字段。字段名 含义id 编号Special 不规则字符Format 规范化字符authorname 作者字段包含的特殊字符表 4.2 不规则字符规范表表 delWords用于剔除不适合高校读者的书籍,如表 4.3所示,对应于本文3.2内容。字段名 含义id 编号BookName 书名PublisherName 出版社名表 4.3 包含特殊词汇的书籍表 userInfo用于记录了用户的信息,如表 4.4所示。登陆用户凭借此表信息登陆,不同用户拥有不同权限(Rank) 。字段名 数据类型 含义Name varchar(50) 用户名Password

20、 varchar(50) 用户密码Rank int 用户权限PassWordUpdateTimevarchar(50) 更改密码的时间表 4.4 userInfo4.2 查重代码探讨利用表 4.1、4.2,按照本文 3.1思路规范化待查重书目清单;根据表 4.3按照本文 3.2思路剔除非高校读者书目;即完成了查重的工作。自查重的主要代码如下:update tablename set repeated=1 where id in(select id from tablename a where id not in(select max(id) from tablename bwhere a.Bo

21、okNameNew=b.BookNameNewand a.AuthorNameNew=b.AuthorNameNewand a.PublisherNameNew=b.PublisherNameNewand a.PublishDateNew=b.PublishDateNew )在书目清单表 tablename 中,当书名(BookName ) 、作者(AuthorName )、出版社(PublisherName)、出版日期(PublishDate)一致的情况下,视为自重复。保留重复书籍中 id 号最大的,其余自重复字段(repeated)赋值“1” ,意为自重复书本。与其他书比对查重的主要代码如

22、下:update tablename set booksellerA=1 where tablename.id in(select tablename.id from tablename, booksellerA where tablename.AuthorNameNew= booksellerA.AuthorNameNew AND tablename.PublishDateNew= booksellerA.PublishDateNew AND tablename.PublisherNameNew= booksellerA.PublisherNameNewAND (CHARINDEX(tabl

23、ename.BookNameNew, booksellerA.BookNameNew)0) or (CHARINDEX(booksellerA.BookNameNew, tablename.BookNameNew)0)将书目清单表 tablename 中的书与已经购买的书目 booksellerA对比,当作者(AuthorName )、出版社 (PublisherName)、出版日期(PublishDate)一致,书名(BookName)相互包含的情况下,视为重复,字段 booksellerA)赋值“1” ,意为与已购资源 booksellerA 重复。其中,CHARINDEX 函数用于判定书

24、名是否相互包含。(CHARINDEX(tablename.BookNameNew, booksellerA.BookNameNew)0)表示书目清单表 tablename 的书名包含在已购资源 booksellerA 的书名中。CHARINDEX(booksellerA.BookNameNew, tablename.BookNameNew)0表示已购资源 booksellerA 的书名包含在书目清单表 tablename 的书名中。两者符合一条就认定书名相互包含。4.3 系统使用效果本馆按照本文第三章所述的查重策略,进行了电子资源购买前的查重工作,取得了一定的成效。笔者从查重书目中随机抽取了3

25、个批次书目(来自不同供应商不同时间段的数据),如图4.1所示。分析机器查重后建议购买量等数据,可以看出该套算法的可行性。76 2473 1172050,000100,000150,000200,000250,000300,000350,000400,000供 应 商 A 供 应 商 B 供 应 商 C原 始 数 据 量建 议 购 买 量实 际 购 买 量自 重 复 量图 4. 使用效果数据分析定义冗余数据比重公式为:冗余数据量=(1- ) 100% (4.1)原 始 数 据 量建 议 购 买 量 通过本文查重算法,可以有效地排除60%70%(按照公式4.1计算)的冗余数据,大大地缩减了采访人员

26、的筛选范围。采访人员在建议购买的书目清单上进行人工挑选,既提高了工作效率又提高了购买质量。自重复数据量占供应商提供的原始数据量比重不大,但可以作为供应商资源质量的评判指标之一。5 结语本文针对目前电子资源编目不详、ISBN收录不全的现象提出一种新的查重策略,通过SQL语句对书目字段进行规范、自查重和查重,筛选出可以购买的电子资源。为方便不熟悉SQL语句的图书馆采访人员,利用Visual Studio 2008将SQL语句写入系统,采访人员只需要上传待查重书目和下载机器查重的书目结果。本文提出的查重算法可能存在一些纰漏,需要不断完善和丰富,但在一定程度上减轻了采访人员的查重工作,减少了重复购买的情况。在图书馆采购资金有限的情况下,该算法提高了资源购买的质量。参考文献1李金庆,卓晓云. 论采访查重的延伸与完善. 图书馆界2010年(6),132易奇为.电子图书采购批查重研究.2009(6),1193 http:/ 圈书情报工作,2006(9),1215陈颖.电子书的采编配合模式探讨。图书馆建设,2012(5),8作者简介余育仁,同济大学图书馆数字化部主任。 刘悦如,同济大学图书馆数字化部馆员。陈欣, 同济大学图书馆副馆长。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报