收藏 分享(赏)

基于数据特征的OPAC 简单检索及检索建议[J].doc

上传人:weiwoduzun 文档编号:1887916 上传时间:2018-08-28 格式:DOC 页数:6 大小:37.50KB
下载 相关 举报
基于数据特征的OPAC 简单检索及检索建议[J].doc_第1页
第1页 / 共6页
基于数据特征的OPAC 简单检索及检索建议[J].doc_第2页
第2页 / 共6页
基于数据特征的OPAC 简单检索及检索建议[J].doc_第3页
第3页 / 共6页
基于数据特征的OPAC 简单检索及检索建议[J].doc_第4页
第4页 / 共6页
基于数据特征的OPAC 简单检索及检索建议[J].doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、基于数据特征的 OPAC 简单检索及检索建议黎邦群(惠州学院图书馆,广东 惠州,516007)摘要 为了完善与丰富 OPAC 的检索功能,充分揭示用户对馆藏资源的利用和需求,提升用户的检索体验,需要对用户输入的检索词及馆藏书目数据库字段的数据特征进行收集、利用、挖掘和整理,对数据中隐含的关联规则进行知识分析。在对这些数据特征进行分析的基础上弱化检索规则,只提供一个简单的输入框,输入检索词回车即可实现检索,并在检索过程中根据数据特征进行判断和处理,在检索失败或检索结果不完美时给出相关搜索、在结果中找、中文分词等检索提示与建议,并浅述了其实现原理与方法。关键词 OPAC; 数据特征; 简单检索;

2、检索建议分类号 G250.7OPAC simple search and search suggestions based on the data featuresLI Bangqun( Huizhou University, Huizhou 516007,China)Abstract In order to improve and enrich OPAC search functions, the full-disclosure users on the collections in the use of resources and demand, improve the user expe

3、rience, need to retrieve user input search words and collection bibliography database columns of data collection, use, characteristics of data mining and finishing, implied in intellectual analysis of association rules. In these data features on the basis of the analysis of weakening search rules, p

4、rovide only a simple box, input search words can be realized search, And judgment and handling according to Data features in search process, give the relevant search, find the results, chinese word segmentation, for search prompt and Suggestions when in search failure or search results not perfect,

5、and shallow Assyria principle and method of its realization.Keywords OPAC; data features; simple search; search suggestions1 引言联机公共检索目录(Online PublicAccess Catalogue, OPAC)是图书馆用户查询与浏览馆藏资源最重要的平台与窗口。OPAC 系统是图书馆提供各种资源和服务的最主要的渠道, OPAC 所提供的服务与功能已经成为全面衡量一个图书馆服务水平的重要指标。 1 它的设计直接影响到图书馆的服务质量与资源绩效。然而,OPAC 的使用

6、现状却不尽如人意。在Google、Yahoo、baidu 等网络搜索引擎的影响下, 90%以上的大学生首选搜索引擎查询网络资源。 2这不能不日益引起图书馆界的重视与研究,其中不乏将 OPAC 与搜索引擎进行比较、探讨 OPAC 革新的文献。用户越来越感到 OPAC 不好使用,OPAC 革新势在必行。用户对图书馆 OPAC 的期待已不仅仅是检索馆藏书目记录,他们希望 OPAC 能发挥如搜索引擎那样方便快捷的检索功能。 3用户需求决定了 OPAC 必须借鉴搜索引擎的优点。搜索引擎的优点首先体现在其易用性,用户不需要专门的培训与学习即可使用。本文试图从分析数据特征入手,设计无须复杂策略的 OPAC

7、简单检索,以求抛砖引玉,供各同业指正。2 数据特征分析2.1 用户输入的检索词数据特征分析据统计,用户进行检索时使用的检索点主要集中在题名(86.21 %) 、作者( 60.92 %) 、关键词( 54.02 %) 和出版社( 18.39 %)。 4除了以上检索项,一般的 OPAC 系统还设置了针对诸如 ISBN、登录号、排架号等字段的检索项。从实际使用情况来看,用户很少使用题名、作者、关键词、出版社之外的其他检索项。这告诉我们,OPAC 的设计应尽量考虑重点检索以上字段。其次,用户输入的检索词往往比较简短。 “最小努力法则”支配着检索用户的选择行为, 即用户通常都选择最省力的方式和行为实现其

8、检索目标。如检索时多采用简短的检索词, 不采用复杂的句法手段和检索策略。 5用户的检索行为与习惯在搜索引擎化,这将直接导致其需求也在搜索引擎化的过程之中。另外,用户输入的检索词数据之间,存在在隐藏的知识关联。如用户在进行二次检索时使用的检索词与前一次检索输入的检索词之间,就可能存在着某种知识关联。对读者行为数据的收集、利用和挖掘, 对数据中隐含的关联规则的知识分析,非常有助于 OPAC 简单检索的设计。2.2 馆藏书目数据库字段数据特征分析实现 OPAC 简单检索,必须仔细分析书目数据库的数据特征。只有分析书目数据库的数据结构,找出其特征,才能实现简单检索。各个不同的图书馆,其集成管理系统不同

9、,所使用的底层数据库也存在着差异。尽管其表字段名称、数据类型可能不同,但其数据结构特征则大同小异。下面以 SULCMIS 的 Sybase 数据库相关书目表为例说明。经分析得知,其可作为检索项的字段的数据结构与特征分析见表 1。表 1 馆藏书目数据库字段数据特征字段名 所属表 数据类型 含义 特征分析CtrlNo B_BriefB_CallNo int 图书 Id 索引外键F01x B_Brief char(20) ISBN 字符数为“13”或“17”以“978-7-”或“7-”打头F200 B_Brief varchar(255) 题名和责任者 含题名、责任者 2 个检索项F210c B_B

10、rief varchar(80) 出版社 以“ 出版社 ”3 个字符结尾CallNo B_CallNo varchar(255) 索书号索引以英文字符打头,数字结尾且中间含字符“/“通过对比用户输入的检索词与馆藏书目数据库字段数据特征,我们可以轻松准确地判断用户的检索意图,实现 OPAC 简单检索,提高检索效率。例如,用户明明输入了 17 位的以“978-7-” 打头的,包含了 4 个“- ”的字符,那就让 OPAC 仅精确匹配检索 ISBN 字段即可,根本不需要设计下拉菜单供用户选择检索项。3 OPAC 简单检索3.1 设计简单的检索入口现存的 OPAC 一般都提供了多项专业的检索点,其中僵

11、硬、复杂、术语化的检索入口,是导致 OPAC 使用频率低的重要原因。要吸引用户,OPAC 的检索入口需要简单化、人性化。人性化检索最基本的实践就是检索界面的简单化。 6简单的检索入口,是 OPAC 借鉴搜索引擎的开始。OPAC 简单检索的检索框见图 1。图 1 OPAC 检索入口馆藏书目 检索正如搜索引擎的检索界面那样,只提供一个简单的输入框,通过数据特征分析,即可完成对书目库表全字段的高效检索。通过简化检索界面,设计出友好、简单明了、易用易学的检索界面,让用户检索起来更轻松,能激发读者的检索兴趣。3.2 弱化检索规则从用户更倾向于利用搜索引擎检索信息的事实来看,图书馆必须借鉴搜索引擎的优点,

12、创建一个属于图书馆自己的学术搜索引擎,弱化 OPAC 系统的检索规则。 7数据特征分析结果表明,我们无须给用户制定复杂的检索规则,迫使用户学习难记的检索语法。一个有趣的事实是,用户其实是非常容易满足的,他们通常更满足于搜索引擎的简单搜索规则。而不是关注于检索结果是否精确。 8据此,我们应该弱化 OPAC 的专业性,让其检索规则更具通用性。用户在搜索引擎与 OPAC 之间进行转换检索不再具有障碍。从用户“最小努力法则”的检索行为来看,这样的 OPAC 无疑对其有着不小的诱惑。3.3 找到最佳的匹配结果读者通过 OPAC 进行馆藏资源查询时,检索效果却常常不尽人意,不是检索出大量无关结果,让人难以

13、选择;就是返还结果为零,让人十分沮丧和失望。 9通过分析用户输入的检索词数据特征,我们可以准确判断用户的检索意图,针对性地查询相关字段,避免出现驴唇不对马嘴的检索结果,从而找到最佳的匹配结果。假如用户输入的检索词为“q” ,其 OPAC 的 SQL“逻辑与” (以搜索引擎中通用的空格来分割检索词)查询语句如下:For n=0 to Int(Ubound(Split(q,“ “)w=Trim(Replace(Split(q,“ “)(n),“ “,“)If w0 And w64 And Asc(w)0 Or Isnumeric(Mid(w,2,1) Or Isnumeric(Mid(w,3,1)

14、 Or Isnumeric(Right(w,1) ThenSql=Sql ?| ”等特殊字符替换成空字符即可达到将其过滤的目的。基于词典的“中文分词”技术,是将检索词进行分词后再进行匹配查询,其实现原理则要复杂得多。通过前面的检索词数据特征分析,我们得知用户输入的检索词往往比较简短。在验证检索词长度的前提下,我们可以使用一种较为简单高效的分词方法来替换基于词典的中文分词技术。其原理是将检索词的每个中文字符均看成是一个被截分的词。其分词的 SQL 语句如下:For i=1 to Len(q)Sql=Sql &“ F200 Like %“& Mid(q,i,1) &“%“Next可以根据书目数据的

15、特征及用户的检索习惯,自行设定被截分的词的长度。通过这种方法来增强模糊搜索功能可以增加书目的检全率。“拼写检查”功能需要首先建立一个拼写检查库, 其中包含了各种词语的常见错误拼写形式,经过查询该库,若匹配到拼写错误的词语,OPAC 就从拼写检查库中读取正确的词语提示给读者。 “拼写检查”功能已在百度等搜索引擎中广泛应用,并取得良好的效果。“拼音搜索”功能的实现原理与“拼写检查”功能类似,如判断检索词可能为汉语拼音,即通过检索拼音数据库查询出对应的中文字符。如检索词为“hongloumeng” ,即自动查询“红楼梦”相关书目,并给出其“拼音搜索”的提示。“相关搜索”的原理为通过分析用户每一次和前

16、一次输入关键词的检索行为,来判断二者的内在联系是否为相关关键词,假如用户第 1 次检索没找到满意结果,再进行第2 次、第 3 次第 n 次检索,那么每第 n-1 次的检索词,都可以看成是其后面的每第 n次的相关词。再加上其他用户的检索行为,就会有一个相关关键词量的累积结果。这样通过不断地搜集、整理和挖掘用户的检索词,即可构建相关关键词数据库,即可在此基础上通过一定的算法对比检索词,呈现给用户最热门的相关词,从而实现“相关搜索”功能,对用户的检索行为给出相关的检索词建议,供用户选择。除了以上处理策略,OPAC 一般还应该设置“高级检索”建议, “检索帮助”提示等辅助提示。限于篇幅,不再详述。这些

17、检索提示与建议在检索失败时,不致使用户手足无措,无疑提升了用户体验。4.2 检索结果不完美即有检索结果,但是结果太多或太少,用户对结果不满意。在实际检索当中, 用户只要检索结果不满意, 就需要调整检索策略, 以扩大检索结果或缩小检索结果。 10其中扩大检索结果可以由相关搜索及中文分词等功能来实现;而缩小检索结果则可以使用“在结果中找”功能进行纠正。在检索结果页面提供一个“在结果中找”的链接,用户通过此链接,在搜索框里填写新的词语,就可以在这些结果内进行搜索。在一般的 OPAC 检索结果页面上,还应该增加“排序提示” 、 “作者提示” 、 “分类号提示”等信息。例如提供按出版时间、浏览次数、流通

18、频率等依据进行相关性排序。如果检索词为责任者名称,则应给出作者生平简介信息及其所著图书的结果页面链接。例如检索词为“贾平凹”时,应给出如下信息:贾平凹(1952) ,陕西丹凤人,西安市文联专职作家。从事文学编辑兼写作。著有商州初录 、 废都 、 高老庄等。该功能的实现,有赖于作者生平信息库的构建。构建该库有个简便的方法,通过收集本馆书目详表中的 304 字段值即责任者说明即可,这样构建的作者生平信息库,十分适合本馆 OPAC 使用。如果检索词具有分类号或索书号特征,还应通过检索分类法表,给出对应的分类提示与对应的结果页面链接等信息。如检索词为“i267 ”时提示:“i267“”相关分类:文学

19、- 中国文学 - 散文 - 当代作品(1949 年)这样即可实现“分类号提示”功能。检索结果不完美,从本质上来说,仍然属于检索失败的范畴,应该给予足够的重视,设计出相应的策略,并在实践中不断修正完善。5 结语OPAC 作为图书馆最重要的资源门户,功能却残缺不全。挽留图书馆网站用户,从革新 OPAC 开始。 “以用户为中心”的服务宗旨要求我们,不能强迫用户适应 OPAC 的检索规则,而应该主动去迎合用户的检索需求与使用习惯。OPAC 作为图书馆和读者交流的窗口和提供服务的平台,其封闭性已经落后于技术的发展和读者的需求,改进势在必行。 11无论是 OPAC 简单检索的设计,还是其检索建议功能的设置

20、,均以分析用户输入的检索词和馆藏书目数据库字段的数据特征为基础。而用户输入的检索词及馆藏书目数据库字段的特征数据充分揭示读者对馆藏资源的利用和需求,蕴藏了丰富而有用的知识,隐含了一定的关联规则。通过对它们进行知识分析,进行数据的收集、利用、挖掘和整理工作,对改进 OPAC 具有积极的意义。参考文献1 乔欢,刘漫, 陈志新. OPAC 历史沿革及其发展J. 国家图书馆学刊. 2006(04):5-9.2 余春. 国内图书馆新型 OPAC 的实践与思考J. 图书馆学研究. 2010(08):59-62.3 雒虹. 基于 OPAC 的图书馆书目情报主动服务研究J. 图书与情报. 2010(06):8

21、6-88.4 黄进. 浅析 OPAC 系统功能发展趋势J. 图书馆. 2010(4):95-96.5 卢婷. 网络信息检索行为中的“最小努力法则”J. 中华医学图书情报杂志. 2010(11):53-58.6 王灵. Web2.0 时代 OPAC 的实践与思考J. 情报资料工作 . 2009(01):44-47.7 姚晓锋. 搜索引擎与 OPAC 系统检索功能的比较研究 J. 嘉兴学院学报. 2010(06):112-116.8 MARK T KEANEAre people biased in their US of search eIlgines.j.Communications of the ACM,2008(2):49-529 董莉. 提高图书馆 OPAC 检索效率的策略J. 现代情报. 2009(08):166-168.10 杨瑜. 用户检索结果选择行为的调查与分析J. 情报杂志 . 2009(04):52-55.11 李灿. 从豆瓣网看 Web2.0 时代 OPAC 的改进J. 图书馆学研究 . 2010(15):53-55.作者简介黎邦群,惠州学院图书馆联系地址:广东省惠州市演达大道 46 号惠州学院图书馆 邮编:516007联系电话:0752-2527284 13680781867电子邮箱:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报