1、信息检索技术,Lidar Observations of the Meteoric Deposition of Mesospheric Metals Author(s): Timothy J. Kane and Chester S. Gardner Source: Science, New Series, Vol. 259, No. 5099 (Feb. 26, 1993), pp. 1297-1300,信息检索技术,布尔逻辑检索 字段限制检索 短语检索 括号检索,布尔逻辑检索,布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法。 主要的布尔逻辑关系词有:逻辑
2、与(AND)、逻辑或(OR)、逻辑非(NOT),逻辑与,“and”或“*”表示组配方式:A*B或者A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。,逻辑或,用“or”、“+”表示组配方式:A OR B或者AB,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。,逻辑非,用“not”、“-”表示 组配方式:AB,表示检索出含有A词而不含有B 词的文章。 作用:逻辑非用于排除不希望出现的检索词,它和“*”的作用相
3、似,能够缩小命中文献范围,增强检索的准确性。,例如检索:“打印机驱动程序” 查询关键词:打印机、驱动程序 检索表达式:打印机 AND 驱动程序例如检索:“微型计算机”方面的有关信息 查询关键词:微型计算机、微机 检索表达式:微型计算机OR 微机,布尔逻辑检索举例,布尔逻辑运算符优先级,布尔运算符优先级比较 有括号时:括号内的先执行; 无括号时:NOT AND OR 例:检索“唐宋诗歌”的有关信息。 关键词:唐、宋、诗歌; 检索表达式: (唐 OR 宋)AND 诗歌; 唐 AND 诗歌 OR 宋 AND 诗歌; 错误表达式: 唐 OR 宋AND诗歌; 唐 AND 宋AND诗歌; 唐 OR 宋OR
4、诗歌; 唐AND 宋OR诗歌;,布尔逻辑算符具体使用,在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not” 有的用“*、+、-”。 一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。 一些网络检索工具如搜索引擎甚至用“、,、-”(即空格、逗号、减号)来表示。,短语检索,短语检索(phrase search)即精确检索 用“”表示,检索出与“”内形式完全相同的的短语。例如:在Google中直接输入 中国国家图书馆 检索,可命中 类似 中国科学院国家科学图书馆 的结果,而输入 “中国国家图书馆 ”,得到的结果是与 中国国家图书馆 完全匹配的结果。,短语
5、检索,多用于机构、人名、专有名词的检索 可提高检索的精确度和准确度,字段限制检索,字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。,数据库中的常用字段,篇(题)名(Title Field, /TI) 文摘(Abstract Field, /AB) 著者(作者、责任者)(Author,AU) 关键词(Identified Field, /ID; Keyword Field , /KW ;Uncontrolled term Field) 主题词(Destriptor Field, /DE; 或 Controlled term Field-SU),数据库中的常用字段,
6、机构(单位)(corporate source,CS 或Affiliation source,AF) 刊名(来源)journal,JN或Source Title,ST) 出版年(时间)(publication,year,PY) 文献类型(ducument type,DT或Type,TY) 语种(language,LA) 分类号(classification,CC) 不同的数据库其字段代码可能不同,括号检索,用于改变运算的先后次序,括号内的内容做优先运算。 用“( )”可以表示优先级。如比较 (GPS OR GIS)AND China GPS OR GIS AND China,实际检索中,往往将
7、多种检索技术混合使用。如: TI(Web OR WWW) AND market* TS=(nanotub* SAME carbon) NOT AU=Smalley RE,以汽车导航系统为研究课题,构建计算机逻辑检索式,题名词:汽车 导航系统 研究 题名扩展词:机动车; 全球定位技术(GPS);设计 调查 计算机逻辑检索式: (汽车机动车)(导航系统全球定位技术 GPS)(研究设计调查),思考题,请举出三种以上常用中(外)文数据库的检索字段 说说题名字段、关键词字段和主题词字段的区别。 请列举出数据库检索中常用的几种算符 请为检索课题“多媒体技术在远程教育中的研究 ”制定编写检索式 。,检索效果
8、的评价指标,收录范围 响应时间 用户负担 输出形式 查全率 查准率,查全率(Recall ratio),查全率:检索出的相关信息资源与信息资源系统中的相关信息资源总量之比。检索出的相关信息资源量R= 100%信息资源系统中相关信息资源量,影响查全率的因素,检索系统收录文献不全 词表结构不完整 标引不详,前后不一致 检索策略过于简单或过于复杂 不能准备描述检索要求 选词和逻辑不当 检索技术不熟练,查准率(Precision ratio),查准率:检索出的相关信息资源量与检出的信息资源的总量之比。检索出的相关信息资源量R= 100%检索出的信息资源总量,影响查准的因素,检索系统不具备逻辑“非”功能
9、 索引词不能准确描述信息主题和检索要求 组配规则不严密或错误 检索式专指度不高 检索面宽于检索要求 检索式中允许容纳的词数量有限,示例:有关“企业知识产权研究”,检索式 检索结果 (*表示AND,+表示OR,限定篇名字段) (2004-2006) 1 企业知识产权 191篇(准确度最高漏检大) 2 企业*知识产权 404 (漏检率较高 ) 3 (企业+集团+公司)* 知识产权 466 (适合综述性文献) 4 (企业+集团+公司)* (知识产权+专利权 520 (查全率查准率较高) +商标权+著作权+名称权) 5 (企业+集团+公司)* (知识产权+专利权 137 (缩小范围效果最佳) +商标权
10、+著作权+名称权)* 保护,检索结果表明:检索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的选择等变化,对检索结果数量的多少、检索的查全和查准有很大影响,检索结果过少,漏掉了相关文献? 放宽检索要求,提高检全率 去掉某个方面的检索要求; 放宽检索范围:学科领域、时间、文章类型,关键词出现的字段等; 将描述检索主题的词想全,包括同义词及缩写形式;如:MRI OR magnetic resonance imaging 使用单数单词检索,可以检索到大多数单词单数、复数和所有格,不规则单词除外;如:city 可以检索出 city,cities,citys,cities 使用通配符;,检索结果
11、过多,很多文献不相关? 进一步限定检索,提高检准率 更加准确地描述检索需求; 严格限定检索范围:学科领域、时间、文章类型,关键词出现的字段等; 选择与检索主题密切相关的词和专业术语,如:kidney disease OR renal failure,避免使用过于宽泛的词汇,如:influence; 使用词组检索或位置检索; 在检索结果的基础上进行二次检索;,课题分析举例,了解有关室内装修污染方面的研究,关键词:室内、装修、污染 同义词或近义词:室内(住宅、居室、房屋)污染(放射性、化学、氡气、甲醛、苯等) 室内*装修*污染 (室内+住宅+居室+房屋)*装修*(污染+放射性、化学、氡气、甲醛、苯),课题:网络书店的物流模式,关键词:网络书店 物流 模式 同义词、扩展词:网上书店 虚拟书店配送 送货 方式检索式: 网络书店*物流*模式 (网络书店+网上书店)*(物流+送货)*(模式+方式),思考题,制定以下检索课题的检索策略 旅游企业的网络营销策略研究 计算机辅助教学软件的制作 农民工社会保障问题研究,思考题,什么是查全率、查准率?在检索策略的实施过程中,如何扩大和缩小检索范围,提高查全率和查准率。 网络信息如何评价?,