收藏 分享(赏)

第二讲+网络信息检索基本方法.ppt

上传人:myw993772 文档编号:6372936 上传时间:2019-04-09 格式:PPT 页数:73 大小:1.94MB
下载 相关 举报
第二讲+网络信息检索基本方法.ppt_第1页
第1页 / 共73页
第二讲+网络信息检索基本方法.ppt_第2页
第2页 / 共73页
第二讲+网络信息检索基本方法.ppt_第3页
第3页 / 共73页
第二讲+网络信息检索基本方法.ppt_第4页
第4页 / 共73页
第二讲+网络信息检索基本方法.ppt_第5页
第5页 / 共73页
点击查看更多>>
资源描述

1、单击 此 处编辑 母版标题样 式LOGO单击 此 处编辑 母版副 标题样 式2010-9-13 * 1第二讲 网络信息检索基本方法【 目的与要求 】v 掌握布尔逻辑检索等网络信息检索的基本技术。v 熟悉网络信息检索的途径和步骤。【 重点 】v 布尔逻辑语言、邻近检索、截词检索【 难点 】v 邻近检索影响信息检索质量的因素v 信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐)v 检索软件对信息检索的影响(不同的搜索引擎,数据库系统)v 用户水平对信息检索的影响网络信息检索的基本技术网络信息检索的基本途径网络信息检索基本步骤网络信息检索基本方法MACTH计算机将检索提问词文献记录标引词信息检

2、索过程的实质:智能检索 基本技术邻近检索 字段限制检索布尔逻辑检索 截词检索 模糊检索词组检索 一、网络信息检索的基本技术1.布尔逻辑检索( boolean logic)v逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。v逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符( boolean logic operator),v它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索v标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。v主要运算符有 “和 (and,*)”、 “或 (or,+)”、 “非 (not,-)

3、”。v 运算优先级顺序为 NOT、 AND、 OR,可以用括号 “( ) ”改变它们的运算顺序。如 A and (B or C),检索顺序为先 B或 C,然后再与 A实例:v【 实例 】 在搜索引擎中输入 “ 电视台 -中央电视台” ,查询结果不包含 “ 中央电视台 ” 。逻辑算符举例 查找关于 “动物保护 ”的文献:v “动物 AND 保护 ” 查找有关冬虫夏草的文献:v “冬虫夏草 or 冬虫草 or 虫草 ” 查找关于能源方面的文章,但关于 “核能 ”的不要:v “energy not nuclear”(energy - nuclear) 检索西红柿种植技术的相关文章:v (西红柿 +番

4、茄 )*(种植 +栽培 +培育 )Exercise1:v查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standardvGoolge的默认运算符就是逻辑 “与 ”,用空格、“AND”和 “+”都表示,而逻辑 “非 ”只能用 “-”而不能用 “NOT”表示,逻辑 “或 ”用 “OR”表示。v百度的默认运算符是逻辑 “与 ”,空格均表示逻辑 “与 ”。v在 ISI Web of Knowledge平台上,逻辑算符“AND”、 “NOT”、 “OR”不区分大小写,但不支持以“*”、 “-”、 “+”代

5、替。v在 Science Direct中,逻辑 “非 ”是用 “AND NOT”表示,而不是我们常用的 “NOT”。2.词组检索( phrase search)v 通常在所检索词上加 “”对所检索词视为词组处理,表示检索与 “”内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为 “精确检索 ”( exact search)。v 例如: “动物保护 ”,表示动物保护是个词组,检索结果动物和保护不能分开。若不加 “”,检索结果可以是动物保护、动物多样性保护、动物栖息地保护、动物资源保护等形式。v Science Direct用双引号 “”表示宽松短语检索,标点符号、连字符、停用字等会

6、被自动忽略,如检索式为 “heart attack”会检出包含 “heart attack”和 “heart-attack”的检索结果。v 在该数据库中,精确检索是用 “”表示。v 邻近检索有时又被称为位置算符检索。v 因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。v 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。 下面以全球最大的联机检索系统 Dialog为例来说明位置算符的用法, OCLC也是如此。3. 邻近检索( proximity search)布尔逻辑运算符和词组检索虽然能有效的扩大和缩小检索范围,但

7、无法对检索词之间的相对位置进行限制 文献记录中词语的相对次序或位置不同,所表达的意思可能不同又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特定位置关系 同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。Eg: “粉末的掺合与颜料包装 ” (W)WITH 算符v 表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或者是逗号。【 实例 】 在 OCLC中输入 communication w satellite; wN (with N)算符v 表示两个检索词

8、之间插有 n个词,但顺序不能颠倒。v 表达式: A WN B AB两词靠近,次序为 A先 B后,中间最多可加 n个词。v 【 实例 】 在 EBSCO中输入 communication w3 satellite; N(Near)算符N( Near)表示两个检索词可以互换顺,二者之间只能间隔连字符、空格或者是逗号。v表达式: A N B : AB两词靠近,次序可变。【 实例 】 在 OCLC中输入 communication n satellite; nN ( Near N)算符v表示两个检索词之间可以插入 n 个词并且词序可以颠倒v表达式: A( nN) B: AB两词靠近,次序可变,中间最多

9、可加 n个词。【 实例 】 在 EBSCO中输入 communication n3 satellite;比较:在 EBSCO中输入 source and law、 source w2 law ( F) Field( F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。 (S)算符v(S)算符表示在此运算符两侧的检索词必须同时出现在文献记录的子字段或同一段话中,两个词次序不限,中间插入词的数量也不限。4.截词检索 (truncation/wildcat)v 截词检索又称部分一致检索,是指在检索标识

10、中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符用 “? ”或 “*”标识。v 截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不同形式等。后截断无限截断 同根词检索如: physic?截词检索与截词检索算符PhysicphysicsphysicstphysicalismPhysicphysicsphysicst如: physic*有限截断 单复数也称也称 “右截右截 ” 中截断 用于中美拼写不同和单复数 前截断 同根词检索如:如: m?n manmen如:如: *

11、computerminicomputercomputermicrocomputer“左截左截 ”v 特别提示: “*”、 “? ”的比较v “*”,无限截词,代表 0-无数个字符如 regard*, 代表 regard, regarding, regardless等。v “? ”,有限截词,代表 0-1个字符,如 library?, library,librarys。5.字段限制检索技术( field limiting)组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。一般来说,数据库的记录基本包括下列字段:v 题名( TI, title)、v 关键词( KW,keyword

12、)、v 主题词( DE, descriptor)、 v 文摘( AB, abstract)、v 全文( FT, Full text)、v 作者( AU, author)、v 作者机构( CS,Coporate Source)v 期刊名称 (JN, Journal)、v 出版国 (CO, Country)、v 出版年份 (PY, Publication Year)、v 语种 (LA, Language)v 字段限制检索就是通过限制字段和限制字段的范围来缩小检索结果,达到精确检索的方法。v 检索方式主要有:限定字段检索和限定范围检索( 1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方

13、式。 前缀方式,将检索词放在所限定的字段代码之后,如用在著者( AU)、刊名( JN)、出版年( PY)、语种( LA)等字段后,例如: AU=Evans,A., LA=Chinese 后缀方式,将检索词放在字段代码之前,之后用字段限定符号: in 或 /;如: Furniture/TI即家具一词出现在题目中。v ( 2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到优化检索的方法。v 不同的检索系统略有不同,常通过使用的有: “=、 =、 、: ” 等。v 表达式:字段名 =( =、 、)v 例如: PY=1995 即限定出版年份为 1995及以后的文献;PY=1996: 2005即 1996年至 2005年的文章思考:比较 3个检索式检索结果的不同v “Information retrieval”/TI v Information AND retrieval /TI v Information(F) retrieval v 不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 v 只要求在题名字段中,而不严格限制它们是短语,如 “information organization methods for effective retrieval” v 只需要在同一个字段中

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 网络科技 > 网络与通信

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报