收藏 分享(赏)

文献检索第二课.ppt

上传人:Facebook 文档编号:3817877 上传时间:2018-11-19 格式:PPT 页数:81 大小:1.09MB
下载 相关 举报
文献检索第二课.ppt_第1页
第1页 / 共81页
文献检索第二课.ppt_第2页
第2页 / 共81页
文献检索第二课.ppt_第3页
第3页 / 共81页
文献检索第二课.ppt_第4页
第4页 / 共81页
文献检索第二课.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

1、第二章 计算机检索基本原理,1.计算机检索定义,广义:就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程,即包括存储和检索两个方面。 狭义:简称机检,就是利用计算机查找文献的过程。,2.计算机检索发展四阶段:,(1)20世纪50年代,脱机批量处理检索阶段 (2)20世纪60年代末,传统联机检索阶段 (3) 20世纪70年代,光盘检索阶段 (4)20世纪90年代,网络化检索阶段,3.数据库,数据库是计算机存贮设备上按一定方式存贮的相互关联的数据集合。 它是计算机检索系统的信息源及检索对象。,4.数据库类型,(1)文

2、献书目数据库 (2)数值型数据库 (3)事实性数据库 (4)全文数据库 (5)图像数据库 (6)多媒体数据库,电子期刊数据库 电子图书数据库 检索数据库 学位论文数据库 专利标准数据库 会议论文数据库 学习考试平台 视频数据库 试用数据库,5、计算机检索原理,1.计算机检索的原理就是利用计算机将用户所提出的检索标识与检索系统中的标引标识进行比较,并将匹配的文献提出作为命中。 2.标引标识是在信息加工过程中产生的。标引就是将信息中的具有检索特征的词语或标志抽出并按照一定的规范制成索引的过程。 3.检索标识是检索者根据对课题的分析,制定出的既能反映课题的要求,又符合计算机检索要求的检索语言,其中包

3、括适当的检索词,以及合适的逻辑算符和位置算符。,6.信息检索基本技术,逻辑算符 位置算符 截词符 基本索引字段标识符 优先算符,布尔逻辑算符,定义:表达检索提问的各概念之间的逻辑关系。 逻辑算符有三种: AND (与)、OR(或)、NOT(非)。 三种算符可同时在一个检索式中使用,也可单独使用。 使用逻辑算符时应注意的事项: 逻辑算符的优先级为:NOT、AND、OR,可用括号来改变优先顺序。 在逻辑组配时,算符的两侧必须各留有一个空格。,布尔算符,A and B A * BA or B A + BA not B A - B运算次序:notand or,“逻辑与” “AND”,用于交叉概念或限定

4、关系的组配,可以缩小检索范围,提高查准率。可使用“*”或“and ” 来表示。 其检索表达式为:“A AND B”或“A * B”,即检索记录中必须同时包含A词与B词才算命中。 例如:“中国 * 对外贸易”。,“逻辑或” “OR”,用于并列概念的组配,可以扩大检索范围,提高查全率,可使用“+” 来表示。 其检索表达式为:“A or B”或“A + B”,即检索记录中含有A词或者B词中的任何一词即可。 例如:“计算机 + 电脑”“计算机 + 技术”,“逻辑非” “NOT”,用于从原来的检索范围中排除不需要的概念,或影响检索结果的概念。 可使用“-”来表示,其检索表达式为:“A NOT B”或“A

5、 - B”,即检索记录中包含A词但不含有B词。 例如:“能源 - 太阳能”,位置算符,文献记录中词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样。 位置算符是用来表达检索词与检索词之间的临近关系。 常用的位置算符有: W、N、S、F,(W):W是with的缩写,表示两个词必须必须紧密相连,除空格和标点符号外,不得插入其他词或字母,且词序不可颠倒,(W)算符也可用空括号()代替。 例: “communication (W) satellite” (nw):表示两个词之间最多可插入n个词,且词序不可颠倒。 例:检索式:“laster

6、 (1W) print ”检索结果:“laser printer”“ laser color printer”“ laser and printer”等,(N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。例:阅读(N)文献 (nN)表示两个词之间最多可插入n个词,词序任意。例:阅读(4N)文献,(S):S为subfield或sentence的缩写,表示两个词必须在记录中的同一个句子或同一个子字段中出现,且词序可变,中间插入词的数量不限。 子字段含义由数据库定义。例:计算机(S)技术(F):F为field的缩写,表示两个词必须在记录中的同一个字段中出现,且词序可变。,截词符,使用

7、环境:在实际检索中,常遇到词干相同、词义相近的检索词,或同一词的单、复数形式,动、名词形式,英美拼法等 。 定义:截词符又称通配符,不同的检索系统中使用的符号不同,如: “*”、“?”或“$”等等。通常用 “?”来表示。 将截词符放在检索词中检索者认为合适的地方截断,用截断的词的一个局部进行检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中文献,这样,检索者不必输入完整的检索词。,截词符,截词方式有多种。 按截断的位置分:后截断、前截断、中间截断。 按截断的字符数量分:有限截断和无限截断。,后截断,是将截词符号放在一个字符串的右方,满足截词符左方所有字符的记录都为命中记录。从性质上

8、讲,这是一种前方一致的检索。 前截断,是将截词符放在一个字符串的左方,表示其右的有限或无限个字符不影响该字符串的检索,或者说这是一种后方一致检索,对汉语中的复合词组的检索非常方便。 中间截断,前截断和后截断可以结合使用 ,中间一致 。,有限截词,是在检索词后截去有限的字母 。 输入stud? ,表示最多截三个字母,可检索出带有study, studies, studied和studing等的文献。 无限截词是在检索词根后加一个“?”,表示该词后带任意字母的词都需要。 如输入comput? 则可检出含有computers, computing, computered等的文献。,基本索引字段标识符

9、,字段 后缀代码Abstract文摘 /AB Descriptors叙词 /DE Title题目 /TI Author作者 /AU Print Year年代 /PY,检索式:AU=Gordon? AND PY=199?表示查找Gordon所写的、于1990年后发表的所有文献。,优先算符,优先算符用()表示,在含有多个运算的检索式中,可以用()将需要优先运算的部分括上,系统会优先运算()中的部分,然后在按照not, and, or的顺序进行运算。如: (计算机 or 电脑) and 病毒,禁用词,在数据库中,下列九个词不能作为检索词使用,这些词称为禁用词。禁用词有:AN、AND、BY、FOR、F

10、ROM、OF、TO、THE、WITH,常用检索功能,1 浏览(browse):利用检索系统提供的树型结构,从“树根”开始,逐层逐级打开,直到找到所需文献。(http:/) 2 索引(index):一些系统将其报道文献记录的一个或几个字段中具有实际检索意义的词,按字顺排成一个表单式的索引,供用户选择检索。 3 词表检索:是主题检索途径。一些检索系统把自己的词表编入检索系统。用户在确定检索用主题词的同时,可以直接进行检索。 4 简单检索和高级检索,从课题名中确定检索词,六大方法: 切分 删除 替换 聚类 补充 限定,从课题名中确定检索词,切分:将课题语句分割为一个一个词。例如“计算机情报检索方法”

11、可切分为:|计算机|情报|检索|方法|,从课题名中确定检索词,删除:从语句切分出来的词中删除那些 (1)不具有检索意义的虚词(包括介词、连词、助词、副词等)及其他非关键词; (2)过分宽泛和过分具体的不必要的限定词,过分宽泛难以触及问题实质,太狭义具体的限制词则会挂一漏万; (3)存在蕴涵关系的可合并词。例如:“基于Web的数据库”,经删除后,Web|数据库 稀土材料的研究现状及发展趋势稀土材料 稀土材料钕铁硼的研究钕铁硼,从课题名中确定检索词,替换:从课题语句中得来的词也许偏于模糊、宽泛、狭窄或不可行,不能取得所希望的结果,这时可以引入更明确、更具体、更本质、更可行的概念词来替换原词。 例如

12、:稀土材料的研制钐钴(用户实际上是研究钐钴材料)空气中细菌的计算方法空气污染的计算方法,从课题名中确定检索词,聚类:即把切分、删除、替换后所得出的单元词按语义概念进行同类合并,将那些可以相互等效、相互替换、相互补充的同(近)义词、相关词归成一组。 聚类的实质是进行组面分析,将语句和词转换成概念(组面)的集合。,从课题名中确定检索词,补充:包括:(1)补充来源词,即找出缩略词的来源词组,将两者一并作为检索词;(2)补充同义词和相关词(包括上位词、下位词和同位词等)。 模拟计算机可以表示为:模拟计算机+模拟系统*计算机 liradlirad + laser radar “毫米波”:“millime

13、ter wave”与“millimetre wave”,从课题名中确定检索词,限定:针对一词多义导致误检的问题,需采取限定措施,即增加”限定词“。具体方法有两种:一是逻辑与*二是逻辑非- 线路线路*(电子+无线电+) 线路线路-(道路+车辆+),7.计算机检索步骤,分析检索课题 选择检索系统及数据库 确定检索词,选择检索途径 构建检索策略,生成检索式 实施检索并调整检索策略 输出检索结果,7.1 分析检索课题,明确检索目的,通常检索目的可分为4种: 科研攻关型:是要解决研究或生产中的一些技术难题,如某一理论、立法、设备、过程等具体问题,这类检索要求查准率高,只要找到合适的文献即可。 课题普查型

14、:是要针对某一课题收集系统详尽的资料,这类检索要求查全率高,往往要检索若干年的文献。,7.1 分析检索课题,明确检索目的,研究探索型:是要密切跟踪、了解国内外某一方面的最新研究内容,掌握最新科研动态,这类检索要求信息的新颖、及时性强。 比如撰写论文,就要了解某一课题的历史、现状、发展、及别人的研究方法等一些详细信息。这就需要检索的全面,覆盖的时间长,检索的内容要丰富。,7.2 选择检索系统和数据库,在全面分析检索课题的基础上综合考虑后,选择检索系统和数据库。选择数据库时必须从以下几个方面考虑: (1)数据库收录的信息内容所涉及的学科范围; (2)数据库收录的文献类型、数量、时间范围以及更新周期

15、; (3)数据库所提供的检索途径、检索功能和服务方式。 (4)课题检索经费支持,7.3 确定检索词,选择检索途径,检索词是表达文献信息需求的基本元素,也是计算机检索系统中进行匹配的基本单元。 检索词选择正确与否,直接影响着检索结果。 在全面了解检索课题的相关问题后,提炼出有实质意义的主要概念与隐含概念,排除次要概念,以便确定检索词。,7.3 确定检索词,选择检索途径,选择检索途径是与确定检索词相对应的,确定了检索词也就意味着选择检索途径,反之亦然。 例如选择叙词作为检索词,也就决定了检索途径为主题检索途径 如需要查找某位科学家发表的文献,则检索词必须使这位科学家的姓名,相应也就确定了作者检索途

16、径 若已知某项专利技术的专利号,检索词就是专利号,通过符号途径就可检索专利信息。,7.4构建检索策略,生成检索式,构建检索策略就是制定检索式和检索顺序。 检索式是检索策略的具体表述,是计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符等组成。 既能表达主题内容,又能为计算机识别和执行的命令形式,检索式构建的是否合理,将直接影响查全率和查准率。,7.5实施检索并调整检索策略,检索策略制定完毕以后,即可上机检索了,检索时应及时分析检索结果的好坏。 判断检索结果好坏的依据就是检出文献的多少及其与课题相关程度的大小。如果对检索结果不满意,就需要对检索策略做出

17、相应的调整和修改,直至得到满意的结果。,(1)检索结果信息量过多 需要考虑适当紧缩检索式,缩小缩减范围,提高其准确性。调整检索策略的方法如下: 增加限定性检索词,采用逻辑“与”连接检索词 选用概念比较专指的检索词 使用字段限定,将检索词限定在某个或某些字段范围 调整位置算符,由松变严。,(2)检索结果信息量过少 考虑扩大检索范围,提高检索结果的查全率。调整检索策略的方法如下: 选用同义词与相关词,并用逻辑”或“将它们连接起来,增加网罗度; 减少逻辑”与“的运算,丢掉一些次要的或者太专制的概念; 去除某些字段限制; 调整位置算符,由严变松。,如何判断检索效果,判断检索效果的参数主要有: 查全率=

18、检中的相关信息量/数据库内的相关信息总量*100% 查准率=检中的相关信息量/检中的信息总量*100% 误检率=(1-查准率)*100% 漏查率=(1-查全率)*100%,7.6 输出检索结果,根据检索系统提供的检索结果输出格式,选择需要的纪录以及相应的字段(全部字段或部分字段),将结果显示在显示器屏幕上、存储到磁盘或直接打印输出,网络数据库检索系统还提供电子邮件发送至此,完成整个检索过程。,图书馆主页:http:/202.118.8.4/ ,条码、口令登录,常见问题,开馆时间 馆藏图书搜索 借阅证件办理 科技查新流程 论文收录引用 学位论文提交 文献传递项目 馆内无线上网,研究咨询,科技查新

19、咨询 课题文献咨询 学科文献咨询 文献检索教学 咨询台,服务指南,借阅服务 咨询服务 查新服务 联机检索 光盘检索 馆际互借,资料服务 多媒体服务 随书关盘 规章制度 图书馆与读者,电子资源,版权公告 电子期刊数据库 电子图书数据库 检索数据库 学位论文数据库 专利标准数据库,会议论文数据库 学习考试平台 视频数据库 试用数据库 冶金科学与技术文献数据库,例:查找有关“彩色电视”方面的文献 ?S (colour or color) (w) (television or TV) /ti, de 上式表示只在篇名和叙词字段中查找,缩小了查找范围。,1、检索计算机网络方面的中文文献 2、查找版权中涉

20、及图书馆方面的英文文献 3、要检索“计算机辅助设计”方面的英文文献 4、检索“上海地区的大学但不包括医学院” 5、检索“飞机”方面的文献,但不希望文献中出现“直升 飞机”的主题 6、检索“美日两国铜质量散热管专利的实证研究”的中文文献 7、Gordon 所写的于2000年后发表的所有文献 8、查找“微型机”和“个人计算机”方面的文章 要求:“微型机”出现在叙词字段、标题字段或文摘字段中,“个人计算机”一词出现在标题字段或文摘字段中 9、查找“计算机动画电影”方面的英文资料,例:检索计算机网络方面的文献,检索表达式为:“计算机 * 网络“网络 * 计算机” 两个检索表达式是等价的。 表示只要两个

21、检索词是同一文献中出现即可。 可以检索有关计算机网络文献的文献,也可以检索有关网络计算机方面的文献,例:查找版权中涉及图书馆方面的文献 检索表达式为:Library * copyrightLibrary and copyright,例:要检索“计算机辅助设计”方面的英文文献检索表达式应为: CAD(computer) OR computer aided design(注意缩写和全称),例: 检索上海地区的大学 但不包括医学院,检索表达式:上海 * 高等院校 - 医学院上海 and 高等院校 not 医学院,例:检索“飞机”方面的文献,但不希望文献中出现“直升飞机”的主题检索式: 飞机 not

22、直升飞机 飞机 - 直升飞机,例: 检索“美日两国铜质量散热管专利的实证研究”的文献其检索表达式应为:(专利 专利文献)(美国日本) 铜 散热管,例:查找“微型机”和“个人计算机”方面的文章 要求: “微型机”一词出现在叙词字段、标题字段或文摘字段中, “个人计算机”一词出现在标题字段或文摘字段中检索式应写为:microcomputer/de,ti,ab OR personal computer/ti,ab,例: Gordon 所写的于2000年后发表的所有文献检索表达式: AU=Gordon AND PY=200*,例:查找“计算机动画电影”方面的资料 计算机用“computer*”表示 动

23、画用“cartoon*”考虑到动画这一概念与自动控制和图片有关,因此加入“animat*”, ”graphic*”两个检索词 电影用“movie*”, ”film*”,有时还表示为“motion picture”,分析检索词之间的逻辑关系 动画:animat* or cartoon* or graphic* 电影:movie* or film* or motion (W)picture* or cinema* 检索提问共有三个主题概念:计算机,动画,电影。 用逻辑“与”联接,计算机动画电影检索表达式,computer* and (animat* or cartoon* or graphic*) and (movie* or film* or motion (w)picture* or cinema*),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报