收藏 分享(赏)

第二讲 计算机检索基础.pdf

上传人:HR专家 文档编号:11254512 上传时间:2020-03-04 格式:PDF 页数:44 大小:1.37MB
下载 相关 举报
第二讲 计算机检索基础.pdf_第1页
第1页 / 共44页
第二讲 计算机检索基础.pdf_第2页
第2页 / 共44页
第二讲 计算机检索基础.pdf_第3页
第3页 / 共44页
第二讲 计算机检索基础.pdf_第4页
第4页 / 共44页
第二讲 计算机检索基础.pdf_第5页
第5页 / 共44页
点击查看更多>>
资源描述

1、第二讲 计算机检索基础 2.1计算机信息检索概论 2.1.1计算机检索 计算机检索是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息的过程 。 2.1计算机 信息检索概论 计算机检索特点 ( 1)检索 速度 快、效率高 ( 2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库 中的记录 ( 3)数据更新快,可以及时获得最新信息。 ( 4)检索不受时空的限制,只要拥有相应的软件和硬件设备就可以查询 ( 5)检索辅助功能完善,使用方便灵活 ( 6)检索 结果可以直接输出 2.1计算机 信息检索概论 2.1.2计算机

2、检索的发展历史 国外计算机信息检索的发展概况 ( 1)脱机检索阶段: 20世纪 50 60年代 又称脱机批处理检索 ,用户提出的信 息需求是委托式的 ,交专业人员统一安排 , 必须等待成批或定期处理 。 ( 2)联机检索 阶段 : 20世纪 60年代中期到 70年代初。由于计算机分时技术的发展 ,通信技术的改进 ,以及计算机网络的初步形成和检索软件包的建立 ,用户可以 通过直接同检索的数据库进行会话式交流。 2.1计算机信息检索概论 该时期主要的国际联机检索系统有: MEDLARS系统:由美国国立医学图书馆研制与开发的当今世界上最有权威的医学文献数据库检索系统。拥有 30个数据库,收录了自 1

3、965年以来世界范围内发表的生物医学文献 1300多万篇。 DIALOG系统: DIALOG于 1972年正式开始提供商用联机服务,是世界上最大、历史最悠久的联机检索系统,已有 40多年的全球联机检索服务历史。数据库收录全,内容涉及科学技术、专利与商标、法律法规、社会科学、新闻与传媒、商业与金融、参考信息等各个领域,是一综合性的信息检索系统。 2.1计算机信息检索概论 ORBIT系统( Online Retrieval of BibliographicInformation Timeshared ),美国系统发展公司研究发展的世界第二大联机检索系统。 ESA/IRS系统 ( European

4、Space Agency-informationRetrieval Service )欧洲空间局情报检索系统 STN系统( The Scientific and Technical Information-Network International )国际科学技术情报网络系统 2.1计算机信息检索概论 ( 3)光盘检索阶段: 20世纪 70年代中期 80年代末发展起来,是一种用激光记录和读取信息的盘片,具有信息存储密度高、容量大、读取速度快、信息类型多、保存时间长、成本低等优点。 ( 4)网络检索阶段:进入 20世纪 90年代,互联网迅速发展,网络 检索即 通过计算机上网来检索所需 文献,随着

5、 网络的飞速发展,上网检索成为最简便最高效的检索方式,研究者可以坐在家里直接打开计算机共享各处文献资源。 2.1计算机信息检索概论 国内计算机 信息检索的发展概况 我国计算机信息检索的研究从 1974年开始由中国科技情报所和北京图书馆联合发起编制了 汉语主题词表 。 2.1计算机信息检索概论 2.1.3计算机检索系统的构成 由计算机硬件、检索软件、数据库、通信网络等组成。 ( 1)计算机硬件主要包括服务器、交换机、存储设备、检索终端、数据输出设备等。 ( 2)检索软件是检索系统的管理系统,功能是进行信息的存储、处理、检索以及整个系统的运行和管理。 ( 3)数据库是在计算机存储设备上按一定方式存

6、储的相互关联的数据集合,是检索系统的信息源,也是用户检索的对象。 ( 4)通信网络是信息传递的设施,起着远距离、高速度、无差错传递信息的作用。 2.1计算机信息检索概论 2.1计算机信息检索概论 数据库 数据库是存储在计算机存储设备,结构化的相关数据的集合。通俗地说,数据库就是由多张表 (文档 )构成的,文档包括主文档和 索引文档。 1. 文档 (通常指顺排文档 ) 由 该数据库所报道的所有文献顺序排列组成 ; 2. 记录 数据库 报道的每篇文献用一条记录描述 ; 3.字段 文献的各著录项目用 字段表示 , 一条记录由多个字段值组成 . 如 : 作者字段 ( Author);文摘字段 (Abs

7、tract)等; 2.1计算机信息检索概论 ( 1)主文档 如下(文献及其部分属性举例): ( 2)基本字段 (与内容有关 ) 2.1计算机信息检索概论 (3)辅助字段 2.1计算机信息检索概论 (与文献的外部特征有关) 2.1计算机信息检索 概论 数据库类型 : 按 存储数据的类型分 :书目型、全文型、数值型、事实型、词典 型 按 存储的介质分 : 光盘 数据库:数据存储在计算机的光盘或光盘塔上,因而存储 量 有限 ,更新速度 慢 网络 数据库:数据存储在服务器的硬盘上,存储量大,更新速度快 2.1计算机信息检索概论 2.1.4计算机检索的类型 按服务方式可以划分为: 1.定题信息检索 :是

8、把用户提问预先存储在计算机的存储器中,按照提问要求定期地检索存储在计算机中的最新文献信息,并把检索结果分发给用户的一种方法。 2.回溯性信息检索 :是根据用户提供某一段时间范围内的文献信息的检索方法。通常在着手课题鉴定和专利查新时使用该方法。 3.日常检索 :指用户在日常生活、学习、科研、教学和医疗工作中,遇到具体问题需要进行的文献检索和信息咨询。 2.1计算机信息检索概论 按检索方式可分为: 1.基本检索 简单检索、快速检索。检索的可选项少或者没有 ,输入查询词 ,就能快速得到结果。但检索的准确性差、精度低。 2.高级检索 高级检索功能包括字段检索,布尔逻辑检索等 ,实现 精确查找数据的 功

9、能。 3.专家检索 也作命令检索,利用检索语法输入检索式进行检索。 2.2计算机信息检索 技术 1.布尔逻辑 检索 2.位置逻辑 检索 3.截词 检索 4.F运算符的检索 5.L运算符的检索 6.S运算符的检索 7.禁用词 2.2计算机信息检索 技术 1.布尔 逻辑算符 : 限定检索词之间逻辑关系的算符 : 逻辑“与” : AND * 逻辑 “或” : OR + 逻辑 “非” : NOT - 逻辑“与” : A AND B或 A B 检索出记录中须同时含有所有检索词。 基本作用是缩小检索范围,提高检索结果的查准率。 如 SOLAR AND ENERGY,只有既含检索词SOLAR又含检索词 EN

10、ERGY的文献才能检出 2.2计算机信息检索 技术 逻辑“或”: A OR B或 A B 用于 组配具有同义或同族概念的词,如同义词、相关词等 。 基本 作用是扩大检索范围,防止漏检,提高检索结果的查全率 。 如: SOLAR OR SUN凡含有检索词 SOLAR和 SUN中任何一个或二个同时存在的文献均可检出,扩大了检索范围。 2.2计算机信息检索 技术 逻辑“非”: A NOT B或 A-B 用于 排除含有某些词的记录。 基本作用是缩小检索范围。 如: Energy Nuclear 除核能以外的有关能源方面的文献才被 命中。 2.2计算机信息检索 技术 布尔 逻辑的运算次序 : 逻辑“非”

11、 逻辑“与” 逻辑 “或” 若有括号则括号优先,这同算术中的四则运算相似。 布尔 逻辑运算可以进行合并 同类项 如: A*B+A*C=A*(B+C) 交换规则: A*B=B*A A+B=B+A A-BB-A 2.2计算机信息检索 技术 2.2计算机信息检索 技术 2.位置 算符 ( Proximate Operator) 指定 两个检索词出现的先后顺序和间隔 . 适用于 : 以 词组形式表达的概念; 彼此 相邻的两个或两个以上的词 ; 被 禁用词或特殊符号分隔的词 ; 2.2计算机信息检索 技术 ( W)与( nW)算符: ( W), 也可写作 (),两侧 的检索词必须按先后顺序出现在记录中,

12、在两词之间不允许插入其他 词,只能有一个空格或一个标点符号。 (nW)中的 n表示两侧的检索词中间允许插入的 词最多为 n个,且词序不变。 ( XW)两词之间可插入任意多个词,且词序不变。 如: building(W)construction 命中: building construction ; building-construction building(1W)construction 命中: building and construction ; building under construction ; building construction ; building-construc

13、tion building(2W)construction 还命中 : building design and construction ; building code and construction ; building in composite construction 2.2计算机信息检索 技术 ( N) 与 ( nN) 算符 N是 near的缩写, (N)表示其两侧的检索词位置可以倒置,在两词之间不能插词; (nN)中的 n表示允许插词的词 量最多 n个,且两词的顺序可以颠倒。 (XN)表示两词之间可插入任意多个词,且词序可变。 如: information (1N)retrieva

14、l 命中: information retrieval ; retrieval of information 2.2计算机信息检索 技术 3.截 词 ( truncation) 可看作是将某一部分相同的检索词用 “ 或 ” 算符连接后进行检索 。( 不同数据库有不同的截词 符 , 常用 的截词符有: *, #,?,!, $) 。 作用 :减少输入步骤 , 简化检索程序 , 扩大检索范围 , 提高 查全率 。 后截断 ,将截词符号放在一个字符串的右方,满足截词符左方所有字符的记录为命中记录,或者说是一种“前方一致”的检索。 如:输入“ comput?”可检索出 computer、 computers、 computing 前截断 , 将截词符号放在一个字符串 的左方 ,满足截词 符右方 所有字符的记录为命中记录,或者说是一种 “后方一致” 的检索。 如:输入“? computer”,可检索出 minicomputer、 microcomputer

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 网络科技 > 计算机应用/办公自动化

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报