1、第三章 计算机检索,科技文献检索,第三章 计算机检索,第一节 计算机检索简介 第二节 计算机检索原理和系统构成第三节 计算机检索的途径和方法第四节 联机检索系统第五节 应用图书馆网站检索,计算机检索,本章集中讨论计算机检索技术及其实现,检索的策略和检索步骤。综合介绍计算机检索的各种类型及其检索的一般方法,并配合以具体样例。,一、计算机检索 二、计算机检索的发展历程,第一节 计算机检索简介,一、计算机检索 1、定义: 计算机检索(computer retrieval):简称机检,是利用计算机和一定的通信设备查找所需信息的检索过程。,2、类型:,根据系统的工作方式可分为: 脱机检索、联机检索、光盘
2、检索和网络化信息检索 根据信息的服务方式可分为: 定题检索和回溯检索,3、优点:,速度快,效率高(CA、BA等尚在印刷中就已输入数据库了); 检索途径多(除了主题、著者、分类外,还有出版年、著者单位、文献类型、特征词等); 用户界面友好,使用方便(可对任意个检索词进行逻辑组配,并且进行自动扩检); 资源更新快(网上资源可以每日更新); 直接输出检索结果(打印或拷贝); 信息内容的广泛、访问快速且搜索具有网络性。,4、缺点:,检索费用较高;缺乏思维能力和灵活性;文献回溯检索能力不强;网上检索,线路紧张时速度慢。,二、计算机检索的发展历程,1. 脱机检索阶段2. 联机检索阶段3. 光盘检索阶段4.
3、 网络化检索阶段,1、脱机检索阶段,脱机检索的含义是用户与机器脱钩,不直接参与检索,不介入与机器的对话,检索以批处理(batch processing)的方式进行。比如定题检索服务(Selected Dissemination of Information, 简称SDI), 它把一批事先制定好的检索式存放在机器中,在收到最新文献后执行检索,并将检索结果定期送用户手中,这对长期跟踪某专题的研究是十分有用的。SDI的发展是CAS,即最新资料报道服务(Current Awareness Service),检索式允许经常修改。光盘检索也提供脱机检索服务。,脱机检索是指利用本机数据库中存储的数据信息进行
4、检索。 时间:20世纪50年代60年代 检索人员检索策略 成批检索用户 不足: 地理上的障碍;时间上的迟滞; 封闭式的检索。,2、联机检索阶段,联机检索(online retrieval)是指用户利用计算机终端设备,通过通讯线路,从信息中心的计算机(主机)数据库中检索出所需要的信息的过程。它允许用户以人机对话、联机会话这样交互的方式(interactive)直接访问系统及数据库,检索是实时(real time)、在线(online)进行的。用户的提问一旦传到主机被接收后,机器便立刻执行检索运算,很快将检索结果传送到用户终端,用户可反复修改检索式,最后获得较满意的检索结果。,联机检索传统上采用命
5、令检索方式(command search), 通过一些系统能够识别的命令(指令),完成对检索式的运算,实施检索。命令方式能比较恰当的反映检索词之间的概念范围, 表达检索各概念间的关系。检索灵活、简捷、快速、利落,检索的精度较高。由于联机检索的机时通常被计入收费,因此,准确、快速的检索十分必要。但在另一方面,它对检索技能的要求也相应较高,常需要掌握检索技能、熟悉命令的有经验的人员来执行,以发挥命令检索的优势,避免把过多的经济负担转嫁给用户。,联机检索是指利用检索终端,通过通信网络和检索系统联机,从检索系统中的数据库中进行检索 时间:20世纪60年代80年代 用户 检索策略“人机对话” 获取所需信
6、息著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及IBM公司的“文献处理系统”,3、光盘检索阶段:,光盘检索光盘检索通常采用菜单方式(menu search), 根据菜单提示、指引,通过选择、确定或键入填写以及一些功能键的使用,一步一步地执行检索,修改检索提问,直至完成全过程。光盘检索界面友好,允许人机对话,不需要专门的学习和培训,只要认真遵循界面的指示做下去,总能达到检索目的,时间:20世纪80年代以来 储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),可随时修改检索策略而具有很高的查全率和查准率等优点
7、。单机光盘检索;联机光盘检索;光盘库(2-6个光驱,多达500光盘)/光盘塔(8-64个光驱)。,光盘检索的种类,单机(stand-along)光盘检索系统有微机、光驱(optical driver)、光盘数据库等硬件设备和驱动程序、操作程序、检索程序等软件组成,自成一体。提供单用户、单机的使用,系统结构简单,但数据量少、利用率低。,联机光盘检索系统将光盘上网,一般只提供在局域网上的检索,如图书馆网、校园网等,它可以连接到许多用户终端,网上用户可以分时共享光盘数据库的信息。光盘有服务器(server)管理运行,它们的光驱是多盘的,有光盘塔 (tower),和光盘库(jukebox)。光盘塔分别
8、有4张、7张、14张、28张光盘为一组的,以电子方式驱动。光盘库可安插上千张光盘,有机械手检出需用的,一般用它来安装数据量巨大的全文数据库光盘。,光盘检索的种类,4、网络化检索阶段又叫互联网检索,国际互联网(Internet)也称因特网,它具有全球性的分布结构、开放性的信息环境及跨国界的信息流。互联网的检索可同时使用网上多个主机甚至所有主机的某种资源而不需要用户预先知道它们的具体地址。极大扩宽了其检索的空间和信息量,包括各种文献信息资源及其指向的网络页面。而传统的联机检索、光盘检索只局限在对一台或几台主机上的特定数据库的检索。互联网信息庞杂,正式与非正式信息及其交流渠道共存,信息缺乏有效的组织
9、管理,因此很难用一般意义上的查全、查准这些概念来衡量其检索。目前还没有一个对所有在线服务行之有效的简单检索模式 。,Web版数据库检索大量采用超文本。 超文本 (hypertext)的内容排列是非线性的,它按知识(信息)单元及其关系建立起知识结构网络,具有图形、画面的信息称超媒体(hypermedia)。超文本( 媒体)的检索是通过超文本链接(hyperlink) 来实现的。其形式有的在网页的文字处有下划线,或以图标方式标志,用户点击(point-and-click)这些标志便能进入到与此信息相关的下一页,在该页面上通过超文本链接进入再一个页面。超文本起信息导向作用。这样,用户从一个页面转向另
10、户一个页面的控制过程中获取自己所需要的信息。,利用INTERNET,对网络上各种资源进行检索 时间:20世纪90年代以来 INTERNET是联结了一百多个国家、几万个信息网络、几百万台主机、几千万个终端用户,并能够跨越时空,进行实时信息检索、资源共享的国际性超级计算机网络。目前,90%的国际联机检索系统都已进入INTERNET,世界上许多国家(包括中国)都从INTERNET上获取重要的科技和经济信息资源。,各类计算机检索的比较以上综合讨论三种检索类型的特点和功能,现对它们在服务的主要方面进行比较,Web版联机检索从信息量的存储和数据更新及通讯方式等方面具有更强的优势,传统的联机数据库将更多的以
11、Web版方式放到Internet网上。,一、计算机检索原理二、计算机检索系统构成,第二节 计算机检索原理和系统构成,计算机将输入机检系统的检索提问特征标识(检索词)或用布尔逻辑运算符(and、or、not)联结起来的检索提问式与已存储在系统中的文献特征标识(标引词如:主题词、分类号和类目名称等)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。,一、计算机检索原理,从广义上说是指从任何信息集合中识别和获得所需信息的过程,它包括信息的存储与检索两方面,分别对应数据库的建立和数据库的利用。 建立数据库的过程:选择源数据、存贮(顺序存贮、倒排文档存贮)首先按一定的标准,从信息源中
12、选择合适的信息,对其内容进行概念分析,并将每个概念用系统词表中的词加以标引,对被标引的文献款目进行系统排列,从而形成有序可供检索的数据库。 数据库的利用:是存储的逆过程。,数据库定义数据库是“至少由一个文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”。通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源,也是信息检索的重要资料来源。,数据库类型根据载体的不同,数据库可分为: 联机数据库(online database)、 光盘数据库(CBROM database)、 网络数据库(ne
13、tworked database),数据库类型根据数据库的内容与功能可划分为: 指南数据库(directory database)、 交易(执行)数据库(transactional database)、 全文数据库(full text database)、 书目数据库(bibliographic database)、 字(词)典数据库(dictionary database)、 数值数据库(numeric database)与统计数据库(statistical database)、 图像数据库(image database,graphic database),检索词、检索式、检索策略:检索词是
14、用户或检索人员给出的字、词、字符或短语,用于查找含有它(它们)的记录。检索式也称检索提问表达式,是要求系统执行的检索语句。 如要利用英文搜索引擎查找网络信息检索方面的资料,检索式可表示为(Web OR Internet OR WWW) AND (search * OR retrieval * )。检索策略是就一个问题检索一个(或多个)数据库所输入的全部检索式的集合,是为满足信息需求所制定的一系列检索式。,检索的原理,信息源,筛选信息,概念分析,概念转换成系统语言,信息数据库,检索系统,概念转换成系统语言,概念分析,需求分析,信息用户,检索策略,存储,检索,二、计算机检索系统构成,利用计算机的有
15、效存贮和快速查找能力来进行信息的分析、组织、存贮和查找的系统。包括硬件部分、软件部分、数据库和通信网络。,1、硬件部分:主机:计算机的核心部件。外围设备: 外部存贮器:磁带、磁盘、光盘等 输入输出设备:数据录入设备、键盘、鼠标器、光学字符识别装置、光笔、缩微扫描器、扫描仪、显示终端等。 其他:运算器、控制器。,2、软件部分软件:用来管理、控制与规定计算机运行步骤的各种程序的总称。包括:系统软件、应用软件。,3、数据库(系统) 以特定的组织方式将计算机中的相互关联的数据集合存储的总汇,将各种数据中的信息单元经过有序处理、组织,可以按通常的方法进行检索。包括:参考数据库、源数据库、混合型数据库,4
16、、通信网络 计算机信息传输网络,各网络节点之间通过电信线路、通信卫星或光缆电视技术等进行连接,构成庞大的信息检索网络,保证信息之间的畅通传输。,一、检索途径二、基本检索方法,第三节 计算机检索的途径和方法,计算机检索的方式从使用方式上可分为三种类型:,1. 命令检索2. 菜单检索3. 超文本检索,一、检索途径,1. 命令检索,命令检索用于联机检索系统,应用于许多Web版数据库的检索。检索式由若干检索词组配形成。这些检索词的扩展、限定的字段,它们之间的逻辑关系、位置关系等均可由算符的连接来表示。尽管不同的联机系统有各自定义的算符表示,命令形式不尽相同,但都有许多一致的检索功能。,命令检索特点:,
17、使用特定操作命令来实施检索。适用于有经验的检索人员,终端用户使用前要经过专门的学习和培训。常用的算符有:截词符、检索字段符、逻辑算符、位置算符等。不同系统一般有不同的检索命令表示方式,各命令综合应用,可得到理想的检索效果。 一些大型的检索系统都用命令检索方式。,2. 菜单检索,一种普遍用于光盘检索系统简单易用的检索方式。普通用户只需要根据菜单的指引,通过适当的选项和功能键就能一步步完成。缺点是操作步骤多,检索时间耗费较多,精确度也不如命令方式。光盘检索大多采用菜单检索。,菜单检索过程,(1) 检索字段的选择。(2) 检索词的选择,直接键入或在展开的索引词典中选择。(3) 检索式的修改,重复以上
18、两个步骤,多次循环,来完成一个复杂的逻辑组配检索。(4) 输出的选择,包括输出记录,输出方式,输出格式的选择。,3. 超文本检索,Web数据库检索一般有基本检索和高级检索之分。 基本检索(Basic Search) 也称标准检索(Standard Search ),执行较简单的检索式,经常是对一个字段或两个字段的检索。 高级检索(Advanced Search) 执行较复杂的检索式,包括有多种逻辑组合关系的检索。也可对多个字段进行检索。,可向用户提供更加友好的人机界面,更多是通过Web形式来实现。 操作使用鼠标去点击相关的文本或图像链接,即可进行检索。 常用在多媒体电子出版物中。,二、基本检索
19、方法,1. 布尔检索2. 截词检索 3. 字段检索 4. 加权检索 5. 扩检与缩检,1.布尔检索法,利用布尔逻辑运算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。 常用的布尔逻辑运算符有三种,分别是逻辑或 OR、逻辑与 AND、逻辑非 NOT。 用这些逻辑运算符将检索词组组合成检索提问式,计算机将根据提问式与数据库中的记录进行匹配,当两者一致时则命中,并自动输出该文献记录。,逻辑或:AB、 A OR B,A,B,+,A,B,表达检索词间的并列关系。可扩大检索范围,提高查全率。,表示要检索含有A、B词之一或同时包含A、B两词的文献。,逻辑与:AB 、A AND B,A,B
20、,A,B,表达检索词间的交叉关系。可缩小检索范围,提高查准率.,表示要找出同时含有这两个词的文献集合。,逻辑非:A - B 、A NOT B,B,A,-,A,B,表达检索词间的排除关系。可缩小检索范围,提高查准率,但要慎用。,表示要找出含有检索词A而不含检索词B的文献。,2.截词检索法,截词符(truncation operator),也称统配符(wild card), 用来对检索词(干)进行扩展。在Dialog系统中用 ? 号表示。?号加在不完整的词或词干之后,或是插在一个词的中间来表示词后或词中可添加的随机字符。其作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方
21、面的差异(如美式英语和英式英语),避免漏检。截词有:非限定性截词、限定性截词和中间截词等,截词检索法,是指检索者将检索词在他认为比较合适的地方截断,也称模糊检索,又称词干检索法 。截词符号一般为“ ?”,也常用“$”,“*”。分有限截词和无限截词,以无限截词来举例:,例如: ? computer, 可检minicomputer, micro computer 使用很少。,1)前截断,后方一致,2)中截断,中间一致,例如:? comput? 可检minicomputer,microcomputers 查找英美不同拼法最有效。,3)后截断,前方一致,例如:comput?, 可检computer,c
22、omputers, computing 主要用于: 词的单复数,company、companies; 年代检索,199?; 词根检索,socio?,可检sociobiology、socioecology、sociolinguistics、sociology等20多个词汇。,截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截词技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点。,3.字段检索,字段是数据库中记录的下级单位,一个字段即是一个著录项目。字段检索是一种限定检索词在数据库记录中出现的字段范围的一种检索方法。,字段检索法分为两种:主题字段
23、(题名、主题词、文摘等) 非主题字段(作者、文献类型、语种、出版年份等),4.加权检索,是一种定量检索的技术。在每个提问词后面给定一个数值表示其重要程度,这个数值称为权。在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和超过阈(yu)值,该记录为命中文献。 缩小检索范围提供检索准确率的有效方法。,5.扩检与缩检,扩展检索初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。主要有:概念的扩大,增加同义词,年代的扩大。缩小检索又称二次检索,指开始的范围太大,命中文献太多,或查准率太低,需要增加查准率的一种方法。主要有:概念的缩小,增加检索词,特定期
24、刊的限定等。,检索策略,执行一个课题的检索是有过程、分步来完成的.检索步骤的科学安排称为检索策略(retrieval strategy)它是为实现检索目标而制定的全盘计划或方案。特别是在计算机检索中,策略问题是明确提出来的,必须慎重考虑,因为它可能要完成的是一个比较复杂、精细的检索课题,又是在人与机器的对话、交互中实现的,检索步骤,检索技巧和提示,(1) 广泛浏览数据库 (2) 选择合适的数据库试查 (3)调整策略的考虑 (4)利用检出文献的信息,拓宽检索(5)充分利用各种资源,第四节 联机检索系统,联机检索 定义: 用户利用计算机终端,通过通讯网络,与主机系统以直接对话方式进行数据互传,从检
25、索系统的数据库中查找出用户所需的情报信息的过程。,联机检索系统组成:,主机系统:服务器,存有大量数据信息,数据库:由一个或多个文档组成的大量数据的有序集合,通讯线路:电话线、光纤、光缆、卫星、微波,检索终端:用户直接使用的终端机器,联机检索的优缺点:,优点: 检索速度快,效率高; 检索范围广泛、全面; 检索途径多,方便、灵活; 检索内容新,实时性强; 检索辅助功能完善(人机对话、检索结 果输出方式灵活,输出格式多样等)。,缺点:,检索费用高; 对检索系统及其文档(数据库)的收录、标引、特点等问题较难了解、熟悉; 检索技术和技巧不易掌握。,一、DIALOG国际联机检索系统 DIALOG公司站点的
26、网址是: http:/二、OCLC(联机计算机图书馆中心)的FirstSearch联机系统,一、 DIALOG简介,美国DIALOG是世界上处于领导地位的国际性联机检索服务系统,始建于1966年,于1972年开始商业性经营,提供综合性联机信息。它的总部设在美国加州的Palo Alto,现是Thomson 公司的一部分,它的用户达2万,遍布世界100多个国家。DIALOG系统供检索的数据库当前有三种版本:光盘版本、联机版本及网络版本 。,http:/ 各种类型信息检索。联接DIALOG的通讯软件DIALINK可免费直接从Internet网上站点下载。(2) DIALOG Business Con
27、nection商业信息服务,提供各种商业咨询服务。(3) DIALMAIL 邮件服务,可将检索结果传递给用户,又可提供Email方式的文献传递服务。(4) DIALOG Alert Service定题服务,可向用户提供最新资料报道,将文献通过Email、FAX或邮寄方式传递给用户。(5) DIALORDER 原文定购服务,可提供50家公司的论文、专利、会议等文献的全文。 (6)用户利用DIALOG系统,可进行项目查新、文献调研、课题立项、申报专利, 以及了解市场动态和竞争对手、新产品开发、公司的背景情况、经济预测种种信息。,DIALOG常用数据库, 工程索引(Ei) 科学文摘(INSPEC)
28、科学引文索引(SciSearch) 物理文摘(SPIN) 化学文摘(CA Search) 数学文摘(MathSci) 计算机数据库(Computer Database) 会议论文索引(Conference Papers Index) 环境文摘(Environmental Bibliography) 学位论文文摘(Dissertation Abstracts Online) 教育文摘(ERIC) 金属文摘(METADEX) 世界专利索引(WPI), 美国专利(U.S. Patents ) 欧洲专利(European Patents) 日本专利(JAPIO) 美国政府报告(NTIS) 经济商业文摘
29、(ABI/INFORM) 流体工程文摘(Fluid Engineering Abstracts) 宇航数据库(Aerospace Database) 工程材料文摘(Engineered Materials Abstracts) 能源科学与技术(Energy Science and Technology) 机械工程文摘(ISMEC: Mechanical Engineering Abstracts),二、 OCLC简介 OCLC全称为Online Computer Library Center, 即图书馆联机计算机中心,总部在美国俄亥俄州都伯林,是世界上最大的提供文献信息服务的机构之一。 中心的
30、网址是:http:/www.oclc.org,OCLC简介,OCLC提供两种检索系统:EPIC和FirstSearch,它们的内容是一致的。EPIC系统采用的是命令方式的联机检索,FirstSeach(第一检索)是近年来OCLC推出的一个新产品,它用Web访问。1999年8月,OCLC完成了新版FirstSearch,它以Web为基础,采用了当前信息通讯领域的高新技术,提供给用户一个便捷、友好、世界范围的参考资源。目前通过该系统可检索70多个数据库,其中有30多个库可检索到全文,总计包括7,500多种期刊的联机全文和3,000多种期刊的联机电子映象,有600多万篇全文和全图文章。这些数据库涉及
31、广泛的主题范畴,覆盖了各个领域和学科。,第五节 应用图书馆网站检索,1、图书馆网站检索 随着网络的发展,大多数图书馆都建立了网上平台,通过图书馆的网站可以了解图书馆的各种相关信息,并进行图书的检索。,2、检索步骤1)在浏览器中输入图书馆的网址,并通过导航链接进入具体的书目检索版块。2)按需要单击不同的书目库进入详细的检索页面。3)在详细页面中选择不同的检索途径,在检索文本框中输入检索关键词,单击检索按钮即可获得详细信息.4)在检索获得的目录中单击相关条目可以进入该书的详细页面,包括简介及流通情况,根据系统提供的功能可以进行书目的预定等操作。,本章小结,(一)计算机检索简介,1、计算机检索定义、类型、优点、缺点,2、计算机信息检索的发展历程,(1)脱机检索阶段,(2)联机检索阶段,(3)光盘检索阶段,(4)网络化检索阶段,本章小结,(二)计算机检索系统的构成,1、硬件部分:主机、外围设备、其他,2、软件部分:系统软件、应用软件,3、数据库(系统)参考数据库、源数据库、混合型数据库,4、通信网络,本章小结,(三)计算机检索的途径和方法,途径:命令检索、菜单检索、超文本检索基本检索方法(6种),(四)联机检索系统DIALOG国际联机检索系统OCLC的FirstSearch联机系统,(五)应用图书馆网站检索,