1、第六章 信息检索,信息组织是指按照一定的规则来描述信息资源 或信息对象,以便于能被需要它们的人高效地利用。 信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。,6.1 信息检索的沿革与发展,6.1.1信息检索的涵义根据特定的需求,运用某种检索工具, 按照一定的方法,从大量文献中查出所 需的资料或信息的过程。,满足信息用户的信息需求而建立的,存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(Information Retrie
2、val System,简称IRS)。 信息检索系统的三个基本要素:人、检索工具(包括设备)和信息资料,信息检索系统的体系结构,信息组织和检索系统,比较/匹配,检索流程,组织流程,存贮1:概述/搜索请求,存贮2:信息的表示,6.1.2 信息检索的类型与特性,手工检索工具 主要指,如印刷版的全国报刊索引。 计算机检索系统主要指,如中国期刊全文数据库 ,数据信息和事实信息检索是确定性的检索,检索结果可以直接利用。 文献信息检索是一种相关性检索,检索结果是文献信息的线索,一般通过二次信息来实现。全文数据库:是一次信息和二次信息的综合体。在检索结果中,有直接的全文链接。,特性:,信息检索的相关性 相关性
3、表明用户是否认为一文献与一提问吻合。 信息检索的不确定性 标引的不确定性是指不同标引员在给同一篇信息对象进行标引时会选用不同的标引词,即标引词选用的不一致性。 信息检索的逻辑性,6.1.3 信息检索的发展历程,三个阶段 手工信息检索阶段 机械信息检索阶段 计算机信息检索阶段,手工信息检索阶段,信息检索起源于参考咨询工作,参考咨询工作产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室; 20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重
4、新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具; 40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。,机械信息检索两种基本类型 机电信息检索系统 光电信息检索系统 机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。,机械信息检索阶段,计算机信息检索系统三个阶段:,1971年以前建立的信息检索系统,是传统的批处理检索方式。 1971年以后,产生并发展的联机信息检索系统,如O
5、CLC、Dialog在线数据库联机检索系统。 20世纪90年代以来,产生并发展的网络信息检索阶段。,信息检索技术两个发展方向:传统信息检索向全文文本、多媒体、多载体等新型信息检索的发展,在深度上提高管理和组织信息的能力; 信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织的能力。,6.1.4信息检索的模型,布尔逻辑检索模型(BooleanRetrieval Model,简称BRM) 概率检索模型 (Probability Retrieval Model,简称PRM) 向量空间检索模型 (Vector Retrieval Model,简称VRM) 模糊检索模型(Fuzz
6、y Retrieval Model,简称FRM),是一种比较成熟、较为流行的检索技术,现代信息检索系统多采用这种技术。逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符。 主要的运算符有逻辑“与”、“或”、“非”,分别用AND(*)、OR(+)、NOT(-)表示 布尔逻辑运算符执行的优先顺序为NOT、AND、OR在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。,布尔逻辑运算符含义 A AND(*) B表示文献中同时包含检索词A和检索词 B的文献才是命中文献 如:查找“胰岛素治疗糖尿病”的检索式为: insulin (胰岛素) AND diabetes(糖尿病)。
7、A OR(+) B表示包含检索词A的文献或者包含检索词 B的文献或者同时包含检索词A和B的文献为命中文献 如:查找“商务”的检索式为:commerce OR business,A NOT(-) B表示包含检索词A同时不包含检索词B的文献为命中文献 如:查找“动物的乙肝病毒(不要人的)”的文献的检索式为:hepatitis B virus(乙肝病毒) NOT human(人类)。,相关性原理及排序原理是概率检索模型的理论核心 有关概率的计算及其数据来源是PRM的技术难点,前提是将文献和查询用向量表示 通过向量空间的计算,得到相似系数,将文献论述标引词所达到的程度用0和1之间的数值t表示,0表示不
8、相关,1表示完全相关,t越大,相关性越高,被检索出的可能性也就越大。,6.2 信息检索的职能与程序,6.2.1 信息检索语言的职能 信息检索语言是根据信息检索需要创制的一种人工语言,又称检索语言、信息存贮与检索语言、文献工作语言、索引语言、标引语言、信息检索标识、标识系统等等。 信息检索语言:词汇和语法,信息检索语言的职能:,可以表示文献内容、数据或其他信息形式 有专用概念表示用户的信息提问 能够指示计算机执行查询与检索,6.2.2 信息检索策略,信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的检准率和检全率。 常用信息检索策略包括:分块概念组配检索策略
9、、逐步组配检索策略、对偶组配检索策略、增长组配检索策略等。,目前在以下三方面取得进展:(1)以检全为目标的检索策略的调节与控制;(2)以检准为目标的检索策略的调节与控制;(3)以最小投入为目标的检索策略的调节与控制。对特定系统、特定数据以及某一类型课题的检索策略的研究具体表现在以下两方面:(1)某一系统、某一数据库检索策略;(2)某一类型课题检索策略。,信息检索策略的研究重点是:(1)检索策略失误分析;(2)降低检索费用的研究;(3)用户检索行为及用户培训;(4)现代信息技术在检索策略制定中的应用。 在检索表达式重构专家系统中,把知识库分为领域知识库和规则库。,6.2.3 信息检索效率的评价,
10、检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准。 在评价信息检索效率过程中,主要通过检全率、检准率、漏检率和误检率四个评价指标进行评价,其中重点是检全率和检准率。,检全率与检准率的互逆相互曲线,6.2.4 信息检索的程序,(1)分析检索课题,明确信息需求 明确信息检索课题所涉及的领域和范围; 明确所需信息的内容及其内容特征; 明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及的语种、有关著者及机构等; 明确信息检索课题对查新、查准和查全的指标要求。,(2)选择检索工具,了解检索系统信息检索工具是人们为了充分、准确、有
11、效 地利用已有的信息资源而加工编制的用来报道、 揭示、存贮和查找信息资源的卡片、表册、计算 机信息系统和特定出版物。,(3)确定检索途经,选定检索方法,每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快速、准确地完成信息检索任务,实现预期的目标。,(4)实施检索策略,浏览初步结果在获取信息线索时要仔细阅读,判断所检出的 信息是否符合检索的要求,不仅看篇名,还要阅读 整个著录格式,进行综合分析。,(5)调整检索策略,获取所需信息 判断文献的出版类型。根据文献出处中已有的信息,判断其出版类型。 整理文献出处。将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。
12、 根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏,原则上说应该按“由近及远”的顺序逐步扩大查找馆藏的范围。 尽可能多渠道、多方式地获取原始信息。,信息检索步骤示意图,分析检索课题 1.主题内容 2.时间范围 3.信息类型 4.检索语种,主 题 概 念,确定检索途径 1.分类途径 2.主题途径 3.题名途径 4.著者途径 5.其它途径,选择检索方法 1.顺查法 2.倒查法 3.抽查法 4.追溯法 5.交替法,信 息 线 索,确定一次信息出处 1.缩写还原为全称 2.音译转换成原名 3.信息类型,选择检索工具 1.馆藏目录 2.图书馆信息检索系统,获取一次信息,选择检索工具 1.索引
13、、文摘2. 全文数据库,6.3 信息检索的技术与方法,从检索手段看,信息检索分为: 手工信息检索 机械信息检索 计算机信息检索,6.3.1 手工信息检索的技术与方法,(1)手工信息检索工具 手工信息检索工具主要是各种类型的工具书工具书是根据一定的需要,比较完备地汇集某一方面的资料,并按特定的方法加以编排,专供读者查考检索有关知识、资料、事实的书籍。据工具书的体例和功能,可分为检索型工具书、参考性工具书、词语性工具书、表谱性工具书、图录性工具书和边缘性工具书6种类型。,检索性工具书。是在一次文献的基础上整理、编制 出的提供文献信息线索的二次文献。包括书目、索引、 文摘、文献指南。主要用于查找国内
14、外书刊资料。书目:是图书或单独出版物的规律化、系统化的记 载 。据编制目的、收录范围和内容,可有以下4种书目:国家图书书目。如:全国总书目全国新书目国家报刊书目。如:中国报刊名录馆藏书目。联合目录。汇集某个地区乃至全国的图书馆或文献中心文献 信息收藏实况的目录。把分散在各馆的书刊从目录上连成一体, 使用户既能查到所需书刊,又能知道该书刊的馆藏所在,以便就 近借阅。如: 天津地方史资料联合目录,索引:把一种或多种书刊里的具体内容按一定 的方式分别摘录,并注明出处,以便检索的一种工具论文题目索引。如:全国报刊索引 哲社版 就是将全国公开发行和内部发行的2000多种报刊中所 载的论文题目逐一分析著录
15、出来,注明论文所在报刊 的卷期、页码,专供用户查找有关论文之用。人名索引。如: 世界人物大辞典地名索引。如: 中国历史地名大辞典 字句索引。如: 中国名言大观,文摘:把文献资料的主要内容,由有一定水 平和经验的编者将其准确、简要地摘录出来,并 注明出处后,经分类排序而编制成的检索工具文献指南:是说明各类文献特点及其查找方 法,并具体介绍常用工具书及其使用方法的检索 工具。如:中外专利数据库检索指南经济 学情报源等。,参考性工具书。指能为读者提供各种所需的具体 资料的工具书。与检索工具书仅提供文献线索相比 较,参考工具书提供的资料更具体,包括百科全书、 年鉴、手册。年鉴。是一种按年度连续出版的汇
16、集一年内重要 资料的工具书。综合性年鉴。如:中国百科年鉴中国年鉴专门性年鉴。如:中国对外经济贸易年鉴中 国出版年鉴世界经济年鉴统计性年鉴。如:中国人口统计年鉴上海统 计年鉴,手册:类似年鉴,但编辑出版时间不受限制。 汇集某一学科领域或业务部门专门知识的工具书综合性手册。如:中华人民共和国资料手册 生活科学手册当代新兴学术手册专门性手册。如:经济工作手册各国货 币手册法学知识手册,百科全书:荟萃一切门类或某一门类知识、以 概要方式介绍为主的多功能工具书。综合性百科全书。如:中国大百科全书 环球百科全书专科性百科全书。如:科学技术百科全书 中国医学百科全书中国企业管理百科全书,(2)手工信息检索工
17、具的排检技术 字顺排检技术:将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。 分类排检技术:将信息素材按学科或事物性质系统地加以排列。 主题排检技术:以规范化的自然语言为标识符号来标引信息内容的排检技术。 时序排检技术:按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。如:国内外大事记 地序排检技术:按一定时期的行政区域来排列信息素材的技术。如:中国名胜词典 ,(3)手工信息检索方法,顺查法:时间上,远近 查全率高 费时费力 倒查法:时间上,近远 查准率高 漏检率高 抽查法:学科的兴旺阶段 检索效率高 追溯法(引文法) : A.一次文献参考文献一次信息参考文
18、献 近远 B.一次文献引用该一次信息的文献新的一次文献 实际是由“远近 ”越查文献越新扩大信息源 效率低 检全率低 漏检率高,循环法:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找。,6.3.2 机械信息检索的技术与方法,机电信息检索系统 继手检穿孔卡片之后,出现了机检穿孔卡片 和选卡机。这就形成了机电信息检索系统。 光电信息检索系统 主要是以缩微胶卷(片)检索方式出现的。缩微胶卷(片)的检索方式大致可以分为两种类型:寻址检索方式 编码检索方式,6.3.3 计算机信息检索的技术与方法,(1)联机信息检索 信息用户利用终端设备,通过通讯网络与世界各地的信息检
19、索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。 优点:检索速度快;检索范围广而全面;检索途径多、质量高;检索内容新、实时性强;检索辅助功能完善、使用方便,检索结果输出方式灵活、实用。缺陷:主机负担重,一旦出现故障,则整个网络都将瘫痪;信息组织方式以线性为主,不够灵活;联机检索不像Internet是面向最终用户的,操作也没有后者方便。,联机信息检索系统的结构由检索服务机构(联机存取中心) 、国际通讯 网络及终端三部分构成。终端设备用于输入检索程序、显示检索过程、控 制打印检索结果。通讯网络用于实现远程人机对话。检索服务机构(联机存取中心)是存储和检索信 息的核心。由中
20、央计算机、数据库检索与管理软件、 联机数据库以及相应的检索服务体制组成。,联机信息检索的技术原理一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。 联机信息检索的服务方式a定题信息提供 (SDI)b专题回溯检索(RS) c联机订购原文 d电子邮件,我国联机存取服务始于1974年,比较有影响的联机存取系统有:(1)万方数据资源系统http:/ 特点: 光盘存贮容量大、耐用 检索成本低。一次购买可多次使用,节省了电讯费和联机系统使用费。 操作简单,检索效果好。用户按提示或帮助功能使用检索系统。 运行速度快。单机检索,不受线路影响。 安全性能高。只读光盘,一
21、般局域网用户使用。,如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制 更新周期长。一般的光盘数据库更新要1个月或更长,而网络数据库的更新周期一般是1周或更短。 检索时需不断换盘。一个大型数据库,一般都是几张光盘,特别是全文数据库,如中国学术期刊全文光盘数据库,每年都有一百多张光盘,检索时需要不断更换光盘。,光盘信息检索方法光盘检索系统的功能和指令与联机检索没有很大区别,但更方便。 功能键:Help(帮助)、Index(索引)、History(查阅历史)、Display(显示)、Print(打印)、Select Database(选择数据库)、Format Wi
22、ndow(格式窗)、Quit(退出)等 检索信息时可用单元词、多元词(短语)、数字及布尔运算符和位置运算符把几个检索术语组配成一个提问逻辑式。 用户可以在任何时刻回顾其查找的历史,重新使用或修改以前的任何提问。 屏幕帮助是光盘数据库最常用也是重要的功能之一。,(3)网络信息检索 特点: 信息量更大 需要处理各种不同的语言(大多是自然语言) 信息检索的范围更宽(多学科、多领域) 信息查询的时效性要求更高 检全率较高,而检准率较低,网络信息检索模式广义:从根本上解决有效利用网络信息资源问题的关键 如何对网络上的海量多态信息进行组织,如何对这些信息建立索引,如何对索引及时更新; 如何设计检索算法以使
23、检索提问在检全、检准、响应时间、检索结果控制与显示方面表现良好; 如何为用户设计一个简单易用的友好界面狭义:在现实世界中有效利用网络资源的核心 只是以网络(如互联网)为媒介,利用网上已提供的一些信息检索工具,探索如何使用这些工具及如何综合各工具,使它们扬长避短,最后能实现对信息提问的检索查询的一种方法与技术。,网络信息检索工具非万维网检索工具Archie(文档查询服务)Gopher(菜单式检索服务)WAIS(广域信息服务) 万维网检索工具WWW利用搜索引擎工具利用网络实名搜索,搜索引擎(Search Engine) 搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,就是一种在互
24、联网上查找信息的工具。 工作的基本原理是:用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。 检索的结果:WWW上的主页、新闻组中的文章、软件的存放地址及其作者、企业网站、个人主页等。,英文搜索引擎: Yahoo!(http:/) Infoseek(http:/) Alta Vista(http:/) Excite(http:/) WebCrawler(http:/) Google(http:/) Lycos(http:/) 中文引擎: 网易(http:/) 搜狐(http:/) 新浪(http:/) 常青藤(http:/) 北大天网(http:/或http:/:8
25、080/gbindex.htm 雅虎中文简体版(http:/)与繁体版(http:/),网络实名(Keyword) 又称为“互联网关键字”,是建立在自然语言基 础上的全新互联网访问技术,是继“域名”之后最具 发展潜力的互联网访问技术。举例:如果您要访问人民日报,以前必须在 地址栏输入、http:/,而现在 使用网络实名,只需输入“人民日报”即可直达该网 站用人们熟知的名字就可以直达目标。 ,特点: Keyword是建立在域名基础上的互联网访问技术,不会影响到现有的网络基础技术,可操作性强 继承了域名、搜索引擎等访问技术的优点 规避了其他访问技术的缺点,如容错性差、信息量大而庞杂 使用自然语言,3721展示的“信息检索”搜索结果,