收藏 分享(赏)

课题二信息检索基础理论.ppt

上传人:Facebook 文档编号:2865321 上传时间:2018-09-29 格式:PPT 页数:41 大小:251.50KB
下载 相关 举报
课题二信息检索基础理论.ppt_第1页
第1页 / 共41页
课题二信息检索基础理论.ppt_第2页
第2页 / 共41页
课题二信息检索基础理论.ppt_第3页
第3页 / 共41页
课题二信息检索基础理论.ppt_第4页
第4页 / 共41页
课题二信息检索基础理论.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

1、课题二 信息检索基础理论,1、教学内容 (1)信息检索的概念、特点、类型 (2)信息检索的基本原理 (3)信息检索语言的概念及类型 (4)信息检索系统的概念、基本类型、结构 (5)信息检索的方法、步骤、评价 2、重点、难点 重点:信息检索的基本原理 难点:信息检索的方法、步骤、评价 3、教学基本要求 (1)了解信息检索的概念、特点、类型 (2)掌握信息检索的方法、步骤、评价,第一节 信息检索概述,一、 信息检索及特性 1.信息检索涵义 信息检索(Information Retrieval),亦称情报检索、文献检索。 信息检索就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识

2、的活动及过程。 信息检索包括两个层次的涵义:信息的存储和信息的查找。即包含了广义的信息检索和狭义的信息检索。 本章所讲的主要是狭义的信息检索,即信息的查找过程。,What? Where? How?,信息检索的要领,2.信息检索特性 信息检索的相关性相关性表明用户是否认为一文献与一提问吻合。 信息检索的不确定性标引(见下页)和检索词选用存在不确定性 信息检索的逻辑性,标引:通过对文献的分析,选用确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程。主要指选用检索语言词或自然语言词反映文献主题内容,并以之作为检索标识的过程。,标引举例 阿斯匹林引起胃溃疡 分类标引:

3、R573.1 溃疡病 主题标引:阿斯匹林/副作用消化性溃疡/化学诱导,二、信息检索的类型 1. 按照检索对象的内容可分为数据信息检索、事实信息检索及文献信息检索。“设计人行天桥的参考文献有哪些 “属于文献检索 “世界上最长的斜拉桥是哪座 ?该桥位于什么地方? 何时建成? ” 属于事实检索 某一新型载货汽车的载重量是多少 ?百公里油耗是多少 “就属于数据检索. 2.按照存贮载体及检索手段方式可分为手工检索、机械检索及自动化检索。,三、信息检索的作用有利于减少课题的重复研究、提高科研成功率 有助于节约时间、提高科研效率有利于培养复合型、开拓型人才,三、 信息检索的基本原理信息检索的基本原理即检索者

4、的检索提问词与存储在检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中,命中结果可从检索系统中以各种方式输出。,信息检索原理图*,一次 信息,信息 特征,检 索 语 言,信息特征 标识,检 索 结 果,信息 需求,检索 提问,检索提问 标识,分析,分析,标引,标引,输入,检索,输出,信息检索工具(系统),存储 过程,检索 过程,第二节 信息检索语言,一 、检索语言及特征 1.检索语言概述 检索语言是一种专门用于各种手工和计算机化的文献情报检索与存贮系统、用以表达文献主题概念和研究课题主题概念的人工语言,亦可称为索引语言、标引语言、文献工作语言等。 如中国图书馆图书分类法、中国科学院图书

5、分类法、INSPEC叙词表等都是检索语言,其分类号或检索词就是检索语言的词语。 检索语言词义单一性,可以保证表达概念的唯一性,进而保证了标引与检索的一致性。 检索语言作为标引人员与检索人员的共同语言,2.检索语言的特征检索语言是连接信息用户、信息工作人员及信息资源的非常重要的一环,因此具有鲜明的特征。它必须满足以下三个基本条件: 必须具有必要的语义和语法规则; 必须具有表达概念的唯一性; 必须具有将检索标识和提问特征进行比较和识别的方便性。,二、 检索语言的基本类型 检索语言按描述文献的有关特征,可分为描述文献外表特征的语言和描述文献的内容特征的语言。,叙词语言,等级体系,混合分类,1.分类语

6、言 (1)体系分类语言。体系分类语言是一种直接体现分类等级概念的标识系统。它以科学分类为基础,以文献内容的学科性质为对象,运用概念的划分与概括的方法,按照知识门类的逻辑次序,从上到下、从总到分,进行层层划分。分类表则是这种语言的具体体现。 (2)组配分类语言。它用科技术语进行组配的方式来描述文献内容。如印度阮冈纳赞的冒号分类法(Colon Classification,CC)。 (3)混合分类语言。它是组配分类和体系分类语言的结合,两者有所侧重,因而又有组配体系分类语言和体系组配分类语言之分。如国际十进分类法(Universal Decimal Classification,UDC),例:中图

7、法是一部大型综合性图书分类法,其分类表也称主表,由五个基本部类、二十二个基本大类、简表、详表和复分表组成。 基本部类和基本大类。基本部类,又称基本序列,由五大部类组成。基本大类,又称大纲,是在基本部类的基础上展开的第一级类目,由22个大类组成。,简表 是在基本大类上展开的二级类目表,通过简表可了解分类概貌。T工业技术大类的简表。,详表,是分类表的主体,它依次详细列出类号、类目和注释。此处以“分时操作系统”说明其类号、类目展开示例, TP3 计算技术、计算机技术 TP31 计算机软件 TP316 操作系统 TP316.1 分时操作系统表,复分表,又称为辅助表,或附表。是对主表中列举的类目进行细分

8、,以辅助详表中的不足。通用复分表由总论复分表、世界地区表、中国地区表、国际时代表、中国时代表、世界种族与民族表、中国民族表和通用时间、地点表组成,附在详表之后。 如英国油画集为J233(561),“(561)”为英国复分号,近二年来的肿瘤疗法经验为R730.5=5,“=5”为时间复分号。,中国图书馆图书分类法,书刊的排架,信息检索概论祁延莉编. G252.7/Q231 AutoCAD 2005建筑制图曾维富, 陈良等编著. TU204-39/Z053 台球速成:新编张宝荣编著 G893/Z107,图书馆书刊排架按索书号排列,索书号由分类号和著者号构成。 索书号的构成(分类号+著者号),2.主题

9、语言 (1)关键词语言。 它是以关键词作为文献内容检索入口的一种主题语言。 关键词,是指从文献的标题、正文或摘要中直接抽取出来,未经规范化处理的自由词汇。 如:“电脑在信息工作中的应用 ”其关键词为“电脑”“信息工作”“应用”。 关键词是未经规范化,可以根据需要直接从文献的题名或内容中抽取,因此无须建关键词表,但须建一种非关键词表(stop list)。 非关键词是指那些没有实质意义的和没有专业独立检索意义的语词:包括冠词、连词、介词、助动词、某些通用词(如设计、报告、方法、分析)等。,(2)标题词语言。 它是以标题词作为文献内容标识和检索依据的一种主题语言。 所谓标题词,是从文献的内容或题目

10、中抽选出来,经过规范化处理,用以描述文献内容特征的词和词组。 标题词不是指图书的书名或文献的篇名,而是从自然语言中选取的经过规范化处理的、表示事物概念的完整的名词术语,如“农业”、“物理学” 标题词表是由标题词按字顺排列组成的。使用时,用所选标题词,在词表中按字顺查找,即可查到。,(3)叙词语言。 它是以叙词作为文献内容标识和检索依据的一种主题语言。也称主题词语言 所谓叙词,是从文献题目、正文或摘要中抽取出来的、用以表达文献基本内容的概念单元。 叙词是从自然语言中优选出的、并经规范化处理、最基本的概念单元,即在概念上不能再分的名词术语,如; “电脑在信息工作中的应用 ”其叙词为“电子计算机应用

11、”“信息检索” 。 叙词受词表控制,词表中词与词之间无从属关系,都是相互独立的概念单元。 我国编制的汉语主题词表就是典型的叙词语言。检索时,可根据需要选出相应的叙词,按照组配原则任意组配检索概念。因此,它特别适用于电子计算机检索 。,(4)单元词语言。 它是以单元词作为文献内容标识和检索依据的一种主题语言。 所谓单元词,是从文献正文、摘要或题目中抽取出来的最基本的、其概念不可再分的词。它一般未经规范化,也无词表。如:“信息”、“文献”,而“数学分析”、“信息理论”不是单元词,他们有“数学”和“分析”,“信息”和“理论”组成。,第三节 信息检索系统,一、检索系统的概念 检索系统是用以存储和检索文

12、献线索或报道、累积和查找文献线索的工具,它是在一次文献的基础上经过加工、整理、编辑形成的二次文献。 根据检索方式的不同,可分为手工检索系统和机械检索系统。 手工检索系统主要指各种目录、题录、文摘和索引。 机械检索系统主要指利用力学、光学、电子学等手段帮助查寻的工具,如机检穿孔卡片、光电检索系统、计算机检索系统等。 检索系统的基本功能是存储和检索信息,主要体现在四个方面: 一是根据学科和主题集中信息。 二是缩短了检索过程,节省了查找时间。 三是便于按分类或主题等不同的检索途径,灵活地从多个角度进行检索。 四是有助于消除语言文字障碍。,二、 检索系统的基本类型 1.按其正文的内容性质,可分完全二次

13、信息检索系统和部分二次信息检索系统。 完全二次信息检索系统主要有目录、题录、索引、文摘等类型。这些检索系统仅提供信息的线索,包括各种印刷性检索系统和检索性文摘数据库。 部分二次信息检索系统主要包含以参考工具书为代表的准检索系统书和全文数据库资源。,完全二次信息检索系统的主要类型有: 目录(Bibliogrphy,Catalogue)。目录一般以整本的图书、期刊等作为报道单元,描述比较简单,每一个条目的著录项有:书(刊)名、卷(册)数、作者、出版年月、出版地及书(刊)收藏情况等,主要用于查找出版物的出版或收藏单位。 根据编制目的及社会职能,目录可以分为国家目录、馆藏目录、联合目录和出版社与书商目

14、录等。, 题录(Title)。题录是在目录的基础上发展起来的、以出版物中的“篇”作为著录单元的检索系统。 在揭示文献信息的内容上比目录更进一步。题录的特点是“快”和“全”。 题录一般不做过多的加工,不做内容摘要,仅列出篇名、著者、出处。 我国的全国报刊索引就是典型的题录型检索系统。, 索引(Index) 索引是指按照一定信息构成如题名、人名、地名、主题词、分子式和各种号码(如专利号、报告号等)对一组信息集合的系统化的指引。 索引条目通常有三个著录项目:标目(标识)、说明语和存储地址。 标目是索引条目所指示的信息某方面的特征,其属性值有著者名、主题词等,存储地址是所指示的属性值对应的特定信息内容

15、在信息集合中的地址,多数是流水号。 主题索引、著者索引是最常用的索引。, 文摘(Abstract) 文摘是将论文或专著的内容加以浓缩,以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索系统。 其实质就是题录加上内容摘要。,2.按其物质形态可分为印刷型、电子型和其它类型的检索系统。 3.按收录范围可分为综合性检索系统、专业性检索系统和单一性检索系统。 三、 检索系统的一般结构 一部完善的检索系统一般由使用说明、目次表、正文、索引、附表等五个部分组成。,第四节 信息检索的方法、途径及评价,一、检索方法 1.浏览法 2

16、.追溯法 3.常用法 顺查法。 倒查法。 抽查法。 引文法。 4.分段法,二、检索途径 1.分类途径 2.主题途径 3.著者途径 4.其它途径 篇名途径。篇名途径包括书名、刊名和篇名等途径。 序号途径。 分子式途径。,三、 信息检索效果的评价 1.信息检索效果评价的指标 查全率。它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。 查全率=检出相关信息量系统中相关信息总量100%=a(a+c)100% 查准率。它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。 查准率=检出相关信息量检出信息总量100%=a(a+b)100%

17、 查全率与查准率之间存在互逆的关系,即提高系统的查全率,会使查准率下降,反之亦然。,漏检率。它是指漏检相关信息量与在检索系统中相关信息总量的比率,是衡量信息检索系统漏检信息的尺度。 漏检率=漏检相关信息量系统中相关信息总量100%=c(a+c)100% 误检率。它是指误检(检索出不相关)信息量与检出信息总量的比率,是衡量信息检索系统误检信息程度的尺度。 误检率=误检信息量检出信息总量100%=b(a+b)100%,2.影响检索效果的因素 (1)影响查全率和查准率的主要因素 人为因素主要包括两类人为错误因素:一是在编制检索系统时收录文献不全面、不明确,在文献标引工作中人为造成的各种错误;二是在检

18、索时对课题内容分析的错误和对检索提问错误。人为错误往往会引起查全率和查准率的同时下降。 客观因素 各种知识之间的相互渗透、相互包容是影响查全率和查准率不可能同时达到100%,而成为反比关系的客观因素。这些因素称为“合理影响因素”,由其造成的误检和漏检称为“合理误检”和“合理漏检”。,(2)影响检索效率的因素 标引的网罗性 标引的网罗性是指标引时揭示文献主题的基本概念的广度而言的。 检索标识的专指性 所谓检索标识的专指性是指检索标识表达主题的基本概念的专指度而言的。,3、提高检索效率的措施 选择好检索系统。 准确使用检索语言检索者所用的检索语言应能准确地表达信息需求。 用泛指性强的检索语言以提高

19、查全率。 用专指性强的检索语言以提高查准率。 善于利用各种辅助索引。,第五节 信息检索的一般程序,一、分析研究课题明确检索要求和范围。通过分析课题,明确查找要求(时间、文献类型等)后,还要根据课题的学科性质,确定检索的学科范围。 分析主题内容。 分析问题类型。 分析查找年代。,二、 确定检索系统(选择检索系统) 选择检索系统或工具应该考虑以下四个方面的因素:一,学科、专业范围;二、信息类型;三,文种;四,课题内容。 三、 选择检索方法 1.检索系统的条件 2.检索课题的要求 3.学科发展特点 (1)检索课题属于年轻新兴学科,起始年代不太长,一般采用顺查法(也可用倒查法); (2)课题检索属于较老课题,起始年代较早或无从考察,则可采用倒查法; (3)有的学科在一定的年代里处于兴旺发展时期,信息发表得特别多,则在该时期内采用抽查法检索效果好,四、 确定检索途径 五、 查找文献线索 六、 获取原始信息,习题:,1.何谓信息检索?有几种类型? 2.广义的信息检索包括哪两个过程?简述之。 3.信息检索系统有哪几种类型?分别列举出两种具体实例。 4.下面是一本图书的一些特征,请你指出哪些是它的外部特征,哪些是内部特征? 书名:牛津高阶英汉双解词典 作者:霍恩比 译者:李北达 出版地:北京 出版社:商务印书馆 出版时间:1997年 分类号:H316 主题词:英语-双解词典,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报