1、检索原理及检索技术,目 录 第1节 信息检索原理 第2节 数据库知识介绍 第3节 信息检索技术,第1节 信息检索原理,一、信息检索类型(复习) 二、信息检索效率 三、信息检索步骤,一、信息检索类型,1、文献信息检索 2、数据信息检索 3、事实信息检索,1、文献信息检索,书目检索 全文检索,书目信息检索,以标题、作者、原文来源、摘要及收藏地点为检索对象的一类检索称为“书目信息检索”。特点:检索结果不直接解答用户提出的技术问题,只提供有关线索。,例如:查 “我国城市居民奶制品消费习惯 ” 的有关文献信息。张明立.我国城市居民奶制品消费行为的调查分析 . 中国乳品工业. 2002(3)四川大学图书馆
2、收藏有原文。,全文信息检索,以论文或专利说明书的全文为检索对象的一类检索叫做全文信息检索。 特点:检索结果是与课题相关的论文或专利说明书的全文。 是在书目信息检索基础上更深层次的内容检索。(如维普从书目到全文一步到位),2、数据信息检索,以具有数量性质并以数值形式表示的数据为检索对象的一类检索。检索结果是经过测试和评价过的各种数据。如:各种物质的物理化学常数,各种统计数据和工程数据。 它是一种确定性检索。一般常用数据大全、手册、年鉴进行检索。,3、事实信息检索,以事项为检索对象,检索结果是有关某一事物的具体答案。如:日本哪些公司在生产等离子电视机。 它也是一种确定性检索。一般常用手册、年鉴、百
3、科全书进行检索。,第1节 信息检索原理,一、信息检索类型(复习) 二、信息检索效率 三、信息检索步骤,二、信息检索效率,信息检索效率是评价一个检索系统性能优劣的质量标准,它贯穿于信息的存储和检索的全过程。包括检索系统的可利用性,信息资源的可利用性和可获得性,检索系统之检索技术的可利用性和友好性。其评价的具体指标是查全率查准率,查全率,利用检索系统进行某一课题检索时,检出的相关信息量(w)与该系统中存储的相关信息量(X)的比率称为查全率(R),用公式表示如下:R= ( 检出文献W/系统中存储的文献X ) 100%,查 准 率,利用检索系统进行某一课题检索时,检 出的相关信息量(w)与检出信息总量
4、(M) 的比率称为查准率(P ),用公式表示如下:P=( 检出的相关信息量W/检出的所有信息量 M )100%,第1节 信息检索原理,一、信息检索类型(复习) 二、信息检索效率 三、信息检索步骤,三、检索步骤,1、明确检索目的。 2、对检索课题进行分析,找出检索词。 3、制定检索策略(包括选检索系统、选检索途径、编制检索提问式)。 4、区分文献类型。 5、整理信息线索,索取原始文献。,1、明确检索目的,明确所需信息的用途。 如果仅仅是给科研课题找一些参考资料,就要求查准,查出的文献一定要有参考价值。 如果是开题,成果鉴定,申请专利,则要求全,则需充分考虑检索词的泛指性。而且要多编制几个检索式,
5、用以调整检索结果。,举例:木薯生料发酵生产酒精工艺,检索目的和要求: 目的:科技立项 要求:国内有无1. 薯类生产酒精的文献报道;2. 木薯生料发酵生产酒精的文献报道。,返回,三、检索步骤,1、明确检索目的。 2、对检索课题进行分析,找出检索词。 3、制定检索策略(包括选检索系统、选检索途径、编制检索提问式)。 4、区分文献类型。 5、整理信息线索,索取原始文献。,2、分析课题,找出检索词,根据检索目的和要求,选择检索词。首先要从专业的角度来选取检索词。我 们的专业知识水平和检索经验直接影响检索 词的选择。而检索词选择得好与否又直接影 响检索效果。,木薯生料发酵生产酒精新工艺,主题分析:第一层
6、面:薯;木薯;第二层面:酒精;乙醇; 第三层面:发酵;第四层面:生料;第五层面:工艺;,返回,三、检索步骤,1、明确检索目的。 2、对检索课题进行分析,找出检索词。 3、制定检索策略(包括选检索系统、选检索途径、编制检索提问式)。 4、区分文献类型。 5、整理信息线索,索取原始文献。,3、制定检索策略,1)选检索系统中文检索系统 (文种)外文检索系统学术论文检索系统 (文献类型)专利文献检索系统 2)选检索途径常用分类途径、主题途径、作者途径等。 3)编制检索提问式,木薯生料发酵生产酒精新工艺,检索词:薯;木薯;酒精;乙醇;发酵;生料;免蒸煮;工艺; 检索式:(薯+木薯)* (酒精+乙醇)*(
7、生料+免蒸煮)*发酵,实现检索策略,分为下面两步。 获取文献信息线索:实质上是实现书目信息检索。如查重庆维普中 国科技期刊数据库,中国期刊网数据库(CNKI),万方数据库;EI VILLAGE,CA 等。 索取文献原始信息:实质上是实现全文信息检索。获取原文前首先 区分文献类型。,返回,三、检索步骤,1、明确检索目的。 2、对检索课题进行分析,找出检索词。 3、制定检索策略(包括选检索系统、选检索途径、编制检索提问式)。 4、区分文献类型。 5、整理信息线索,索取原始文献。,4、区分文献类型。,1)图书(著作) 2)期刊论文 3)会议论文 4)专利说明书 5)科技报告,1 ) 图书,特征:作者
8、书名出版社、出版地、版次国际标准书号。总页码。,2)期刊,特征:篇名作者来源 (刊名,年卷期,起止页码)文摘,2)期刊(续),题名:广西木薯燃料酒精产业发展研究 作者:秦建文 王耀钰 叶洪强 作者工作单位:广西大学商学院,广西南宁530002 来源:木薯精细化工.2002,(2):12-15 摘 要: 随着矿物质能源日益减少和枯竭,发展可再生能源势在必行。木薯是生产可再生能源燃料酒精的主要原材料。与用甘蔗、玉米、小麦、马铃薯、红薯等农作物为原材料生产燃料酒精相比,利用木薯生产燃料酒精经济性最好。,3)会议论文,特征:会议论文,给出会议或会议录名称、主办单位、会议召开地点和时间等。可用下列单词区
9、别:典型关键词:Proceedings、Conference、Meeting、 Symposium、Convention。,4)、专利说明书,特征: 专利说明书:给出专利国别、专利号、IPC号和批准日期等。如 B22D11 CN1044964A,例如:专利信息,200810108467 101302540 20080602 一种木薯生淀粉批量发酵酒精的生物方法 C12P 7/06、C12G 3/02 王怀能、王辉、文科 王怀能、王辉、文科 一种木薯生淀粉批量发酵的生物方法,包括将新鲜木薯或干木薯,用水溶液浸泡,粉碎过筛,按照料水比的比例调浆,调整酸度及营养成分,按照原料量的的比例加入生料发酵剂
10、,控温,机械搅拌转分的速率搅拌,发酵小时后,蒸馏得乙醇或木薯饮料酒。,5)、科技报告著录格式,特征: Report AD PB DOE NASA,为什么要区分原文?,收藏地点不同。原文索取方法不同。文后参考文献的标注。,三、检索步骤,1、明确检索目的。 2、对检索课题进行分析,找出检索词。 3、制定检索策略(包括选检索系统、选检索途径、编制检索提问式)。 4、区分文献类型。 5、整理信息线索,索取原始文献。,5)索取原文(期刊),将所得的检索结果进行归类整理后,按由近及远的原则索取原文。 (1)上网查找全文(网络全文数据库) (2)查本馆馆藏目录,由索取号借阅或复制。 (3)查联合目录,由索取
11、号向收藏单位借阅或复制。 (4)其他方法获取全文。,例如:查全文的数据库,例如:四川大学馆藏目录,返回,第2节 数据库知识介绍,一、检索前知识准备 二、关于数据库,一、检索前知识准备,1、什么是期刊,期刊,期刊亦称杂志,一般是指定期或不定期出版的连续出版物。 它的特点是:有比较固定的刊名,一般出版周期恒定且短(如:单月、双月、季刊等)。 期刊论文内容新颖、丰富、学术性强,是人们交流学术思想的主要媒介,也是开展科学研究主要的信息源之一,2、关于数据库,数据库就是“按照数据结构来组织、存储和管理数据的仓库。 或者说:数据库是计算机存储设备上按一定方式,合理组织并存储的相互有关联的数据的集合。,数据
12、库类型(复习),1、参考数据库2、源数据库,1、参考数据库,1)书目数据库存储描述目录、题录、文摘等书目线 索的数据库。(文献型数据库) 2)指南数据库存储描述关于机构、人物、产品、活 动等对象的数据库。(工具书数据库),1、书目数据库,存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信息数据库。 目录型数据库:描述整本文献。如:,目录,题录,描述单篇文献:,文摘,描述单篇文献:,返回,2、源数据库,存储全文、数值、结构式等信息,能直接提供原始信息或具体数据,用户不必再转查其它信息源的数据库。 1)全文数据库存储原始全文(或主要部份的)一种源数据库。如维普数据库。 2)数值数据库 如
13、各种统计数据库、科学技术数据库等。,1)全文数据库,存储原始信息全文。如期刊全文数据库、专利全文数据库、百科全文数据库。,全文数据库存放的全文,数据库的结构,数据库是由若干个互有联系的文档(file)组成的,文档是书目数据库数据组织的基本形式,文档里的数据被称为记录,一个记录又包含若干个字段。,数据库,文档,字、词,记录,字段,文 档,数据库是由若干个互有联系的文档(file)组成的,信息检索数据库的文档包括主文档、索引文档和帮助系统文档三部分。,主文档(顺排文档),记录按时间顺序存放,记录之间的逻辑顺序与物理顺序是一致的,是一种线形文档,文档的记录按文献信息获得的先后顺序排列,故又名为顺排文
14、档。 但对于所存储数据的某一方面属性,如作者、关键词等,则是无序的,即不能按关键词的字顺查询。,索引文档(倒排文档),将顺排文档中各个记录中含有主题性质的字段(如主题词字段、标题字段、叙词字段等)和非主题性质字段(如作者字段、机构字段、来源字段等)分别提取出来,按某种顺序重新组织得到的一种文档。,检索时,系统先在索引文档中检索,获得记录号,然后进入顺排文档查找。,帮助系统文档,凡是比较成熟的信息检索系统,还配有完善的在线检索帮助,包括系统使用的检索算符、组配规则、以及使用实例说明性文档,以网页的形式提供给在线用户。,记录,记录是数据库中数据集合的一个单位,是组成文档的基本数据单位。 在书目数据
15、库中,一个记录相当于一条题录或文摘 记录又由字段构成,字段则是组成记录的基本数据单位。一个记录通常由标题字段、作者字段、来源字段、文摘字段、主题词字段、分类号字段、语种字段等组成。,CNKI中的一条记录,题名字段,作者字段,文摘字段,关键词字段,来源字段,EI 中的一条记录,主题字段,辅助字段,12,字段,字段是组成记录的基本数据单位。 字段通常有标题字段、作者字段、来源字段、文摘字段、主题词字段、分类号字段、语种字段等。 按照字段所代表记录的性质不同,字段通常分为基本字段和辅助字段两类。 基本字段有题名字段、文摘字段、主题词字段等。辅助字段有作者、作者工作单位,文献来源,出版事项等。,字段类
16、型与代码,数据库常用的字段,第3节 信息检索技术,一、检索技术1 布尔检索2 词位检索3 截词检索4 限制检索 二、检索技术应用 三、如何选用关键词,1 布尔检索,布尔逻辑算符的形式及含义(1)逻辑与(2)逻辑或(3)逻辑非,逻辑与,1、概念:逻辑与是一种具有概念交叉或概念限定关系的组配。 2、算符:“ * ” 或 “ AND ”,并且 3、特点:增强了专指度,提高了查准率。 4、举例:“微波” AND “通信”,表示两个概念应同时包含在一条记录中。,返回,逻辑或,1、概念:逻辑或是一种具有概念相同,概念相关的组配。 2、算符: “ + ” 、 “ OR ”、“或者” 3、特点:扩大检索范围,
17、提高了查全率。 4、举例:“ 废水 ” OR “ 污水 ”,表示这两个并列的同义概念分别在一条记录中出现或同时在一条记录中出现。,返回,逻辑非,1、逻辑非是一种具有概念排除关系的组配。 2、算符: “ - ” 、 “ NOT ”、不包含 3、特点:排除不需要的概念,提高查准率,但影响查全率。 4、举例: “制药废水 NOT 放射废水” 表示检索出的记录中排除含有“放射废水 ”的记录。,A,布尔逻辑组配图,(a)逻辑与 A=619 B=23290A AND B=54(b)逻辑或 A=341 B=76A OR B=364(c)逻辑非 A=25283 B=4945A NOT B=2431,工程索引E
18、I,返回,中国知识产权局网站中国专利检索,第3节 信息检索技术,一、检索技术1 布尔检索2 词位检索3 截词检索4 限制检索 二、检索技术应用 三、如何选用关键词,2、词位检索,词位检索具有限定检索词的词与词之间位置关系的功能,可弥补布尔逻辑算符只是定性规定检索词的范围,不确定相互位置和顺序的缺陷。以提高检准率。多见于国外数据库。,2、词位检索(续),同句检索:两个检索词需在同一句话中出现。如四川(同句)大学,2、词位检索(续),同段检索:两词需在同一字段出现。如空气(同段)污染,第3节 信息检索技术,一、检索技术1 布尔检索2 词位检索3 截词检索4 限制检索 二、检索技术应用 三、如何选用
19、关键词,3 截词检索,截词检索是防止漏检,提高查全率的一 种常用检索技术。大多数网站都提供了截 词检索的功能。有的网站也叫做通配符或 词干法。用或 ?表示。截词是在检索词的适当位置进行截断, 节省输入的字符,达到较高的查全率。,后截词,后截词(又称右截词):是一种满足 前方一致的检索。 例如: book* 可检出 :book 和 books 两个词。treat* 可检出: treat 和 treatment 两个词。,4、限制检索,限制检索是将检索词限制在特定的范围内检索。 常用的限制检索有:字段、文献类型、语种 年代。 特点:限制查找的范围,满足课题对查全、查准的要求,第3节 信息检索技术,
20、一、检索技术1 布尔检索2 词位检索3 截词检索4 限制检索 二、检索技术应用 三、如何选用关键词,检索技术在CNKI中的应用,布尔检索:逻辑与: * and 并且(高级检索 选择)逻辑或 :+ or 或者(高级检索 选择)逻辑非: - not 不包含(高级检索 选择)词位检索:同句检索(指一句话)(高级检索 选择)同段检索(指同一字段中)(高级检索 选择)限制检索:字段限制,匹配度限制,时间限制,检索技术在CNKI中的应用,同段检索,同句检索,第3节 信息检索技术,一、检索技术1 布尔检索2 词位检索3 截词检索4 限制检索 二、检索技术应用 三、如何选用关键词,关键词的选择选定的关键词应符
21、合课题主题;并应列出常用中外文同义词、缩写词, 以及核心关键词的上下位类词。 应充分利用词表、辞海、术语标准、词典等工具书,以及从已检出的文献中,扩展检索用词。,关键词的选择应注意, 立足规范词,兼顾自由词 词的全称、简称及缩写字母 必要时应向上下位类词扩检 注意外来词的译写变化 慎用词组或短语,切记:同义词是文献检索中的永恒难题!, 确定规范词,兼顾自由词课题名称:布鲁氏菌病防治研究1274 布鲁氏菌病 Brucellosis 379 布氏杆菌病 Brucellosis 99 布鲁氏杆菌病 Brucellosis17 传染性流产 Epizootic abortion 13 波状热 Undul
22、ant fever 9 地中海热 Mediterranean fever 8 马尔他热 Malta fever, 确定规范词,兼顾自由词,胶粘剂 9370 粘固剂 265 粘合剂 5291 胶结剂 141 粘结剂 3850 粘胶剂 122 粘接剂 1109 粘着剂 102 黏合剂 603 胶合剂 88 胶黏剂 519 粘附剂 75, 注意词的全称、简称及缩写字母,中国专利库 期刊库乙型病毒性肝炎 31 1939乙型肝炎 716 32505 乙肝 783 18416 脱氧核糖核酸 213 1992DNA 7111 87202 1268 87202,检索技术应用示例,检索课题:农民工生存状况调查检索词:检索式:(农民工+农民+打工妹+打工仔)*(生活+生存+待遇),农民工,打工妹,打工仔,生 存,生 活,待 遇,提 问,1、状况、调查为什么没有作为检索词? 2、什么样的词不宜作检索词?,思考题,1、如何选择关键词? 2、信息检索技术在不同数据库中运用的 情况? 3、布尔检索算符的表达形式? 4、布尔检索算符的含义? 5、检索时为什么通常要限制检索字段?,Thank you,