1、2018/10/13,1,信 息 文 化 教 程,主讲 张沛黎 电话:2057357(o)手机:13095097299,石河子大学图书馆 文检教研室 E-mail:,2018/10/13,2,第章 信息检索原理,2.1 信息检索的基本概念 2.1.1信息检索的定义和类型 1信息检索的定义 检索的含义 “检索就是查找”,这仅仅是一种狭义的解释。从广义的角度讲,检索包括“存贮”和“查找”两个过程。没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。“检索”(Retrieval)一词是一个外来词,来源于英语“Information Retrieval”(信息检索),2018/10/1
2、3,3,第章 信息检索原理,信息检索是指从任何信息集合中查出所需信息的活动、过程与方法。广义的信息检索还包括信息存贮,两者又往往合并称为“信息存贮与检索“(Information storage and retrieval)。,2018/10/13,4,第章 信息检索原理,1.2.3文献的内部特征和外部特征 文献的内容特征:就是可以从某种角度反映文献内容的特征。文献 的内部特征包括文献的题目、摘要、由著者或图书情 报人员给出的主题词及其分类号。 文献的外部特征:是与内容特征关系不是十分密切的一些特征,包 括文献的作者姓名、作者所在的工作单位名称,期刊 刊名、会议录名称、专利说明书的专利号和科技
3、报告 的报告号等。这些特征通常在文献的封面或扉页出现。,2018/10/13,5,检索标识种类,反映文献外部特征 检索标识,反映文献内容特征 检索标识,著者,文献序号,篇名 出版社,分类号,主题词,关键词,人工语言,自然语言,分类语言,2018/10/13,6,第章 信息检索原理,2.2.1信息检索的一般原理无论是手工检索,还计算机检索,各种检索系统的检索原理基本相同。简单地讲,就是检索提问标识与存贮在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。 存贮过程就是按照检索语言(主题词表或分类表)及其使用
4、原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。 信息检索同样包括存储和检索两个过程。,2018/10/13,7,信息处理人员,检索结果,检索 工具,检索课题,用 户,原始信息,信息分析、著录和标引,课 题 分 析,检索语言主题词/分类号,信息检索原理示意图:,存贮过程 检索过程,存入,检索,检出,2018/10/13,8,第章 信息检索原理,(1)信息检索根据检索对象不同,可分为:文献检索、数据检索、事实检索 A.文献检索 (Document Retrieval)。文献检索是以文献为检索对象的信息检索。也就是说文献检索是以图书、期刊、资料、数据
5、库中的篇章或全书刊为检索对象的一种检索。如:检索有关“我国关于教育产业化研究” 或着检索“花卉组织培养技术”的文献。文献检索是一种相关性检索,检索结果不直接回答用户提出的技术问题,只是提供与之相关的文献供用户参考。,2018/10/13,9,第章 信息检索原理,B.数据检索 (Data Retrieval)。数据检索是以数据为检索对象的一种检索,其检索结果是可供直接使用的科学数据,包括数值、公式、图表等。查找科学技术参数、统计数字、财政信息数据、市场行情数据等都属于数据检索。检索结果是直接回答用户问题的具体数据。 C.事实检索 (Fact Retrieval)。事实检索是以事实为检索对象,查找
6、某一事物发生的时间、地点及过程。事实检索是一种确定性的检索,检索结果是具体的事实情况,它直接提供用户有关某一问题的具体答案,2018/10/13,10,第章 信息检索原理,(2) 以方式区分的信息检索类型:A、手工检索 B、计算机检索。A.手工检索。手工检索即是用人工来处理和查找所需信息的检索方式。 (例如:利用各种文摘、索引、题录等刊物)B.计算机检索。 计算机检索是利用计算机和一定的通信设备查找所需信息的检索方式。 (例如:利用各种文献信息数据库),2018/10/13,11,第章 信息检索原理,2.2.3 检索语言检索语言是用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。对
7、信息处理人员来说,它是表达文献主题内容、形成文献标识并赖以组织文献的依据。对检索人员来说,它是表达检索课题要求,借以同检索系统中已经存储的文献标识进行比较进而获得所需文献的依据。,2018/10/13,12,第章 信息检索原理,几个名词解释: 先组式检索语言:在实施检索前,索引词已被预先组配好来描述文献主题的一种索引语言。也就是说:在检索时,只能直接使用给定的索引词去查找文献,而不必对它再进行分解或组配,与“后组式索引语言相对。 标题语言、分类语言等都属于此类型。,2018/10/13,13,第章 信息检索原理,后组式检索语言:在实施检索前,索引词以单元词或概念因子的形式出现在索引或检索系统中
8、,直到检索是才组配起来使用的一种索引语言。与先组式索引语言相对。属于此类型的有单元词语言、叙词语言、语义代码等。,2018/10/13,14,第章 信息检索原理,特性检索:从具体事物或主题出发所进行的文献检索。广义地说,凡是狭窄范围内的检索皆可视为特性检索。(指某人、某事物所特有的性质:如我们讲一个民族的特性。) 族性检索:从学科、专业出发所进行的文献检索,是与特性检索相对的、范围较广泛的检索。属于体系分类法的各种检索语言的功能,主要都是满足族性检索的要求,2018/10/13,15,第章 信息检索原理,2.2. 信息检索系统实现信息检索的必备手段是信息检索系统。这种系统可以是提供手工检索使用
9、的书目、索引等检索书刊,也可以是计算机检索使用的数据库。 221 书目检索系统的内容组成一个完整的书目检索系统,不管是手工还是计算机检索系统,都有内容相当的基本组成部分,如下表:,2018/10/13,16,手工检索系统和计算机检索系统的内容组成,2018/10/13,17,第章 信息检索原理,2.2.2印刷型信息检索系统的类型 1目录 (Bibliography)目录是以单位文献为著录对象,即以文献独自名称作为一个完整的文献单位,如:一册图书的书名、一套书的总书名,一种期刊的名称等,都是以独立名称作为文献单位的名称。 目录的著录项目通常包括:出版名称、责任者(著者或编者或译者)出版项(出版者
10、、出版地、出版时间、版次等)和稽核项(页数、开本、价格)。,2018/10/13,18,第章 信息检索原理,G252.7人文社会科学信息检索教程/蒋永新等编著.2版.上海:上海大学出版社,2005.4(2005.11重印)150页 ISBN 7-81058-806-0.索书号(分类号) 书名项(题名项)/著者项(责任者项)/版本项(版本、版次)/出版发行项(出版地、出版时间)/稽核项(页数、标准书号、开本、插图、价格等)/提要项(内容提要)/附注项(指图书的附录),2018/10/13,19,第章 信息检索原理,目录按类型分:有图书、报刊、资料目录。 按目录种类分:有分类、著者、书名、刊名目录
11、。 按编制单位划分:有国家书目、出版社与书店目录、图书馆馆藏目录、联合目录。如:全国新书目等,2018/10/13,20,第章 信息检索原理,题录:是在目录的基础理上发展起来的,它与目录的主要不同点在于著录的对象不同。目录的著录对象是单位出版物,而题录的著录对象是单位出版物中的单篇文献。 例如:一本名为特种养殖研究的图书汇集了15篇研究论文。目录著录的对象是特种养殖研究一书,著录结果只有一条;而题录著录的对象则是15篇研究论文的每一篇,著录结果最多可达15条。,2018/10/13,21,第章 信息检索原理,题录的著录项目一般包括:题录号、文献题目、作者及工作单位、出处(如期刊名称、出版年、卷
12、、期、页次)、原文文种、主题词、文中所附图表数及参考文献数等。 例如:信息技术对公共行政的影响论纲/赵少庆/新疆社会科学院社会关系研究所/国家行政管理学杂志,2005,12(5):345-347,2018/10/13,22,第章 信息检索原理,文摘:是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。文摘的著录对象可以是一本书、一种会议录、一件专利、标准或一份科技报告,还可以是期刊中的单篇文章,或一种会议录中的某个章节或某篇论文。,2018/10/13,23,第章 信息检索原理,文摘的著录款目按其著录对象的
13、不同略有差别:期刊论文的款目包括:文摘号、题名、著者、著者所在单位、刊名与国别、卷期、页次、出版年月、摘要、参考文献数。图书、专利、科技报告、会议文献的著录款目与期刊论文的款目相比仅没有期刊名、卷期。,2018/10/13,24,第章 信息检索原理,文摘就其摘要的详略程度,可分为指示性文摘、报道性文摘、指示报道性文摘。指示性文摘。亦称简介,是对文献标题加以补充说明。通常以简介文献的论题范围、研究目的为限,不直接摘录原文的论点和重要数据,字数一般在100-200之间。报道性文摘。它以揭示原文的论点和重要数据,特别是以原文论述的主题实质为宗旨,读后可以比较确切地了解文献的主题内容。多为400-80
14、0字。指示报道性文摘是上述两种文摘形式的结合,即对原文的主要部分作详细报道,对次要部分作简略介绍。,2018/10/13,25,第章 信息检索原理,4索引 (index)。索引是对一组信息集合的系统化的指引。索引一般只起指引特定信息内容及其存储地址的作用。索引条目通常有三个著录项:标目(标识heading)、说明语和存储地址。 索引是将图书和期刊等文献中的一些重要的、有检索价值的知识单元,如主题词、分类号、著者姓名、题名等,根据需要一一分析摘录出来,并注明它们所在的地址(页码或文献号),再按一定的顺序编排组织起来的一种工具。,2018/10/13,26,第章 信息检索原理,索引的类型 索引的类
15、型很多,按使用范围可分为:通用索引(著者、主题、分类、题名索引等);专用索引(文献序号索引、分子式索引等)二类。,2018/10/13,27,第章 信息检索原理,2.3文献信息检索的方法1明确检索要求,分析课题涉及的概念 2. 选择检索系统(有手检国内、国外工具刊物表)3. 确定检索途径和检索策略(1) 检索途径的选择。常见的文献检索途径主要有反映内容特征的分类(通过族性角度)、主题(特性角度)两个途径和反映外表特征的著者、号码、引文三个途径。 (2) 检索策略的确定。 我们在着手检索之前,应先制定检索策略。所谓的检索策略,就是在分析提问实质的基础上,提出的一个合理的检索方案。 4. 实施检索
16、以及调整检索策略,2018/10/13,28,第章 信息检索原理,2.3.1文献信息检索方法的类型1按照检索工具使用与否区分的检索方法类型按使用检索方法一般分直接检索法和间接检索法两种: 直接检索法即直接从报刊杂志中通过浏览的方法从中获取所需信息的一种方法。间接检索法即通过检索工具的指引进行查找,获取所需信息的一种方法。,2018/10/13,29,第章 信息检索原理,2按照所使用的检索工具区分的检索方法类型 按照检索检索工具的检索方法类型通常有追溯法、常用法、综合法、浏览法 (1) 追溯法。是利用文献末尾所附的参考文献。由一变十、由十变百地进行追溯查找,此法在缺少检索工具和检索工具不全的情况
17、下,可以说是一种比较好的检索方法。 使用这种方法应注意:首先,找一篇比较有权威而又较新的文献,否则所附的参考文献质量不高。其次,在参考文献中应加以选择,继续查找与自己的研究课题较为密切的参考文献。,2018/10/13,30,追溯法原始文献,2018/10/13,31,追溯法原始文献所附的参考文献,2018/10/13,32,第章 信息检索原理,(2) 常用法。它是利用文摘、题录或索引等各种检索工具来查找文献的方法,也称工具法。由于这种方法是目前查找文献中最常用的一种方法,所以叫常用法。常用法又分为:顺查法、倒查法、抽查法三种方法。 顺查法:使用检索工具由远及近逐年地查阅。此法能保证查全率,但
18、很费时。例如,某项科研课题“生物能源的战略地位及其发展前景”按照“顺查法”应从何年查起呢?,2018/10/13,33,第章 信息检索原理,倒查法:也可以叫逆查法。使用检索工具由近及远逐年查阅,直到查得所需文献为止。此法查全率较高,且较省时间。如:“克隆技术的出现及应用”, (3) 综合法:交错使用追溯法和常用法两种方法称之为综合法。也称为循环法或交替法。 (4)浏览法浏览法是在直接浏览各类信息源的过程中获取所需信息的检索方法。,2018/10/13,34,第章 信息检索原理,232文献信息的一般检索步骤科学的检索步骤,是优化检索过程,有助取得最佳检索效率的切实手段。 1分析研究课题首先,对需
19、检索的课题进行分析研究,明确检索的目的和要求。 2选择检索工具或检索系统不同种类的检索工具总是针对不同检索要求编制的,如需了解文献线索可通过书目索引和文摘(及各类数据库)等,因此,选择合适的检索工具是关键的一步。,2018/10/13,35,第章 信息检索原理,3确立检索途径和方法a、在手工检索条件下,文献的内容特征和外部特征都是检索的出发点。检索工具所提供的检索途径主要有: 分类途径 主题途径 题名途径 著者途径 代码途径以及其他特殊途径。b、在计算机检索条件下,编写检索逻辑表达式。选择检索方法时:首先要看检索条件,其次看检索要求,,2018/10/13,36,第章 信息检索原理,4 实际进
20、行查找,获取所需文献获取原始文献是检索文献的最后一个步骤,也是至关重要的一个步骤。 获取原文的方法有三:首先,判断文献的出版类型。根据文献出处中已有的信息,判断其出版类型;其次整理文献出处。将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。再次,根据出版类型在图书馆或情报所查找馆藏目录或联合目录确定馆藏,进而索取原文。,2018/10/13,37,第章 信息检索原理,6、文献检索步骤在科技文献信息的检索过程中,根据既定的课题,系统地查找所需求的文献信息,其主要的程序为:课题 课题分析 -确定检索工具-选择检索途径-阅览二次文献-获取原始文献。,2018/10/13,38,第章 信息检索原理
21、,2.1.5 检索效果评价检索效率就是利用检索系统(或工具)开展检索服务时产生的有效结果。所谓检索效果(retrieval effectiveness)是指检索结果的有效程度。在检索过程中,在检索系统中参加检索的全部文献可分成“有关”、“无关”、和“查出”、“未查出”四个量,这四个量又可划分为“用户相关”和“系统相关”两类。,2018/10/13,39,第章 信息检索原理,图中:a表示查出的“有关”文献,b表示查出的“无关”文献,c表示未查出的“有关”文献,d表示未查出的“无关”文献。 检索系统检索效果的关系表,2018/10/13,40,第章 信息检索原理,衡量检索效果的指标有很多,其中最重
22、要,也是最常用的是查全率和查准率这两个参数。检索效果评价中的主要指标是查全率和查准率。 查全率(Recall Ratio)是指检出的相关文献数与库内相关文献总数之比。又称“检全率”、“命中率”。查准率(Precision Ratio)是指检出的相关文献数与检出的文献总数之比。又称“检准率”、“相关率”。,2018/10/13,41,第章 信息检索原理,1、查全率与查准率的分析查全率(Recall ratio,简写为R)是检索系统在进行某一检索时,被检出的相关文献量与系统文献库中相关文献总量的比率,可用下式表示:检出相关文献量 查全率(R)= 100%检出文献总量0R1,当R=1时,查全率达到最
23、大值,即检出相关文献数量与文献库中相关文献总数量相等。当R=0时,查全率为零,即未检出相关文献。,2018/10/13,42,第章 信息检索原理,查准率(Precision ratio,简写为P)是系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,可用下式表示:检出相关文献量 查准率(P)= 100%检出文献总量0P1,当P=1时,查准率达到最大值,即检出的相关文献数量与检出文献总数量相等;当P=0时,查准率为零,即未检出相关文献。,R,0,P,查全率R与查准率P的关系曲线,C,A,D,B,C.W.Cleverdon(英)进行 Granfield试验,得出 查全率R与查准率P曲线。R
24、P之间存在着互逆关系 A点 检索词数量多,泛指性强, 查全率较高但查准率却非常低 B点 检索词专指性较强,查准率就高 查全率因此降低 C,D两点 两种极端的折衷。 查全率一般在6070 查准率一般在4050无论怎样调整检索策略和改进系 统效率,都无法使P和R同时接近100。,2018/10/13,44,第章 信息检索原理,从检索系统角度来看,在文献检索时,参加检索的全部文献可以分成两部分:一部分与检索提问相匹配,就会被检索出,称为被检出文献;另一部分与检索提问不匹配,就不会被检出,称为未检出文献。 252 提高检索效果的措施一般地说,提高检索效果的措施有两项,一是选择质量较高的检索系统;二是提
25、高检索者的检索水平。,2018/10/13,45,第章 信息检索原理,25 信息检索语言 检索语言是用来描述文献内容特征、外表特征和表达情报提问的一种人工语言。检索语言可分为描述文献外部特征和描述文献内容特征两大类型。描述文献内容特征的可分为:主题途径、分类途径检索标识系统;描述文献外部特征的则有:责任者途径、题名途径、代码途径、引文途径等检索标识系统。,2018/10/13,46,第章 信息检索原理,2.5.2分类检索语言分类检索语言,它是根据文献信息内容的学科知识属性,按知识分类原理进行系统排列并以代表类目的数字、字母符号作为文献主题标识的一类信息检索语言。分类法特征在于按学科知识的体系展
26、示其层次和框架,用类号来标引识别各种概念。在实际使用的检索工具中,等级列举体系分类标识系统是常见的分类法。,2018/10/13,47,第章 信息检索原理,分类途径检索原理 从分类途径检索(同时它也是一种族性检索)文献的检索步骤一般为:分析待查课题的主题内容,根据主题内容在类目索引中找到相应的类目,在分类表中提取分类号。在相应的检索工具中用分类号检索所需的文献,再根据所需要的文摘提供的出处查找原文。从分类途径的检索步骤可见,获取课题的分类号是检索的关键。,2018/10/13,48,第章 信息检索原理,所谓分类法(具有族性检索的特点)就是按照文献信息的内容、形式、体裁和读者用途等,根据科学学科
27、之间的逻辑归属关系, 采用层次型或树杈型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的代码,从而形成的类表。因此,分类法通常是指一种从总到分、从一般到具体、层层划分、逐级展开并具有某种符号代码体系的知识体系表。,2018/10/13,49,第章 信息检索原理,常见的国内通用分类法有:中国图书馆图书分类法(简称中图法)、中国图书资料分类法(简称资料法), 国外通用的分类法有:杜威十进分类法(DDC)、国际十进分类法(简称UDC)和美国国会图书馆图书分类法(简称LCC)等。,2018/10/13,50,中图法将图书分为马列、哲学、社会科学、 自然科学、综合五基本部类。将人类
28、知识分为22个大类。类目展开之式如图所示 检索标识即分类号,由字母和数字组成 采用等级列举表达从属关系 上位类目与下位类目的关系:上位类目一定包含各个下位类目,下位类目一定带有上位类目的属性。 分类号越长,表示的学科范围越窄。 为了清楚醒目, 通常分类号的第三位数字后,隔 以.,如F279.712,TQ032.4,第章 信息检索原理,R,S,T,医药、卫生,农业科学,工业技术,社会科学,自然科学,机械、仪表,建筑科学,综合,一般工业技术,矿业工程,石油,冶金工业,无线电、电子学、电讯技术,自动化计算,化学工业,轻工业、手工业,金属学,武器工业,动力工程,原子能技术,电工技术,水利工程,图3 1
29、 中 图 法 展 开 图,2018/10/13,52,检索语言分类法中图法,O 数理化 一级类目O1 数学 二级类目O3 力学 二级类目O31 理论力学 三级类目O311 运动学 四级类目.1 质点运动 五级类目O4 物理学 二级类目,2018/10/13,53,中国图书馆图书分类法类号和类目示例 O1 数学 O11 古典数学O12 初等数学O13 高等数学总论性著作入此; 专论入以下有关类 例:微积分入O172 O15 代数、数论、组合理论151 代数方程式论、线性代数.1 代数方程式论.2 线性代数 参见O241. 6.21 矩阵论.26 线性代数的应用152 群论O3 力学O31 理论力
30、学O311 运动学.1 质点运动,2018/10/13,54,第章 信息检索原理,分类法途径的特点:它体现了学科的系统性,便于从学科或专业的角度出发进行族性检索,但体系分类是先组式检索语言,缺乏进行多概念灵活组配的能力。,2018/10/13,55,第章 信息检索原理,索书号又称为排架号反映了某种图书在整个图书组织中的排列次序和在书库中的具体位置(架位) 组成:分类号书次号分类号:按学科分类图书书次号:同类书的排列,2018/10/13,56,第章 信息检索原理,2.4.2 课题的一般分类方法 1. 单概念课题的一般分类方法所谓单概念课题是指课题涉及主题概念只有一个。例如:“函数”、“齿轮”等
31、都属于单概念。 从分类角度查找文献的基本方法是:了解分类表的体系结构,重点掌握大类的分布,在相关的大类中,由大而小,逐步查找最接近于课题要求的类号。 2.多概念课题的一般分类方法涉及两个或两个以上概念的课题即为多概念课题。如:“计算机在机械工程方面的应用”(含“计算机”、“机械工程”两个概念。,2018/10/13,57,第章 信息检索原理,应注意以下几点: (1)对于涉及同一研究对象的几个方面或者涉及几个并列研究对象的课题,凡是有主次者,应取其重点或主要研究对象归类。(2)研究一种理论、方法、工艺、材料、设备、产品等在某方面应用或对某方面影响的课题, 应在所应用或受影响的类目中查找。,201
32、8/10/13,58,第章 信息检索原理,3. 关于上位类标引方法这种归类法是一种特殊的分类方法。它适应于欲查课题无现成类目或无符合要求的专指类目时,可以归入它从中分化出来的上位类。这种分类方法的关键是确定上位类号。 2.5.3 主题检索语言是从文献中有代表内容实质的主题词入手检索文科文献的一种检索途径。它是以规范化词语作为检索标志,打破了传统学术分类的框框,能把分散在各个学科的有关某一问题的文献资料集中同一主题下。它能满足特性检索的需求。,2018/10/13,59,第章 信息检索原理,它的编排形式是按主题词的字顺编排,查找方便、直观、不受学科从属关系的约束, 主题法标识系统,按其选用的主题
33、词的性质不同,可划分为标题词标识系统、关键词标识系统、单元词标识系统和叙词标识系统。其中,标题词标识系统属于先组式检索标识系统,单元词标识系统、叙词标识系统和关键词标识系统属于后组式检索标识系统。常用的主题语言是关键词语言和叙词语言两种。,2018/10/13,60,第章 信息检索原理,1 关键词关键词是一种自然语言性质的主题语言。其原理是:它只将出现在文献的标题(篇名、章节名)以至摘要、正文中、对表达文献主题内容具有实质意义的关键词排在检索入口,同时提供文献地址(即正文中文献顺序号)以满足检索者的检索要求。关键词属自然语言。如:“光学纤维传感器”这个课题可分成“光学”、“纤维”、“传感器”。
34、,2018/10/13,61,第章 信息检索原理,关键词运用具有如下特点:直接从题名或文摘、正文中抽取关键词,不编制受控词表,不进行词汇控制,不显示词与词之间关系,进行关键词轮排,以增加检索入口 关键词索引的种类目前有六种:1、题内关键词索引; 2、题外关键词索引;3、双重关键词索引; 4、单纯关键词索引;5、词对式关键词索引;6、简单关键词索引。,2018/10/13,62,第章 信息检索原理,2 叙词叙词是以规范化科学名词为基础的一种主题法检索语言。所谓叙词是从自然语言中优选出来的经过规范化后的名词术语。所谓规范化,是指对自然语言中的同义词进行优选,对词的不同形式进行归一。对近义词进行合并
35、。即一个概念只用一个标题词来表达,排除多词一义的现象。例如:“玉米”又叫“苞米”、“苞谷”“玉蜀黍”、“玉茭”、“棒子”等,对多义词进行注释,即一个标题词只表达一个概念。排除一词多义的现象。例如“茶”既可以表示一种树木(植物),又可表示一种饮料。,2018/10/13,63,第章 信息检索原理,叙词语言其原理是:按主题集中文献;用经过规范化的语词来组配描述文献主题;用参照系统间接显示主题之间的相互关系;用字顺序列直接提供主题检索途径。 叙词语言的体现形式是叙词表。国内外常用的叙词表主要有我国许多文摘检索刊物使用的汉语主题词表。 2)叙词表的结构:叙词表是叙词的汇编,它是进行文献主题标引和主题检
36、索的依据,一般由一个主表和若干个索引组成。,2018/10/13,64,第章 信息检索原理,汉语主题词表的卷册划分如下: 第一卷 社会科学第一分册 主表(字顺表)第二分册 索引 第二卷 自然科学第一至第四分册 主表(字顺表)第五分册 词族索引第六分册 范畴索引 第三卷 附表,2018/10/13,65,第章 信息检索原理,格式如下: 汉语拼音 词目一: Wei sheng su B que fa bing 款目叙词 维生素B缺乏病 英文译名 Vitamin B deficiency 参照项(代) D 糙皮病 非叙词 参照项(分) F 维生素B1缺乏病 下位叙词 参照项(属) S 维生素缺乏病
37、上位叙词 参照项(族) Z 营养缺乏病 族首词 参照项(参) C 多发性神经炎 相关叙词,2018/10/13,66,第章 信息检索原理,等同关系参照项:“用(Y)”就是从非正式主题词指引到正式主题词。“代(D)”则是从正式主题词指引到非正式主题词,也就是指明叙词所代替的非叙词。如马铃薯(叙词) D土豆土豆(非叙词) Y马铃薯,2018/10/13,67,第章 信息检索原理,等级关系参照项:“属(S)”项是指明该词的上位概念是什么:“分(F)”项则是指明下位概念有哪些词,如肥料(属概念) F 氮肥、钾肥氮肥(分概念) S 肥料钾肥(分概念) S 肥料叙词法的特点:使用的是规范化的单词、词组;概
38、念组配;,2018/10/13,68,第章 信息检索原理,2.6 著者检索原理 著者途径是根据已知文献著者姓名来查找文献的途径。文献的著者包括 个人著者:以著者姓名为标目,后附存贮地址(文献顺序号或专利号) 团体著者:以组织机构的名称为标目,后附地址。,2018/10/13,69,第章 信息检索原理,2.6.1 著者索引的排序方式1著者索引是按著者姓名的字顺排列,检索者如了解排列规则,可提高检索速度。在著者索引中,姓名倒置排列。如:Arrow BSmith (阿罗史密斯)著录为:Smith, Arrow.B.,2018/10/13,70,第章 信息检索原理,2同姓名著者,先按名字的首字母顺序排
39、列,不全者排在全者之前,单名排在双名之前,简名排在全名之前。如:Smith, AmeySmith, A.A.Smith, Alice Amey3复姓作者,将复姓作整体看待。如:Margaret Martin-Smith著录为:Martin-Smith, Margaret. 4团体著者也同个人著者一样,按团体单位名称的字顺排列。另外,以个人姓名命名的公司名称,个人姓名也应倒置。如:Wlliams,John W,Co,2018/10/13,71,第章 信息检索原理,2.6.2 著者索引的常见问题1在著者索引中,有时对同一著者的姓名有不同的表示法。例如:Author IndexEiOppenheim
40、, A.V. 116704Oppenheim, Alan V. 000673这是因为著者在不同原始文献中使用不同署名而引起的。2中国著者姓名音译问题 中国著者姓名和团体机构名称,一般按汉语拼音直接音择。如:Shanghai Daxue 上海大学Li Ming 李明但是,有的检索工具中也有使用威妥码拼音方法著者姓名的,例如Lee Ming。,2018/10/13,72,第章 信息检索原理,中国古籍四部分类法类目介绍古籍(也称古书)划分以公元1911年为限。(也有一种说法是“五四”以前为划分界限) 我国古代有一套根据学术渊源、著述流派制订出的图书分类法,这就是我们要讲的经、史、子、集四部分类法。唯
41、独作为第一部的经部,是很特殊的。 史部相当于现代学科中的史学;子部相当于哲学、科学两个学科;集部相当于文艺这一部类。,2018/10/13,73,第章 信息检索原理,在西汉时,目录学家刘向、刘歆在整理从全国征集的文献的基础上完成七略,将当时的文献分为六大类:六艺略、诸子略、诗赋略、兵书略、数术略和方技略。晋代改为四部。隋书经籍志以经史子集的名称标志四部书籍,发展至清代,形成成熟的四部分类体系,以四库全书总目为代表。,2018/10/13,74,第章 信息检索原理,四库全书的分类项目,我们把四部及其所属的四十四个细目分列如下:经部十类:易、书、诗、礼、春秋、孝经、六经总义、四书、乐、小学(有训诂、字书、韵书三属类)史部十五类:正史、编年、纪事本末、别史、杂史、诏令、奏议、传记、史抄等(省略)子部十四类儒家、兵家、法家、农家、医家、天文算法、术数、艺术、谱录(省略) 集部五类楚辞、别集、总集、诗文评、词曲。,