收藏 分享(赏)

文献检索与科技论文写作课件_第二章 计算机检索基本原理.ppt

上传人:精品资料 文档编号:11276377 上传时间:2020-03-08 格式:PPT 页数:39 大小:1.29MB
下载 相关 举报
文献检索与科技论文写作课件_第二章 计算机检索基本原理.ppt_第1页
第1页 / 共39页
文献检索与科技论文写作课件_第二章 计算机检索基本原理.ppt_第2页
第2页 / 共39页
文献检索与科技论文写作课件_第二章 计算机检索基本原理.ppt_第3页
第3页 / 共39页
文献检索与科技论文写作课件_第二章 计算机检索基本原理.ppt_第4页
第4页 / 共39页
文献检索与科技论文写作课件_第二章 计算机检索基本原理.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

1、第二章 计算机检索基本原理,1计算机检索系统 2计算机检索的基本原理与技术 3计算机检索策略及其调整,1计算机检索系统,1.1计算机检索系统组成计算机硬件,计算机软件,数据库 1.2数据库 1.2.1定义:包含书目以及与文献有关数据的机读记录的有组织的集合。机读记录是文献的代替物,一条记录对应一篇文献,数据库由若干条记录组成。 1.2.2类型 1.2.3构成,1.2.2文献数据库类型(据数据库所含信息内容 ),1)文献数据库:存储文献型数据,如一次文献或二次文献 书目数据库(二次文献数据库):包括各种文摘、索引、目录。存贮某个领域原始文献的书目。组成记录的 字段一般有文献的标题、作者、出处、文

2、摘、主题 词等。 全文数据库:存贮文献全文或其中主要部分的数据库。能使用户获得最终的一次文献。 2)源数据库:存储事实、数值、概念、图形等非文献数据的数据库,数值数据库:提供以数值方式表示信息的一种源数据库,其检索结果可能只是单一的值或一组数据。数值数据库能提供产品价格等数值信息,也可提供物质的物理化学性质、结构、频谱等数据。 事实数据库:自原始文献或社会调查中获得并经过处理的各种事实,如机构、人物、产品、资源等数据。常见的有指南数据库、产品数据库等。 概念数据库:库内存储各种名词术语或语言资料,如词典数据库、语料库等。 多媒体数据库:将各种类型的信息集中在CDROM上,是视频、音频、文字、图

3、像、动画等的集合体,如一些互动性的百科全书。,1.2.3数据库的构成,1)记录:是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库由若干条记录构成。每条记录相当于文摘型或题录型检索刊物的一条著录款目。文献记录格式(以Dialog系统中EICompendexPlus数据库为例)如下:,AN DIALOG NO:03883137 EI Monthly NO;EIP94031231114 TI Title:LaserLight imaging for underwater use AU= Author:Caimin,Frank M SO= Source:Sca Technology,V3

4、4 NO12 Dec1993P22-27 PY= Publication Year:1993 CO,SN=CODEN:SEATAD ISSN:0993-3651LA= LanguageEnglish DT,TC=Document Type:JA(Joumal Article);Treatment code X(Experimental); AB Abstract:Conventional undersea imaging limitationsave Pointed out and several imaging systems are described,in particular the

5、range galed imaging,fieldlimited imaging,and 3-D Structured inter ferometric illumination systemsDE Description: * Imaging techniques: Laser application;engineering;VisionID Identifiers:Laser light imaging;Underwater technologyCC= EI Classification Codes;,AN:Dialog存取号(Dialog Access Number)。在一个数据库中,每

6、条记录只有一个存取号,两者一一对应。 TI:篇名字段(Title)。 AU=:作者字段(Author)。 CS=:作者所在单位字段(Corporate Source)。 SO=:文献来源字段(Source Publication)。包括期刊名称、年,卷、 期、页等,或包括会议事项。 PY=:出版年份(Publication Year)。 CO=:期刊代码字段(CODEN)。 LA=:语种字段(Language),表示原文的语种。,DT:文献类型字段(Document Type)。 TC=:处理码字段(Treatment Code)表示论文的性质,A表示应用,X表示实验,T表示理论,等等 AB:

7、文摘字段(Abstract)。 DE:叙词字段(Descriptor),选自叙词表、主题词表中的词。 ID:自由标引词字段(Identifier),非系统词表中的词,由标引人员确定。 CC=:分类代码字段(Classification Code)。 对于不同检索系统、不同数据库来说,其记录格式、字段代码、字段数目可能不完全相同。,2)字段:是文献记录的基本单元。一条记录有若干个字段,一个字段有时还可分为几个子字段(Subfield)。在书目数据库中,一条记录应包含原始文献的篇名、作者、刊名、出版时间、分类号、文摘、主题词等字段。数据库的字段可分为基本字段和辅助字段:基本字段主要是描述文献内容特

8、征的字段,如篇名、文 摘、叙词、自由标引词等字段;辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段。,3)文档(File):若干条逻辑记录构成的信息集合。文档 是书目数据库和文献检索系统中数据组织的基本形式。根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。,顺排文档:是按文献记录的输入顺序(即文献序号)排列的文档。相当于印刷型检索工具的正文部分。 在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存取号愈大,对应的记录就愈新。由于它存贮有记录的最完整的信息,所以,通常又把它称之为主文档(Master File)。 这种存贮方式决定

9、了对记录的存取只能按顺序进行。如果在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描,存贮的记录愈多,扫描的时间愈长,从而严重影响了检索的速度。 主要供用户输出和打印文献记录用。,倒排文档:把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。倒排文档实际上相当于印刷型检索工具中的辅助索引。倒排文档与顺排文档的区别:顺排文档以完整记录作为处理和检索的单元,倒排文档以记录中的字段作为处理和检索的单元。,2 计算机检索的基本原理与技术,2.1检索原理,2.2检索功能,布尔逻辑检索功能 词间位置检索功能 截词检索功能 限定字段检索功能 禁用词 其他功能,1)Boolean Searc

10、h(布尔逻辑检索),逻辑“与”:AND ;and;*,A and B;A*B,定义:用于交叉概念或限定关系的组配,即被命中的文献必须同时含有检索项A和B。 作用:可缩小检索范围,提高查准率。 要求:运用时,把出现频率低的检索词置于“与”的左端,可使否定答案尽早出现,节省机时。,1)Boolean Search(布尔逻辑检索),逻辑“或”:OR;or;+,A or B;A+B;computer or robot,定义:表示两个概念的并列,即被命中的文献含有两词之一或同时包含两词。 作用:可扩大检索范围,提高查全率。 要求:组构检索式时,可将估计出现频率高的词置于“或”的左面,可使选中的答案尽早出

11、现。,1)Boolean Search(布尔逻辑检索),逻辑“非”:NOT;not; -,A not B;A-B;,定义:表示两个概念的排除,即被检索文献在含有检索词A而不含有检索词B时才被命中。 作用:用于排斥关系的组配,即从原来的检索范围排除不需要的概念或影响检索结果的概念,提高查准率。 注意:往往会把切题的文献给丢掉,运用时要非常慎重。,2)位置检索:,表达检索词之间位置关系的一种检索 位置算符,(W)与(nW)(W)算符是“word”或“with”的缩写,表示此算符两边的检索词词序不能颠倒,两个词之间可有一个空格、或一个标点符号、或一个连接号;(nW)则表示两个检索词之间最多嵌入n个词

12、。,位置算符,例如,检索“CD-ROM”,可用 CD(W)ROM;,而用price(2W)inflation , 则可能检出price levels and inflation。,位置算符,(N)与(nN)(N)算符是“near”的缩写,表示此算符两边的检索词必须紧密相连,此间不允许插入其他单词或字母,但词序可以颠倒,而(nN)算符则表示在两个检索词之间最多可以插入n个单词,且词序可以颠倒。如: economic(2N)recovery,可以检出:economic recovery, recovery of the economy, recovery from economic trouble

13、s。,位置算符,(X)与(nX)(X)算符要求其两边的检索词完全一致,并以指定的顺序相邻,中间不允许插入任何单词或字母;(nX)算符则表示两边的检索词之间最多可以插入n个单元词,但两边的检索词也必须一致。,词位置检索是很有用的检索技术,它可以规定词组中各词的前后次序,防止错误的搭配和输出;它也可以替代词组中的禁用词。DIALOG系统有9个禁用词:AND、FOR、THE、AN、FROM、TO、BY、OF、WITH,如果在编制检索式时碰到禁用词,就要用词位置算符代替它。,3)截词检索:*;?,定义:允许检索词有一定范围的变化。检索时将截词符置于检索词允许变化的部位,只要检索词和标引词的词干相同即为

14、命中文献。 作用:减少检索词的输入量,扩大检索范围 ,提高检索效率。 注意:使用截词检索必须慎重,一是词干不要太短,以免检出许多与原来检索词不相关的文献记录,二是英美不同拼法的词,如变化字母数不同则不能使用中间截词检索,必须详细写出并用OR组配后输入。,分类: 按截词位置:前截断;后截断;中间截断 按截词方式:无限截词;有限截词;中间截词,前截断:将截词符放在词根前边,后方一致,表示在词根前方有有限个或无限个字符。如*magnetic 能够检出含有magnetic、ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致,表示在词根后方有有限个或无

15、限个字符。如metal*,能够检出含有metal、metals、metaled、metalist等词的记录。 中间截断:将截词符放在词的中间,词的前后方一致。如colo*r,能够检出含有colour、color的记录。,无限截词:指允许截去的字符数量不限,也称开放式截断。如前截断和后截断 有限截词:允许截去有限个字符。如dye*(n*) ,能够检出含有dyer、dye、dyed、dyeing等词的记录。 中间截词:如中间截断。,4)限定字段检索:,定义:将检索过程限定在记录的特定的字段中进行。 作用:缩小或约束检索结果 ,提高检索效率。 检索符号:in、 、 等。,computerTI,AB:

16、表示在TI和AB字段中检索computer。 AUWang fang and PY 2000:表示查找王芳于2000年以来发表的文章。,5)禁用词(stop words):,以下单词作为检索词时,系统将自动忽略并用空格取代之进行检索。also、an、and、are、as、be、been、between、both、but、by、did、from、has、have、into、not、of、or、should、some、such、than、that、the、their、them、themselves、these、they、this、those、through、to、using、were、when、w

17、hich、with、would,6)其他功能:,整体检索:在词组的两端加上“ ”,如“wheat powdery mildew” 优先级检索:在一个复杂的逻辑提问中,使用括号(单层或多层)来指定运算的先后顺序。(A*B+C)*(D+E)+F,3计算机检索策略及其调整,3.1计算机检索策略1)最专指面优先策略2)最少记录面优先策略3)积木型概念组面策略4)引文珠形增长策略5)逐次分馏策略 3.2计算机检索策略调整 扩检 缩检,1)最专指面优先策略:指在检索时,首先选择最专指的概念组面进行检索,如果检索命中的文献相当少,那么其他概念组面就不再加到检索提问式中去;如果检索命中的文献较多,就把其他概念

18、组面加到检索提问式中,以提高查准率。 2)最少记录面优先策略:与最专指面优先策略类似,即先从估计检中的文献记录数量最少的概念组面人手,如果检中的文献记录相当少,则不必检索其他概念组面,反之,则将其他概念组面加到检索提问式中去,提高检索结果的查准率。,3)积木型概念组面策略:把检索课题分解成若干个概念组面,并分别先对这几个概念组面进行检索,在每个概念组面中尽可能全地列举同义词、相关词、近义词,并用布尔算符“OR”连接成子检索式,然后再用布尔算符“AND”把所有概念组面的子检索式连接起来构成一个总检索式。,4引文珠形增长策略:从直接检索课题中最专指的概念组面开始,以便至少检出一篇命中文献。检索人员

19、从这一条或数条记录中找到新的规范词或自由词,补充到检索式中去,然后再检索就能重新查出更多的文献。 5逐次分馏策略:先确定一个较大的、范围较广的初始文献集,然后逐步提高检索式的专指度,从而逐步缩小命中文献集,直到得到数量适宜、用户满意的文献集合为止。,扩检时,即提高查全率时,调整检索式的主要方法有: (1) 选全同义词并以“OR”方式与原词连接后加入到检索式中。 (2) 降低检索词的专指度,从词表或检出文献中选一些上位词或相关词。 (3) 采用分类号进行检索。 (4) 删除某个不甚重要的概念组面,减少AND运算。 (5) 取消某些过严的限制符,如字段限制符等。 (6) 调整位置算符。,缩检时,即提高查准率时,调整检索式的主要方法有: (1) 提高检索词的专指度,增加或换用下位词和专指性较强的自由词。 (2) 增加概念组面,用AND连接一些进一步限定主题概念的相关检索项。 (3) 限制检索词出现的可检字段,如常限定在篇名字段和叙词字段中进行检索。 (4) 利用文献的外表特征限制,如文献类型、出版年代、语种、作者等。 (5) 用逻辑非NOT来排除一些无关的检索项。 (6) 调整位置算符。,Bessel function,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报