1、1) 信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关 信息的过程。所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检 索。狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。相当于我们所说的信息查 询(information search)。 2) 零次文献:也叫灰色文献,未经公开发表或未交流于社会的文献。如私人笔记,设计草图、实验记录、文章草稿、 会议记录、书信文书、以及档案等。其主要特点是内容新颖,但不成熟,不公开交流,难以
2、获得。 3) 一次文献(Primary Document): 以著者本人的研究或研制成果为依据而创作或撰写的文献,习惯上称做原始文 献。如期刊论文、科技报告、专利说明书、会议论文、学位论文等。体现创作性。其主要特点是内容新颖丰富, 叙述具体详尽,参考价值大,但数量庞大、分散。 4) 二次文献(Secondary Document): 就是检索工具。是将大量分散的无组织的一次文献经浓缩,整序的加工整理,编辑成目录、题录、文摘、 索引等检索工具或数据库。如文摘,目录、索引等。它有存贮、检索、报道的功能。体现高度的浓缩性。其主要 功能是检索、通报、控制一次文献,帮助人们在较少时间内获得较多的文献信息
3、。二次文献具有汇集性、工具性、 综合性、交流性等特点。 5) 三次文献(Tertiary Document): 在一、二次文献的基础上,经过综合分析而编写出来的文献,如专题述评、动态综述、学科年度总结, 进展报告以及数据手册、百科全书等参考工具书。三次文献是情报研究的产物和成果。具有很强的的综合性。 总之,一次文献(创造性),二次文献(有序化),三次文献(高度浓缩,提炼,再创造)。 6) 以上四个级别的文献中,零次文献由于没有进入出版、发行和流通这些渠道,收集利用十分困难,一般不作为我 们利用的文献类型。而后三种文献是一个从分散的原始文献到系统化、密集化的过程。 7) 一般来说,一次文献是基础
4、,是检索利用的对象。二次文献是检索一次文献的工具,也称之为检索工具。三次文 献是一次文献内容的高度浓缩,也是我们利用的一种重要资源。 8) (1)图书(book) 9) 凡篇幅达 48 页以上并构成一个书目单元的文献称为图书(Book)。图书阅读量占到 10%-14%。 10) 特点:系统、全面、成熟,出版形式比较固定,但出版周期长,传递情报速度比较慢。 11) (2)期刊(periodical,journal or magazine) 特点:出版数量大,周期短,内容新颖,能迅速反映国内外的各种学科专业的水平和动向。占阅读量的 65%。 期刊分为:月刊(monthly)、双月刊(bimonth
5、ly)、季刊(quarterly)、年刊(annuals)。 12) 1)学术性、技术性刊物,是科技期刊的核心部分。 刊名一般为:Acta(学报) 、Journals(杂志) 、annals(纪 事) 、Bulletin(通报) 、Transactions(汇刊) 、Proceedings(会刊) 、Review(评论) 、Progress;Advances in . (进展)等。 13) 2)快报型。Communication(通讯) 、letters(通讯) 、bulletin 等。 14) 3)消息性(newsy journals) 。news(新闻) 、news letters 等。i
6、v.资料性(data journals)。data、event 等。 15) 核心期刊: 中文核心期刊要目总览(2000)指出:“某学科(或专业或专题)的核心期刊是指该学科所涉及的期刊中,刊载 论文较多的(信息量较大的),论文学术水平较高的,并能反映本学科最新研究成果及本学科前沿研究状况和发展 趋势的,较受该学科读者重视的期刊” 。 这一定义从信息量、学术水平和读者三个方面对核心期刊进行较为全面的描述,但现实的核心期刊是并非这样, 而是有很大出人。 16) 情报专家研究,认为在本学科专业中,20%的期刊占据了 80%以上的有关信息,这就是核心期刊 17) (3)科技报告(sciencePQDD
7、 中的 W/n (两词间距小于 n个单词,且前后位置任意),Pre/n (两词间距小于 n 个单词, 且前后位置一定) 53) 3 截词算符(Truncating operators) 在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。 如果检索时将这类词全部输入进去,会增加检索时间和费用,采用截词法可解决这一问题。所谓截词检索,是指 在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标识的记 录全部检索出来。常用“?” 、 “*”符号表示。 54) (1)有限截词。即在检索词后后截几个有限的字母,如名词的单复数
8、,动词的词尾变化等。 如输入 computer? ?表示有 0-1 个字母变化,可检出 computer 和computers. 输入 stud?表示截断处有 0-3 个字母变化,可检出 study,studies,studied,studing. 55) (2)无限截断:在检索词后加一个“?“,表示该词后可加任意个字符。使用无限截词,所截词根不能太短, 否则会输出许多无关文献,造成误检。 如:c o m p u t e r ?可检出 computers,computering,computered,computerization. 56) (3)中间截断:在检索词中间加一个或几个?号,主要解
9、决一些英美拼写不同,单复数形式的不同的词的输入, 可简化输入。 如:输入wom?n 可检出 woman,women 57) 各种算符在数据库中的实际应用 位置算符 1)EI 58) NEAR Bridge NEAR Piling* 59) 表示这两个词要彼此接近,前后顺序不限。 60) W/n Pig*W/2pine*表示两个词的距离不能超过 n 个单词 61) Adj Channel adj tunnel 表示含有这两个词,两个词相邻,位置一定 62) 2)ISI Proceedings 用同句算符(SAME):如 Channel same tunnel,表示 channel 和 tunne
10、l 出现在同一句子 中才符合检索条件。 63) CSA within “X“ 64) 表示两词之间不得多于 x 个词,前后位置任意 如“women within 8 movement” (顺序不定) 65) 4)Elsevier: 66) ADJ 表示两词相邻,前后顺序固定,与“词检索“的结果相同;NEAR 或 NEAR(N) ,表示两词相邻,中间可插 入少于或等于 n 个单词,前后顺序可以发生变化,如果不使用(N) ,系统默认值为 10 5)PQDD 67) W/n (两词间距小于 n 个单词,且前后位置任意),Pre/n (两词间距小于 n 个单词,且前后位置一定) 68) 6)ProQu
11、est W/n(表示连接两个词之间可以插入 n 个词 ,前后位置可颠倒) 如:Education w/5 intenet 表示 education 和internet 之间可以插入 5个词 ,并且前后位置可以颠倒。 69) Pre/n(表示前后两词之间最多插入 n 个词,前后位置一定 ) 如:U.S pre/n economic policy 可检出 U.S aid economic policy,or U.S wartime economic policy 。 70) 截词符或通配符 71) 如:CSAISI ProceedingsProQuestCA 用通配符“?”和截词符“* ” 72)
12、 输入 “patent*” ,可以检索到 patent、patents、 patented 等, (无限截断) 73) 输入“wom?n“,可以检索到woman 和women。 74) 输入“fib?” ,可检索到fiber和 fibre。 (有限截断) 75) EI 用“* ” 和“$”(词根算符) 如:Optic*检索结果中包括以 optic 开头后面加任意 多个字母的词例如 optic, optics,optical 等 $manager(强调语义)检索出与该词根具有同样语意的词如 $manage 将检出 managers, managerial 和management 等词 通配符不能
13、用在检索词的最前面 76) 4 括号检索(Parentheses) 用于改变运算的先后次序,括号内的内容做优先运算。 用“( )”可以表示优先级。如比较 (GPS OR GIS)AND China GPS OR GIS AND China EI 中的表示方法:Relevance AND ( Aalbersberg WN AU)OR (cool WN AU) 77) 5、字段限制检索 组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。献书目型数据库的记录基本包括 下列字段: (1) 存取号字段(AN, Access Number)这是计算机检索系统为每个数据库的每篇记录规定的能被
14、计算机识别 的特定号码。在同一数据库中,每篇文献记录只有一个存取号; (2) 篇(题)名字段(Title Field, /TI) (3) 文摘字段(Abstract Field, /AB) (4) 叙词字段或受控词字段(Destriptor Field, /DE; 或 Controlled term Field-SU) 这一字段是标引人员 给文献标引的反映其主题概念的词,这些词来自规范化的词表。也称主题词。 (5)自由词字段或非受控词字段(Identified Field, /ID; Keyword Field , /KW ;Uncontrolled term Field) 这一字段也是标引人
15、员给文献标引反映其主题概念的词,但这些词不是规范化词表中的词。(6) 著者机构子段 (corporate source,CS 或 AF) (7) 刊名字段(journal,JN 或ST) (8) 出版年子段(publication,year,PY) (9) 文献类型子段(ducument type,DT或 TY) (10) 语种子段(language,LA) (11) 分类号子段(classification,CC) 78) :作者检索的缩写形式: 在 SCI 中, 姓 (全称)空格 名(首字母并且连写)如:LI DR;GONG JY 在 EI 中, 姓名就比较复杂,一般有以下几种情况:姓名都
16、用全称(姓前名后) ;姓全称名缩写(或名之间用连字 符) ;名前姓后全称 机构检索中 SCI 中有多个作者单位, 在同一字段中 EI 只收入第一作者的单位 多字段检索时要选所有字段(all field) 79) 使用作者检索时应注意姓名的书写形式:在 ISTP 中,姓前(全称) 名后(缩写):E,DC 80) 在 SCI 中, (1)姓 (全称)空格 名(首字母并且连写)如:LI DR;GONG JY; (2)名前(全称) ,姓后 81) 如:dongchen,e; e,DC 82) 在 EI 中, 姓名就比较复杂,一般有以下几种情况:姓 名都用全称(姓前名后) ;姓全称名缩写(或名之间用连
17、字符) ;名前姓后全称 83) 如 ke hengyu=ke heng-yu=ke,hengyu 84) ke,h.y.=ke,h-y;e,d.c. 85) hengyu ke;dongchen,e 86) 基本索引子段和辅助索引子段 一篇记录中主要用来表达文献内容的子段称为基本索引子段(basic index fields),如篇名子段、文摘子段、叙 词子段、自由词子段。 87) 表达文献外部特征的子段称为辅助索引子段(additional index fields),包括著者子段、著者机构子段、文献 类型子段、语种子段等。 88) 6 短语检索(phrase search)即精确检索 短语
18、用“”表示,检索出与“”内形式完全相同的的短语,以提高检索的精确度和准确度 89) 7 自然语言检索(natural language search) 直接采用自然语言中的字、 词、 句进行提问式检索, 同一般口语一样。 这种基于自然语言的检索方式又被称为 “智 能检索” ,适合不太熟悉网络信息技术的人员使用。支持自然语言检索的有中文的悠游,英文的 AltaVista, Excite,Infoseek,HotBot,AskJeeves 等 自然语言(关键词/题名即标题, 全文,引文,作者和摘要) 90) 8 多种语言检索 multilingual search) 提供多种语言的检索环境供用户选
19、择,系统按用户选定的语种进行检索并反馈结果,支持多语种检索的 如:中 文天网,英文 AltaVista,Google 等。 91) 9 模糊检索(fuzzy search) 又称概念检索。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义 相近的内容。比如:我们查找“查询”一词时,模糊检索会反馈来包含了“查询” 、 “查找” “查一查” 、 “寻找” 、 “搜索”等内容的网址。反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近的。现在大多数搜索 引擎都有这种功能,只是模糊的程度不同。 92) 10 字母大小写检索 如果用户的检索式用小写字母表示,搜索工
20、具既匹配大写又匹配小写,如:china(瓷器) ,china(中国) ;如果用 大写字母表示, 搜索工具认为用户指定了只要大写, 就只会查找那些与用户键入的输入形式完全相同的结果, 如: china,只检索出 china。Alta Vista等搜索引擎支持区分大小写的检索 93) 检索结果表明: 94) 检索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的选择等变化,对检索结果数量的多少、检 索的查全和查准有很大影响 95) 浏览方式 ( Browse ) 96) 一般包括作者、作者单位、出版物名称及出版社索引或者按学科划分的分类索引 97) 如:EI Elsevier CSA PRO
21、QUEST IEEEIEE 重庆维普以及中国期刊网等等都提供了各种不同的浏览 方式 检索方式 ( Search ) 98) 基本检索 (basicquicksimpleeasy) 99) 属于一般性的检索,它是根据自己的检索需要,输入字、词或简单的检索式(不能使用位置检索)来完成检 索的,是一种初级性的检索方式。 100) 高级检索 (advanceexpendfullexpert) 101) 属于专家性的检索,可以根据自己的检索需要,构件比较复杂的检索式(可以使用逻辑、括号、截词以及 位置算符)来完成高层次、高质量的检索,检索结果快速、准确。 102) 检索效果的评价 103) 查全率与查准
22、率是检索质量的两个重要的评价指标。 104) 查全率(recall ratio)=检出的相关文献量/检索系统中相关文献总量 即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。 查全率高说明有用的东西都 被你检中了,但对于数量巨大的数据库而言,要达到 100%的查全率是不可能的,在网络条件下尤其如此。 105) 查准率(precision ratio)=检出的相关文献量/检出的文献总量。指检出文献中合乎需要的文献数量占检出 文献全部数量的比例。 准确率高说明你检出的东西都是有用的东西。一般地说,很少能达到 100%的查准率。 106) 在查全与查准两个方面一般难以两全,为
23、了获得很多有用的东西(达到高的查全率) ,需要较少的限制检索 条件,但这样检出的无用的东西就会很多(查准率不高) ,反之亦然。在计算机检索中,一般认为查准率为 60 70、查全率为 4060是较为理想的。 107) n 为检索系统中文献总量,m 为检索输出的文献量,a 为 n 中与检索课题有关的文献量,b 为 m 中与检索课 题有关的文献量(检准文献量),则 n、m、a、b 之间的关系如图所示。 文献总量与检出文献之间的关系 令 R 表示查全率、P 表示查准率、M 表示漏检率、N表示误检率,则 R、P、M、N 定义如下: R=b/a*100 P=b/m*100 M=(1-b/a)*100=10
24、0-R N=(1-b/m)*100=100-P 在一个具有 1000 篇文献的试验性机检系统中检索某课题, 用一特定检索策略查该课题时输出文献 60 篇。经分析评估,发现该系统中共有该课题相关文献 50 篇,检出的文献中实际相关文献只有 30 篇,求查全率、 查准率、误检率和漏检率。 查全率=30/50*100%=60% 查准率=30/60*100%=50% 误检率=(60-30)/60*100%=50% 漏检率=(50-30)/50*100%=40% 四、 检索策略的实施技巧 检索策略:为实现检索目标而实施的方法。 计算机信息检索,实质上由计算机将输入的检索策略与系统中存贮的文献特征标识及其
25、逻辑组配关 系进行类比、匹配的过程。由于信息需求本身具有不确定性,加之对数据库中的文献特征标识不能充分了解,以 及系统功能的某些限制,都会不同程度地影响检索效果。但是只要遵循一定的检索步骤,制定良好的检索策略, 便可以减少各种不利因素的影响,尽可能地使检索提问标识与信息需求和检索系统保持良好的一致性,从而在系 统中检索出满足用户需求的信息。 信息需求是人们客观上或主观上对各种情报信息的一种需求。这种需求是人们索取情报信息的出发 点,也是计算机信息检索时选择数据库、确定检索策略以及评价检索效果的依据。 不同类型的课题,其信息需求的范围和程度也不尽相同。例如,申请发明、申报成果奖励、鉴定及 立项类
26、的查新课题,往往需要全面地收集某一主题范围的文献信息,这类课题具有普查、追溯的特点,应着眼于 查全;而对于科研、生产中为解决某一特定问题的攻关课题,往往只要求检出的信息对自己的研究有所帮助,而 对查找的文献范围不需要很广。因此,这类课题则要求查准。 检索策略制定的原则: (1)快,即从检索请求的提出到检索结果的提交要快速: (2)准,即检索结果要准确,避免检索出过多无关内容; (3)全,检索结果全面,满足用户的需求; (4)效益原则,即以最低的费用获取所佳的信息。 五、 计算机信息检索的具体步骤 1 分析检索课题,制定切实可行的检索策略 (这是检索的出发点,依据) 2 利用检索系统特定的指令正
27、确实施检索 3 通过人-机对话的方式不断调整、修改、 检索策略 4 根据查找的文献线索获取原始文献 1、认真进行课题分析,制定切实可行的检索策略 (1)分析主题内容,确定正确的检索词(关键词或主题词) (2)正确选择各种算符,如逻辑算符,位置算符,截词符,字段限定符等,编制合理的计算机检索式。 (3)分析学科范畴,以便确定所要检索的学科领域,提高查全率。 (4)确定检索年代、文献类型 明确检索需求,即弄清检索目的及要解决的问题。用户的检索目的和要求是多种多样的,是撰写学位论 文,还是申报科研课题,是技术革新还是成果鉴定,目的不同,检索的策略和范围也不同。检索需求主要反映在 用户对命中文献的类型
28、、语种及所需文献的年代等不同 (5)选择检索方法(常用法、追溯法和循环法) 常用法:顺查法(顺着时间的推移由远及近的查找) 倒查法(由近及远的往前追溯查找) 抽查法(根据学科发展的时代背景,发展的高峰期查找) 追溯法:参考文献法(根据所附参考文献的出处追溯检索) 科学引文法(通过被引用作者查找引用作者的文献)如: ARIKAWA K 80 NATURE 268 700 KATAGIRI N J ELEC MICR 39 363 90 87 J COMP PHYSL A 161 1161 STOWE S CELL TIS RE 262 483 90 87 NATURWISSENSCHAFTEN
29、74 297 SHIMOHIG M CELL TIS RE 263 46 91 循环法:常用法和追溯法的结合 (6)确定检索的信息源(包括中外文数据库和网络资源等) 在分析检索课题,明确检索要求的基础上,必须综合考虑检索系统的特点、收录的学科范围、各数 据库的专业范围、主题内容、数据来源与文献类型、技术含量、数据的存贮年限、更新频率、检索费用以及使用 方法等。 2、利用检索系统特定的指令正确实施上机检索 3、通过人-机对话的方式不断调整、修改、检索策略,尽量减少漏检和误检,提高查全率和查准率。 (1)扩大命中文献数量以提高查全率:选用文摘字段或全文字段检索;使用上位词或近义词、同义 词并且用逻
30、辑或(OR)连接;利用截词检索;参考文献检索;引文检索,各种相关链接等等。 (2)缩小检索范围以提高查准率。检索词限定在题名、主题或关键词字段;使用下位词,利用逻辑 非去掉无关信息;利用逻辑积限定相关主题等。 4、根据查找的文献线索获取原始文献 (1)查找全文数据库或者通过搜索引擎查找互联网全文信息资源 (2)查找馆藏书目系统(OPAC),获取纸本全文 (3)查找开放存取的的学术资源(Open Access) (4)馆际互借与原文传递 全文搜索的思想与傅里叶变换或者小波分析有异曲同工之妙. 相当于把时间与变换到频率域中,找出其频率特征最后进行匹配.so beautiful ! 多媒体检索:各大
31、搜索引擎纷纷推出了自己的带图片或媒体文件搜索功能的引擎, 国内外的有: Lycols、 Webshots、 Comics、Ditto、FreeFoto、Iranian、AltaVista、263、Lycos 中国等 1、 信息检索的概念 2、 2、信息检索的技术 主要包括:全文检索技术,多媒体信息检索技术,跨语言信息检索技术,信息检索可视化技术,信息检索文本聚类 技术. 全文: 搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立 以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出 现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。 多媒体: 多媒体搜索,是指带图片或媒体文件搜索功能的引擎,包括图像检索、音频检索、视频检索,以 及包括动漫、音乐 电影、电视等等。 跨语言 : 跨语言检索(Cross Language Information Retrieval, CLIR)即可用一种提问语言检索出用另一种 语言书写的信息,也就是一种跨越语言界限进行检索的问题。 3、 3、信息检索的分类方法 4、技术搜索模型 4、 5、 5、探寻式系统的构成 6、文献 引文 引文索引的概念 7、期刊评价指标 8、描述自己做的那个搜索任