收藏 分享(赏)

信息检索原理与方法.ppt

上传人:精品资料 文档编号:10570104 上传时间:2019-11-30 格式:PPT 页数:69 大小:813.60KB
下载 相关 举报
信息检索原理与方法.ppt_第1页
第1页 / 共69页
信息检索原理与方法.ppt_第2页
第2页 / 共69页
信息检索原理与方法.ppt_第3页
第3页 / 共69页
信息检索原理与方法.ppt_第4页
第4页 / 共69页
信息检索原理与方法.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、,工欲善其事,必先利其器信息检索原理与方法,东北大学图书馆 刘畅,信息检索的基本原理,信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。,信息的特征,一篇文章、一本书、一份报告等一般都有以下特征: 外表特征:题名、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。内部特征:假如我们深入到文献内容中间,则可以发现还可用另外两种方法来表征它:主题词和分类号,主题词,一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的

2、频率较大。文献中出现频率最高的词是冠词、介词和连词等,即其本身没有具体含义的词,如a、an、the、this、that、or、and、in、on、with等;绝大部分词在文献中出现的频率较低;在文献中出现的频率既不高也不低的词,在文献中约3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为文献的主题词或关键词。,分类号,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如中国图书馆分类法:,K 历史、地理 K2 中国史 K2O 通史 K201 革命史,O 数、理、化 O1 数学 O12 初等数学 O123 初等几何,信息检索语言,检索语言是用于描述检索系统中信息的内部及

3、外部特征和表达用户信息提问的一种专门语言。 检索的匹配正是通过语言的比较匹配来实现的。,分类语言,按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。 由类目号码及名称作为检索语言,构成分类类目表,如图书分类表、专利分类表用的都是分类语言。 是用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。以科学分类为基础,运用概念划分和概括的方法,按照知识门类的逻辑次序,从总到分,从简单到复杂,层层进行概念划分,则产生许多不同等级的类目。上位类包括下位类的总合,下位类隶属于其上位类,同级类互不相容,构成一个严

4、格有序的层磊式结构系。,国内外常用的分类法,中国图书馆图书分类法(中图法) 中国科学院图书馆图书分类法(科图法)该分类法目前主要用于中国科学院图书馆及其所属各科研单位的图书馆(室)的文献分类。 杜威十进制分类法(Decimal Classification)简称为杜威法该分类法是目前世界上使用最广泛、影响最大的图书分类法,已用于130多个国家的图书馆,许多分类法均是借鉴于杜威分类法产生的。 美国国会图书馆图书分类法(Library of Congress classification)简称为分类法。目前美国大多数图书馆采用的分类法。 国际十进分类法(Universal Decimal Clas

5、sification)简称分类法 国际专利分类法(International Patent Classification )简称 IPC,中国图书馆分类法,分五大部22大类:A 马克思主义、列宁主义、毛泽东思想、邓小平理论B 哲学、宗教C 社会科学总论D-K 社会科学各学科N 自然科学总论O-X 自然科学各学科Z 综合性图书,A 马克思主义、列宁主义、毛泽东 思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理,N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科

6、学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书,中国图书馆分类法,T 工业技术,TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学、金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 动力工程 TL 原子能技术 TM 电工技术 TN 无线电电子学、电讯技术 TP 自动化技术、计算机技术 TP1自动化基础理论 TP2自动化技术及设备 TP3计算技术、计算机技术 TP30一般性问题 TP31计算机软件,TP32一般计算器和计算机 TP33电子数字计算机(不连续作用电子计算机) TP34电子

7、模拟计算机(连续作用电子计算机) TP35混合电子计算机 TP36微型计算机 TP37多媒体技术与多媒体计算机 TP38其他计算机 TP39计算机的应用 TP6射流技术(流控技术) TP7遥感技术 TP8远动技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑工程 TV 水利工程,中图法分类标引实例,分类标引方法:崔文风著心理与人生发展心理 教子成长心理与人生完善心理 事事成功心理与人生调节心理 强身治病分类号分别为:G78 教育学B848.4 心理学R395.6 医学,主题词语言,主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主

8、题词表中通过参照系统来指示词汇之间的关系。关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。主题词语言:主题词是表达一定概念主题的规范化的名词术语。主题标引须有专门的主题词表。,中国分类主题词表,检索词之间的三种关系:等同关系是指叙词与非叙词之间的关系。参照符号是“Y”(用)和“D”(代两种。 “Y”用作正式叙伺指引词;”D”用作非正式叙词指引词。属分关系亦称等级关系,指上位叙词和下位叙词之间的关系。所用参照符号有“S” (属)、“F”(分)。和“Z”(族)3种。“S”作上位叙词指引符,只在下位叙词下使用。“F” 作下位叙词指

9、引符,只在上位叙词下使用。“Z”作族首词指引符,指示族首词。相关关系指叙词间除属分关系、等同关系之外的在语义上有关联的关系。相关关系用符 号“C“(参)表示。建立此种关系的目的是,引导检索者从其他词汇中寻找可能有用的词。,检索词之间关系举例,对外投资D 国际投资海外投资F 间接投资直接投资S 投资*C 海外企业经济扩张资本输出,Y (用) 表示从非正式主题词指引到正式主题词 D (代)表示“Y”的对应参照 F (属)表示主题词的下位词(狭义词) S (分)表示主题词的上位词(广义词) Z (族)表示主题所属的族首 C (参)表示主题词之间的相关关系。,检索词之间关系举例,对外投资D 国际投资海

10、外投资F 间接投资直接投资S 投资*C 海外企业经济扩张资本输出,Y (用) 表示从非正式主题词指引到正式主题词 D (代)表示“Y”的对应参照 F (属)表示主题词的下位词(狭义词) S (分)表示主题词的上位词(广义词) Z (族)表示主题所属的族首 C (参)表示主题词之间的相关关系。,Library of Congress Subject Headings 美国国会图书馆主题词表(LCSH),主题词表: computerized industrial controlUSE industrial computer control Computerized instrumentationU

11、F computerized instrumentsNT automatic test equipmentcomputerized monitoringcomputerized spectroscopycomputerized tomographyBT computer applicationsTT computer applicationsRT astronomy computingastrophysics computingbiology computingchemical engineering computing,LCSH 参照系统符号及意义非正式标题 USE 标题 (用 ) 标题 U

12、F 非正式标题 (代 ) 下位标题 BT 上位标题 (属) 上位标题 NT 下位标题 (分) 标题 A RT 标题B (参),文献数据库简介,数据库的定义和类型一.定义:至少由一种文档组成,并能满足某一特定的目的或某一特定数据处理系统所需要的一种数据集合。二.数据库类型: 1.文献目录型数据库(bibliographic database). 也称为书目数据库或者目录数据库,是二次文献数据库,包含文摘数据库、题录数据库、索引数据库、各国的MARC格式的图书目录。 2.指南数据库(reference databases).也称指示性数据库,其内容是关于某些机构、人物、出版物、项目、程序、活动对象

13、的简要描述,是指引用户从其他有关的信息原获取更详细的信息的一类数据库。 3.数值数据库(numeric database).又称数据型数据库,此类数据库存储的均为数据信息。 4.全文型数据库(full-text database)。是指储存文献全文或者其中主要部分的一种数据库。,数据库的构成(1)文档(file),若干个逻辑记录构成的信息集合成为文档。(2)记录(record),记录是若干个字段组成的文献单元。(3)字段(field),是文献著录的基本单元,用来描述文献主题内容相关的某种属性,是组成记录的数据项。书目数据库中的字段反映一篇文献的具体特征,如标题字段、著者字段文献来源字段(又称文

14、献出处)、主题词字段、关键词字段;文摘字段、语种字段等。每个字段都有己的字段标识符(field tag)以供识别,把记录划分成字段的另一作用是便于进行字段限定检索。,信息检索基本技术,逻辑算符 位置算符 截词符 基本索引字段标识符,逻辑算符,定义:表达检索提问的各概念之间的逻辑关系。逻辑算符有三种: AND (与)、OR(或)、NOT(非)三种算符可同时在一个检索式中使用,也可单独使用。 使用逻辑算符时应注意的事项:逻辑算符的优先级为:NOT、AND、OR,可用括号来改变优先顺序。在逻辑组配时,算符的两侧必须各留有一个空格。,“逻辑与” “AND”,用于交叉概念或限定关系的组配,可以缩小检索范

15、围,提高查准率。可使用“and”或“*”来表示。 其检索表达式为:“A and B”或“A * B”,即检索记录中必须同时包含A词与B词才算命中。 例如:“中国 and 对外贸易”。,A,B,“逻辑或” “OR”,用于并列概念的组配,可以扩大检索范围,提高查全率,可使用“+”或“OR”来表示。 其检索表达式为:“A or B”或“A + B”,即检索记录中含有A词或者B词中的任何一词即可。 例如:“高清晰电视 or HDTV”,A,B,“逻辑非” “NOT”,用于从原来的检索范围中排除不需要的概念,或影响检索结果的概念。 可使用“NOT”或“-”来表示,其检索表达式为:“A NOT B”或“A

16、 - B”,即检索记录中包含A词但不含有B词。 例如:“能源 NOT 太阳能”,A,B,位置算符 (W)、(N),(W):W是with的缩写,表示两个词必须紧挨着,且词序不可颠倒,(W)算符也可用空括号()代替。 例: solar()energy (nW):表示两个词之间可插入n个词,且词序不可颠倒。 例: solar(3w)energy,(N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。例:fiber(N)optic (nN)表示两个词之间最多可插入n个词,词序任意。例:fiber(4N)optic,位置算符(S)、(F),(S):S为subfield或sentence的缩写

17、,表示两个词必须在记录中的同一个句子或同一个子字段中出现,且词序可变。子字段含义由数据库定义。例:color(S)pigment (F):F为field的缩写,表示两个词必须在记录中的同一个字段中出现,且词序可变。,禁用词,在有些数据库中,规定某些词不能作检索词使用,这些词称为禁用词。禁用词有:An、And、By、For、From、Of、To、The、With、About、On,截词符“?”,又称通配符,不同的检索系统中使用的符号不同,通常用“?”来表示。常用的还有如*、#等。加在检索词的词干或不完整的词型后面或中间,用以表示一组概念相关的词。 无限截词 例:?Computer 可检出Comp

18、uter、Microcomputer有限截词 例:Process? 可检出Process、Processes中间截词 例:Wom?n 可检出Woman、Women,基本索引字段标识符,字段 后缀代码Abstract 文摘 /AB Descriptors 叙词 /DE Title 题目 /TI Identifiers 标引的自由词 /ID Full Descriptors 完整的叙词(单元词) /DF,*不同数据库字段标示符表示形式不同,具体参看各个数据库说明,常用检索功能,浏览(browse):利用检索系统提供的树型结构,从“树根”开始,逐层逐级打开,直到找到所需文献。索引(index):一些

19、系统将其报道文献记录的一个或几个字段中具有实际检索意义的词,按字顺排成一个表单式的索引,供用户选择检索。词表检索:是主题检索途径。一些检索系统把自己的词表编入检索系统。用户在确定检索用主题词的同时,可以直接进行检索。4 简单检索和高级检索。,从课题名中确定检索词,六大方法:切分删除替换聚类补充限定,从课题名中确定检索词,切分: 将课题语句分割为一个一个词。例如“计算机情报检索方法”可切分为:|计算机|情报|检索|方法|,从课题名中确定检索词,删除 从语句切分出来的词中删除那些a.不具有检索意义的虚词(包括介词、连词、助词、副词等)及其他非关键词;b.过分宽泛和过分具体的不必要的限定词,过分宽泛

20、难以触及问题实质,太狭义具体的限制词则会挂一漏万;c.存在蕴涵关系的可合并词。例如:“基于Web的数据库”,经删除后,Web|数据库 稀土材料的研究现状及发展趋势稀土材料 稀土材料钕铁硼的研究钕铁硼,从课题名中确定检索词,替换 从课题语句中得来的词也许偏于模糊、宽泛、狭窄或不可行,不能取得所希望的结果,这时可以引入更明确、更具体、更本质、更可行的概念词来替换原词。例如:稀土材料的研制 钐钴(用户实际上研究钐钴材料)空气中细菌的计算方法 空气污染的计算方法,从课题名中确定检索词,聚类 即把切分、删除、替换后所得出的单元词按语义概念进行同类合并,将那些可以相互等效、相互替换、相互补充的同(近)义词

21、、相关词归成一组。聚类的实质是进行组面分析,将语句和词转换成概念(组面)的集合。,从课题名中确定检索词,补充 a.补充来源词,即找出缩略词的来源词组,将两 者一并作为检索词;b.补充同义词和相关词(包括上位词、下位词和同位词等)。“模拟计算机”可以表示为:模拟计算机 or 模拟系统 and 计算机“毫米波”:“millimeter wave”与“millimetre wave”,从课题名中确定检索词,限定:针对一词多义导致误检的问题,需采取限定措施,即增加”限定词“。具体方法有两种:一是 逻辑与 and 、*二是 逻辑非 not、- 例如:线路 线路 and (电子 or 无线电 or )线路

22、 线路 not (道路 or 车辆 or ),课题检索词确定实例,请依照上述确定检索词的方法,给下列课题确定合适的检索词: 1、铁路货车轴承保持架裂损分析及对策研究 2、工程制图 CAI系列课件的研制 3、调度集中仿真系统研究 4、基于WEB平台的动态扩展ERP系统研究,课题检索词确定实例,1、铁路货车轴承保持架裂损分析及对 策研究 保持架 滚动轴承 铁路车辆 断裂 残余应力 动应力 Cage, ball bearing, rail vehicle, fracture, remains stress, dynamic stress,2、工程制图 CAI系列课件的研制工程制图 机械制图 画法几何

23、 计算机辅助教学(CAI) 教学软件 课件,3、调度集中仿真系统研究调度集中 行车指挥 仿真 计算机网络 Centralized traffic control Traffic command simulation Computer network,4、基于WEB平台的动态扩展ERP系统研究 企业资源计划(ERP) 供应链 客户关系 扩展 开放结构 Enterprise resource planning(ERP)Supply chain Customer relation Open architecture,检索程序,1、明确检索的目的 2、检索前的准备工作 3、选择检索系统和数据库 4、规

24、划检索程序 5、分析检索结果,1. 明确检索目的,检索目的的确定,1、分析课题的主题内容分析课题的主题内容、所属学科性质,明确研究课题所需的信息内容,从而提出能准确反映课题核心内容的主题概念。 2、确定检索时间范围根据课题研究的起始年代和研究的高峰期确定检索的时间范围。 3、确定课题的文献类型通过对课题进行主题分析后,确定所需信息的文献类型。明确课题对检索深度的要求,弄清用户是需要提供题录、文摘还是原始文献。 如果属于基础理论性探讨,要侧重于查找期刊论文、会议论文。 如果是尖端技术,应侧重于科技报告。 如属于发明创造,技术革新,则应侧重于专利文献。 如为产品定型设计,则需利用标准文献及产品样本

25、。 4、分析用户的检索评价要求分析用户对检索评介指标是查新、查准还是查全。 一般来说,若要了解某学科、理论、课题、工艺过程等最新进展和动态,则要检索最近的文献信息,强调一个“新”字, 若要解决研究中某具体问题,找出技术方案,则要检索有针对性、能解决实际问题的文献信息,强调一个“准”字; 若要撰写综述、述评或专著等,强调一个“全”字,2、检索前的准备工作,明确学科通用的关键检索词 是否对特定的作者、专家学者的研究感兴趣? 是否有特定的出版机构的文献与你的研究主题相关? 其它?,3 、选择检索系统和数据库,掌握数据库资源所覆盖的学科范围 掌握各种数据收录文献的类型 查看数据库的详细介绍和说明 请教

26、图书馆员要求介绍检索的最佳数据库,4 、规划你的检索程序,选定检索主题词利用关键词的上下位词、特有名词及同义词,查阅工具如字典、分类表等。 建立你的检索表达式使用逻辑算符(AND, OR, NOT)限制检索条件:作者, 刊物或年代. 调整相关设定决定检索结果的显示方式:以日期,关联性排序 进 行 检 索,检索效果评价,查全率和查准率是反映信息检索效果的重要指标。 查准率(Precision) 查准率是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献与检出的全部文献的百分比。查准率=(检索出的相关信息量/检索出的信息总量)x100%使用泛指性较强的检索语言(如上位类、上位主题词)能提高查

27、全率,但查准率下降。,查全率(Recall)查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献与全部相关文献的百分比。查全率=(检索出的相关信息量/系统中的相关信息总量)x100%使用专指性较强的检索语言(如下位类、下位主题词)能提高查准率,但查全率下降。,思考:,在“百度文库”中检索有关“稀土发光材料”的文献,共检出358篇DOC格式文献,经查看,共有250篇文献与检索要求相符,百度文库中实际共有750篇文献与检索要求相符。 问:本次检索的查准率是多少?查全率是多少?,查全率与查准率间的关系,查全率和查准率之间具有互逆的关系,一个IR系统可以在它们之间进行折中

28、。在极端情况下,一个将文档集合中所有文档返回为结果集合的系统有100%的查全率,但是查准率却很低。另一方面,如果一个系统只能返回唯一的文档,会有很低的查全率,但却可能有100 %的查准率。通常,以查全率和查准率为指标来测定IR系统的有效性时,总是假定查全率为一个适当的值,然后按查准率的高低来衡量系统的有效性。 改变检索项、减少限制条件,都可以提高查全率。,5、分析检索结果,不满意,满 意,不满意 非目标性结果,重新檢索,检查检索词的拼写 检查检索词的准确性-查阅词典、字典、 词表,删除错误名词 调查被检索的数据库数据库说明、期刊列表确定是否覆盖你所需要检索的主题,不满意 结果太多,设定限制条件

29、、特定的检索字段及年代 增加检索名词的准确性查阅工具:主题词表、字典、分类表等 修改检索策略增加使用AND,减少使用OR。,重新檢索,不满意 结果太少,检查检索词的正确性、准确性 增加检索词的普遍性查阅工具:主题词表、字典、分类表等 拓宽检索策略减少使用AND;使用OR连接增加的同义我词和近义词 增加检索数据库确定其他数据库是否覆盖你所需要的检索主题,重新檢索,满 意,是否获得全部所需?打印、Email或存档是否需要获取全文 ?连接全文链接;图书馆期刊、资料;原文传递服务,(一)图书馆收藏的纸本图书需要借阅; (二)利用全文数据库直接获取: 期刊、学位论文、电子图书和专利直接点击阅读原文。 中

30、文科技期刊数据库、万方学位论文等和中国国家知识产权局专利数据库提供图片格式的原文文件; EBSCO、ELSEVIER等外文数据库大多有论文原文。 书生之家、超星等数字图书馆提供的电子图书。 (三)利用文献传递系统获取国家科技图书文献中心的文献可以付费从网上传递原文。中国国家科技图书文献中心(简称NSTL)(http:/ (四)利用文摘数据库的原文服务 (五)利用学术资源发现系统,进行原文查找和馆际互借。,五、获取原文,检索表达式构造实例,1、检索计算机网络方面的中文文献 2、查找版权中涉及图书馆方面的英文文献 3、要检索“计算机辅助设计”方面的英文文献 4、检索“上海地区的大学但不包括医学院”

31、 5、检索“飞机”方面的文献,但不希望文献中出现“直升 飞机”的主题 6、检索“美日两国铜质量散热管专利的实证研究”的中文文献 7、Gordon 所写的于2000年后发表的所有文献 8、查找“微型机”和“个人计算机”方面的文章要求: “微型机”一词出现在叙词字段、标题字段或文摘字段中,“个人计算机”一词出现在标题字段或文摘字段中9、查找“计算机动画电影”方面的英文资料,例:检索计算机网络方面的文献,检索表达式为:计算机 and 网络网络 and 计算机两个检索表达式是等价的。表示只要两个检索词是同一文献中出现即可。可以检索有关计算机网络的文献,也可以检索有关网络计算机方面的文献,例: 查找版权

32、中涉及图书馆方面的英文文献检索表达式为:Library * copyrightLibrary and copyright,例:要检索“计算机辅助设计”方面的英文文献检索表达式应为:CAD OR computer aided design(注意缩写和全称),例: 检索上海地区的大学 但不包括医学院,检索表达式:上海 * 高等院校 - 医学院上海 and 高等院校 not 医学院,例:检索“飞机”方面的英文文献,但不希望文献中出现“直升飞机”的主题检索式: Airplane not helicopter Airplane - helicopter,例:检索“美日两国铜质量散热管专利的实证研究”的文

33、献检索表达式应为:(专利 专利文献) AND (美国 日本) AND 铜 AND 散热管,例:查找“微型机”和“个人计算机”方面的文章 要求: “微型机”一词出现在叙词字段、标题字段或文摘字段中, “个人计算机”一词出现在标题字段或文摘字段中 检索式应写为:microcomputer*/de,ti,ab OR personal computer/ti,ab,例: Gordon 所写的于2000-2009年间发表的所有文献检索表达式: AU=Gordon AND PY=200*,例:查找“计算机动画电影”方面的资料 计算机用“computer*”表示动画用“cartoon*”考虑到动画这一概念与自动控制和图片有关,因此加入“animat*”, ”graphic*”两个检索词电影用“movie*”、”film*”,有时还表示为“motion picture”,例:查找“计算机动画电影”方面的资料检索表达式:,computer* AND (cartoon* or animat* or graphic*) AND (movie* or film* or motion picture),

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报