收藏 分享(赏)

西华师范大学信息检索课件1.胡晓.ppt

上传人:hyngb9260 文档编号:4376240 上传时间:2018-12-26 格式:PPT 页数:96 大小:8.83MB
下载 相关 举报
西华师范大学信息检索课件1.胡晓.ppt_第1页
第1页 / 共96页
西华师范大学信息检索课件1.胡晓.ppt_第2页
第2页 / 共96页
西华师范大学信息检索课件1.胡晓.ppt_第3页
第3页 / 共96页
西华师范大学信息检索课件1.胡晓.ppt_第4页
第4页 / 共96页
西华师范大学信息检索课件1.胡晓.ppt_第5页
第5页 / 共96页
点击查看更多>>
资源描述

1、超星数字图书馆(P99) 全球最大的中文数字图书网,40多万种电子书在线阅读、下载 。,http:/210.41.192.21/libweb/index.asp,书生之家 http:/ 由北京书生科技有限公司创办,主要提供1999年以来中国大陆地区出版的新书的全文电子版。,第一章 信息检索概述第一节 基本概念第二节 信息源第三节 信息系统,第一节 基本概念,信息检索(Information Retrieval),1.信息检索的含义 广义的信息检索是指信息存储与检索(Information Storage and Retrieval) 狭义的信息检索则仅指该过程的后半部分,即相当于人们所说的信息

2、查寻(information search)。 本课程主要涉及后者,2.相关概念(P1) 信息(Information):是客观事物的运动状态和特征的反映,是人们认识事物发展的基础。 由于信息涉及的领域广、内容丰富,人们的研究点不同,对信息的界定也不同。我们可以从三个层面把握信息概念。 (1)本体论层面:事物运动的状态和方式。 (2)各学科领域层面:进入认识领域和传播领域,是可以被理解或被接受的各种消息、情报、知识、事实、数据等。 (3)大众交流信息:相互之间交流的所有内容。,各学科领域层面信息按其内容性质分为理性信息和记述信息。 理性信息:即学术信息,是各学科领域信息的核心。学术信息的重要特

3、征是:要进入相关学科问题研究,在学科不同层次的研究中产生的信息。 记述信息:描述性信息,对具体现象、事实(包括数据)进行记述或描述而产生的一种最基本、客观的信息。没有离开记述信息的所谓科学研究。,知识(Knowledge ):是人类对自然界、人类社会中各种现象、规律的信息反映进行思维分析,加工提炼,经过系统化、理论化的过程。系统化、理论化的信息就称为知识。 情报(Information):是人们在一定的时间内为一定的目的,传递的有使用价值的知识或信息。,三者的相互关系:信息是知识的源泉;知识是系统化、理论化的信息;情报是活化的知识和信息,能为人们所利用。,信息包含知识和情报。系列化的信息成为知

4、识,知识中的特定需要部分就是情报。但也有的情报只是消息,并非知识。,文献:记录有知识的一切载体。包括图书报刊、声像资料、电子出版物。 资料:含有自己所需情报内容的那部分文献。 数据:原始符号,数字,文字。,文献、资料、数据都是信息的物质载体。,3.信息检索的分类,1)按检索手段 信息检索可分为手工检索和计算机检索(包括光盘和联机检索和网络检索)。计算机检索是信息检索的发展方向,但是手工检索也有其独特的优势,在信息检索过程中应该多种形式并重。,用手工方式来处理和查找信息。是一种传统而又基础的检索手段。 优点: 不需要特殊设备,查找方法简单,灵活。 不需要检索经费或费用较低。 缺点: 效率低,检索

5、速度慢,大的课题相当费时。 在进行复杂问题的多途径检索时,需要反复查找若干检索工具。 查全率一般较低。,手工检索,计算机检索,检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。 计算机检索是手工检索功能在数字化、网络化环境下的深化发展。,计算机检索的优势,计算机检索明显优于手工检索,主要表现:检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性。,光盘检索除可提供追溯检索、定题服务外,

6、还用于自建库,检索费用较低。 优点 使用光盘检索不须通讯联系,不受时间限制。光盘可以替代或补充图书收藏,其多媒体的书籍、游戏和参考资料是用户最欢迎的类型之一。 光盘存储容量大,稳定性与数据保存性好,比较坚固耐用,而且结构小巧,性能价格比高。缺点 信息获得比国际联机慢(回溯检索须多次换盘) 信息更新不及时,联机检索是指商业性的计算机数据库检索服务机构(亦称卖主)通过国际(卫星)通讯网络,为世界各地的用户终端提供人机对话式的检索的服务方式。 检索费用高 对检索系统及其文档(数据库)的收录、标引、特点等问题较难了解、熟悉。 检索指令复杂,技术和技巧不易掌握,多为专业人员才能熟练使用。,2)按检索对象

7、形式 文献型信息检索(Document Retrieval) 数值型信息检索(Data Retrieval) 事实型信息检索(Fact Retrieval) 多媒体信息检索(Multimedia Retrieval ),文献型信息检索 是以文献为检索对象的检索。凡查找某一主题、时代、地区、文种的有关文献,以及回答这些文献的出处和收藏处所等。,具体分为:,信息的线索检索 查找信息的出处,检索结果是信息线索,包括书名或论文题名,著者,出版者,出版地,出版时间等文献外部特征。 用于检索文献线索的的检索工具有书目、索引、文摘等,以及书目型数据库,索引题录型数据库。,例:有关“太平天国的资料有哪些?”,

8、这类资料载体形式有哪些? 手检和机检各用哪些资源比较恰当? 思路1:从手工检索入手,以图书馆为依托,从图书馆的目录中查找。寻找有关洪秀全、曾国藩、李鸿章、左宗棠等人的资料,查找有“粤匪“、“粤寇”等字眼的书目。 缺陷1:许多书的书名看似与太平天国无关系,却载有太平天国的重要内容。 缺陷2:各地图书馆各有特点,如上海图书馆有关小刀会和洋务运动的资料多一些,北京图书馆、北大图书馆有关清政府的资料多一些,湖南图书馆有关湘军和曾国藩的资料多一些,广西图书馆有关太平天国首义的资料多一些,南京等地图书馆有关太平天国建都以后的资料多一些。,思路1:利用图书馆资源检索,太平天国,思路2:利用各类搜索引擎,ht

9、tp:/ (P117),中文科技期刊数据库是我国最大的数字期刊数据库,是我国数字图书馆建设的核心资源之一,高校图书馆文献保障系统的重要组成部分,也是科研工作者进行科技查证和科技查新的必备数据库。,布尔逻辑,布尔逻辑检索 (Boolean Logic) 逻辑检索是一种比较成熟,较为流行的技术,现代的情报检索系统多采用这种技术 。 布尔逻辑运算符 逻辑与 AND (*) 逻辑或 OR (+)(l) 逻辑非 NOT, AND NOT(-),信息全文检索:以查找到信息的全文为目的。,图书,例:查找易中天发表的文章,报刊论文的搜索,方法1 用数据库查询,国家知识基础设施(National Knowled

10、ge Infrastructure,CNKI)的概念,由世界银行提出于1998年。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于1999年6月。,P115,方法2 用互联网查询,易中天 filetype:pdf,PDF是Portable Document Format的缩写,译为便携式文档格式。 PDF阅读器Adobe Reader专门用于打开后缀为.PDF格式的文档。PDF阅读器(Adobe Reader)是Adobe公司开发的一种电子文档阅读软件 。,Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Googl

11、e现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。,四川省图书馆的入口 http:/ 例:“长江有多长,洪水期最高水位有多高?” 使用年鉴、手册或专题数据库能获取这类信息。,百度统计数据搜索是对各种统计年鉴、报表等统计数据进行汇总,并提供给用户搜索和应用的平台,目前有由搜数公司为百度提供的自建国以来至近些年的所有公开的政府统计年鉴和报表数据数十万条,但还有一些具体到各个行业内更深层次的数据,还没有涵盖

12、。,事实型信息检索利用检索工具或检索系统查找某一特定事物的过程。检索结果是有关某一事物的具体答案。 如:名词术语、概念、定义、某一事件、事实或某一机构、人物的状况等。 用于检索事实信息的检索工具有字词典、百科全书、年鉴、手册,以及术语型数据库和指南型数据库。,例:“什么是二元论?它是如何产生的?它的背景、发展沿革及其影响如何”? 使用百科全书或搜索引擎就能获取这类信息。 (P85)百科全书定义:汇集一定学科领域所有知识。可分为综合性和专科性等。,二元论,Encyclopedia Britannica Online,简称 EB Online,作为第一部 Internet 网上的百科全书,1994

13、 年正式发布。可检索词条达到 98,000 个。EB Online 界面友好,简单易用。,大英百科全书,简明百科全书,不列颠百科全书出版公司与台湾远流集团旗下部门智能藏 (Wordpedia) 公司共同的出版物,用了八年时间才制作完成。中文版百科全书除了一部分是基于从英语版 Encyclopaedia Britannica 翻译过来的资料以外,还包含由台湾和其他地区以及中国历史和文化资料。该版本有70,000个条目,4500万个汉字,包含10,000多幅图片和许多视频与音频片断,内容极为全面。,http:/ 数据与事实检索是一种确定性检索,检索的结果是可供科研人员直接利用的信息。,4.检索语言

14、,检索语言是用来描述检索提问主题、学科分类等内容的语言,目前使用的检索语言包括自然语言和人工语言。 自然语言为不懂人工语言的网络用户提供极大的便利。 人工语言主要有主题语言和分类语言。,1)自然语言 natural language (非规范语言),文献作者原来使用的语言,包括文献题名,摘要,正文及参考文献中的具有一定意义的语词。 自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。,自然语言,人工语言 artificia

15、l language(规范语言),受信息检索的控制,使用控制、规范词(controlled term)。 人工语言的规范处理重在两个方面:一是一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是一个标引词只能表达一个概念,这样就排除了一词多义现象。 例:“飞机“ 用英语检索时,可用plane , airplane , aero plane , aircraft 等同义词,规范就是选定其中最适合的一个词汇来标引这一概念,如果选定aircraft 一词,则其余词均为非规范词。在使用aircraft规范词来检索时,其结果将包含所有有关飞机这一概念的文献,而不管这些文献中是否确切出现过airc

16、raft这个词。,分类语言和主题语言,主题语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。 (p14) 分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表。,主题,通常指文献论述的对象,经过筛选后用以表述文献主题的语词,称为主题词。 主题语言,是规范化的检索语言,其检索词从相关主题词表中得出。一般指以表达文献主题内容的词语作为标引对象,

17、按主题词的字顺组织文献,并用参照系统显示概念之间相互关系的文献信息组织与揭示的方法。 主题语言的依据是主题词表(又称叙词表,检索词表或词库),它是一些规范化的主题词及使用规则的集合体,是进行主题标引和主题检索的工具。,1.主题语言,图:EBSCO的主题词表,P14,主题词语言种类很多,如:关键词语言、叙词语言、标题词语言、单元词语言等,它们有不同的主题词表。 主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。,关键词语言(keyword),关键词:对表达文献主题内容具有实质意义的语词。可直接取自文献的题名、文摘等,或者取自全文。 关键词语言:将描述主题内容的关键词抽出,按字顺排

18、列提供检索,一般不加或加以少量规范处理,所以是一种准主题语言。 常规的做法是编制”非关键词表”(“禁用词表” stop-term )分别列出冠词,介词,连词,代词等无检索意义的词。在标引或检索时,只要是不在禁用词表中的词,都可作为关键词的备选词。,优点:1、简捷,降低对检索人员的要求;2、易用,易于计算机编制和检索;3、及时,能及时更新词汇。 缺点: 不规范,有大量的同义词、近义词,影响查全率和查准率。如“高速公路”有”autobahn”,“autoroute”,“freeway”,“speedway”,“thruway”等,“图形图像”和“图形图象”同义,检索时如果不能全部记住,会出现漏检;

19、而“cell”既指细胞又指电池,检索时会出现误检。 不显示概念之间的关系,难以进行族性检索。,由于关键词是未经人工干预的自然语言,符合大众的检索习惯,大多数检索系统都有关键词检索。,例:利用英文搜索引擎查找网络信息检索方面的资料。,网络 web internet www 逻辑关系,信息检索 search* retrieval* 逻辑关系,检索式可表示为:(web OR internet OR www)AND(search* OR retrieval*),网络与信息的逻辑关系,标题词语言(subject heading),标题词语言是最早出现的一种按主题来标引和检索文献的传统检索语言,采用的标题

20、词是经过规范化的标引文献主题概念的词。 特点是有较好的通用性、直接性和专指性,但灵活性较差,适宜于从事物的主题概念出发而进行的检索。 常用的标题词表有:EI所用的工程标题词表(Subject Headings for Engineering,SHE)、美国国会标题词表(Library of Congress Subject)、医学主题词表(Medical Subject Headings)。,单元词语言(uniterm),单元词是指从文献中抽取出来的,能表达文献主题的最基本、不能再分的单元词语,又称元词。它从文献内容中抽出,经过规范,能表达一个独立的概念,具有灵活的组配功能。 具有灵活的组配性

21、,但却只是字面的组配不是概念的组配。实际上,表达事物概念,除了单一概念外,还有许多的复合概念,由于科技不断发展,单元词语言已不能适应信息检索的要求,因此,它已被更先进的叙词语言取而代之。 例如:“公路桥梁” 单元词语言:“公路” “桥梁” 两个单元词组配 标题词语言: “公路桥梁”一个词组,叙词语言(descriptor),为了适应计算机检索的需要,叙词语言于20世纪60年代产生,它是在标题词语言、单元词语言和分类语言的基础上发展起来的一种新型的检索语言。叙词语言既适用于手工检索,又特别适用于计算机检索。,叙词是指从文献内容中抽出来,能概括表达文献内容基本概念的并经过规范化的名词或术语。 叙词

22、语言是一种规范化的检索语言,在检索时可由多个叙词组成任意合乎逻辑的组配,形成多种检索方式。 特点:语词组配准确,参照系统完善,具有较强的概念表达能力,检索效果好,是性能较好,使用最为广泛的检索语言。我国目前使用的主题语言基本为叙词语言。常用的叙词表有:INSPEC的词表INSPEC Thesaurus、Ei的EI Thesaurus及我国编辑出版的汉语主题词表等。 标题语言和单元词语言大部分已经被叙词语言代替。,汉语主题词表是显示主题词与词间语义关系的规范化动态性的检索语言词表。它是沟通信息工作者与用户之间的思维桥梁,是自然语言与信息系统语言之间的媒介,同时又是人与计算机之间在进行信息存储与检

23、索方面的联系工具。,适于计算机检索的窗体,适于人工检索的窗体,汉语主题词表收录的主题词包括下列类型 表示具体事物名称的名词术语,如汽车、变压器、反应堆、水稻、坐标仪等; 表示事物的状态或现象的名词术语,如强度、失真、日冕、船舶过载等; 表示科学分类的名词术语,如数学、物理学、中医学、电子学、建筑工程、水利工程等; 表示研究方法、技术方法的名词术语,如分析(化学)、针刺手法、有限元法、结构功能法、力学性能试验等;, 表示工艺方法、加工技术的名词术语,如铸造、锻造、热处理、焊接、酿造、激光切割等; 表示化学元素、化合物、金属材料与合金的名词术语,如钠、氧原子、族元素、钠化合物、硅化物、硫酸、以及如

24、金属板耐蚀钢、耐蚀合金等; 表示国家名称、地名、组织机构名称及人名的专有名词以及文献类型、文献载体的名词术语,次部分主题词,包括在原汉语主题词表第三卷附表内以及第一卷社会科学部分内,本增订本内未专门收录。,网络主题语言,目前主题语言已广泛应用于一些重要数据库资源的标引,也越来越多地被用来组织网络信息。 主题语言对网络信息的组织主要表现为两种形式 直接用现有的词表组织处理网络信息。(应用少) 采用关键词语言。(广泛应用),milk ingredient,2.分类语言(p9分类法),分类语言:一般称为分类法。是一种按学科范畴和体系来划分事物的检索语言,以分类表的形式体现。它展示了学科的系统性,反映

25、了事物的从属、派生关系,从上至下,从总体到局部层层划分展开,是一种等级体系。由类目和相对应的类号来表达各种概念,构成一个完整的分类类目表。 我国目前的分类法是建立在学科分类体系上的,属于体系分类法。如:中国图书馆图书分类法。,分类语言的特征,按学科知识领域集中文献。 依据分类标记符号编排。分类标记符号一般称为分类号,是表达各级类目的相对位置及相互关系的代号。 按等级结构,逻辑关系显示类目之间的关系。分类法中的众多类目是根据类目之间的内在联系组织起来的,类目之间的关系主要有从属关系,并列关系,交替关系,相关关系。,I 文学 I2 中国文学I24 小说I247 当代作品(1949)I247.5 新

26、体长篇、中篇小说 .58 武侠小说 例:查找“天龙八部”分类号为:I247.58,分类语言的优点,最突出的优点在于知识的系统性,能够满足用户族性检索的需要。按学科体系排列类目,直接体现了知识分类的要求,既能揭示出某一学科门类所包含的文献,同时又能显示出各个学科门类之间的逻辑关系,反映出一系列的相关文献,提供了从学科专业检索文献的途径。 中国图书馆分类法,简称中图法,我国具有代表性的图书分类法,被推荐为我国标准图书分类法,广泛使用于图书馆和情报部门的文献信息组织活动。在后面会做详细的讲解。,分类语言的局限性,分类语言是一种人工语言,多数检索系统都是用分类号检索的,普通用户难以掌握,一些数据库分类

27、过粗,一个类目下面汇集大量文献。而且分类法一般数年才修订一次,不能反映最新的知识门类。,5.数据库,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。,根据数据库的内容与功能划分,参考数据库(Reference Databases) 主要指二次信息数据库。它指引用户到另一信息源获得原文或其它更详细的信息。 书目数据库(bibliographic database) 以二次信息如:文摘、题录、目录等书目数据为存贮对象,有时又称为二次信息数据库,主要著录文献的标题、著者、出处、摘要、主题词等,指引用户查找原始文献。,(P.110)CALIS联合书目数据库是全国“211工程”100所高

28、校图书馆馆藏联合目录数据库。,主题 科学社会主义,指南数据库(directory database) 是存储有关某些客体(如机构、人物等)的一般指示性描述的一类参考数据库,其主要用途是供用户查询有关某一客体的基本信息或简要情况。亦称指示性数据库。 包括各种机构名录数据库、人物传记数据库、软件数据库、产品数据库等。,想查找电话、人名、电子邮件、地址等资料,综合型的搜索引擎功能并不强,必须要使用特种搜索引擎。 特种搜索引擎专门收集某一类的信息资源,内容丰富,数据量大,能帮助你迅速找到一些专门的信息。,Email/WhitePage Search Engine(白页搜索引擎) 个人信息搜索引擎是查询

29、个人信息的搜索工具,包括WhitePage Search Engine(白页搜索引擎,个人电话号码簿通常为白页,故名)和Email Search Engine(电子函件搜索引擎)等。广义的WhitePage Search Engine即指包括Email Search Engine在内的个人信息搜索引擎,狭义的WhitePage Search Engine仅指查询个人电话号码和地址的搜索引擎。,Four11(http:/),最著名和最优秀的个人信息搜索引擎,因美国电话查号台号码为411而得名,它具有超级的搜索能力、优秀的综合能力以及对用户友好的界面。,源数据库(Source Databases)

30、是指能直接提供原始资料或具体数据的数据库。 数值数据库(Numeric database):以自然数值形式表示、计算机可读的数据集合。如:统计数据库、管理数据库、科学数据库等。人文科学方面的数值数据库主要分布于经济和商业领域。 交易(执行)数据库(transactional database):是指用于交易的数据库、如股票、房地产等。 全文数据库(Full test Database):存贮全文或文献中的主要部分的一种源数据库。包括各种图书、期刊、新闻消息全文库、法律法规全文库等。,字(词)典数据库(dictionary database)也称术语数据库(terminological bank

31、),专门存储揭示各类名词、术语、词语的形、音、义与使用方法等信息的检索工具,大多是辞书、词典、百科全书等数字化版本。 图像数据库(image database, graphic database)提供人们存储和检索图像及其文字说明资料的一种源数据库。以图像、图形为记录单位。如家具、灯具、产品图片、广告、建筑设计等资料的存贮。 多媒体数据库(Multimedia database) 是多媒体技术、Internet技术、网络技术与传统数据库技术相结合的产物,能够对文本、数值、图形、图像、声音、动画、视频等复杂的多媒体对象进行一体化存储、管理和检索。如:新华社多媒体数据库。,6.检索词、检索式、检索

32、策略,检索词是用户给出的字、词、字符或短语,用于查找含有它的记录。 检索式也称检索提问表达式,是要求系统执行的检索语句。简单的检索式是一个检索词或多个检索词,复杂的检索式由多个检索词和字段名通过关系算符(逻辑算符与位置算符)连接而成。,检索策略是就一个问题检索一个(或多个)数据库所输入的全部检索式的集合,是为满足信息需求所制定的一系列检索式。,7.检中结果、查全率、查准率,检中结果是指数据库中满足检索式的那些记录的集合。检索质量有两个重要评价指标。 查全率(recall ratio,简写为R)指检索出的相关信息与信息系统中的相关信息总量之比。 查准率(Precision ratio,简写为P)指检索出的相关信息量和检索出的信息总量之比。,a=命中的 b=误检的 c=漏检的,R是衡量系统检索出的与课题相关信息的能力 P是衡量系统拒绝非相关信息的能力,思考:查全率和查准率能否同时提高?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 教育学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报