1、第二讲,信息检索基础知识,图书馆信息服务部:徐淑慧 Tel:82519545 E-mail:,本将主要内容,信息及相关概念 信息的分类 信息检索 计算机检索系统 信息检索语言,信息及相关概念,信息(Information)的概念,信息论的创始人克劳德香农(Claude E. Shannon)从通信系统理论的角度把信息定义为:信息是用来消除不确定性的东西 。 控制论的创始人、美国科学家维纳(N. Wiener)对信息的含义做了进一步的阐述 :信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容的名称 。 中国学者钟义信对信息的解释:信息是事物运动的状态与方式
2、,是物质的一种属性 。,普遍认同的一个概念信息普遍存在于自然界、人类社会和思维领域中,它是客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。,信息的特性,客观性 传递性 时效性 转换性 共享性,知识(knowledge)的概念,知识是人们对客观事物存在和运动规律的认识,是经过人脑加工处理过的系统化了的信息。人们对事物由表及里、由现象到本质、由感性到理性的认识深化,便形成了知识。知识是人类经验和智慧的总结,是人们科学地认识世界、改造世界的力量。,知识的存在形式,1、存在于人脑记忆中 2、存在于实物中 3、用文字、图形、符号、代码、声频、视频
3、等技术手段记录在一定载体上的知识。其中第三种形式称作文献,文献(literature、document)的概念,中华人民共和国国家标准文献著录总则给文献下的定义是:“文献是记录有知识的一切载体”。 人类最初是依靠自身来记录和传递知识的,但因受自身条件的限制,无法将信息传递至远方和后世。文献的产生,使信息的记载和传递形成一个飞跃。,文献构成三要素,文献由三个要素构成,知识、载体、记录方式三位一体不可分割。,形态,构成文献的重要手段,内容,本课程所涉及的信息主要为文献信息,信息、知识、文献的关系,信息,知识,文献,文献信息的分类,信息的外延是一个纷繁的体系。按照 不同的标准和方法有不同的分类形式,
4、文献分类总示意图,一次信息 二次信息 三次信息,印刷型 缩微型 视听型 机读型,期刊论文 会议论文 学位论文 专利文献 标准文献 科技报告 技术档案 政府出版物 产品样本,文献信息,按加工层次分,按载体类型分,按载体类型分,甲骨 树皮 竹简 丝帛 等,纸介质手写 雕刻印刷 活字排版 激光照排技术,印刷型,按载体类型分,缩微型,感光材料为载体 缩微胶卷 缩微平片,电子型,磁性或塑性材料为载体磁盘版 光盘版 联机版 网络版,视听型,磁性或感光材料为载体唱片、录音带、电影片、录像带等,信息按载体类型分,一、按载体形式划分,(1)印刷型: 载体:纸张 记录手段:手写、打字、印刷和复印等 优点:便于直接
5、阅读,使用方便 缺点:较笨重、存储密度低,不便于加工、整理和收藏。 此类型文献有:期刊、图书等(2)缩微型: 载体:感光材料 记录手段:缩微照相 优点:存储密度较大、体积小、便于收藏保存、便于远距离传递 缺点:缺点是不能直接阅读,需借助缩微阅读机才能阅读 此类型文献有:缩微胶卷、缩微胶片等,(3)视听型(声像型) 载体:磁性和感光材料 记录手段:借助于特殊的机械装置(如复录机、摄像机、录像机等)直接记录声音、图像 优点:直观、生动 缺点:制作成本较高,需要借助于一定的设备才能阅读 此类型文献有:唱片、录音带、录像带、幻灯片、电影片、多媒体资料等 (4)电子型(数字型) 载体:光、电、磁介质 记
6、录手段:利用计算机进行存储 优点:存储密度高,出版周期短、易更新,传递信息迅速,存取速度快,可以融文本、图像、声音等多媒体信息于一体,信息共享性好、易复制,识别和提取易于实现自动化 缺点:需借助计算机等先进技术设备才能阅读 此类文献有:电子图书、电子期刊、联机数据库、网络数据库、光盘数据库,一次文献(Primary Document): 通常是指原始制作,即作者以本人的研究成果为基本素材而创作(或撰写)的文献。如期刊论文、科技报告、会议论文、专利说明书,二次文献(Secondary Document):是指文献情报工作者对一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文献,由文
7、献情报工作人员编辑、出版和积累起来的工具性的文献。二次文献的重要性在于可以帮助人们查找一次文献。如目录、题录、文摘、索引、各种书目数据库,三次文献(Tertiary Document):是指利用二次文献,选用一次文献内容,经综合,分析和评述后形成的指南性文献。如综述、述评、词典、百科全书、年鉴、指南数据库、书目之书目,二、按加工层次分:,检索的目标,检索的手段,检索的对象+检索的工具,文献结构示意图,书目题录 索引 文摘,词典 名录 指南 手册 年鉴,评述 论文 丛集 百科全书,二次文献,原始文献 (一次文献),三次文献,文献整理,重组、浓缩,信息检索,检索过程分析,检索者,检索系统,信息源(
8、大量信息) 充分标注(检索语言) 可检索(检索技术、规则等) 可显示(屏幕显示或打印) 信息之间的连接等,表达需求,反馈结果,信息存储与检索过程图,文献信息,分析,检索课题,文献 信息 特征,检索 提问 信息,分析,著录,标引,选用,检索 语言 和 名称 规范,文献信息 标识 (检索项),检索提问 标识 (检索词),形成,形成,检 索 系 统,输入,检索,检 索 结 果,输出,存储过程,检索过程,信息检索的概念,将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。广义的信息检索包括存储和检索两个过程,狭义的信息检索就是指用户查找出所需信息的过程。,信息检索原理,检索系统将用
9、户的请求与信息集合中的信息进行匹配运算,再将命中信息反馈给用户。,信息检索类型,按检索对象的性质划分:事实检索、数据检索、文献检索按检索方式划分:手工检索和计算机检索计算机检索又包括联机检索、光盘检索和网络检索。,联机检索,联机检索是指用户利用计算机终端,通过通信线路或网络,在联机中心的数据库中获取信息。特点同时检索多个数据库、数据质量高、检索机与主机是主仆关系、对检索人员要求高、而且检索需要的费用高。,光盘检索,用光盘作为信息存储介质的数据库。分为单机检索和局域网内的联机光盘检索。,网络信息检索,用户在自己的客户端上,通过互联网和浏览器界面对网络信息进行检索。 特点数据库分布式存储,数量多,
10、信息量大;由于超文本语传输协议,提供了大量相关链接;内容向多媒体发展,不仅有文本,还有图像、声音等;数据库更新速度快;检索功能强,索引多,易学易懂;但目前各数据库检索界面和检索技巧不尽相同,给使用者造成不必要的麻烦;检索环境宽松,检索费用比联机检索低很多。(网络信息检索也包括通过网络进行的数据库检索),信息检索发展历程,手工检索到计算机检索 题录文摘信息到全文信息的获得 计算机检索经历了联机检索、光盘检索和网络检索方式 发展趋势是异构数据库的统一平台检索(我们下面的讲课内容侧重于计算机信息检索),计算机检索系统,计算机信息检索系统的概念,由存储在一定载体上的有序化信息集合、相应的检索技术与设备
11、等构成的具有存储和检索功能的信息服务体系。,2.信息检索系统的构成,从物理构成来讲分为硬件、软件和数据资源从检索方式划分联机检索、光盘检索和网络检索,硬件,检索机 服务器 网络,软件,采集 存储 标引著录 规范,内容发布 检索 服务 管理,数据资源,数据库 网络信息资源,数据库,数据库是一系列信息记录的集合,是检索系统中的信息源。存储于计算机的磁带、磁盘或光盘上。 数据库分为题录文摘数据库和全文数据库中文数据库和外文数据库综合数据库和专业数据库图书、期刊、学位论文、专利、标准等数据库,检索系统的评价,检索功能 检索技术 检索结果 用户服务,信息检索语言,1.检索语言的概念和作用,检索语言是信息
12、存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。检索语言是人与计算机对话的基础。检索时的匹配运算就是通过检索语言的匹配来实现的。存储信息时,赋予信息特征标识,如题名、作者、分类号等;检索信息时,用检索语言表达用户的需求。,检索举例,查找我馆馆藏中“英语”方面的2004年以来出版的图书的藏书情况,2.检索语言的分类,自然语言从信息内容本身自动抽取的。如题名、关键词、文摘、作者所在机构等。 人工语言根据检索的需要由人工规定的,采用规范词或代码来专指某个概念或网罗与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制,包括分类检索语言和主题检索语言。,分
13、类检索语言,按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。目前常用的分类法有中国图书馆图书分类法(简称中图法)、 美国国会图书馆分类法、 杜威分类法、 国际专利分类表。,中国图书馆图书分类法,1999年推出了第四版,共分大部类22个基本大类。22个基本大类是在5在部类的基础上第一次划分得到的,称为一级类目,分别对应一个英文字母;从基本大类起,再连续划分3次,得到二级、三级、四级类目。采用汉语拼音字母和数字相结合的方式对图书进行分类,是目前国内各公共图书馆和高校图书馆普遍使用的图书分类法,我馆藏书也是按照该分类法进行排架。,中图法简表,中国图书
14、馆分类法样例,索书号举例,F123.16/W61 F123.16-2/Z24/2 F123.17/Z89/(2) F123.2/L66-2 F12/Y30,主题检索语言,由主题词汇构成,即将自然语言中的名词术语经过规范化后直接作为信息标识,揭示主题概念之间的关系。主题语言表达的概念比较准确,具有专指性,不同的专业领域或不同的数据库(一般为外文数据库)有自己的主题词表。,EI中的词表功能,EI记录样例,分类语言用于检索信息的特点,具有等级结构,便于扩大和缩小检索范围 用分类号做检索标识,不存在文种的限制 分类表中的类目不能随时变化,不能及时反映新的学科技术,边缘交叉学科只能从学科门类进行检索 隶属于一个门类下,造成漏检,