1、 2010.2 修订,第一章,文献检索基础知识,第一节,基本概念,1、信息 (information),一事物能够被其它事物所感知的本质、特征以及运动及其规律的表征,是事物存在的客观反映。,信息的本质,山体的高度是一种信息,它反映了山的空间特性; 树干的年轮是一种信息,它反映出树木成长的时间特性树龄等等; 昼夜的变化是一种信息,它反映出地球绕太阳自转的运动特性和状态。,信息广泛存在于自然界、生物界以及人类社会之中,它既不是物质,也不是能量,而是依附于客观事物的存在,只要有物质,就有表征其属性的信息。,信息的本质,信息广泛存在于自然界、生物界以及人类社会之中,它既不是物质,也不是能量,而是依附于
2、客观事物的存在,只要有物质,就有表征其属性的信息。,诺亚的方舟在洪水中飘荡许久,当放出的飞鸽衔回一束橄榄,就带回了洪水已经退去的信息。,信息的作用,信息是事物各种客观属性的总称,它通过一定的媒介或传递方式(如:信号、波、图象等)为其它事物感知,使外界得以认识该事物、并与它事物相区别,从而减少乃至消除事物的不确定性。,信息的特点,反映性信息是宇宙实体的反映或映射,无量纲信息没有独立的时间/空间维度,不守恒信息可以增加或减少、再生或消灭,可共享信息可被多个信宿共同拥有/使用,2、知识 (knowledge),人类实践活动所获得认识与经验的总结。从信息学的意义上说,知识是对信息进行加工提炼所获得的抽
3、象化产物。,知识就是知“4W”,Know - What,Know - Why,Know - How,Know - Who,3、文献 (document 或 literature),记录一切人类知识信息的载体。 ISO/DIS5217,记录有知识的一切载体。 GB3792.1-83,文献构成“三要素”,知识内容,载体形态,记录方法,信息、知识、文献 之 关系,信息:事物的本质属性无处不在,无所不包,知识:信息中最“有用”的部分仅为人类所特有,文献:知识的外在表现知识信息得以传播的媒介,第二节,文献类型,1)按载体形式划分,印刷型 (printed form) 缩微型 (micro form) 声
4、像型 (audio visual form) 电子型 (electronic form),2)按加工程度划分,一次文献 (primary sources) 二次文献 (secondary sources) 三次文献 (tertiary sources) 零次文献 (non-printed sources),3)按出版形式划分,图书 (book) 连续出版物 (journal 或 periodical) 特种文献 (special document)包括:科技报告(technical report)、会议文献 ( conference paper ) 、 专利文献 ( patent docume
5、nt) 、 学位论文 (thesis dissertation) 、标准文献(standard)、政府出版物(government document)、产品资料(product literature)、技术档案(technical records)等8种。,十大信息源,第三节,基础理论,一、检索的概念和途径,文献信息在数量、内容、形式以及时效等方面所存在的特征和规律,决定了文献检索必须遵循科学的方法。,1、文献检索的概念,狭义: 有目的地针对文献信息的有序化集合所开展的查找活动及过程。,广义: 包括信息的存储和信息的检索这样两个过程。,2、文献信息的有序化,文献信息的有序化,是按照科学的规则和
6、方法,对文献信息的内外特征进行分析和提炼,使无序的信息流转化为在时间和空间上具有一定规律的有序的信息流。,“有序化”使文献信息形成了一种科学的组合,有利于信息用户对信息资源的有效获取和利用。,3、文献检索的途径,文献名称作者/编者/出版者序号/代码文献主题学科分类,4、文献检索的本质,检索要求与 信息集合,匹配,二、检索语言,1、概念,检索语言 (retrieval language)是根据文献检索的需要而编制的、用于描述文献的内容及外表特征,以及表达检索者提问(query)的一种人工语言(artificial language),是从自然语言 (natural language) 中提炼出来
7、的规范化语词的集合。,检索语言 VS 自然语言,功能:均用于交际 构成:都有语词、语法和语典 区别:a. 词类范围 b. 规范程度,2、类 型,1) 分类语言,以科学分类为基础,将全部科学按范畴划分而形成的一种语言体系,由类目(语言文字)及其相对应的类号(字母、数字或它们的组合)来表达各种概念,构成分类类目表。,分类语言包括体系分类语言和组配分类语言两种。,体系分类语言采用等级列举的方式组织类目,是最常用一种的分类语言,世界上几乎所有的分类法都是使用这种语言来编制的。我国的中图法和科图法等也不例外。,组配分类语言采用概念组配的方式组织类目,可以很好地适应学科发展、变化的状况,其代表作是冒号分类
8、法。但它的类号过于灵活,难以用于分类实践,然而作为一种先进的分类思想,目前已被体系分类法所广泛采用。,中国图书馆分类法简介,中国图书馆分类法(简称中图法),是目前国内应用最广的一部图书分类法。,中图法的体系结构,中图法以科学分类为基础,按照从总到分、从一般到具体的原则,以等级列举的方式构建分类体系。,中图法共设置 22 个大类,以1位大写英文字母作为大类符号,其下的各级类目则采用阿拉伯数字(注:T大类下的二级类目也用英文字母表示,即采用“双字母制”),并在每3位数字后隔以小圆点“.”。,例:TP393.4 国际互联网,中图法的类目设置(1),A 马克思主义、列宁主义、毛泽东思想、邓小平理论 B
9、 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理,中图法的类目设置(2),N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书,T 工业技术,TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学与金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 能源与动力工程,TL 原子能技术 TM 电工技术 TN 无线电电子学、电信技术 T
10、P 自动化技术、计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程,P 天文学、地球科学,1 天文学 测绘学20 一般性问题201 测绘标准202 测绘用表203 测量观测记录208 测绘数据库与信息系统地理信息系统(GIS)入此。21 普通测量学、地形测量学 3 地球物理科学 4 大气科学 5 地质学 7 海洋学 9 自然地理学,2) 主题语言,由反映文献外表特征和内容特征的主题词 (subject term) 构成的一种检索语言,能比较准确地表达出文献的主题概念。将主题词按字顺排列起来便形成主题词表 (thesaurus)。,根据主题词类型的不同,主题语言可分
11、为:,标题词语言(heading)由主、副两级标题词组配构成,其中主标题词表示某个事物,副标题词表示事物的某个方面,单元词语言(uniterm)检索时使用概念上不能再分解的单元词进行组配,但这是一种字面上的组配,关键词语言(keyword)关键词是自然语言中对检索具有实质意义的词汇,检索时可进行轮排,叙词语言(descriptor)叙词是能够表示特定概念并经过规范化处理的词或词组,检索时可将叙词进行组配以表达复杂概念,第四节,计算机检索,一、计算机检索的概念,计算机检索指利用计算机及其相关软件和通信设备,对本地计算机或远程服务器中存贮的信息所进行的检索。,计算机检索系统的构成,计算机硬件:服务
12、器、交换机、存储设备、数据输出设备等 检索软件:系统管理与控制程序 数据库:按一定方式存储的相互关联的数据集合。 信息传递设施:通讯网络等,二、文献信息数据库,在计算机存储设备上(如磁带、磁盘、光盘等)按一定方式合理组织并存储的相互关联的数据集合。,文献信息数据库的构成,文档,数据组成的基本形式,由若干个逻辑记录构成,记录,对某一文献全部特征进行描述的结果,是组成文档的基本单元,字段,描述文献的某一具体特征,是组成记录的基本单元,三、计算机检索步骤,计算机检索包含两个过程:,文献信息的组织过程,文献信息的查询过程,计算机检索的基本程序,分析检索课题 选择检索系统(数据库) 确定检索途径及检索词
13、 构建检索提问式 上机检索并调整检索策略 输出检索结果,四、 检索表达式,(一)分析课题,确定检索词,检索词是表达信息需求的基本元素,也是构造检索式的基本单元,选词是否恰当直接影响到检索的效果。对于给定的检索课题,应深入分析课题的内容实质,在提取核心词的基础上逐一确定全部检索词,并通过合理的组配、调整构造较为完善的检索式,最终获得满意的检索效果。,原则一,检索词应紧密切合课题,词义明确、具体,表达概念清晰,不可使用过于宽泛、含义不确切的词汇。,原则二,分析课题切忌局限于字面,应着重从词义入手,充分把握待检课题的内容实质,以保证概念抽取准确,完整表达检索要求。,方法一:切分 以词为单位,对课题语
14、句进行拆分,例:,土地荒漠化的气候特征,土地荒漠化 气候特征,环境监测与评价,环境监测 环境评价,方法二:删除 去除禁用词及不具检索意义的词汇,例:,中成药常见剂型,中成药 剂型,染料电化学性能的研究,染料 电化学性能,方法三:置换 用含义明确的词汇替换原课题用语,例:,集装箱探测,集装箱 射线 辐射成像,食品 绿色包装,食品包装 无污染 可降解,方法四:增补 分析隐含概念,挖掘潜在的主题词,例:,高层建筑优化设计,高层建筑 优化设计,垃圾处理,垃圾 回收 再生 无害化,结构设计,几点注意,词类一般限于名词、名词性词组或动名词 尽量采用专业术语、学科用语及专有名词,有词表时优先选用表中的规范词
15、 代词、介词、连词、副词等均属禁用词 对初步拟定的检索词,要尽量列出其所有同义词(包括缩略词、外文缩写以及学名、俗称等),外文检索词还需注意其不同拼法,(二) 检索词的组配, 布尔逻辑算符,1逻辑 “与” (“AND” 或 “”),对于概念“A”和“B”,检索式“A*B”表示只有当检索结果中同时含有“A”和“B”时才算命中。,2逻辑 “或” (“OR” 或 “ + ”),对于概念“A”和“B”,检索式“A+B”表示只要检索结果中含有“A”或“B”即为命中。,3逻辑 “非” (“NOT” 或 “ ”),对于概念“A”和“B”,检索式“AB”表示在检索结果中只能含有“A”, 而不能含有“B”。,(
16、三) 编列检索式,根据检索要求,对检索词进行合理组配,用恰当的算符将所有检索词联结起来,即构成检索表达式。,课题:建筑工程预(决)算系统,建筑工程 预算 决算 系统,土建工程,结算,软件系统,计算机程序,or,or,or,or,or,and,and,检索式:,(建筑工程 or 土建工程) and (预算 or 决算 or 结算) and (软件系统 or 计算机程序),(四) 检索式的调整,1. 检索词:增加专指度例:干洗剂-柔性干洗剂,2. 逻辑算符:缩小覆盖面例:“与”、“非”,3. 改变字段:退向“外部”例:全文-题名,检出结果过多:加以限制,(四) 检索式的调整,1. 检索词:降低专指度例:住宅-民用建筑,2. 逻辑算符:增大覆盖面例: “或”;不用“非”,3. 改变字段:向“内”延伸例:关键词-摘要,检出结果过少:放宽条件,注意:,采用“关键词”检索选用“关键词”字段!,前者是采用主题词语言中的关键词语言进行检索,其选用的字段可以是反映文献特征的任意一个或多个,如篇名、作者、关键词、文摘等;,后者仅针对文献数据库中的“关键词”字段,考察用户输入的关键词与文献所标注的关键词是否匹配。,