1、信息检索,主讲人:盛 芳 Email: 电 话: 67791304 地 址: 图文信息中心203室,2,2019/7/8,教学进度安排,3,2019/7/8,考试成绩组成,4,2019/7/8,教材及参考书,书名:信息资源检索 ISBN: 7-111-15067-8 作者:李谋信 出版社:机械工业出版社 出版年:2006年1月 价格:32元(附CD一张),参考教材: 1. 匡松,洪平洲.信息资源检索与利用.北京:人民邮电出版社,2008 2. 谢德体,陈蔚杰,徐晓琳.信息检索与分析利用.北京:清华大学出版社,2007 3. 章云兰,万跃华,舒炎祥. 数字资源检索教程.北京:科学出版社,2006
2、,5,2019/7/8,第1章 信息检索基础知识,1. 信息检索的基本概念 2. 信息源及其类型 3. 文献老化与分散规律 4. 检索效果的评价标准,6,2019/7/8,1 信息检索的基本概念,1. 信息2. 知识3. 情报4. 文献5. 相互关系,7,2019/7/8,1.1 信息(Information),信息就是通过一定的物质载体形式表现出来、表征客观事物特征和变化的实质内容。,信息不是事物本身,而是由事物发出的消息、指令、数据等所包含的内容。,8,2019/7/8,信息的重要性,信息就是资源、信息就是财富、信息就是机会、信息就是竞争力。,从某种意义上讲,国力竞争信息的竞争。,9,20
3、19/7/8,1.2 知识(Knowledge),知识就是人类对客观世界的认识,是人脑通过思维重新组合的系统化的信息的集合。,知识是文明程度的标志。,10,2019/7/8,1.3 情报(Intelligence),情报就是为了解决一个特定的问题所需要的激活了的知识。情报是在一定的时间内为一定的目的而传递的有使用价值的知识。情报的三种基本属性:知识性 传递性 效用性,11,2019/7/8,情报交流方式,情报交流:是指信源与信宿之间相互传递情报的活动。,间接交流: 通过文献进行交流。 直接交流:通过直接接触或电话等方式进行交流。,12,2019/7/8,灰色的商业情报,力拓“间谍门”事件 力拓
4、、必和必拓、淡水河谷三大矿山 胡士泰 反思,13,2019/7/8,1.4 文献(Document),文献是记录有知识的一切载体,即物化了的知识。,14,2019/7/8,1.5信息、知识、情报、文献的关系,当信息经过人脑重新组合和系统化后成为知识; 当知识对特定的人有用时,则成为情报 ;,信息知识情报,15,2019/7/8,而知识用一定的记录手段记录下来时,则成为文献(文献中含信息、知识和情报)。因此,人们对信息的需求,常常转化为文献的需求。,1.5信息、知识、情报、文献的关系,16,2019/7/8,信息链,目标,信息入口,信息入口,信息入口,17,2019/7/8,第1章 信息检索基础
5、知识,1. 信息、知识、情报、文献 2. 信息源及其类型 3. 文献老化与分散规律 4. 检索效果的评价标准,18,2019/7/8,2 信息源及其类型,信 口头信息源 会议/电话/广播电视 息 实物信息源 1.传统信息源 源 文献信息源 2.数据库(光盘/网络)3.互联网信息 检索者常用的是文献信息源。,19,2019/7/8,2.1 信息源:按载体类型划分, 印刷型:读取方便,但占空间。 缩微型:节省95以上的存储空间 ,但必须借助缩微阅读机阅读 ,使用不方便。 声像型:主要包括唱片、录音带、录像带、幻灯片、电影等。生动直观 ,但成本高。 机读型:通过计算机存储和阅读的文献类型。,20,2
6、019/7/8,蒋介石日记的缩微胶卷样品,声像资料,甲骨文 商晚期兽甲骨文,帛书 中国古代写在绢帛上的文书,手稿 印度梵文哲学手稿,机读型,各种载体形式的文献,21,2019/7/8,2.2 信息源:按加工程度划分, 零次文献 一次文献 二次文献 三次文献,22,2019/7/8,2.2.1 零次文献 Gray Literature,也叫内部刊物或灰色文献,指未经出版发行的或未进入社会交流的最原始的文献。,如:私人笔记、底稿、手稿、个人通信、新闻稿、工程图样、考察记录、试验记录、调查稿、原始统计数字、技术档案以及贸易文献等。,23,2019/7/8,2.2.2 一次文献:Primary Doc
7、ument,也叫原始文献,凡是以作者本人的生产和科研成果为依据而创作的文献都叫一次文献。如:专著(图书)、期刊论文、科技报告、会议论文、专利文献、学位论文、标准文献、科技档案等 特点:有详尽具体的学术内容与研究数据,参考和使用价值较高,是科研人员追踪的主要目标。,24,2019/7/8,2.2.3 二次文献:Secondary Document,也称检索性文献,指文献工作者对有价值的一次文献进行提炼、浓缩和加工,即著录其外部特征和内容特征,标引出文献的主题,编制成的具有多种检索途径的检索工具。如:文摘、索引、书目等。 特点:不但报道文献内容,还提供检索原始文献的线索。,25,2019/7/8,
8、2.2.4 三次文献:Tertiary document,又称参考性文献。指利用二次文献的线索,系统地检索出一批相关文献,并对其内容进行综合、分析、研究评述而编写出来的文献。,如:词典、手册、年鉴、百科全书、文献指南、书目之书目、专题报告、述评及综述性文章。,26,2019/7/8,一次、二次与三次文献之间的关系,一次文献是检索对象(目标)二次文献是检索工具(手段)三次文献是情报研究成果(目标或手段),从文献情报的角度看:,27,2019/7/8,2.3 信息源:按出版形式划分,专业图书专业期刊科技报告会议文献专利文献标准文献,政府出版物学位论文产品资料技术档案公共记录信息,28,2019/7
9、/8,图 书 Book,图书是指50页以上的以印刷方式单本刊行的出版物(联合国教科文组织)。包括专著、汇编本、多卷本、丛书等。,特点: 内容系统、成熟、定型,可靠性强。 出版周期较长,更新速度慢。 专业图书包括大中专教材、学术专著、参考工具书等。,29,2019/7/8,ISBN,识别图书的标识有:书名、著者、出版地、出版社、出版时间、总页数、国际标准书号(ISBN)等。 国际标准书号(ISBN):International Standard Book Number共13位数字 ISBN 978-7-111-15067-8,30,2019/7/8,国际标准书号(ISBN),构成:语区/国家代码
10、+出版商代号+顺序号+计算机校验码 语区和国家代码位数越小说明该语种是大语种。出版商的位数越少可出版的书量越大。,31,2019/7/8,国际标准书号的构成,出版商 代码,语区/ 国家代码,顺序号,计算机 校验码,ISBN 978 7506425957,欧洲商品编号,32,2019/7/8,语区号与出版量的关系: ISBN 只用前12位数字唯一表示一种书。 语区号位数短,是大语种。 那出版商的位数就较多。,33,2019/7/8,期刊Journal,期刊是一种定期或不定期出版的连续性出版物。,特点: 内容新颖、信息量大 周期短、传递信息快 传播面广、时效性强,34,2019/7/8,期刊分类,
11、35,2019/7/8,ISSN,识别期刊的主要标识有:期刊名称,期刊出版的年、卷(VOL)、期号(NO),ISSN等。 国际标准连续出版物编号(ISSN):International Standard Serial Number 由两组三部分数字组成,共8位数字。第一组四位数字按刊名字顺排列第二组前三位是字头基础上的流水号最后一位是计算机校验码 例如:ISSN 1009-444X 上海工程技术大学学报,36,2019/7/8,科技报告 Report,科技报告是指对科学、技术研究结果的报告或研究进展的记录。,特点:不定期出版,但有连续编号;理论性强,是了解某一领域科研进展状况、发展动态的重要情
12、报源;保密性强,难以获取;,37,2019/7/8,科技报告的类型,绝密报告 Top Report机密报告 Secret Report秘密报告 Confidential Report非密报告 Unclassified Report解密报告 Declassified Report,38,2019/7/8,科技报告号示例,NASA-CR-186953(美国宇航局科技报告)AD-A207606(美国国防系统研究报告)DOE91-011930(美国能源系统研究报告)PB90-226341(美国民用系统研究报告)AGARD-R-775(北大西洋公约组织研究报告)HY93007(航空信息研究报告),39,
13、2019/7/8,会议文献 Conference Paper, Proceeding Paper,会议文献:指在学术会议上宣读的论文或交流的书面论文。 学术会议都是围绕着某一学科或专业领域的新成就和新课题来进行交流、探讨,因此论题集中、内容新颖、丰富、专、深、学术性强, 能反映出一个国家、一个地区或国际上当前某一科学技术领域的最新成就、最高水平和发展趋势。,40,2019/7/8,会前文献,会后文献,会 议 议 程,和论文摘要 论文预印本,会议日程表,会 议 录,论 文 集,图 书,期刊专辑,科技报告,期刊论文,声像资料,会议文献,41,2019/7/8,专利文献 Patents,专利文献是实
14、行专利制度的国家及国际性组织,在审批专利过程中产生的官方文件及其出版物的总称。,特点: 新颖性、创造性、实用性; 范围广泛、出版迅速、格式规范; 兼有技术情报、权利情报和法律情报。,42,2019/7/8,标准文献 Standards,标准文献是经过公认的权威机构批准的以特定的文件形式出现的标准化工作成果。是从事生产、设计、管理、产品检验、商品流通、科学研究的共同依据。是技术标准、技术规格和技术规则等文献总称。,特点: 有明确的适用范围 有法律约束力,43,2019/7/8,标准类型,国际标准 ISO IEC区域标准 全欧标准国家标准 GB(强制性),GB/T (推荐性) 行业标准 HG 企业
15、标准 Q 地方标准 DB(强制性),DB/T(推荐性),44,2019/7/8,标准类型:按成熟度划分,正式标准(强制性标准 GB)GB 5408.2-1999 灭菌乳试行标准(推荐性标准 GB/T)GB/T 3730.2-92 汽车和挂车的术语及其定义 车辆质量,标准代号,顺序号,发布年代,标准名称,45,2019/7/8,标 准 示 例,GB/T 8538-1995 饮用天然矿泉水检验方法 GB17323-1998 瓶装饮用纯净水 ISO 10256-96 冰球运动员用的防护帽 IEC 60718-97 电池功能车辆的电器设备 QC/T 29084-1992 汽车车轮质量分等 DB31/T
16、1-1999 电镀设备经济运行与节能监测 DB31/7-98 生鱼片卫生标准 DB31/292-2003 防护用纱布口罩,46,2019/7/8,政府出版物,政府出版物是指政府部门发表的文件。 行政文件:政府公报、司法解释、规章制度、政策方针、调查统计资料等; 科技文献:部门研究报告、技术政策文件。,特点: 重点在政治、经济、法律、军事等方面; 正式性和权威性。,47,2019/7/8,学位论文 Dissertation Thesis,学位论文是高等院校的博士和硕士研究生为了申请学位所撰写的毕业论文。 学位论文是经过审查的原始成果,并有一定的独创性,论述系统详尽,有较高的参考价值。 著录标识:
17、著者、论文题名、颁发学位的大学名称及学位名称。,48,2019/7/8,产品资料 Product Literature,产品资料泛指厂商为推销产品而印发的宣传广告。 包括产品样本、目录 、说明书、厂商介绍等。 特点: 反映的技术比较成熟,数据也较为可靠,内容具体、通俗易懂 常附较多的外观照片和结构简图,形象、直观 但产品样本的时间性强,使用寿命较短,且多不提供详细数据和理论依据,49,2019/7/8,技术档案 Technical Records,是生产建设或技术研制中形成的、有一定工程对象的技术文件的总称。特点:有很强的保密性,常常限定使用范围。是重要的信息源。,50,2019/7/8,技术
18、档案包括:,任务书、协议书;技术经济指标;审批文件;研究计划、有关的技术准备材料;设计计算、试验项目、设计图样、 工艺卡片;应入档的其它资料。,51,2019/7/8,公共记录信息,一般不归入文献信息类但随着社会法制化的不断深入,也逐渐成了调查、检索的对象。,信息包括: 企业负债记录 信誉记录 刑事记录 生命记录(出生或死亡日期,婚姻状况) 交通违规记录,52,2019/7/8,第1章 信息检索基础知识,1. 信息、知识、情报、文献 2. 信息源及其类型 3. 文献老化与分散规律 4. 检索效果的评价标准,53,2019/7/8,3 文献老化与分散规律,3.1 文献老化规律(半衰期) 3.2
19、文献分散规律(布拉德福定律) 3.3 指导作用:有助于从核心期刊查找相关文献,提高查准率和查全率。有助于了解某一课题的研究高峰,利于制定检索策略。,54,2019/7/8,3.1 文献老化规律(半衰期),所谓文献老化,指的是随着出版年代的远去,文献逐渐失去了作为情报源的价值,或者越来越少地被人们利用。,第一次揭示并用数学方式描述了文献出版年代越久利用率越低这一现象。,55,2019/7/8,某一学科文献的半衰期一定年限内被使用的该学科中50%文献的发表年代。,现用文献的相对量,出版年龄,50%,3.1 文献老化规律(半衰期),56,2019/7/8,文献老化规律应用,在进行文献信息检索时,注意
20、文献出版年的限定。学术信息的半衰期一般是35年。许多信息的老化如艺术品、经济信息、市场信息等表现出跳跃性。有时突然失效,有时永不失效。 查阅文献信息时尽量选取较新的文献。同时要顾及较早的文献。一般性研究可选择近5年来的文献即可。了解背景资料的则要长得多。 对发达国家的文献的利用可以在中文文献年限的基础上增加310年。,57,2019/7/8,据统计,各种科技文献的平均寿命大致是: 图书1020年; 科技报告10年; 学位论文57年; 期刊35年; 标准文献5年。,58,2019/7/8,3.2文献分散规律(布拉德福定律),第一次揭示并用数学方式描述了专业论文在期刊上的集聚现象。,布拉德福定律的
21、内容:可以把期刊划分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区,这时核心区与相继各区的期刊数量成:a:a的比例关系。,59,2019/7/8,3.2 布拉德福定律,假如在统计期间内某一学科的所有660篇论文共 刊登在248种期刊上,则期刊分布情况如下:,n1:n2:n3 = 1:a:a2,一般 a = 5,60,2019/7/8,第1章 信息检索基础知识,1. 信息、知识、情报、文献 2. 信息源及其类型 3. 文献老化与分散规律 4. 检索效果的评价标准,61,2019/7/8,4 检索效果的评价标准,技术效果的评价标准与用户投入无关的、对系统服务质量的满意度,包括查全率
22、和查准率两项指标。社会经济效果的评价标准反映了检索结果对用户的技术经济方面的影响,与用户花费的检索时间和费用有关。,62,2019/7/8,数据库中的相关文献总量,查出的相关文献量,查全率,查出的文献总量,查出的相关文献量,查准率,数据库 收录 文献 总量,数据库中的相关文献总量,查出的文献总量,查出的相关文献量,63,2019/7/8,4.1 查全率,例如:数据库中共有10万条记录,其中有100条 相关记录,现在查到20条记录:其中10条是相关记录,则查全率为10%若这20条记录都是相关记录,则查全率为20%,64,2019/7/8,4.2 查准率,例如:数据库中共有10万条记录,其中有100条相关记录,现在查到20条记录:10条是相关记录,则查准率为50% 若这20条记录都是相关记录,则查准率为100%,65,2019/7/8,The End! Thank you!,