1、信息检索,开课学期:2010-2011-1 任课教师:钟云志 电话:13088991106 Email: 实验地点:图书馆 实验报告及相关材料存放地址: http:/ http:/ 到哪里去检索 使用什么检索 如何检索?,第一章 绪论,一、信息的含义 二、科研的基本步骤 三、信息检索的含义 四、信息源及信息的组织,一、信息的含义,为什么检索信息:消除事物的不确定性 与信息类似的词汇:文献、情报、资料、资讯等,二、科研的基本步骤,选题 查阅资料 研究设计和制定研究计划 收集和整理资料 开展研究 撰写研究报告,三、信息检索的定义,信息存贮、组织,信息查找 进行信息检索的前提:检索提问、检索课题 信
2、息检索类型(检索什么) 确定性检索 相关性检索 信息检索工具、信息检索系统(使用什么检索),信息检索系统的物理结构 硬件部分:主机、存贮器、输入输出设备、数据处理或数据输出有关的其他设备。 软件部分:系统软件:操作系统、语言处理程序、数据库管理程序、诊断程序等应用软件:数据采集程序、自动标引程序、建库与索引程序、词汇管理程序、检索匹配程序、用户接口程序等 信息资源集合:,信息检索系统的基本逻辑结构,四、信息源及信息的组织,个人为满足其信息需要而获得信息的来源,称为“信息源”.,文献信息源 非文献信息源,电子信息源 纸本信息源 其他信息源,一次信息源 二次信息源 三次信息源,文献的类型及识别 什
3、么是信息组织 信息组织的基本内容 图书馆的信息组织 信息组织的两大思想,文献的类型及识别,按照其性质、特点和出版方式可分为: 图书、期刊、特种文献(包括科技报告、会议文献、专利文献、学位论文、标准文献等 ) 按文献的载体形式可分为: 印刷型文献(纸本文献)、缩微型文献、声像型文献、机读型文献(电子型文献) 按文献加工程度(文献等级结构): 一次文献、二次文献、三次文献,图书 ISBN 978-7-5083-6266-3 期刊 ISSN: 1001-019X 核心期刊: 中文核心期刊要目总览 2008版,文献标识码是按照中国学术期刊(光盘版)检索与评价数据规范规定的分类码,其作用在于对文章按其内
4、容进行归类、以便于文献的统计、期刊评价、确定文献的检索范围。具体如下:A-理论与应用研究学术论文(包括综述报告)B-实用性技术成果报告(科技)、理论学习与社会实践总结(社科)C-业务指导与技术管理性文章(包括领导讲话、特约评论等)D-一般动态性信息(通讯、报道、会议活动、专访等)E-文件、资料(包括历史资料、统计资料、机构、人物、书刊、知识介绍等),参考文献著录中的文献类别代码: 专著:M 会议录:C 汇编:G 报纸:N 期刊:J 学位论文:D 报告:R 标准:S 专利:P 数据库:DB 计算机程序:CP 电子公告:EB专著、论文集中的析出文献用单字“A”标识;其他未说明的文献类型,用单字“Z
5、”标识。,文后参考文献著录规则: GB/T 7714 -2005,学位论文(dissertation、thesis) 会议文献(conference、Proceedings) 标准文献 专利文献 其他,什么是信息组织,信息组织,也叫信息整序,是利用一定的规则、方法和技术对信息的外部特征和内容特征进行揭示和描述,并按给定的参数和序列公式排列,使信息从无序集合转换为有序集合的过程。外部特征:信息的物理载体直接反映的信息对象,构成信息的外在的、形式的特征内部特征:信息包含的内容,由主题词、关键词或其它知识单元表达,信息描述和揭示根据信息组织和检索的需要,对信息的主题内容、形式特征、物质形态等进行分析
6、和记录信息存储将经过加工整理序化后的信息按一定格式与顺序存储在特定的载体中,信息组织的基本内容,图书馆的信息组织,物理陈列:分类号、索书号、上架、更新,图书馆的信息组织,馆藏书目检索库题名、作者、出版时间、分类号、国际标准书号、索书号、主题词,信息组织的两大思想,分类方法根据信息的学科体系特征来序列信息的一种方法体系。如中国图书馆分类法、UDC等 主题方法根据文献主题特征来组织排列信息的一种方法,由受控的自然语言语词直接表达主题概念。,应用分类法:Yahoo分类目录门户网站分类频道 分类搜索浏览主题法:百度,Google 搜索引擎,信息组织的两大思想,第二章 网络学术信息检索的基本知识,第一节
7、 网络学术信息资源概述 第二节 网络学术资源检索原理和方法 第三节 信息检索的基本步骤,第一节 网络学术信息资源概述,网络学术信息资源的特点 网络学术资源的类型 网络学术信息资源检索中几个基本术语 网络学术资源的基本服务模式 网络学术资源的合理使用,网络学术信息资源的特点,总体来说,正在形成由商业出版机构和非赢利学术出版机构开发生产的电子化文献为主,基于开放存取(OA)的理念出版的学术成果为辅的网络学术资源生产、交流与传播体系。,具体来说: 内容丰富、增长迅速、形式多样 服务的主体:传统学术文献出版机构 开放存取: 从内容和学科来看:不同领域、地域、语言 从媒体形式来看:文本、图片、音频、视频
8、、三维虚拟影像 结构复杂、格式多样 分布式保存、集成化服务 多种服务模式面向最终用户,网络学术资源的类型,书目型数据库 文摘/索引数据库 馆藏书目数据库(OPAC) 全文数据库 参考工具数据库 其他资源,几个基本术语,网络信息资源检索中的几个基本术语 DOI:DOI是“Digital Object Identifier”的简写,用来标识在数字环境中的内容对象。随着时间推移,数字对象的某些有关信息可能会有变化(包括从哪里可以找到它),但是DOI不会改变。DOI是一个永久性的标识号,由International DOI Foundation管理。 例如:doi:10.1016/j.actao.20
9、07.05.006 SDOL、SpringerLink等数据库中采用。,http:/dx.doi.org/,SICI:SICI (Serial Item and Contribution Identifier),主要是用来配合ISSN,以辨识某一种期刊或该期刊的某一期或某一篇文章。SICI code用于目前美国图书馆界在推动的馆际合作计划NAILDD计划,以及文献传递服务。除了SICI code之外,美国出版界也有BICI code (Book Item and Contribution Identifier)用来辨识套书中的某一册及某一篇章。 例如: 0002-8231(199412)45:
10、102.3.TX;2-M JSTOR 数据库中采用。,PMID :PMID为 PubMed Identifier 或 PubMed Unique Identifier的缩写,形式为一组号码,用于指定 PubMed 生命科学(life science)、生物医学(biomedical scientific)每一篇期刊文章。 例如: PMID: 15258113 PUBMED数据库中采用。,参考文献链接系统: CrossRefCrossRef是一个基于DOI实现文献引文跨出版社服务平台链接的参考链接服务系统。提供的链接服务可以从文献的参考文献链接到全文。一篇文献的引文(或参考文献)原文如果有网络版
11、并注册了DOI,用户就可以利用引文中设置的CrossRef链接按钮直接链接到引文所在的出版社网页,获得引文文摘信息,如果图书馆从出版社订购了该网络版期刊,读者将可以由此打开引文全文.,http:/www.crossref.org/,RSSRSS是基于XML技术的互联网内容发布和集成技术,是一种描述新闻或其他Web内容的方式,通过“Feed”将最新的信息即时主动推送到用户桌面,使用户不必直接访问网站就能得到更新的内容。,网络学术资源的基本服务模式,商业学术资源的销售与访问控制模式 个人用户: 团体用户:主要采取图书馆共建共享方式订购网络学术资源。中国高等教育文献保障系统(CALIS) China
12、 Academic Library & Information System,国外学术资源的四种服务方式 建立国内镜像服务器 租用国际网络专线 购买电子资源裸数据 直接通过因特网登录国外主站点进行访问,网络学术资源的合理使用,电子资源的许可协议合理使用的基本操作规则 一般来说: 不得使用任何软件、工具下载图书馆购买的电子资源; 不得批量下载文献,也不得将所获得的文献提供给校外人员,更不允许利用获得的文献资料进行非法牟利。 校内任何单位和个人,如设置相应的代理服务器,一定要事先得到图书馆允许,并且保证该服务器不得允许校园外IP通过它访问图书馆购买的电子资源。,远程访问图书馆电子资源技术 代理服务
13、器 EZproxy VPN(Virtual Private Network) Athens,代理服务器代理服务器受支持协议的限制,一些客户端服务器模式的电子资源如CA网络版SciFinder,无法通过代理服务器访问。,EZproxy与普通代理服务器软件的主要区别,它采用“URL重写”技术,用户无需修改浏览器的设置就能实现代理访问资源的功能 VPN(Virtual Private Network)依靠ISP(Intemet服务提供商)和其他NSP(网络服务提供商)在公用网络中建立专用的数据通信网络的技术。 AthensAthens是英国高等教育部于1996年开始实施的一个用于网络数据库登录管理的
14、项目,随后成为英国教育部门和卫生部门利用网络资源的事实标准。,第二节 网络资源检索原理和方法,网络资源检索基本概念 基本检索技术 检索结果的分析与管理,网络资源检索基本概念,检索字段与检索途径 检索语言与主题词表 检索方式 在线帮助机制,检索字段与检索途径数据库中最小的数据单元为字段(fileld),包括文献题名、著者、文摘、来源出版物、关键词、主题词、全文等。,检索字段或检索途径是用户检索时所选择的入口,这是两个相互呼应的概念,选择什么样的检索字段,即遵循了什么样的检索途径。,基本检索字段、辅助检索字段 基本检索字段:反映文献内容特征的字段。 辅助检索字段:反映文献外表特征的字段。 题名字段
15、泛指文献名称,包括图书题名、期刊题名、论文篇名、会议文献篇名、学会论文篇名等。 著者字段 主题词字段 文摘字段 全部字段,检索语言与主题词表 检索语言 主题语言 分类语言 主题词表,中图法,马克思主义、列宁主义、毛泽东思想、邓小平理论 A 马克思主义、列宁主义、毛泽东思想、邓小平理论,哲学 B 哲学、宗教,社会科学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理,自然科学 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航
16、空、航天 X 环境科学、安全科学,综合性图书 Z 综合性图书,TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学与金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 能源与动力工程 TL 原子能技术 TM 电工技术 TN 无线电电子学、电信技术 TP 自动化技术、计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程,0 总类、科学和知识1 哲学、心理学2 宗教、神学3 社会科学4 (语言)5 数学和自然科学6 应用科学、医学、技术7 艺术、娱乐、体育8 语言、语言学、文学9 地理、传记、历史,获取信息方式 基本检索 高级检索
17、专业检索 二次检索与检索历史 限定检索范围 浏览 ,CSA,OVID,EI,ERIC,netlibrary,SpringerLink,CNKI中国期刊全文数据库,SDOL,在线帮助机制 特定上下文帮助 在线用户手册 资源内容介绍,基本检索技术,布尔逻辑算符 位置算符 截词算符 限定字段检索 检索式的编制 检索结果的浏览与输出,布尔逻辑算符 逻辑“或”(和)用符号“or”或“+”表示,其逻辑表达式为:A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词B,或同时含有检索词A和B的,均为命中文献。,逻辑“与”用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and
18、B其意义为检索记录中必须同时含有检索词A和B的文献,才算命中文献。,逻辑“非”用符号“not”或“-”,其逻辑表达式为:A not B 或 A-B其意义为:检索记录中含有检索词A,但不能含有检索词B的文献,才算命中文献。,位置算符 With:设定需检索的两个词或词组在同一字段中,但不限制位置的先后。 Near:设定需检索的两个词或词组在同一语句中,相对于“with”更接近。此外,在使用“near”运算符时,还可以在该运算符后添加一个数字以便进一步限定两个词之间的邻近程度,如“near3” 设定需检索的两个词或词组在同一句子中且相隔不超过3个单词。,截词算符截词检索主要是利用检索词的词干或不完整
19、的词形进行检索。截词符一般用“?”、“ *”、“#”表示 后方截词:用于前方一致的派生词检索。如:信息?则表示在数据库中含有信息、信息技术、信息检索等方面的文献记录均为命中文献。 前方截词:用于后方一致的派生词检索。如:?经济则数据库中含有经济、工业经济、农业经济等方面的文献均为命中文献。,有限截词在检索词后面加上一个或一个以上的“?”,空一格,再加一个“?”。如:Comput? ? 可检索出:Computer,Computers,Computing截词检索在不同的计算机检索系统中规定不同,请使用时注意,限定字段检索为了缩小检索范围,可利用字段代码来限制 检索词出现的字段,以提高检索速度和命中
20、率。如:rice in ti(表示只在题目字段中查找文献) rice in ab(只在文摘中查找)au = Smith,J.C (查作者为Smith,J.C 的文章)py = 1998(只查1998年的文章)la =Chinese (只查语种为中文的文献),检索式的编制 确定合适的检索词 检索词要求“准”而“全”。 检索词的来源: 已有知识的积累,即熟悉要检索的课题。 根据现有文献获得检索词 构造检索式,检索历史的重复与检索式的调整 缩窄检索条件 使用更窄的检索词替代已经使用的检索词 使用恰当的主题词代替自然语言词 限定检索词出现在特定字段中 and和not的使用 其他条件的限定,如语言、出版
21、日期、文献类型等 放宽检索条件 减少and组合的检索词的数量 增加同义词的数量 更多使用截词符 去掉吗限定条件,如语言、日期等 使用“全部字段”选项,数据库中检索历史重复与检索式调整的实现 检索历史 二次检索 索引的浏览,检索结果的浏览与输出 检索结果的显示与排序 按相关性(Relevance) 按日期(date) 按作者姓名(Author AZ, Author ZA) 检索结果的输出下载(Download)、存盘(Save)打印(Print)、电子邮件(Email) 标记(Mark/Select/Check)输出(Export),检索结果的分析与管理,检索效果的评价 个人文献信息管理系统,检
22、索效果的评价 查全率与查准率,收录范围 输出格式与方式 链接的可靠性 资源的更新频率 系统辅助分析功能的使用 如ISI Web of Science数据库的分析功能(Analyze Results),个人文献信息管理系统 RefWorks EndNotes NoteExpress Reference Manager 医学文献王 ,选择标准: 系统能够支持多种文献类型的数据格式 系统支持访问的联机检索系统的列表,以及导入数据的格式个关键信息字段。提供用户自行建立格式的功能 支持从网络学术资源中转入检索结果 支持学术期刊的引用及参考文献的著录格式 支持中文文献管理,第三节信息检索的基本步骤,分析检
23、索课题 选择检索系统和数据库 确定检索词 构建检索提问式 上机检索并调整检索策略 输出检索结果,分析检索课题 弄清用户信息需求的目的和意图。 分析课题涉及的学科范围、主题要求。 课题所需信息的内容及其特征。 课题所需信息的类型,包括文献类型、年代范围、语种、著者、机构等。 课题对查新、查准、查全的指标要求。,选择系统和数据库 数据库收录的信息内容所涉及的学科范围; 数据库收录的文献类型、数量、时间范围以及更新周期; 数据库所提供的检索途径、检索功能和服务方式。,确定检索词 先选用主题词。当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词,从而可获得最佳的检索效
24、果。 选用数据库规定的代码。许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。 选用常用的专业术语。在数据库没有专用的词表或词表中没有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索词。 选用同义词与相关词。同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。,构建检索提问式 使用逻辑“与”算符可以缩小命中范围,起到缩检的作用,得到的检索结果专指性强,查准率也就高。 使用逻辑“或”算符可以扩大命中范围,得到更多的检索结果,起到扩检的作用,查全率也就高。 使用“非”算符可以缩小命中范围,得到更切题的检索效果,也可以提高查准率,但是使用时要慎重,
25、以免把一些相关信息漏掉。 在构建检索提问式时,还要注意位置算符、截词符等的使用方法,及各个检索项的限定要求及输入次序等。,上机检索并调整检索策略 检索结果信息量过多原因可能有以下两点:一是主题词本身的多义性导致误检;二是对所选的检索词的截词截得太短。在这种情况下,就要考虑缩小检索范围,提高检索结果的查准率。 检索结果信息量过少 原因主要有:首先,选用了不规范的主题词或某些产品的俗称,商品名称作为检索词;其二,同义词、相关词、近义词没有运用全;其三,上位概念或下位概念没有完整运用。针对这种情况,就要考虑扩大检索范围,提高检索结果的查全率。,输出检索结果根据检索系统提供的检索结果输出格式,选择需要的记录以及相应的字段(全部字段或部分字段),将结果显示在显示器屏幕上、存储到磁盘或直接打印输出,网络数据库检索系统还提供电子邮件发送、输出到个人文献管理工具里面等功能。,