分享
分享赚钱 收藏 举报 版权申诉 / 81

类型第二讲:信息检索技术及中文全文库(CNKI、维普).ppt

  • 上传人:dzzj200808
  • 文档编号:2169597
  • 上传时间:2018-09-03
  • 格式:PPT
  • 页数:81
  • 大小:10.79MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第二讲:信息检索技术及中文全文库(CNKI、维普).ppt
    资源描述:

    1、科技文献检索与利用,第二部分:信息检索技术 及中文全文库(CNKI、维普),信息咨询部(情报所):费盛华 E-mail: Phone:021-65982423,课程安排,为什么还要进行数据库检索?-搜索引擎检索与数据库检索的区别(布尔逻辑算符、字段)专业搜索达人基础技能-截词符、位置算符 “达人”评价标准-查全率、查准率及其影响因素 从最常用的中文全文库开始练习- 中国期刊全文数据库(CNKI)中文科技期刊数据库(维普),搜索引擎检索与数据库检索的区别,1.搜索引擎:定义:搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整

    2、理和用户查询三部分。 搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。检索优点:任何内容,检索简单检索缺点:检全率高,检准率低,结果数量大,学术文献量少且无法获取全文(免费文献除外),百度的资源及检索,的资源及检索,2.数据库:定义:数据库是存储在一起的相关数据的集合,这些数据是结构化 的,无有 害的或不必要的冗余,并为多种应用服务;数据的存储独立于使用它的程序;对数据库插入新数据,修改和检索原有数据均能按一种公用的和可控制的方式进行。( J.Martin) 检索:布尔逻辑检索字段检索 检索优点:检准率高、具有针对性、学

    3、校资源提供大量的学术文献(可获取全文、文摘等)、检索方法多种 检索缺点:每个数据库相对独立、只能检索数据库限定的内容、检索相对复杂,搜索引擎检索与数据库检索的区别,1)布尔逻辑检索(Bool Logical Operators)用布尔逻辑算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。,搜索引擎检索与数据库检索的区别布尔逻辑运算符,逻辑“与”是检索词之间的相交关系运算。运算符号为“AND”或 “ * ”。检索式为: A AND B 或 A * B,(交集),A,B,搜索引擎检索与数据库检索的区别布尔逻辑运算符,逻辑“或

    4、”(和)是检索词之间的并列关系,用运算符号“OR”或“+”。表示两个检索项任一项出现在一条记录中。检索式为:A OR B 或 A + B,(并集),A,B,搜索引擎检索与数据库检索的区别布尔逻辑运算符,逻辑“非” 用于在某一记录集合中排队含有某一概念的记录。运算符号用“NOT”或“”表示。检索式为: A NOT B 或 A B,(排除),A,B,搜索引擎检索与数据库检索的区别布尔逻辑运算符,搜索引擎检索与数据库检索的区别布尔逻辑运算符,实例,污水处理装置自动化控制方面的文献研究 高层建筑结构抗震分析与设计 公共关系在WTO中的应用,搜索引擎检索与数据库检索的区别布尔逻辑运算符,字段是文献著录的

    5、基本单元,反映文献的外部特征和内容特征的每一个项目。,【中文题名】 XML语言及其应用 【英文题名】XML LANGUAGE AND ITS APPLICATION 【作 者】黄婉秋;黄筱霞;贾旭光 【作者单位】北京工商大学,计算机学院,北京,100037;北京工商大学,计算机学院,北京,100037;北方交通大学,计算机学院,北京,100044; 【刊 名】北京工商大学学报(自然科学版) 【英文刊名】JOURNAL OF BEIJING TECHNOLOGY AND BUSINESS UNIVERSITY(NATURAL SCIENCE EDITION) 【年 卷 期】2002 Vol.20

    6、 No.3 【关 键 词】XML; HTML; Web页面语言; 置标语言 【摘 要】简要阐述了XML语言的概念及特点,对它的语言结构进行了详细的分析,包括DTD、XSL、 XLL三部分.并将XML和HTML进行了比较,同时也对它和数据库之间的关系进行了描述.最后论述了XML的 发展与前景.,搜索引擎检索与数据库检索的区别字段检索,字段,基本索引字段: 在数据库中把描述文章主题性质,反映文章内容的字段称为基本索引字段。文献的标题(TI)、文摘(AB)、主题词(DE)及关键词(KY)等属于基本索引字段。 辅助索引字段: 描述与主题内容无关的字段,叫做辅助索引字段。作者(AU)、文献出处(SO)、

    7、出版年代(PY)、语种(LA)等属于辅助索引字段,与基本索引字段配合使用,起限定检索范围的作用。,搜索引擎检索与数据库检索的区别字段检索,截词检索技术在计算机检索系统中的应用非常普遍,在西文单词中经常会遇到词的不同变化,为了不漏检,可采用截词的方法处理检索词。截词就是利用计算机检索系统提供的截词符,保留检索词中的相同部分,允许检索词可有一定范围内的变化,以提高文献的查全率。,检索技巧进阶之截词检索(Truncation),截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩

    8、大查找范围,提高查全率。按 截 词 位 置 分: 有前截断、后截断、中截断;按截词的字符数量分:有限制截断、无限截断。表示截词的截断符号,各检索系统有不同的规定,没有统一标准。常用的截词符有:?和*,检索技巧进阶之截词检索(Truncation),1. 后截断后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。 非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干相同的所有词。例: 同根词,如comput? 表示允许其后可带有任何字符且数量不限,相当于查找compute、 comp

    9、uted、 computes、 computing、 computer、 computers、computerize、computerized、computation、 computations、 computational、 computationally 等词。例:年代,如199?(90年代)例:作者,如用Eric* 可检出所有姓Eric的作者。 注意:不宜将词截得过短,否则容易造成误检。 限制截断 :是在检索词词干后面加若干个截词符,表示限制可变化的字符数。例:fib? 相当于查找 fiber 或 fibre educat? 相当于Educator,educated,2. 中截断 (通配

    10、符或屏蔽)是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。例:organi#ation, 可检索到包含organization和organisation的记录。wom#n , 可检索到包含woman和women的记录一个?代表零个或任意个字符。例: colo?r ,可检索到包含 color、colour、colonizer、 colorimeter的记录。一个? 和数字,其中的数字代表可替换的字符数。例:colo?1r, 只能检索到包含colour的记录。,检索技巧进阶之位置算符,利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,

    11、会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能 (Full text searching)。所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点:规定的位置算符不同;位置算符的职能和使用范围不同。下面介绍几种数据库经常使

    12、用的位置运算符:,1.W - With W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。例: intelligent (W) robot? Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。 例: intelligent w1 robot*2. N - Near N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。例: intelligent

    13、 NEAR robot* Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。例: intelligent N1 robot* 3. Adj - adjacency 邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。例: intelligent adj robot*,检索技巧进阶之位置算符,构造检索提问式示例:课题:数字化图书馆的文献检索服务检索概念分析:document retrieval并列概念 document deliverydocument delivery systemdigital library

    14、同义词 virtual libraryelectronic library检索提问式:(document W retrieval or document W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*),检索效果评价,查全率(R)= 检出相关文献量 文献库中相关文献总量查准率(P)= 检出相关文献量 检出文献总量,(1)影响查全率的种种因素如:检索词是否扩大到穷尽,是否已用了所有可能的同义词和准同义词或不同的拼法;是否

    15、合理运用了逻辑“或”;是否对课题检索策略作了必要的扩大。 (2)影响查准率的因素如:是否尽量选用了专指度较高的检索词;是否采用了逻辑“与”和逻辑“非”算符来优化检索;是否对检索课题作了范围的有效限制等等。,影响因素分析,1)课题分析不透;“学科归属”不清。 2)“语言”不通。 3)主题概念不是大了,就是小了。 4)“同义词库”不全 5)核心词太多 6)选择的检索工具专业性不够。E-journal or search engine?,造成漏检或误检的原因,1)课题分析不透;“学科归属”不清。,对课题的真正含义和学科归属不清楚,会造成最大的失误。 如查找有关“玻璃钢”制造工艺方面的资料:如果没有认

    16、真分析课题的真正含义和学科归属,就匆匆着手检索,往往会欲速不达,或多走弯路,甚至导致失败。,如果从字面含义着手,以为它属玻璃工业或金属材料的范畴,而事实上,玻璃钢既不属硅酸盐工业里的玻璃类,也不属金属材料里的钢铁制品,而是合成树脂与塑料工业里的增强、填充塑料制品。,2)“语言”不通。,基于计算机的文献检索的特点与其说是人机对话,不如说是标引人员与检索人员的对话,只有标引人员与检索人员所表达的“语言”一致,才能顺利实现文献检索。 往往检索工具使用的是标引语言,而检索者使用的多数是自由词,未经规范化,这样在表达方式上有差异,造成了检索障碍。如: 自由词:维生素 C (vitamin C);标引词

    17、:抗坏血酸 (ACID,ASCORBIC) 自由词:艾滋病 (AIDS); 标引词:ACQUIRED IMMUNODEFICIENCY SYNDROME(后天免疫缺陷综合症);又如“沙示”(SARs), 禽流感(Bird flu).,3)主题概念不是大了,就是小了。,检索者不知道如何正确定位课题的主题概念,往往会不是大了,就是小了,初学者更容易把概念偏大。 主题概念的范畴太大造成大量没用的文献被误检,太小造成重要的的文献被漏检。 如“石油工业的废水处理”,若用“废水处理”作为主题概念,就会太大,在中国期刊网中有1400多篇,如果我们知道石油工业主要排放的是毒性较大的含酚废水,那么主题概念定位在

    18、“含酚废水处理”就比较恰当了,此时查出的文献大概有2030篇。,4)“同义词库”不全,往往同一件事情或事物,不同作者喜欢用不同的词来表达,这就造成了庞大的同义词库,如果偏偏你头脑中的“同义词库”不是那么全,造成漏见就不足为怪了。例: 艾滋病艾滋病、爱滋病 碳纤维碳纤维、炭纤维 聚四氟乙烯PTFE,polytetrafluoroethylene, Teflon 设备apparatus,equipment,device 汽车car,automobile,vehicle,5)核心词太多,对于由A、B、C、D、E多个主题组合的多主题概念课题,如果将所有主题混在一起同时组配,会造成“零结果”现象。 因为

    19、,只要A、B、C、D、E其中之一的检索结果为零,则经过布尔逻辑“和”的运算,检索结果=A*B*C*D*E =0 。,6)选择的检索工具专业性不够,E-journals:中文:中国期刊网、万方数据库系统、维普。英文:Elsevier Search engine:北大天网,百度,GooGle, Yahoo! Openfind, .,同义词 常用词 缩写词,案例一:氧化铝碳纳米管检索式:氧化铝*(碳纳米管+碳管+纳米纤维)案例二:耐高温粘接剂研究检索式:高温*(粘接剂+胶粘剂+粘合剂+粘结剂+黏合剂+胶黏剂+粘固剂+胶结剂),练习,隐含概念,案例一:京九铁路卫运河特大桥 从结构上分析,该桥是斜拉式预

    20、应力混凝土连续桁架桥,所以检索式为: 预应力混凝土*斜拉*桁架*连续梁案例二:唐山综合防灾研究 唐山: 城市 由于唐山是一个城市,该项目实际为“城市综合防灾的研究” 灾害: 地震、洪水、火灾 所采用的研究手段是决策支持系统和专家系统 研究: 决策支持系统、专家系统,练习,中国期刊网(CNKI)简介,中国知识基础设施工程 CNKI:China National Knowledge Infrastructure 是采用现代信息技术,建设适合于我国的可以进行知识整合、生产、网络化传播扩散和互动式交流合作的一种社会化知识基础设施的信息化工程。,该工程由清华大学发起,同方知网技术产业集团承担建设,被国家

    21、科技部确定为“国家级重点新产品重中之重”项目。CNKI 工程于1995年正式成立,历经十多年,已经建成了“ CNKI 数字图书馆”,涵盖了我国自然科学、人文与社会科学、工程技术、期刊、博硕士论文、报纸、图书、会议论文等公共知识信息资源。CNKI用户遍及全国和欧美、东南亚、澳洲等各个国家和地区,实现了我国知识信息资源在互联网条件下的社会化共享与国际化传播。目前,CNKI系列数据库已经被海内外17000多个高校、科研、医院、企业、政府、中小学等各类机构所采用。,中国学术期刊网络出版总库收录了国内出版的6642种学术期刊,其中核心期刊、重要评价性数据库来源期刊2460种,期刊种数完整率不低于99%;

    22、其他期刊4182种,期刊种数完整率不低于90%。文献收录期数完整率不低于99.9%,文献篇数收录完整率不低于99.9%。是目前世界上最大的连续动态更新的中国期刊全文数据库。中国博士学位论文全文数据库收录了全国420家博士培养单位的博士学位论文,是目前国内相关资源最完备、高质量、连续动态更新的中国博士学位论文全文数据库。中国优秀硕士论文全文数据库收录了全国652家硕士培养单位的优秀硕士学位论文。是目前国内相关资源最完备、高质量、连续动态更新的中国优秀硕士学位论文全文数据库。中国重要会议论文全文数据库收录我国2000年以来国家二级以上学会、协会、科研院所、政府举办的重要学术会议、高校重要学术会议、

    23、在国内召开的国际会议上发表的文献的论文集。中国重要报纸全文数据库收录2000年以来国内公开发行的700多种重要报报纸刊载的学术性、资料性文献,是连续动态更新的数据库。中国年鉴全文数据库收录了国内中央、地方、行业和企业等各类年鉴的全文文献。是目前国内最大的连续更新的动态年鉴资源全文数据库。内容覆盖基本国情、地理历史、政治军事外交、法律、经济、科学技术、教育、文化体育事业、医疗卫生、社会生活、人物、统计资料、文件标准与法律法规等各个领域。中国工具书网络出版总库目前收录了近200家出版社的语言词典、专科辞典、百科全书、图鉴(谱)年表共2000多种,以及作者直接向本网投稿的辞书约20种,词条近千万,图

    24、书70万张,向人们提供精准、权威、可信的知识搜索服务。,中国学术期刊网使用方法,CNKI检索功能 初级检索 高级检索 专业检索 跨库检索 单库检索 数据库导航 期刊导航 基金导航 会议导航 报纸导航 CNKI搜索引擎 简单易操作的检索工具,可方便地查找CNKI系列资源。,中国学期刊全文数据库为例,初级检索 问题1:查找2005年-2008年发表在期刊交通运输工程学报上的有关运输系统方面的文献.,选择检索的学科范围:默认全选,选择检索项(主题),输入检索词,限定检索时间,初次检索结果,限定期刊名,进行二次检索,最终检索结果,可点击任何一条查看详细信息,也可选择其中几条存盘,存盘方式的选择,自定义

    25、格式可以选择自己需要的内容,相关文献功能条:可进行相关研究内容跟踪,下载全文:安装浏览器,引文反映一篇文章的未来发展,及文章的质量,中国期刊全文库:高级检索,高级检索:高级检索是一种比初级检索要复杂一些的检索方式。但也可以进行简单检索。 高级检索的功能有:多项双词逻辑组合检索 多项是指可选择多个检索项; 双词频控制 双词是指一个检索项中可输入两个检索词(在两个输入框中输入),每个检索项中的两个词之间可进行五种组合:并且、或者、不包含、同句、同段, 每个检索项中的两个检索词可分别使用词频、最近词、扩展词; 逻辑是指每一检索项之间可使用逻辑与、逻辑或、逻辑非进行项间组合。,高级检索举例,问题1:查

    26、找1999年以来在图书馆杂志上发表的,有关机构库(机构知识库)的文章。 问题2:查找王金荣发表在地球科学进展杂志的有关“地壳早期演化”方面的文章。,中国期刊全文库专业检索,专业检索: 多个检索项的检索表达式可使用“AND”、“OR”、“NOT”逻辑运算符进行组合,逻辑关系符号前后要空一个字节;三种逻辑运算符的优先级相同;如要改变组合的顺序,请使用英文半角圆括号“()”将条件括起;所有符号和英文字母(包括下表所示操作符),都必须使用英文半角字符;字符计算:按真实字符(不按字节)计算字符数,即一个全角字符、一个半角字符均算一个字符。,专业检索举例,问题1:假设一名结构工程的学生,想了解同济大学结

    27、构研究方面李杰教授的研究成果,帮助课题论文的完 成,如何查找? 检索式:作者=李杰 and 机构=同济大学 and 主题=结构 问题2以嵌入式系统ARM平台为基础,设计了基于ARM 平台的InterBus现场总线、EPA实时以太网标准和 ZigBee无线通信系统。 检索式:主题=ARM and (主题=Interbus or 主题=EPA or 主题=ZigBee)在CNKI中利用专业检索,输入检索式,年代、输出、排序等限制,检索结果,中国学术期刊网的其他功能,1.跨库检索:就是在同一检索动作下同时检索几个库。特点:各个库有共同的字段,比如:题名、作者、摘要等。方便、快捷。 2.导航:根据对资

    28、源的不同标准进行分类,逐步推进的方式查找文献。适合对某一特定类型的资源浏览。 3.个性化工具:个性化定制等。,跨库检索,选择检索方式,选择要检索的数据库,各个库的检索结果,导航,问题:如何查找本专业领域内的核心期刊?了解它们的栏目设置和收录文章的内容和领域?使用CNKI的期刊导航功能,导航,学科分类,个性化服务:定制推送,总结:检索过程,分析检索课题,找出可作为检索入口的关键词 分析检索策略 确定数据库和检索方式进入检索,从上面几节内容可以发现:跨库检索与单库检索,初级检索,高级检索和专业检索的关系如图,跨库检索,跨库检索与单库检索在检索项等内容的具体选项中有所不同.,数据库介绍 中文科技期刊

    29、数据库(全文版)是重庆维普资讯有限公司开发研制的中文电子期刊数据库,收录了我国1989-1999年出版自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报等学科8000余种期刊的660余万篇文章。海量数据:包含了1989年至今的8000余种期刊刊载的2000余万篇文献,并以每年180万篇的速度递增。覆盖范围:涵盖社会科学、自然科学、工程技术、农业、医药卫生、经济、教育和图书情报等学科的8000余种中文期刊数据资源。,维普,中文科技期刊数库的使用,分类检索 刊名检索 初级检索、高级检索,中文科技期刊数库的使用,分类浏览 刊名检索 初级检索、高级检索,按刊名首字母浏览,按刊名、IS

    30、SN检索,按学科分类浏览,中文科技期刊数库的使用,分类浏览 刊名检索 快速检索、初级(传统)检索、高级检索,时间选择,检索项 选 择,输入检索词,选择学科范围,时间选择,高等教育,利用布尔逻辑、截词等技术编辑检索式,中文科技期刊数据库的特点,1.包括科技、科普方面的期刊 2.偏重于理工农医等科技期刊,社科类文献不全 3.回溯年代较长(89年至今),期刊总数多(8000多种) 4.存在缺期、缺刊情况,检索练习,案例:唐山综合防灾研究 主要概念:城市、地震、洪水、火灾、决策支持系统、专家系统 数据库检索结果:在中国知网期刊库中检索(19802010),采用主题字段检索式1:唐山*综合防灾*研究,命中9条检索式2:城市*(地震+洪水+火灾+ 防灾)*(决策支持系统+专家系统),命中61条,Tips:英文检索词怎样搜集?,使用工具书(各类科技词典)、网络、数据库; 收集中文文献中的英文关键词写法;CNKI翻译助手http:/ 试查相关英文数据库,扩展、变更检索词。 英文数据库的控制词表,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第二讲:信息检索技术及中文全文库(CNKI、维普).ppt
    链接地址:https://www.docduoduo.com/p-2169597.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开