1、计算机信息检索,第一节 计算机检索基础知识 第二节 Internet信息检索,第一节 计算机检索基础知识,概述:20世纪90年代以来,随着Internet的发展,Internet上出现了庞大的信息资源。各种信息库、文献数据库、事实数据库应有尽有,渗入了自然科学、社会科学、工程技术等各个领域,包括一次文献和二次文献,分布在全世界几百万台服务器上,运行于Internet上.如何在茫茫的信息海洋中找到对你有用的信息,并以最快的速度获取,这给每一位信息检索人员提出了新的课题,也推动了信息检索学科的迅速发展。美国报道生活新方式的期刊POV将互联网检索专家作为未来十大热门职业之一。这充分说明了计算机信息检
2、索的重要性。,发展概况:一.脱机批处理检索阶段(19541964年)(off-line retrieval)脱机检索就是利用单台计算机本机的输入输出装置进行检索。脱机检索的检索用户和计算机脱钩,不参与人机对话,检索是以批处理进行的。二.联机检索阶段(19651971)(on-line retrieval)联机检索是指用户利用计算机终端设备,通过通讯线路,从信息中心的计算机(主机)上获取所需的信息。可实现人机对话,检索是以命令的形式进行的。三.光盘检索阶段(1978-)四.网络信息检索阶段(1990)又叫混合型检索.指Internet,具全球性的,知道网址就可以随时随地访问。,计算机检索分类:1
3、.光盘检索:以菜单形式检索.a.光盘单机检索-(CD-ROM)只读式光盘检索.b.光盘联机检索-局域网内的检索.2.网络检索a.局域网检索b.互联网检索,计算机信息检索原理: 计算机信息检索是用计算机代替人工检索的匹配过程,与手工检索的基本原理相同。即, 采用人机交互式对话,计算机先接受检索提问(即检索提问表达式),并且从数据库中查找文献记录,然后在两者之间进行匹配运算,运算过程的实质是检索提问式与数据库中文献记录标识进行比较的过程。用户对检索提问按照计算机匹配运算输出信息的满意程度进行适当修改,直到得到检索结果为止。 见教材P72,计算机信息检索系统的构成: 硬件部分主机(服务器),外围设备
4、-检索终端,.网络设备,输入输出设备 软件部分系统软件和应用软件 机读数据库文献书目数据库,事实型数据库,数值型数据库,全文数据库,多媒体数据库,超文档数据库,计算机信息检索方法,1.布尔检索(复合检索)AND关系:称为逻辑与(逻辑乘).例如:光度法 AND 铁OR关系:称为逻辑或(逻辑加).例如:光度法 OR 铁NOT关系:称为逻辑非(逻辑减).例如:光度法 NOT 铁,2.法定数检索(是布尔逻辑检索的一种改进)A*B*C*D 3.截词检索右截词:又叫后端截词,前端一致.如:chemi*表示查找结果含有chemical,chemist, chemistry等的信息。左截词:又叫前端截词,后端
5、一致。如:*physics- physics,biophysics, chemophysics, geophysics等。中间截词:wom*n-woman,women.,4.词位置检索nW关系:要求所连接的两个检索词在结果中相互距离不超过n个词或字,而且前后顺序不能颠倒。nN关系:前后顺序可以颠倒。例如:A(2W)B;A(2N)B 5.字段检索 6.加权检索:加权符号为“+”或“-”.例:+光度法-铁,第二节 Internet信息检索,一.Inernet信息常用获取方式 1.www(环球信息网) (1) www是world wide web(环球信息网)的缩写。中文名称为万维网。它是在Inte
6、rnet环境下实现分布式超文本检索的体系。WWW采用的是客户/服务器结构,作用是整理和储存各种WWW资源,并响应客户端软件的请求,把客户所需的资源传送到Windows UNIX或Linux等平台上。www实际就是一个庞大的文件集合体,这些文件称为网页或web页,存储在因特网上的成千上万台计算机上,提供网页的计算机称为web服务器,或叫网站、网点。,(2).超链接与超文本用户通过浏览器观看一个网页时,会发现一些带有下划线的文字或图形图片等,当鼠标指针指向这一部分时,鼠标指针变成手形,称之为超链接。当鼠标单击超链接时,浏览器就会显示出与该超链接相关的内容。具有超链接的文本就称为超文本。,(3)统一
7、资源定位符(URL):在www中用URL(uniform resource locator)定义资源所在地,URL的地址格式为:应用协议类型:/信息资源所在主机名(域名或IP地址)/路径名/文件名例:http:/ (4)HTTP协议:在web服务器和用户计算机间使用的超文本传输协议。,(5)浏览器及使用技巧 解决乱码: 关闭多媒体对象加快上网速度: 将常用主页设置为默认主页: 制作收藏夹: 代理服务器的使用:,2.电子邮件(E-mail) 3.远程登录(Telnet) 4.文件传输协议(FTP) 5五.电子公告版(BBS) 6.其它,二.Internet信息获取的常用辅助工具 1.文件下载工具
8、:网络蚂蚁(NetAnts)网际快车Flashget(JetCar)迅雷下载等等 2.文件压缩与解压工具:Winzip Winrar 3.PDF文件及其阅读软件:下载安装Adobe公司开发的 Acrobat Reader 软件(免费),即可在不同平台上阅读PDF文件。,四.Internet搜索引擎,1.概念:搜索引擎(Search Engines)指对WWW站点资源和其他网络资源进行标引和检索的一类检索系统机制。一般包括数据采集标引机制、数据组织机制和用户检索机制。搜索引擎基本结构图:,2.搜 索 引 擎 分 类:搜索引擎按其工作方式主要可分为三种,分别是:全文搜索引擎(Full Text S
9、earch Engine) 目录索引类搜索引擎(Search Index/Directory) 元搜索引擎(Meta Search Engine), 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎.国外具代表性的有:Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。, 目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜
10、索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。, 元搜索引擎 (META Search Engine)元搜索引擎(Metasearch Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母”。元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源
11、搜索引擎”(source Engine),或“搜索资源”(searcing resources),元搜索引擎是用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。,常用外文元搜索引擎:1、Vivisimo ( http:/ 调用多种搜索引擎,并对返回的结果自动分类,界面友好,简单易用。 2.Infospace 3.Dogpile 4InfoGrid ( http:/ 提供与主要搜索网站的直接连结和目录检索,具有强大的元搜索和新闻搜索功能。 5.MetaCrawler
12、( http:/) 支持调用12个独立搜索引擎,提供涵盖近20个主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。 6. S (http:/),国内元搜索引擎: 1、BB猫 http:/ 一个不得不提的中文元搜索引擎,.bbmao 的主要投资商是由 M 的创始人 Brad Greenspan 创立的 BroadWebAsia。目前聚合了Baidu、IAsk、中搜。搜索结果丰富、速度比较理想。带有搜藏等功能,比较强大的一个元搜索引擎。 2、XISOSO元搜索 http:/ 可选择以下搜索组合Google+Baidu、Google+Yah
13、oo、Google+Yahoo(只搜英文), 3、万纬搜索 http:/ 一个老牌中文元搜索。核心一般、功能一般。,4、知合网 http:/ 2005年8月推出,主要用作学习工具,功能上尽量保证全面实用。目前聚合了Baidu、Google搜索结果数量不多。按PR值来排序。 5、K风元搜索 http:/ 2007-1-2推出,由K风软件开发的元搜索引擎软件产品,特色是任意聚合,有搜藏功能。据介绍目前聚合了Baidu、Google、Yahoo、Sogou、IAsk,源搜索比较丰富,但搜索结果数量不多。 6、狠搜 http:/ 聚合了Baidu和Google 7、壹家搜 http:/ http:/
14、结果来自百度、搜狗、雅虎;左侧有深入搜索、相关搜索;可以评价结果。 9.Xooda 元搜索引擎 http:/ 支持本地搜索,一次输入,返回多个搜索引擎结果,并对结果进行重新的优化排序。 10.Seekle 元搜索引擎 http:/ 集合了Google,Baidu,Sogou,Yahoo四大中文搜索引擎的结果,更科学更全面,3.搜索引擎使用技巧,搜索引擎为用户查找信息提供了极大的方便,你只需输入几个关键词,任何想要的资料都会从世界各个角落汇集到你的电脑前。然而如果操作不当,搜索效率也是会大打折扣的。比方说你本想查询某方面的资料,可搜索引擎返回的却是大量无关的信息。这种情况责任通常不在搜索引擎,而
15、是因为你没有掌握提高搜索精度的技巧。那么如何才能提高信息检索的效率呢?,搜索关键词提炼:无庸至疑,选择正确的关键词是一切的开始。学会从复杂搜索意图中提练出最具代表性和指示性的关键词对提高信息查询效率至关重要,这方面的技巧(或者说经验)是所有搜索技巧之母。 细 化 搜 索 条 件:搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。,用好搜索逻辑命令:搜索逻辑命令通常是指布尔命令“AND”、“OR”、“NOT”及与之对应的“+”、“-”等逻辑符号命令。用好这些命令同样可使我们日常搜索应用达到事半功倍的效果。 搜索引擎基本上都支持附加逻辑命令查
16、询。比较一下下面各搜索条件的含义:computer adventure game最基本的搜索方式。computer (OR)adventure(OR)games+computer +adventure +game 相当于布尔逻辑命令中的“AND”关系。computer(AND)adventure(AND)games+computer +game -adventure computer(AND)game(NOT)adventure,精 确 匹 配 搜 索:精确匹配搜索也是缩小搜索结果范围的有力工具,此外它还可用来达到某些其他方式无法完成的搜索任务。 特 殊 搜 索 命 令:除一般搜索功能外,搜索
17、引擎都提供一些特殊搜索命令,以满足高阶用户的特殊需求。比如查询指向某网站的外部链接和某网站内所有相关网页的功能等等。这些命令虽不常用,但当有这方面搜索需求时,它们就大派用场了。 附 加 搜 索 功 能:搜索引擎都提供的一些方便用户搜索的定制功能。常见的有相关关键词搜索、限制地区搜索等。,用什么样的搜索引擎搜索:搜索引擎分几种,工作方式也不同,因而导致了信息覆盖范围方面的差异。我们平常搜索仅集中于某一家搜索引擎是不明智的,因为再好的搜索引擎也有局限性,合理的方式应该是根据具体要求选择不同的引擎。这里我根据自己的经验给大家提出些建议。,1.简单查询 :输入关键词点击搜索结果不很准确,包含很多无用信
18、息 2.使用双引号:给要查询的关键词加上双引号,可以实现精确查询,不包含演变形式。 3.使用加号(加权检索): 4.使用空格:等同于+,AND;查询两个以上关键词时,可以用空格间开各个关键词,以表示结果中必须同时出现这几个关键词。 5.使用减号:在关键词前面使用减号,等同于加权检索的“”,也相当于布尔逻辑算符的NOT.,6.使用通配符(*和?) *表示匹配的数量不受限制;?表示匹配单个字符,主要用在英文搜索引擎中。 7.使用布尔检索:AND OR NOT NEAR 8.使用括号 9.使用元词检索:TITLE:清华大学; DOMIN:ORG; IMAGE:清华大学;LINK: 清华大学 ; UR
19、L: 清华大学 10.区分大小写:,著名搜索引擎简介,1.国外英文目录索引:Yahoo 最著名的目录索引,搜索引擎开山鼻祖之一。 D 由义务编辑维护的目录索引。 Ask Jeeves 著名的自然语言搜索引擎,2002年初收购Teoma全文搜索引擎。 LookSmart 点击付费索引目录,2002年收购WiseNut全文搜索引擎。 A 有其自身特色的目录索引。 2.国外英文搜索引擎:(全文搜索引擎)Google 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。 Fast/AllTheWeb 总部位于挪威的搜索引擎后起之秀,风头直逼google。 AltaVista 曾经的搜索
20、引擎巨人,目前仍被认为是最好的搜索引擎之一。,Overture 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。 Lycos 发源于西班牙的搜索引擎,网络遍布世界各地。 HotBot 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。 3.国内目录索引:搜狐(Sohu) 国内三大门户之一,最早在国内推出搜索引擎收费登录服务。 新浪(Sina) 最大的中文门户网站,同样也推出了搜索引擎收费索引项目。 网易(Netease) 网易搜索是ODP的国内翻版,其目录由志愿管理员维护,是google的网页搜索用户。 4.国内搜索引擎:百度(Baidu) 国内唯一商业化的
21、全文搜索引擎,提供搜狐、新浪、263、Tom等站点的网页搜索服务。,计算机信息检索策略,构造步骤:(例如:废水处理装置与技术)1.分析信息需求(检索课题),明确检索要求2.选择检索系统3.选择检索途径和检索方法,确定检索词或检索式4.实施信息检索 5.检索策略的反馈和调整 6.获取原始文献,检索策略的反馈与调节:一.影响查全率和查准率的主要因素1.主题分析是否准确全面2.检索词选择是否准确3.检索词之间逻辑关系的配置是否合适,二.提高查全率和查准率的方法 1.提高查全率的方法 (1)降低检索词的专指度 (2)增加同义词近义词或相关词的逻辑或运算 (3)选用截词检索 (4)增加和调整检索途径 2
22、.提高查准率的方法 (1)提高检索词的专指度,增加或换用下位词和专指性较强的关键词进行检索 (2)用AND连接一些进一步限定主题概念的相关检索项,增加相互的制约 (3)用NOT来排除一些无关的检索项 (4)采用限定检索,缩小检索范围,提高查准率,百度搜索引擎,百度是功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界领军人物Google相媲美,在中文搜索支持方面有些地方甚至超过了Google,是目前国内技术水平最高的搜索引擎。为包括搜狐、雅虎中国、T、21CN、广州视窗等搜索引擎,以及中央电视台、外经贸部等机构提供后台数据搜索支持。百度目前主要提供中文(简/
23、繁体)网页搜索服务。如无限定,默认以关键词精确匹配方式搜索。支持“-”号、“.”号、“|”号及“link:”等特殊搜索命令。此外还提供关键词分类搜索,即将常用关键词进行组合分类,方便用户直接查找有关资料。在搜索结果页面,百度还设置了关联搜索功能,方便访问者查询与输入关键词有关的其他方面的信息。提供“百度快照”查询。其他搜索功能包括新闻搜索、网站网址链接、MP3搜索、图片搜索、Flash搜索等。,百度高级检索,在指定网站内搜索:在一个网址前加“site:”,可以限制只搜索某个具体网站、网站频道、或某域名内的网页。例如: 电话 site: 表示在网站内搜索和“电话”相关的资料; 竞价排名 site
24、: 表示在网站内搜索和“竞价排名”相关的资料; intel site: 表示在域名以“”结尾的网站内搜索和“intel”相关的资料; 门户 .cn 表示在域名以“cn”结尾的网站内搜索和“门户”相关的资料.,搜狐搜索引擎,搜狐国内最著名的门户网站,也是国内最早提供搜索服务的站点。互联网概念在国内的普及,搜狐功不可没。在2001年年初由CNAZ(中文网站评估认证网)举办的搜索引擎网络专项功能排名调查中,搜狐名列第一。搜狐设有独立的目录索引,并采用百度搜索引擎技术,提供网站、网页、类目、新闻、黄页、中文网址、软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。搜索规则:网站搜索(默认)时
25、,范围仅限于自身目录中的注册网站。但在目录中没有相应记录的情况下,自动转为网页搜索。网页搜索时则调用百度进行检索。此外,用户还可以选择“综合”搜索同时查找匹配的网站和网页。搜狐是网站最重要的访问来源之一,因此是国内搜索引擎登录的首选。目前除学校、科研机构、政府单位等性质的网站仍实行免费登录外,其他网站登录均须支付一定的费用。,搜狐检索特色,1.搜狐搜索引擎对搜索结果是按“相关性”进行排列的。相关性越高,排列位置越靠前。2.搜狐中文检索系统目前支持的运算符有:-、&、|、()、空格、not、and、or。这些运算符既可以是英文,也可以是中文(全角或半角)。 a. 使用空格、&、and,来指定查询
26、串必须出现在结果中 b. 使用-或not,来限定-或not后的查询串不出现在结果中 c. 使用|或or,来指定|或or两边的查询串中有一个一定出现在结果中 d. 使用()或“”,来指定()或“”内的表达式是一个整体单元 .例如:输入“体育 - (足球 篮球)”,会查询到包含“体育”,且不包含“足球”与“篮球”的所有网站 3.相关检索:将输入的关键字段扩展,给出更多与之有关的搜索关键字 4.“网站搜索”结果中每个网站下方均有所属分类目录的链接,点击进入,可进入同类网站的完整列表。,新浪搜索引擎,新浪是全球范围内最大的华语门户网站之一。新浪是国内网民最常访问的网站。新浪自建独立的目录索引。共设16
27、大类目录,10,000多个子目,收录网站达20余万,是规模最大的中文搜索引擎。采用百度搜索引擎技术,提供网站、中文网页、英文网页、新闻、软件、游戏等查询项目,支持中文域名。新浪网推出新一代综合搜索引擎,这是中国第一家可对多个数据库查询的综合搜索引擎。在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息,这项服务在国内尚属唯一。搜索规则:默认综合搜索,涉及网站、网页、新闻等内容。网站搜索仅限于自身目录中的注册网站。网页搜索时,调用百
28、度搜索引擎进行查询.新浪是目前最常用的中文搜索引擎,也是网站访问量的主要来源之一 ,目前除学校、政府机构、科研单位的网站外,其他类型网站都须支付一定的费用。,雅虎搜索引擎,Yahoo! 搜索引擎之王,世界最大的门户网站 ,最早的目录索引之一,也是目前最重要的搜索服务网站,在全部互联网搜索应用中所占份额高达36%左右。除主站(Mother Yahoo)外,还设有美国都会城市分站(Yahoo Cities,如芝加哥分站)、国别分站(如雅虎中国)和国际地区分站(如Yahoo Asia)。其数据库中的注册网站无论是在形式上还是内容上质量都非常高。Yahoo属于目录索引类搜索引擎,可以通过两种方式在上面
29、查找信息,一是通常的关键词搜索,一是按分类目录逐层查找。Yahoo现与Google合作,默认采用Google搜索引擎提供网页搜索。由于Yahoo靠人工操作甄选网站,且评判标准十分严格,因此是公认最难登录的搜索引擎。但它对我们网络营销的作用举足轻重,尤其是对商业网站而言,因为Yahoo不仅是全球范围内最著名的互联网品牌,而且也是最具影响力的企业资料库 。,Google搜索引擎,Google成立于1997年,几年间迅速发展成为目前规模最大的搜索引擎,并向Yahoo、AOL等其他目录索引和搜索引擎提供后台网页查询服务。目前Google每天处理的搜索请求已达2亿次!而且这一数字还在不断增长。Google数据库存有亿个Web文件。属于全文(Full Text)搜索引擎。Google提供常规及高级搜索功能。在高级搜索中,用户可限制某一搜索必须包含或排除特定的关键词或短语。该引擎允许用户定制搜索结果页面所含信息条目数量,可从到条任选。提供网站内部查询和横向相关查询。Google还提供特别主题搜索,如:Apple Macintosh, BSD Unix, Linux和大学院校搜索等。Google允许以多种语言进行搜索,在操作界面中提供多达余种语言选择,同时还可以在多达多个国别专属引擎中进行选择。,