1、第七章 补充,搜索引擎,搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。按照一定的策略,搜索引擎在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户“。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。,内容:,网络资源的特点 搜索引擎介绍 搜索策略 搜索中的常见错误 Google使用方法,一、网络资源的特点,内容丰富,应有尽有。 更新变化太快,不确定性高。 有待于规范化、标准化。 检索
2、没有定式,没有标准答案。,二、搜索引擎介绍,起源和发展 原理 分类 常用搜索引擎 搜索策略,起 源:,所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪
3、一个FTP地址可以下载该文件。,起 源:,由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。,发 展:,世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL) 。 搜索引擎一般由以下三部分组成:爬行器(机器人、蜘蛛)索引生成器
4、查询检索器,发 展:,改进:假设所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。 1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:The World Wide Web Worm、NASA的Repository-Based Software Engineering (RBSE) spider。 RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。,发 展:,Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大
5、学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile),发 展:,1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手
6、工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务)Yahoo!-几乎成为20世纪90年代的因特网的代名词。,发 展:,1995年,一种新的搜索引擎形式出现了元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eri
7、c Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。,发 展:,DEC的AltaVista是一个迟到者,1995年12月才登场亮相。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。在当时,Altavista最突出的优势是它的速度(据说,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。而Altavista的另一些新功能,则永远改变了搜索引擎的定义。 AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, O
8、R, NOT等)。,发 展:,1998年10月之前,Google只是斯坦福大学的一个小项目。95年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了的域名,1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。 Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其
9、它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。,发 展:,Google原名Googol,意思是10的100次方,是个巨大的数字。Google的胃口如同它的名字,大得出奇。编入其索引的有30多亿页面,4亿幅图片和8亿个新闻公告。 2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。 有人认为:Google是第二代
10、搜索引擎中的先驱/代表。,中文搜索引擎:,北大天网 是国家“九五“重点科技攻关项目“中文编码和分布式中英文信息发现“的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。,中文搜索引擎:,百度公司(B,Inc)于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利的唯一持有人百度总裁李彦宏,及其好友在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。百度是目前全球最优秀的中
11、文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、搜狐(chinaren)、Tom()、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线、吉林信息港、大庆信息港、东方热线、湖南信息港、南阳信息港、顺德信息网。,二、搜索引擎原理,原 理:,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 至少由三部分组成:爬行器(机器人、蜘蛛)索引生成器查询检索器随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。,原 理:,1、从互联网上抓取网页 利用能够
12、从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,原 理:,2、建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,原 理:,3、在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键
13、词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。,原 理:,搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。,搜索引擎算法-核心技术,Pagerank算法(google) 基本
14、思想:一个页面被多次引用,即很多页面有指向它的链接,则这个页面很重要;一个页面虽未被多次引用,但被另一个重要页面引用,它可能也很重要;一个页面的重要性被均均匀地分布并传递到它引用的页面。 Page&Brin根据此原理,与关键词检索以及其它基于文本的技术一起来提高查询质量。,HITS算法(Hypertext Induced Topic Search) 最早由Kleinberg在1999年提出。它依赖于查询式,认为页面的重要性依赖于正在查询的查询式;每页有两个级别,即Authorities(权威级别) 和 Hubs(中心级别)。,搜索引擎算法,SALSA算法、pSALSA算法、PHITS算法等。
15、大体上与HITS算法相类似,或者说是HITS算法的改进和补充。,搜索引擎算法,三、搜索引擎的分类,分 类:,按工作方式可分为:全文搜索引擎(Google、AltaVista、Fast/AllTheWeb等)目录索引(Yahoo!)元搜索引擎(Infospace、Dogpile等),分 类:,垂直主题搜索引擎(专业搜索引擎)以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地。比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。服务垂直(专业)化是互联网发展的大势所趋,区别于大而全的水平网站,垂直网站更注重在单一领域提供更专业、更精深的服务 。比如IT罗盘就是
16、以精选式IT讯息垂直搜索为特征的搜索引擎。图形天下Go2map就是专门提供地图搜索服务的地图搜索引擎。,四、常用搜索引擎,1、Google搜索引擎,目前最优秀的支持多语种的搜索引擎之一,约搜索3,083,324,652 张网页。提供网站、图像、新闻组等多种资源的查询。包括中文简体、繁体、英语等35个国家和地区的语言的资源。 地址: http:/ 地址: http:/ 地址: http:/ 搜狐:http:/ 网易:http:/ 雅虎中国:http:/ FM365: http:/ 搜星: http:/ Sealed with a kiss歌曲及歌词(百度搜索),结果:,Sealed with a
17、 kiss - Brian Hyland sealed with a kiss - brian hyland tho we gonna say goodbye for the summer darling i promise you this ill send you all my love everyday in a letter sealed with kiss yes its gonna be a cold lonely summer but ill fill the emptiness ill send you all my dreams(love) everyday in a let
18、ter sealed with a kiss ill see you in the sunlight ill hear your voice everywhere ill run to tenderly hold you but darling you wont be there i dont wanna say goodbye for the summer knowing the love well miss oh let us make a pledge to meet in september and sealed with a kiss sealed with a kiss seale
19、d with a kiss,3、图像搜索:F4或乔丹的壁纸,F4: F4 + “流星花园”+“桌面大小” 乔丹:迈克尔 + 乔丹+ 桌面大小Google图像搜索,日常生活中的应用,放爱一条生路有哪些地方台播出?时间?放爱一条生路 卫视湖北、黑龙江,三、搜索策略,选择合适的搜索引擎 合理使用各种运算符 充分利用各搜索引擎的特色检索 根据检索结果不断调整检索策略 多积累,多总结,选择合适的搜索引擎应该使用新浪还是搜狐? Google还是百度? 分析你的需求,比较不同搜索引擎的强项和弱点,然后为这次搜索选择最适合的搜索工具。,合理使用各种运算符“ ” - 短语检索。AND/OR/NOT- 逻辑运算符
20、通配符 - * ?各个搜索引擎在支持运算方面不尽相同,表示方法上也不完全一样。,充分利用各搜索引擎的特色检索如:Google的文件类型检索、URL检索、图像检索百度的MP3检索、FLASH检索,根据检索结果不断调整检索策略选择更恰当的检索词。如果是太多,可以利用AND及NOT运算符限定检索。如果检索结果太少或没有,则可能需要减少检索词数量甚至更换检索词重新检索。,多积累,多总结每次成功检索后可略作一些分析和小结。,四、搜索中的常见错误,错别字 关键词太常见 多义词的使用 在不支持自然语言查询的搜索引擎中使用自然语言查询 在错误的地方搜索,错误1:错别字经常发生的一种错误是,你输入的关键词含有错
21、别字。笔者所做的统计表明,常有大量的错误搜索,光一个谢霆锋就有“谢霆锋”、“谢庭锋”、“谢霆峰”、“谢廷锋”、“谢庭峰”、“谢廷峰”6种查法,还有什么“星际争吧”、“以德制国”之类的,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先查一下是否有错别字。,错误2:关键词太常见 如,搜索“电话”, 有无数网站提供跟“电话”相关的信息,从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似“上海 常用电话”这样特殊的搜索关键词,会给你真正有用的结果。
22、,错误3:多义词的使用 要小心使用多义词,比如搜索“Java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用“爪哇 印尼”、“爪哇 咖啡”、“Java 语言”分别搜索可以满足不同的需求。,错误4:在不支持自然语言查询的搜索引擎中使用自然语言查询 (应该用关键词进行逻辑组配)搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“信息早报在济南发行情况”、“铃羊车的各种图案”、“上海到成都列车时刻表”。应该这
23、样搜索:“现代爱情故事 歌词”、“信息早报 济南 发行”、“铃羊车 图案”“上海 成都 列车 时刻表”。,错误5:在错误的地方搜索 2001年7月23日这一天,正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame结构的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,当然,寻找相关网
24、站的任务搜索引擎是当仁不让的。,五、Google使用方法,特点 初级搜索 语法 进阶搜索 图片搜索 目录搜索 新闻组搜索 工具条的下载、安装、设置及使用,特点,GOOGLE支持多达132种语言,包括简体中文和繁体中文; GOOGLE网站只提供搜索引擎功能,没有花里胡哨的累赘; GOOGLE速度极快,据说有8000多台服务器,200多条T3级宽带; GOOGLE的专利网页级别技术PageRank能够提供高命中率的搜索结果;,GOOGLE的搜索结果摘录查询网页的部 分具体内容,而不仅仅是网站简介; GOOGLE智能化的“手气不错”功能,提供可能最符合要求的网站; GOOGLE的“网页快照”功能,能
25、从GOOGLE服务器里直接取出缓存的网页 Google可以查找PDF等特定格式的文件 Google可以查找图像 利用Google进行搜索时可以限定搜索范围,如某个网站或某个域名或是某个URL,初级搜索,搜索结果要求包含两个及两个以上关键字(A B) 搜索结果要求不包含某些特定信息(A B) 搜索结果至少包含多个关键字中的任意一个(A OR B),示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页 搜索:“搜索引擎 历史 -文化 -中国历史 -世界历史” 注意:操作符与作用的关键字之间,不能有空格。比如“搜索引擎 - 文化”,搜索引擎将视为关键字为“搜索
26、引擎”和“文化”的逻辑“与”操作,中间的“-”被忽略。,示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中任何一个或者多个:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。 搜索:“搜索引擎 历史 (archie OR 蜘蛛 OR lycos OR yahoo )-文化”,语法,通配符问题(用“*”来替代单个字符,而且包含“*”必须用“引起来。比如,“以*治国“”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。) 检索词大小写问题(不敏感) 搜索整个短语或者句子(“”) 忽略的字符以及强制搜索(对一些网络上出
27、现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。 )如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。,进阶搜索,对搜索的网站进行限制(site:) 在某一类文件中查找信息(filetype:) 搜索的关键字包含在URL链接中(inurl:) 搜索的关键字包含在网页标题中(intitle:) 搜索所有链接到某个URL地址的网页(link:),1)对搜索的网站进行限制,示例:搜索中文教育科研网站()上关于搜索引擎技巧的页面。 搜索:“搜索引擎 技巧 site:” 结果:已搜索有关搜索引擎 技巧 site:的中文(简体)网
28、页。 共约有608项查询结果,这是第1-10项 。 搜索用时0.05秒。,示例:用著名IT门户网站ZDNET和CNET搜索一下关于搜索引擎技巧方面的资讯。 搜索:“search engine“ tips site: OR site:” 结果:已在内搜索有关“search engine“ tips OR site:的网页。 共约有1,040项查询结果,这是第1-10项 。 搜索用时0.09秒。,示例:搜索新浪科技频道中关于搜索引擎技巧的信息。 搜索:“搜索引擎 技巧 site:” 结果:已在搜索有关搜索引擎 技巧 的中文(简体)网页。 共约有2140项查询结果,这是第1-10项 。 搜索用时0.
29、62秒。,注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http:/”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。,2)在某一类文件中查找信息,“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf
30、文档,ShockWave的.swf文档(Flash动画)等。,其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。,用“地理信息系统 filetype:doc”和“gis filetype:doc” 可以分别搜索到783个和57000个有关地理信息系统的word文档文件。 用“gis filetype:pdf”和“gis inurl:pdf”可分别搜索到448000和3890
31、00个pdf格式的gis文件。,3)搜索的关键字包含在网页标题中,“intitle”和“allintitle”的用法类似于inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。,示例:查找日本明星藤原纪香的照片集。 搜索:“intitle:藤原纪香 “写真集“” 结果:已搜索有关intitle:藤原纪香 “写真集“的中文(简体)网页。 共约有2150项查询结果,这是第1-10项 。 搜索
32、用时0.19秒。,紧跟intitle的词限制在标题栏出现 (藤原纪香),所有的词都要求在题目栏出现 (藤原纪香和写真集),用“地理信息系统 inurl:doc”和“gis inurl:doc”搜索结果分别为857项和69000项。此结果表明用inurl比用filetype搜索的结果多一些。用“gis doc”搜索可以得到159000项,虽然很全,但不符合要求的项比符合要求的项还要多。,4)搜索所有链接到某个URL地址的网页,示例:搜索所有含指向华军软件园“”链接的网页。 搜索:“link:” 结果:搜索有链接到的网页 。 共约有920项查询结果,这是第1-10项 。 搜索用时0.12秒。,注意
33、:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被Google忽略。另外还要说明的是,link只列出Google索引链接很小一部分,而非全部,所以如果你用Google没有搜到链到你的主页的链接,也不必灰心丧气。,除了上述功能,link语法还有其它妙用。一般说来,做友情链接的网站都有相似地方。这样,你可以通过这些友情链接,找到一大批具有相似内容的网站。比如说,你是个天文爱好者,你发现某网站非常不错,那么,可以用link语法查一下与之做链接的网站,也许可以找到更多符合你兴趣的内容。,5)查找与某个页面结构内容相似的页面,“related”用来搜索结构内容方面相似的网页
34、。例:搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related: spears”,就会搜索到大量的小甜甜布兰妮的图片。我目前尚不是很清楚图片的排列标准,不过以观察来看,似乎图片文件名完全符合关键字的结果排列比较考前,然后才按照普通的页面搜索时的标准排列。,Google图像搜索目前支持的语法包括基本的搜索语法如“ ”、“-”、“OR”、“site”和 “filetype:”。其中“filetype:”的后缀只能是几种限定的图片类似,如JPG,GIF等。 示例:查找新浪网上本拉登的图片 搜索:“拉登 OR 拉丹 site:” 结果:搜索有关 拉登 OR 拉丹 site: 的图片。 共有6项查询结果,这是第1-6项。 搜索用时0.36秒。,目录检索,如果不想搜索广泛的网页,而是想寻找某些专题网站,可以访问Google的分类目录“http:/directory.G 定离不开搜索引擎。,