第1章搜索引擎概述.ppt-道客多多

资源描述

1、1/62,第1章搜索引擎概述,随着互联网的飞速发展，人们越来越依靠网络来查找他们所需要的信息由于网上的信息源数不胜数，如何有效地去发现我们所需要的信息，就成为一个很关键的问题，为了解决这个问题，搜索引擎应运而生百度2005年在纳斯达克成功上市，Google在全球市场突飞猛进仅在开源社区SourceForge上，搜索引擎的项目就有将近10000项,2/62,1.1.1 搜索引擎的概念,搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户的为用户提供检索服务的系统 (名词解释）搜索引擎并不真正搜索互联网，它搜索的实际上是

2、预先整理好的网页索引数据库真正意义上的搜索引擎，通常指的是收集了Internet上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来,1.1 搜索引擎的概念和原理,3/62,1.1.2 搜索引擎的原理,可以分为四步：（简答题）从互联网上抓取网页：利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。建立索引数据库：由分析索引系统程序对收集回来的网页进行分析，提取相

3、关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库,4/62,在索引数据库中搜索排序：当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户对搜索结果进行处理和排序：所

4、有相关网页针对该关键词的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户,5/62,搜索引擎至今已经经历了三代发展阶段：第一代搜索引擎出现于1994年，主要特征为集中式检索第二代搜索引擎系统大约出现在1996年，大多采用分布式检索方案，即多个微型计算机协同工作来提高数据规模、响应速度和用户数量第三代搜索引擎系统出现在1998年到2000年间，这一时间是搜索引擎空前繁荣的时期它的发展的三大特点（可能为简答、判断、选择、填空）,1.2 搜索引擎的历史与发

5、展趋势,6/62,1.2.1 搜索引擎的发展史,现代意义上的搜索引擎的祖先是1990年由蒙特利尔大学学生Alan Emtage发明的Archie，这是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎 Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序由于专门用于检索信息的Robot程序像蜘蛛(Spider)一样在网络间爬来爬去，因此，搜索引擎的Robot程序被称为Spider(Spider FAQ)程序 1994年初，Washington大学的学生 Brian Pinkerton 开始了他的小项目 WebCrawler （ Bri

6、an Pinkerton Announces the Availability of WebCrawler ）,7/62,1994年1月，第一个既可搜索又可浏览的分类目录EINet Galaxy（Tradewave Galaxy）上线。除了网站搜索，它还支持Gopher和Telnet搜索 1994年4月，Stanford University的两名博士生，美籍华人Jerry Yang（杨致远）和David Filo共同创办了Yahoo 1994年7月20日，数据量为54000的Lycos正式发布。除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页

7、自动摘要 Infoseek（Steve Kirsch Announces Free Demos Of the Infoseek Search Engine）是另一个重要的搜索引擎。Infoseek沿袭Yahoo!和Lycos的概念，它具有友善的用户界面和大量的附加服务，而使它成为一个强势搜索引擎,8/62,1995年，第一个元搜索引擎Metacrawler出现。用户只需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户 1995年12月DEC的 AltaVista登场亮相，大量的创新功能使它迅速到达当

8、时搜索引擎的顶峰。AltaVista是第一个支持自然语言搜索的搜索引擎，AltaVista是第一个实现高级搜索语法的搜索引擎,9/62,检索结果处理技术 (选择题，填空题或简答）纯净搜索引擎元搜索引擎集成搜索引擎垂直搜索引擎,10/62,1.3 搜索引擎的分类,搜索引擎和常规意义上的全文检索主要区别：数据量内容相关性安全性个性化和智能化搜索引擎按其工作方式主要可分为三种：全文搜索引擎（Full Text Search Engine）目录索引搜索引擎（Search Index/Directory）元搜索引擎（Meta Search Engine）可能题型：填空，选择，判断，

9、简答,11/62,1.3.1 全文搜索引擎,通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户全文搜索引擎有全文搜索、检索功能强和信息更新速度快等优点，但同时也有其不足之处，虽然提供的信息多而全，然而可供选择的信息太多反而降低了相应的命中率，导致层次结构不清晰，往往给人一种繁多杂乱的感觉,12/62,1.3.2 目录索引搜索引擎,目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词（Keywords）查询，仅靠分类目录也可找到需要的

10、信息与全文搜索引擎的区别在于它是由人工建立的，通过“人工方式”将站点进行了分类，不像全文搜索引擎那样，将网站上的所有文章和信息都收录进去，而是首先将该网站划分到某个分类下，再记录一些摘要信息,13/62,1.3.3 元搜索引擎,元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的有北斗搜索。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo,14/62,1.3.4 分布式搜索引擎,分布式搜

11、索引擎按区域、主题或其他标准创建分布式索引服务器，索引服务器之间相互可以交换中间信息，且查询可以被重新定向由于分布式搜索引擎将索引数据库划分到几个分布的数据库中，每个数据库变得小一些，但所有搜索引擎覆盖的范围变大，且很少有信息重复，而作为分布式系统特性之一的可扩充也是分布式搜索引擎的优点之一然而分布式搜索引擎需要多个索引数据库协同工作，实现较困难，因此目前尚未有真正的、实用的分布式搜索引擎,15/62,1.4 搜索引擎的信息检索模型,布尔逻辑模型模糊逻辑模型向量空间模型概率模型可能题型：填空，选择，判断，简答,16/62,布尔逻辑模型,布尔型信息检索是最简单的信息检索模型，用户利用布

12、尔逻辑关系构造查询并提交，搜索引擎根据事先建立的倒排文件确定查询结果标准布尔逻辑模型为二元逻辑，并可用逻辑符“and”、“or”、“not”来组织关键词表达式。布尔型信息检索模型的查全率高，查准率低目前大多搜索引擎均使用布尔逻辑检索模型，查询结果一般不进行相关性排序,17/62,模糊逻辑模型,这种模型在查询结果处理中加入模糊逻辑运算，将检索的数据库文档信息与用户的查询要求进行模糊逻辑比较，按照相关的优先次序排列查询结果模糊逻辑模型可以克服布尔型信息检索模型在查询中其结果具有无序性的问题。例如，查询“搜索引擎”，则出现关键词“搜索引擎”多的文档将排列在较前的位置上,18/62,向量空间模型

13、,向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。查询结果是根据向量空间的相似性而排列的向量空间模型可方便地产生有效的查询结果，能提供相关文档的文摘，并对查询结果进行分类，为用户提供准确的信息,19/62,概率模型,基于贝叶斯概率论原理的概率模型利用相关反馈的归纳学习方法，获取匹配函数，这是一种较复杂的检索模型,20/62,1.5 搜索引擎的关键技术,信息收集和存储技术信息预处理技术信息索引技术可能题型：填空，选择，判断，简答,21/62,1.5.1 信息收集和存储技术,网上信息收集和存储一般分为人工和自动两种方式人工方式采用传统信息收集、分类、存储、组织和检索的方

14、法。研究人员对网站进行调查、筛选、分类、存储。由专业人员手工建立关键字索引，再将索引信息存入计算机相应的数据库中自动方式通常是由网络机器人来完成的。“网络机器人”是一种自动运行的软件，其功能是搜索因特网上的网站或网页一般来说，人工方式收集信息的准确性要远优于“网络机器人”，但其收集信息的效率及全面性要低于“网络机器人”,22/62,1.5.2 信息预处理技术,信息预处理包括信息格式支持与转换以及信息过滤目前，因特网上的信息发布格式多种多样，这就要求搜索引擎支持多种文件格式。从实际情况看，所有的搜索引擎都支持HTML格式，而对于其他文件格式的支持则不同的搜索引擎有不同的规定，最多的能支持2

15、00多种文件格式,23/62,信息预处理要做的工作：关键词的提取重复或转载网页的消除链接分析网页重要程度的计算可能题型：填空，选择，判断，简答,24/62,1.5.3 信息索引技术,信息索引就是创建文档信息的特征记录，以便用户能够快速地检索到所需信息。（名词解释）建立索引主要涉及到几个以下问题：信息语词切分和语词词法分析进行词性标注及相关的自然语言处理建立检索项索引检索结果处理技术,25/62,1.6 主要搜索引擎介绍,Google的不足其数据的更新速度无法进一步提高无法搜索动态生成的网页中文状态下的Google没有成人内容过滤功能目前对中国的用户还不支持“OR”和“”等符号

16、的使用可能题型：填空，选择，判断，简答,26/62,百度（baidu）搜索,百度是世界上规模最大的中文搜索引擎，致力于向人们提供最便捷的信息获取方式核心技术：超链分析超链分析技术，是新一代搜索引擎的关键技术，已为世界各大搜索引擎普遍采用。在学术界，一篇论文被引用得越多就说明其越好，学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量，这保证了用户在百度搜索时，越受用户欢迎的内容排名越靠前,27/62,百度（baidu）搜索,搜索速度更大、更新、更快百度在中文互联网中，支持搜索8亿中文网页，是世界上最大的中文搜索引擎为中文用户度身定做关键词自动提示：用户输入拼音，就能获得中文关键词正确提示,28/62,1.6.4 北大天网搜索,北大天网搜索引擎简介 “天网资源检索系统”（即天网搜索）是中国教育和科研计算机网示范工程应用系统课题之一，是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果，由北京大学计算机系网络研究室设计开发，并于1997年10月29日正式在中国教育和科研网（CERnet）向广大Internet用户提供Web信息导航服务,

展开阅读全文

第1章 搜索引擎概述.ppt

第1章搜索引擎概述.ppt