1、网络搜索技术,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,网络搜索概述,(1)网络搜索与传统信息检索的区别检索对象集的规模和更新速度不同 传统的IR的对象一般是规模相对有限、内容相对稳定的馆藏;而网络检索面对的是浩如烟海的web网页,而且网页的更新速度相当快,也存在网页被删除的情况。检索对象的预处理水平不一样 传统IR的检索对象是经过认真筛选和预处理的(人工选择、标引);而网页只能通过机器进行粗略的过滤和自动索引,全文索引不能很好的表达主题
2、概念。返回结果 传统的IR系统的返回结果一般数量不会太大;而网络检索的返回结果动则上万。并发操作 传统IR系统要同时响应的查询数量通常不会太大,但网络检索通常要处理大量的并发操作用户检索知识和技能 网络搜索面对的用户的检索知识和技能参差不齐,而传统信息检索的用户一般都受过相关的培训和教育。,(2)网络搜索主要有两种类型:搜索引擎、分类目录式网络搜索 分类目录式门户网络搜索是建立在分类学基础上的,当它遇到一个网站时,先以人工方式将该网站划分到某个分类下,再记录一些摘要信息对该网站进行概述性的简要介绍。这样的门户依赖的是人工整理的网站分类目录。一方面,用户可以直接沿着目录导航,定位到他所关心的信息
3、;另一方面,用户也可以提交查询词,让系统将他直接引导至与该查询词最匹配的网站。 1994年4月,斯坦福大学的两名博士生,David Filo和Gerry Yang共同创办的Yahoo!门户网站就是典型的分类目录式网络搜索。Yahoo!网站成功地使网络信息搜索的概念深入人心。 在很多时候,人们也称这类的网站提供的信息搜索功能为搜索引擎,但是从技术上讲,这类门户网站提供的搜索服务与后述搜索引擎是很不同的。,由于对海量的信息进行高质量的人工分类已经不太现实,Yahoo!这种靠人工整理网站目录取得较高精度查询结果的优势逐渐退化。 搜索引擎是一种在web上应用的软件系统,它以一定的策略在web上搜集和发
4、现信息,在对信息进行处理和组织后,为用户提供web信息查询服务。 独立搜索引擎、元搜索引擎 一些著名的搜索引擎:Google, AllTheWeb, Ask Jeeves, HotBot, Lycos, WiseNut, Vivisimo, 百度,北大天网 目前,搜索引擎已经成为了主流的网络搜索方式。本次报告只涉及搜索引擎中的基本原理和主要技术。,(3)搜索引擎发展历史搜索引擎发展端倪 1990年加拿大麦吉尔大学 (universityofMcGiu)计算机学院的师生开发了一个软件Archio,公认为是现代搜索引擎的鼻祖。为了便于人们在分散的FTP资源中找到所需的东西,它通过定期搜集并分析FT
5、P系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。 1993年Matthew Gray开发了world wide Web Wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测认web发展规模的“机器人”(robot)程序。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。,第一代搜索引擎 1994年4月,第一个搜索引擎WebCrawler (http: /www. webcrawler. com)在美国诞生。同年5月, Lycos (http: /www. lycos. com)也在美国出现。 1997年,最早的中文搜索引擎北大天网
6、开始提供服务。 早期搜索引擎主要使用基于文档内容信息的匹配和排序算法,较典型的包括布尔模型、向量空间模型、概率检索模型、模糊集合模型、扩展布尔检索模型等。第一代搜索引擎往往以反馈结果的数量来衡量检索结果的好坏,即“求全”第二代搜索引擎 1998年推出的Google搜索引擎,因其采用了独特的PageRank技术,使之很快后来居然成为当前全球最受欢迎的搜索引擎。随着Google的出现,第二代搜索引擎诞生。 2000年,最大的商业中文搜索引擎百度上线。 第二代搜索引擎依靠机器抓取,建立在超链分析基础之上,提高了查准率,检索思想、方法和目标有了根本性的改变。,第三代搜索引擎 从2003来开始,致力于解
7、决现有搜索引擎服务的问题。一个是以Google为主的“技术驱动型”理念,还有雅虎、搜狐等;一个是Jwmguagua (精武门呱呱)为主的“服务驱动型”理念。 技术驱动型对第三代搜索引擎这样描述:第三代搜索,是对整个网页做一种分析和数据挖掘,不仅要找到更多的结果,而且要更加智能化、人性化、更加精确,能够理解用户需要什么结果,然后进行聚合和整理。 服务驱动型对第三代搜索引擎的描述是:“第三代全能搜索”概念认为,随着搜索引擎服务在互联网市场的重要性日益突出,以信息搜索为主体的服务模式,已经显露出单一化的趋势。搜索引擎技术的发展需要在进一步优化搜索技术的前提下,寻找更大的服务市场和更大的经济运行空间。
8、 搜索引擎出现只有十多年的历史,但在web上已经有了确定不移的地位。据CNNIC统计,2009年搜索引擎服务的使用率排名第三,约为73%。虽然它的基本工作原理己经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学术年会的重要论题之一。,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,搜索引擎的工作原理,现代大规模高质量的搜索引擎一般采用三段式的工作流程,即:网页搜集、预处理和查询服务。(1)网页搜集 面对大量的用户查询,系统不可能每来一个查询就到网上“搜集”一次。大规模搜索引擎服务的基础应该是一批预
9、先搜集好的网页(直接 的或间接的)。网页数据库维护的基本策略:批量搜集:也称“定期搜集”。每过一段时间重新全面搜集网页,替换掉上次的内容。 优点:实现简单; 缺点:时新性(freshness)差,每次搜集的时间通常会花几周,开销比较大。增量搜集:开始时搜集一批网页,往后只是:1)搜集新出现的网页;2)搜集发生了改变的网页;3)删除不存在的网页。 优点:时新性较高,系统开销较小; 缺点:搜集过程的系统实现比较复杂,索引的的建立也比较复杂。,具体的搜集过程:“爬取”:将网页集合看做一个有向图,爬取程序从给定的其实URL集合S开始,沿着网页链接,按照某种策略遍历网页集合。让网站让网站拥有者主动向搜索
10、引擎提交它们的网址,系统在一定时间内(2天到数月不等)定向向那些网站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存入数据库中。在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有新的URL,则将它们对应的网页也抓回来,并将这些新URL也放到集合S中;如果S中某个URL对应的网页不存在了,则将它从S中删除。(2)网页预处理 网页预处理是指从网页集合形成倒排文件的过程。主要包括四个方面:,关键词提取 HTML文档比较随意,格式不规范,为了支持后面的查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征,即关键词。对于中文来
11、说,就是要根据一个词典,用一个所谓“切词软件”,从网页文字中切出所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了,p=t1,t2,tn。重复或转载网页的消除 与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利,这种现象对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会。但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我一个就够了”。因此,消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。 链接分析 HTML文档中所含的
12、指向其他文档的链接信息是人们近几年来特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。,网页重要程度计算 为结果排序服务的,但既然是在预处理阶段形成的,就是和用户查询无关的。“被链次数较多的网站较为重要”。作为Google创立核心技术的PageRank就是这种思路的成功体现(3)查询服务 如上述,从一个原始网页集合S开始,预处理过程中得到的是对S的一个子集的元素的某种内部表示,这种表示构成了查询服务的直接基础。对每个元素来说,这种表示至少包含如下几个方面:原始网页文档URL和标题编号所含的重要关键词的集合(已经它们在文档中出现的位置信息)其他一些指标(如重
13、要程度,分类代码),查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。用一个词或者短语来直接表达信息需求,希望网页中含有该词或者该短语中的词,是主流的搜索引擎查询模式。对查询式进行分词,去停用词后与索引词进行匹配。包含了查询词的文档被认为是相关的文档。结果排序文档摘要 搜索引擎给出的结果是一个有序的条目列表,每个条目有三个基本的元素:标题,网址和摘要。其中的摘要需要从网页正文中生成。 静态方式:即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落的第一个句子拼起来,等等。这种方式对查询子系统来说是
14、最轻松的,不需要做另外的处理工作。但这种方式的一个最大的缺点是摘要和查询无关,当用户输入某个查询,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他关心的文字相关的句子。 动态方式:即在响应查询的时候,根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。,用户接口,检索器,索引DB,索引器,原始DB,控制器,搜集器,WWW,用户行为日志DB,日志分析器,SE的体系结构,TES系统结构,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,索引,搜索引擎主要针对全文进行索引以及检索
15、,所谓全文检索,就是给定一个字符串或字符串逻辑表达式,对文档库进行相应的检索,查找出与指定表达式相匹配的文档,并将包含这些文字信息的文档作为检索结果返回给用户。目前主流的全文索引模型主要有倒排索引 (Inverted index)、署名文件(Signature Files)、位图(Bitmaps)和 Pat 数组(Pat Arrays)等。倒排索引的目前多数搜索引擎的一种全文索引模型。对一个中文搜索引擎,索引创建不仅仅只是一个高效的倒排算法,它还包含许多重要的方面:索引词的选择,中文分词,编码识别和转换、网页净化、强健的页面分析等。,创建索引的过程包括分析网页和建立倒排索引文件。二者是顺序进行
16、,先分析网页,后建立倒排文件,如图所示:,(1)分析网页 分析网页过程包括提取正文信息和把正文信息切分为索引词两个阶段。形成的结果是文档号到索引词的对应关系表即正向索引。每条记录中包括文档编号,索引词编号,索引词在文档中的位置信息,“索引词载体信息”(索引词的字体和大小写等信息,是SE的服务阶段提供更好的结果排序所需要的)。,中文分词原理,中文信息和英文信息有一个明显的差别:英语单词之间用空格分隔;而在中文文本中,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成的,并且语句是连续书写的。这就要求在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词(或中文切词)
17、自动分词的基本方法有:基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法,基于字符串匹配的分词方法 这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方长度优先匹配的情况,可以分为最大或最长匹配,和最小或最短匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:正向最大匹配法(FMM),从左到右每次取最长的词,得到切分结果逆向最大匹配法(RMM),从右到左每次取最长的词,得到切分结果最少切分,也叫最短路径法,采
18、用最短路径法找到词图中起点到终点的最短路径,即每一句切出的词数最小。 全切分,该算法给出一个句子所有可能的切分结果 一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。,基于理解的分词方法 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
19、 理解性分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。,基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。计算汉字X和Y的互现信息公式为 互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词
20、典,因而又叫做无词典分词法或统计取词方法。 但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。,实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。汉语分词的难点: 歧义消除 乒乓球拍卖完了新词识别 伪娘,(2)建立倒排索引 倒排索引(Inverted Index)是从书目索引中受到启发而派
21、生出来的,它也是目前应用最广泛的全文索引模型。倒排索引由一系列“单词-置入列表(Posting List)”对组成。 在分析网页阶段形成了正向索引,如下图所示:,倒排索引的结构,构建倒排索引的过程,对于每一个词Term而言,其置入列表(Posting List)的组织结构为:,当面对小数据量时,我们有足够的内存保证该创建过程可以一次完成。但是,搜索引擎面对的是G级的数据,特别是当规模不断扩大时,我们根本不可能提供这么多的内存, 我们采用分组索引,然后在归并索引的策略来解决这一问题。,倒排索引的压缩,对于全文检索而言,其中的每一个词(停用词除外)都参与倒排索引的构建。随着信息量的不断增长,需要索
22、引的文档数目将逐渐增加,使得其索引的大小变得异常庞大。通常,倒排索引采用压缩方式进行存储,压缩不仅可以减少存储空间,而且可以减少I/O操作次数,提供检索系统的吞吐率。如何在尽量的提高信息检索性能的前提下,缩减倒排索引的大小已经成为搜索引擎成功的关键因素之一。关于索引的压缩,一些学者及其文献进行了相关的研究:Chung-Hung Lai 提出了一种二元判断图编码的倒排文档压缩算法,其在对倒排列表压缩的同时,也很好的支持布尔检索;Gordon和Craig综合利用了前缀冗长编码,游程编码和n-s数字编码,有效的对大规模文本库索引进行了压缩,其压缩节省的I/O操作补偿了解压的CPU 时间;Anh和 M
23、offat 针对整数列表的压缩提出了一种固定二元代码字(Fixed Binary Codewords)的编码策略,实验证明其在检索效果和效率上都很出色;Flak Scholer 等人通过一系列的实验得出结论,通过一种合理的字节对齐压缩,可以使得压缩后的索引比不压缩的索引检索性能更好。,基于游程编码(run length)和整数差的索引压缩策略 把大的整数变成小的整数基于字节对齐和基于位对齐的整数编码策略,倒排索引的动态维护,在动态检索环境下,文本集中文本频繁地进行动态的增加和删除,这无疑给索引的构建和维护提出了新的挑战。 在线(on-line)索引构建策略,允许在索引建立的同时立即提供检索服务
24、,有效的适应了动态检索环境的要求。 在线索引维护首先对新加入的文档在内存建立索引,随后的检索在内存索引和磁盘索引上同时进行。 由于内存资源的稀缺性(相对于硬盘而言),随着新文档的加入,内存很快就会耗尽,这时就需要对内存中和硬盘上的索引进行合并。当前针对索引的合并策略,主要有 In-place 和Merge-Based,前者对于长的并且更新不是很频繁的置入列表很有效,而后者对短的并且更新很频繁的置入列表进行合并很有效。,In-place 索引维护 首先在内存中对渐增的文档建立索引,当内存耗尽时,把内存中的索引追加到硬盘上的索引上,从而形成新的索引。为了加快索引的更新速度,通常在硬盘上预先分配了更
25、多的空间,一旦内存中的索引需要写入到硬盘上时,就可以写到预留的空间中了,这样可以避免倒排列表的复制移动.Merge-based 索引维护 基于合并(Merge-based)索引更新策略一般不像 In-Place 那样通过置入列表的追加操作完成的,而是对内存中的子索引和磁盘中的索引进行合并,从而产生新的倒排索引, 通常,内存耗尽时触发索引合并事件。根据合并策略的不同通常有以下几种策略,不合并(No Merge)、立即合并(Immediate merge)、对数合并(Logarithmic Merge)。混合索引动态维护策略 其主要是综合了 In-place 和 Merge-based 索引维护策
26、略,其区分了长置入列表和短置入列表,对于长的置入列表运用In-place更新策略,避免了大量数据的移动;而短的置入列表运用Merge-based索引维护策略,No-Merge 策略的原理为: 首先在内存中对增加的文本建立索引,当内存耗尽时,将内存中的创建的子索引直接存盘,不和硬盘上的索引进行合并(即:No Merge),允许在硬盘上并列存在多个子索引. 索引更新操作的速度很快, 延长检索响应时Immediate merge策略 在硬盘上只维护一个大的索引,一旦内存耗尽即触发索引合并事件,对内存上的子索引和硬盘上的大索引立即进行合并处理,形成新的索引.其索引更新操作的速度很慢,代价比较高, 加快
27、了检索响应速度对数合并策略 基本原理为:对索引进行分代(Generation),直接由内存产生的子索引记为第 0 代;如果第 n 代之间的子索引进行合并,则产生的索引记为第 n+1 代;只有相同代之间的子索引才能进行合并,当同代之间的子索引个数大于等于 2 时,即触发索引合并事件,同代之间的每两个子索引进行合并,产生+1代的索引,直到没有代相同的子索引为止。,然而,在实际的动态检索环境下,还包括文本集中的文本的删除,这时就需要将删除文本的置入项从置入列表中删除,此种情况比单调增加要复杂的多。通常对这种情况的处理方式有两种:一种是直接对相应的记录在倒排索引中删除,即遍历每个包含该文档中词的置入列
28、表,对相应的置入项删除;另一种是建立一个删除列表,用于标识每一个待删除的文档,并在置入列表中对待删除的置入项进行标识,等到记录数到达一定量时(一般设置一个阈值)统一进行处理,有人把这种方式叫做垃圾回收策略,相关排序,传统上,人们将信息检索系统返回结果的排序称为“相关排序”(relevance ranking),其中各条目的顺序反映结果和查询的相关程度。 在搜索引擎的情况下,人们也这么讲,但内涵其实是有了差别。一方面,搜索引擎维护的内容十分繁杂且不规范,不像传统的图书、文献等有很好的分类体系管理。另一方面,搜索引擎面对的用户背景广阔,层次多样,不像传统的信息检索系统所面对的用户通常有相对比较整齐
29、的用户群。因此,搜索引擎要给出的不是一个狭义的相关序,而是某种反映多种因素的综合统计优先序。,(1)传统IR的相关排序 给定某个文档集合D,大小为M;设两篇文档dl,d2D,一个查询q。用什么样的标准来讲“dl与d2相比,前者和q更相关?” 这方面最经典、最有影响的工作是Gerald Salton等在30多年前提出的“向量空间模型”。 这一理论照搬到网络搜索系统中有很大的问题,其原因在于web信息的质量参差不齐,索引质量不高;大部分检索用户都是没有丰富检索知识和技能的。这与向量空间模型成立成功的内在假设是不相符合的。,(2)链接分析和相关排序 尽管Web页面的情况比传统IR面对的情况要复杂许多
30、,但其中的复杂性也给我们带来了新的机会,主要体现在两个方面。首先可以利用网页间的链接关系进行链接分析,量化网页信息;其次,在Web查询模式下产生了许多新的信息可资利用,如Web用户行为信息等。 网页和普通文本的不同主要反映在两个方面:HTML标签和网页之间的超链接。 HTML设计有丰富的标签,标签能给我们提示其中文字的重要程度。常识告诉我们,在同一篇文字中,比较大的字体往往是作者比较强调的内容;而在一版(以区别“一篇”,如同报纸)内容分块、且有一定布局的文字上,放在前面和中间的应该是作者比较强调的。许多著名搜索引擎在网页的预处理阶段记录了这些信息,并用于结果排序。例如 AltaVista,In
31、ktomi,Excite,Infoseek等。,超链接反映的是网页之间形成的“参考”、“引用”和“推荐”关系。可以合理的假设,若一篇网页被较多的其他网页链接,则它相对较被人关注,其内容应该是较重要、或者较有用。 可以认为一个网页的“入度”(指向它的网页的个数)是衡量它重要程度的一种有意义的指标。这和科技论文的情况类似,被引用较多的就是较好的文章。同时,人们注意到,网页的“出度”(从它连出的超链个数)对分析网上信息的状况也很有意义的,因此可以考虑同时用两个指标来衡量网页。这些想法即是斯坦福大学Google研究小组和IBM公司的clever系统开发小组几乎在同一时间分别提出著名的PageRank技
32、术和HITs技术的基础。,PageRank算法 PageRank的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为网页A投了网页B一票,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。 简单的链接数量计算并不能客观真实地反映网页的重要性。所以PageRank除了考虑网页得票数(即链接)的纯数量之外。还要分析为其投票的网页的重要性,重要的网页所投之票有助于增强其他网页的
33、重要性。,Pr值计算公式: 因为所有的网页的PageRank值开始是未知的。所以我们进行平均的分配,给每个网页的PageRank都赋以1/S。再根据上述公式进行计算。然后对得到的值再次利用上面的公式计算。这样反复地计算。直到计算得到的PageRank值收敛于一个相对固定的数。,HITs算法 IBM研究院Clever系统中相应技术称为HITs(Hyperlink-Induced Topic Search).Clever描述两种类型的网页:(1)“权威型(Authority)网页”:对于一个特定的检索,该网页提供最好的相关信息。 (2)“目录型(Hub)网页”:该网页提供很多指向其它高质量权威型网
34、页的超链。 而authority和hub之间相互优化的关系,即为HITs算法的基础。这两种页面具有不同的功能,对于用户而言,也具有不同的意义如果用户希望了解一个陌生领域的研究内容,hub页面所包含的超链接指向各种不同的页面,能够提供丰富的信息;但如果用户希望查找一个具体的概念或范畴,则authority页面的定位更加准确。因此,HITS算法为每个页面引入两个权值:authority权值和hub权值,最后分别输出一组具有最大authority权值的页面和一组具有最大hub权值的页面。,HITS算法的第一步就是建立一个web有向子图,用点表示网页,边表示网页之间的链接,从中寻找hub和author
35、ity。首先,将查询提交给传统的搜索引擎,从搜索引擎返回的页面中选取一定数量的页面作为根集 (root set),也可以称为开始集 (start set)。然后,在根集的基础上生成基本集 (base set),基本集中包括所有引用根集中页面和被根集中页面引用的页面。基本集中的页面和它们之间的超链构成了所要处理的子图,算法的其余部分主要是针对这个基本集进行的。 为基本集中的每一个页面p定义一个非负的authority权值XP和一个非负的权值YP,初始化时,赋给所有的XP和YP相同的值,然后按照如下规则来计算XP和YP。用所有指向页面p的页面q的hub权值YP之和来更新XP,并用所有页面p指向的页
36、面q的authority权值XP之和来更新YP。公式如下: 经过一定次数的递归运算后,会得到集合中每个网页的权威型权值和目录型权值。按照这两个不同的权值,分别取出前k个返回给用户。,两种算法的比较 它们都利用了网页和超链接组成的有向图,根据相互链接的关系进行递归的运算 区别主要在于运算的时机。Google是在网页搜集告以段落时,离线的使用一定的算法计算每个网页的权值,在检索时只需要从数据库中取出这些数据即可;Clever使用即时分析运算策略,每得到一个检索,它都要从数据库中找到相应的网页,同时提取出这些网页和链接构成的有向子图,再运算获得各个网页的相应链接权值。,总的来说,结果排序是搜索引擎技
37、术最重要的一个方面,从概念上讲,主要就是涉及前面讨论的因素,但在实际系统中会衍生出许多变化,其细节往往是商业机密。,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,(1)具有智能词组效应和编辑功能 美国布法罗大学计算机学家罗西尼斯里哈里说:“在大多数情况下,你要找的文件不一定包含你要查找的所有关键词。而且如果你希望找到突然成为热门话题的人或物,你甚至都不知道要搜什么样的关键词”。 美国Hakia (施乐公司)和旧金山的一家公司Power-set,以及总部设于悉尼的Lexxe等一些搜索引擎,正在试图超越精确匹配查寻词的功能,它们正在试图先弄明白
38、你要查找什么,然后根据它们对相关内容的理解找出最佳页面。(2)垂直搜索引擎 垂直搜索是对特定的专业领域或行业信息进行专业化的、深入的分析挖掘和精细分类,信息定位更精准,专于自己的特长与核心技术,保证该领域信息的完整收录、及时更新(3)具有公众参与能力 美国的Nosyjoe, Squidoo和Sproose等搜索引擎让其他用户来帮助确定哪些网页是最有用的,剔除在谷歌根据链接数量排序的方案中时常无关紧要和充斥着垃圾信息的搜索结果。如同与人人都能参与编写维基百科一样,美国的维基亚公司正在打造一个基于用户贡献的搜索引擎,(4)具有引导查寻能力 当用户输入一个查寻词时,搜索引擎尝试理解用户可能的查询意图
39、,给予多个主题的搜索提示,引导用户更快速准确地定位自己所关注的内容。这种与用户的“对话交流”,大幅度提高了搜索相关度。例如,用户输入“猎豹”一词,搜索引擎会快速将猎豹可能出现的主题进行关联分类,在智能导航中给出汽车、体育与竞技、生物、极限运动等主题提示,分类明确,用户第一眼就联想到相关的内容,点击自己所需的类别就可以轻松找到答案。(5)具有“一页到位”搜索能力 2007年6月5日,雅虎中国发布了基于“一页到位”技术的搜索引擎OmniSearch,这一最新搜索被雅虎中国称为对搜索30概念的尝试。OmniSearch是全球首个实现了“一页到位”的搜索平台。在传统的搜索模式上,用户无论使用网页搜索还
40、是垂直搜索,通常只能得到一个种类的搜索内容,如图片、歌曲。但在OmniSearch搜索平台上,用户能够在一个页面上得到各类搜索结果。,(6)具有桌面搜索能力 未来搜索引擎将具有桌面搜索功能,即在不打开浏览器的情况下便可浏览网页,在Word文档中发现生僻的词汇时选中它,点击搜索或寻址就能搜索到需要的结果。另外,还可以输入关键词,以桌面为入口进行检索。桌面搜索不仅能搜索用户个人电脑上的信息,也可搜索互联网上的信息。(7)个性化搜索引擎 个性化搜索将搜索建立在个性化的搜索环境之下,跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据,充分考虑用户的特点、动机和需求来提高用户搜索效
41、率,并为用户提供全程帮助和服务,使得个性化搜索更符合每个人的需求,参考文献,1李晓明,闫宏飞,王继民.搜索引擎原理、技术与系统.科学出版社,20052吴宝贵.搜索引擎中索引技术研究与实现.西安电子科大,20083应亦丰.web搜索引擎原理与实现.浙江大学,20074郭晨娟.基于web的网络搜索技术研究.西北工业大学,20075彭轲,廖闻剑.浅析搜索引擎.中国通信学会第五届学术年会论文集,20086使伟.中文自动分词关键技术研究与实现.电子科技大学,20087王正刚.搜索引擎关键技术研究与实现.复旦大学,20088张立彬,杨军花,杨琴茹.第三代搜索引擎的研究现状及其发展趋向探析.情报理论与实践,
42、2008(5),1.PageRank 算法和HITS算法最主要的差别在哪儿?答:区别主要在于计算权值的时机。PageRank算法是在网页搜集告以段落时,离线情况下使用一定的算法计算每个网页的权值,在检索时只需要从数据库中取出这些数据即可;HITS算法使用即时分析运算策略,每得到一个检索,它都要从数据库中找到相应的网页,同时提取出这些网页和链接构成的有向子图,再运算获得各个网页的相应链接权值。 因此可以看出,PageRank是一个静态的算法,在查询时不需进行计算,不影响响应时间。HITS算法排名准确性比PageRank高,但HITS算法依赖于具体的查询式,极大地影响了算法的可伸缩性,从而难以应用
43、于大规模的网页数据集。,2.图象和视频排序的研究进展如何?答:韦世奎等人在基于多证据融合的视频排序方法提出了一种基于多证据融合的视频排序方法.该方法利用Dempster-Shafer证据推理理论来协同地融合多方证据,进而推断出最相关的视频镜头.如果多方证据一致,则证明某个视频镜头是相关的,此镜头被认为是最相关的镜头,并被排在返回列表的最前列.相反,如果多方证据产生冲突,那么此镜头就将被排在后面. 2008年,Google公司的Yushi Jing等人在VisualRank: Applying PageRank to Large-Scale Image Search提出了一种方法VisualRa
44、nk算法,用户进行大规模的图像检索。 目前的商业搜索引擎对图像和视频进行检索都是基于文本信息的,相关性比较差,一些学术研究的成果离大规模应用还很远。,pOXLp7v0djZKylHSJr3WxBmHK6NJ2GhiBeFZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMeR4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI
45、92tgKQcWA3PtGZ7R4I30kA1DkaGtgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMeR4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMes02GshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMes02dLPqafkFGlzcvv2YiRQYHbhR8AI1LKULh3xvjDzkEAMGr8xbwF1bH1oIM30E7xp,