1、 搜索引擎优化技术及发展趋势一、引言“搜索引擎” 作为互联网上提供信息服务的一种工具,现在几乎已经是一个妇孺皆知的事物。按照中国互联网络信息中心在 2006 年 7 月 19 日发布的报告1 ,中国网民中有66。3%经常使用搜索引擎,比半年前又提高了近 1 个百分点。互联网上的第一代搜索引擎出现于 1994 年前后,以 AltaVista、Yahoo 和 Infoseek 为代表,搜索结果的好坏通常用反馈结果的数量来衡量,或者说是“求全”。然而研究表明,当时的搜索引擎性能并没有想象中那么优秀,根据 SteveLawrence 和 C。LeeGiles 在 1999 年2 月的实验2 ,全球 1
2、1 个主要的搜索引擎中,每个搜索引擎仅能搜索到互联网上全部页面的 16%,甚至更低(图 1) 。造成这种情况的原因,主要是这些搜索引擎的处理能力和网络带宽等方面的限制。1998 年,以 Google 为代表的第二代搜索引擎出现在互联网上,其主要特点是提高了查准率,或者说“求精” 。当时传统的搜索引擎如 Lycos 等主要使用网页中的关键词进行搜索,而 Google 则使用了一种综合页面排名算法:它不仅考虑搜索关键词,还考虑页面间的链接关系,然后对整个网络的链接结构进行分析和迭代计算,从而对页面进行区分3 。第二代搜索引擎在技术和商业上都获得了巨大成功,然而商业竞争和信息环境的变化仍在推动着它们
3、不断创新和发展。当前所谓的第三代搜索引擎主要增加了互动性和个性化等技术,为用户使用搜索引擎获取信息提供更好的体验。至于互动性的评价标准是什么,以及第三代搜索引擎到底比第二代增加了多少价值,目前并没有非常令人信服的研究结论。在以下的论述中,我们不对产品概念进行太多讨论,而是就搜索引擎目前所面临的挑战,以及它们的应对方略和发展趋势进行梳理和阐述。二、搜索引擎面临的挑战面对瞬息万变的环境,搜索引擎如果在技术上不创新进取,从信息服务质量的角度讲,现在看来不错的技术,将来很可能会落伍。不进则退,在搜索引擎领域体现得很明显。关于搜索引擎的基础技术,读者可参见文献23 ,那么目前有些什么变化在影响着搜索引擎
4、呢?(一)Web 的发展1。信息大量增加Web 自产生以来,其信息量一直以几何级数的形式递增,近两年来尤其如此。这主要有两方面原因:首先是 Web2。016的用户和以前有所不同,他们正在由单纯的信息消费者向生产者与消费者双重身份转变;其次是 DeepWeb4的发展。如果说 Web1。0 是单纯的网页浏览模式,那么 Web2。0 则是通过了真正的个性化、去中心化和信息自主权,向着内容更丰富、联系性更强、工具性更强而努力。尽管一切都还在探索中,但毋庸置疑,Web2。0 已经成为互联网新的发展趋势。这种转变,从模式上可以概括为是从单纯的“读” 向“ 写”和“共同建设”发展。这也更体现了互联网的第一规
5、则,“用户需要表达” 。只要有机会和便利,网民就不会满足于只是被动的信息接受者,他们需要表达,希望驾驭自己的传媒,而不是受其掣肘。在 Web2。0 实际应用中,除了原先的IM(InstantMessenger,即时通讯) 、P2P(PeertoPeer,对等网络)等得到新的发展,更是涌现出了很多社会化的新事物,比如 Blog(Weblog,网络日记) 、RSS(RDFSiteSummary,站点摘要) 、WIKI (网络百科) 、WB(WebBookmarks,Web 文摘) 、SNS(SocialNetworkSoftware,社交网络)等。这些新事物发展得非常快。以 RSS 为例,美国提供
6、 RSS 内容的网站数目从 2001 年 9月的 1000 余家激增至 2004 年 9 月的 195000 余家,短短的 3 年中增长了近 150 倍,市场的飞速发展令人瞩目。而 Blog 站点的大量涌现,更是为每一位用户都提供了畅所欲言的场所据计世资讯(CCWResearch)的统计,2006 年第二季度,中国注册博客的总数量达到6800 万,比第一季度增长 51。1%;中国博客用户则达到 2100 万人,比第一季度增加40。0%。这些无疑都在刺激着 Web 信息生产和消费的繁荣。根据 AlexandrosNtoulas 等人的研究结果5-6 ,每星期 Web 上新产生的页面数大约为8%。
7、而这个数字是非常保守的:他们的实验是针对 154 个“popular”网站进行的,而实际上,那些大量涌现的新网站,如 Blog 网站,它们的成长速度远远超过这些所谓的流行网站。关于 DeepWeb 的研究最近几年也受到越来越多的关注,DeepWeb 又被称为InvisibleWeb 或者 HiddenWeb。JillEllsworth 于 1994 年首次提出的 InvisibleWeb 概念,是指那些常规搜索引擎难以发现的内容。美国互联网专家 ChrisSherman 和 GaryPrice 在他们著作TheInvisibleWeb中将 InvisibleWeb 定义为:“在互联网上可获得的
8、,但传统的搜索引擎由于技术限制不能或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量、权威的信息。 ”InvisibleWeb 分为四种类型:不透明网络(theOpaqueWeb) 、私人网络(thePrivateWeb) 、专有网络(theProprietaryWeb )和真正的隐形网络(theTrulyInvisibleWeb) 。我们认为使用 “deep”更为合适,因为这些内容不是真的Invisible,只是藏在 Web 中较深的位置。根据 BrightPlanet 公司的调查 4 ,2001 年的 DeepWeb 大概是 SurfaceWeb 的 500 倍左右,而且还在快
9、速发展。ChrisSherman 和 GaryPrice 的估算则保守些,他们认为InvisibleWeb 只有 SurfaceWeb 的 250 倍。但不论如何,DeepWeb 在数量上都不容小觑。更为重要的是,DeepWeb 通常都组织良好、信息权威、质量很高,而且时新性强。正因为这样,国内外许多研究者都在克服重重困难,探索如何有效地发现这些有价值的信息,提供给更多用户使用。各大搜索引擎要想巩固和强化在搜索市场的地位,就必须重视DeepWeb,发展搜索技术,提高竞争力。对于垂直搜索而言,DeepWeb 的作用更为突出。Web 信息的大量增加,使得搜索引擎面临严峻的挑战。任何技术都有它的适用
10、范围,超出这个范围,其性能将严重下滑。以搜索引擎的检索页面集为例,粗略地说,当页面总数没有超过某个阈值时,搜索引擎工作良好,一旦页面总数超过这个阈值,搜索引擎的查询结果质量将急剧下降,用户往往在查询返回结果的前 10 位、前 20 位甚至前 50 位都找不到一个自己想要的结果。这一点在目前的几大搜索引擎上都已经初现端倪,相信他们已经为此绞尽脑汁。2。信息更新加快Web 上不但新信息涌现速度很快,信息变化速度也非常快。以网页中的链接为例,根据 AlexandrosNtoulas 等人的研究结果5 ,每星期将有 25%的新链接产生,1 年之后,将只有 24%的原有链接仍然存在。 Google 等搜
11、索引擎的成功在于正确地分析了页面间的链接关系,为了保持这种成功,搜索引擎必须不断地跟踪链接结构的变化,或者说不断地刷新自己所保存的相关信息。就以每周 25%的新链接为例,这样的链接更新速度要求搜索引擎至少每周重新计算一次所有页面的 Ranking 值,否则便不能及时地、恰如其分地反映RealWeb 上的当前状况,失去搜索引擎所必需的时效性(timeliness )和时新性(freshness) 。3。信息表现形式多种多样随着网络速度的提高,Web 上的多媒体信息也急剧增加,因此人们对多媒体信息的检索需求也就随之而来。传统的信息检索主要集中于文本的检索,在多媒体方面的研究并不是很多。需求的发展使
12、得目前各大搜索引擎都不断推出自己的多媒体素材搜索产品,让用户可以在庞大的素材库中进行检索,如 AltaVista 可以让用户在 5。5 亿个素材(包括 5。4亿个图片、1100 万个视频/音频文件)中进行检索, Google 的素材库也达到了 4。4 亿的量级。然而,目前对这些多媒体素材库的使用,大多还是标注、分类等方法,缺乏对图像、音视频内容的直接检索。搜索引擎如何自动分析音视频的内容,允许用户按内容进行检索,甚至在抓取音视频素材时就按内容进行,这些问题将在今后较长一段时间内构成挑战,成为搜索引擎所要迫切解决的问题。4。SEO 正在蓬勃发展自古有矛便有盾,有盾便有矛。SEO 目前已经成为一个
13、新兴的互联网行业。SEO 是SearchEngineOptimization 的缩写,即搜索引擎优化。从事这方面工作的就是SearchEngineOptimizer搜索引擎优化师。他们利用工具或其他手段使目标网站符合搜索引擎的搜索规则从而获得较好的网站排名。无止境地追求更高排名是搜索引擎优化师们的目标,因为他们知道,如果想让用户在烟波浩渺的 Web 中发现自己,获得一个很高的排名无疑是非常有效的一种方法。客观地说,SEO 的这种追求是很自然的,因为经济利益的诱惑实在是太大了。根据USCensusBureau 的调查,2004 年美国的电子商务销售额就达到 692 亿美元,并以 7。8%的年增长
14、率在发展,远远超过美国的 GDP 增长。而根据 ForresterResearch 的预测,美国B2C 的销售额将于 2010 年达到 3290 亿美元,占全部零售额的 13%。如果不能让用户认识自己,何谈电子商务呢?“搜索引擎优化”正是让大量用户认识自己的一种有效手段。搜索引擎优化师们并不等于垃圾页面制造者,但他们中的一部分的确为 Web 和搜索引擎制造着麻烦,为搜索引擎用户制造着垃圾。虽然有良好素养和道德观念的搜索引擎优化师们仍然通过网站结构的优化、页面质量的提高等方法进行他们的工作,但那些不道德的搜索引擎优化师们发现有一些“捷径”更加有效,如在页面上堆砌大量关键词、使用重定位手段欺骗 W
15、ebCrawler 程序、构造 LinkFarm 来提高目标页面的排名,等等7,8 。他们运用这些手段欺骗搜索引擎,浪费了搜索引擎大量带宽和时间,污染了搜索引擎的页面集合,歪曲了排名结果,浪费了用户的时间和精力,最后带给用户的只是大量垃圾。这些垃圾制造者通常被称为 WebSpammer。他们所运用的手段有 Boosting 技术和Hiding 技术两大类:Boosting 技术是指使用不道德的页面排名提升技术,而 Hiding 技术是指对使用的 Boosting 技术进行隐藏,尽量不让用户和 WebCrawler 发现。Boosting 技术包括 TermSpamming 和 LinkSpam
16、ming。TermSpamming 是较早出现的技术,是指 Spammer 操纵 Web 页面的正文,使其内容和众多的用户查询尽可能地相关,方法是在 Body、Title 和 AnchorText 等处插入大量毫无关联但用户经常使用的关键词。由于技术简单,只需要把别人已有的内容进行重复、编织和黏合,所以至今很多 Spammer 还在采用这些 TermSpamming 技术,而且已经发展到自动化和智能化的程度。LinkSpamming 则更具隐蔽性,WebSpammer 通常使用 HoneyPot 或构造强有力的 LinkFarm 来提高目标页面的排名。一个典型的 LinkFarm 可能包括几千
17、个支持页面,而 LinkFarm 之间还可以构成威力更大的联盟7 。由于隐蔽性很强,对于 LinkSpamming 的探测非常具有挑战性。Hiding 技术主要包括 ContentHiding、Cloaking 和 Redirection。ContentHiding 是指正文和页面背景使用相同的颜色,从而掩盖大量的无关正文,使得 WebCrawler 能够发现而对用户进行屏蔽。Cloaking 是指对 WebCrawler 返回一个不同的页面,从而欺骗搜索引擎。Redirection 本质上和 Cloaking 一样,但它是对浏览器而非 Crawler 返回不同的页面。Hiding 技术也是
18、Spammer 所常用的,有时利益如此诱人,以至于一些著名大公司也跃跃欲试,如 2006 年初的时候,宝马德国公司网站(bmw。com。de)就曾因为使用了该欺骗技术而遭到 Google 的惩罚。(二)用户需求的发展1。更准、更全、更新、更快经过十几年的技术发展和市场成熟,搜索引擎正日益渗透到人们日常生活的方方面面,人们对信息的获取越来越依赖搜索引擎。在全世界网民中,搜索引擎的使用率仅次于电子邮件而位居第二。随着对搜索引擎的使用不断走向深入,网民的要求也在提高。从产品层面来看,准、全、新、快仍然是用户对搜索引擎最基本的四个要求,而且用户希望搜索引擎在这些方面能做得更好。目前而言,围绕这几个问题
19、,各大搜索引擎服务商都在做许多细致的工作,以力求趋向完美解决。比如“准” ,需要更准确地理解用户需求,不断更新 Ranking 算法,同时又要严格控制垃圾网页的干扰;“全”指的是全面,尽可能地把互联网中“有价值”的网页都索引下来,满足最大用户群的需要;“新”要求搜索引擎的抓取非常高效,能够把最新的东西及时提取出来,同时还要不断更新已抓取信息;第四点是“快”,不仅要让用户感觉速度很快,还要保持最大的系统稳定性。 “搜得准、搜得全、搜得新、搜得快”,这是一个综合的服务过程,任何一个环节出了问题,都有可能导致用户满意度的下降。2。使用更加方便和容易随着技术的发展,人们希望搜索引擎无处不在,在任何时间
20、任何地点,要寻找信息时都可以使用搜索引擎。而随着搜索引擎的逐步普及,越来越多的使用者(他们中很大一部分对计算机和网络了解不多)希望搜索引擎的工具性进一步加强,最好在不觉察的情况下使用搜索引擎服务。人们甚至期望搜索引擎的使用如微波炉和洗衣机一样方便和容易。3。搜索个性化搜索引擎的一个经验就是,用户很多时候并不确切地知道自己想要什么样的结果,除非你把结果放在他的面前。所以用户在使用搜索引擎时,很多时候相同表象的内容却意味着不同的需要。比如对于同一个查询词,不同的用户所需要的查询结果可能是不同的。即使是同一个用户输入同一个查询词,他在不同的时间、不同的地点和不同的查询背景下,希望得到的查询结果也可能
21、是不一样的。搜索引擎必须理解用户的意图和需求,才能非常到位地提供相关、准确的信息。要理解用户的意图,首先要理解用户的行为和习惯,对不同人的查询做不同的处理,反馈给用户个性化的内容;其次要理解用户查询时的上下文背景,包括时间、地点、语义等。个性化的搜索,意味着向更加精确搜索结果的方向又迈进了一步。(三)网络的发展1。网络终端形式更加丰富目前各种客户端搜索工具的发展,使得用户可以不到搜索引擎的网站,而是直接在工具终端搜索所要查询的信息。手机、PDA 等终端设备的不断发展,将最终帮助人们摆脱电脑的制约,而各种嵌入式智能装备的推广普及,正在印证着这一趋势。随着网络终端形式越来越丰富,很多应用找到了自己
22、的位置,如手机电影;也有一些应用随着网络终端形式的发展而不断拓展,如 Gmail 的手机版。那么作为网络第二大应用的搜索引擎,也应该与时俱进,不断拓宽应用之路。实际上很多搜索引擎已经这么做了。如 Nokia 和 Yahoo 在 2006 年 9 月 7 日发布了面向 Nokia 便携式终端的应用软件“NokiaMobileSearch” 。该软件面向 NokiaNseriesS60 终端,用 Yahoo 的网页、图像搜索功能可向用户提供 10 种语言的搜索结果。但问题的关键是,只在新的网络终端上发布搜索产品还远远不够,应该挖掘各种网络终端的最佳应用模式,更好更方便地、个性化地服务用户,用户才可
23、能喜爱这些新生事物。例如使用手机进行搜索时,完全可以根据时间和地点进行个性化服务。可以想象,如果快吃饭的时候使用手机查询饭店,那么把手机持有者附近的知名饭店作为查询结果返回,将会是一个很好的选择。2。网络速度的提高随着基础建设的发展和技术水平的提高,网络速度一直在不断提高。网速的提高对于搜索引擎的影响主要在两个方面:首先极大地促进了页面搜集的速度,能够使搜集的页面集合更全,覆盖率更高,同时使页面集合的更新更快,信息时效性更强;另一方面是在搜索结果的使用上,可以使用户更快地打开页面,下载自己需要的信息,包括 pdf 文件、图像文件、音视频文件等,给用户更好的应用体验。网络速度的提高提供了以上的可
24、能性,而搜索引擎必须把这种可能变为现实。另外,搜索引擎还要抓住机会,比如随着 IPv6 的发展,大力推进多媒体信息的搜索和使用。3。无线网络的发展互联网有从有线网络向无线网络发展的趋势,随着无线通讯技术的发展,无线传输速率、覆盖面和稳定性得到很大提高,3G 的应用将进一步扩大这个趋势。摩根斯坦利(MorganStanley)2006 年 4 月初发布了一份 106 页的名为“全球互联网趋势(GlobalInternetTrends) ”的调查报告9 ,这个报告包含了互联网的调查和市场数据,从金融市场的角度分析了互联网市场的风险和机遇。摩根斯坦利在这份报告中,试图说明互联网的发展趋势已经从 PC
25、 互联网转向移动互联网;而规模远超过 PC 用户群,并且没有经过深度发掘的手机和消费电子设备,已经成为了主导互联网发展的主角。摩根斯坦利认为移动互联网将带来新的商机,在未来的数年内,移动互联网很可能会出现类似于 Google 那样的大服务商。(四)来自非技术方面的挑战1。知识产权问题Web 上的知识产权保护是一个很复杂的问题不仅搜索引擎公司觉得麻烦,用户也很矛盾:一方面认为合法的知识产权理所当然应该受到保护,另一方面也希望自己能够更方便地获得更多权威的、有价值的信息。事实上,Google 公司不止一次地受到侵权起诉,Google 使出浑然解数,也不过与原告们打个平手而已。国内的百度公司也因为提
26、供 MP3 下载而屡屡为人诟病。知识产权的问题虽然最终要靠通过相应的法律解决,但某种程度上的技术处理,可以减轻侵权的压力。2。所在国法律搜索引擎庞大的搜罗万象的能力并非总是它的优势,有时正是因为在这一点上违反了所在国的相关规定而遭到封锁。比如“网页快照”是 Google 非常好的一项功能,但在中国内地因为与相关法规抵触而被封锁,而该项功能的封锁,使得它的不少用户不得不转向其竞争对手的产品。类似这种问题,是搜索引擎本地化时首要考虑的问题。3。网络诚信问题网络诚信不只是搜索引擎发展中所遇到的难题,而且也是整个互联网发展中的一个非技术瓶颈。这里以“点击欺诈”为例来说明问题的严重性。“点击计费” 是目
27、前主流搜索引擎商普遍采用的广告收费模式,他们通过广告点击率向广告主收取费用,其广告收费=有效点击次数广告投放价格,其中有效点击次数是指排除点击欺诈后的次数。点击欺诈自互联网诞生之际就出现了,成为全球搜索引擎商们的一大心病。虽然几乎每个搜索引擎商都有自己的反欺诈系统,但判断某个点击是“有效”还是“恶意”其实是非常困难的一件事。点击欺诈在中国更是泛滥到无法收拾的地步:靠点击广告挣钱甚至已经成为一个行业!点击欺诈的泛滥告诉我们,网络诚信远远没有我们预期的那么好。2006 年 3 月,网络搜索巨头 Google 宣布,公司同意支付最高 9000 万美元费用与点击欺诈案的原告达成和解。虽然 Google
28、 这位行业老大终于愿意率先和广告主们握手言和了,但我们担心,Google 能够独自承担整个行业的重责吗?恐怕这由非技术因素引起的挑战,最终还要靠技术手段把它们控制在搜索引擎公司能够承受的范围内。三、搜索引擎应对方略针对以上各种挑战,搜索引擎如何应对呢?我们对搜索引擎所采用的方略和相关的成型研究进行梳理,归纳为以下几点予以介绍。这几点和上面介绍的挑战并没有一一对应的关系。(一)多元化针对形形色色的用户,针对用户各种各样的需求,搜索引擎已经到了细分市场的时候,多元化是搜索引擎的必然之路。一方面,针对大量的普通用户,搜索引擎仍然致力于最广泛、最全面的信息检索;另一方面,针对检索目的明确、查询要求精准
29、的用户,搜索引擎在特定领域和行业中发展,推出更有针对性的垂直搜索系统,为这些专业人士更好地服务。1。通用系统:其定位是一个好的推荐系统在通用系统层面,搜索引擎的定位更加清晰:它只是一个好的推荐系统,对于它的返回结果,用户必须经过自己的过滤和选择,而不是把排在前一二位的结果直接拿来使用。作为一个好的推荐系统,搜索引擎着力做好这样几件事情:信息尽量全而有价值;信息具有良好的时效性和时新性; 信息查询尽量准确,或者说通过尽可能少的交互,引导用户找到其所需要的结果;用户界面友好; 查询速度快。后面几个小节中,我们会有针对性地讨论这些方面。2。专业系统:要求非常精准,有专业特色专业搜索系统又称垂直搜索(
30、verticalsearching)系统,它是搜索引擎的细化和延伸,在最近几年发展得如火如荼。垂直搜索引擎和通用搜索引擎的最大区别,是对网页信息进行了一定程度的结构化提取,然后将提取的数据进行深度加工处理,为用户提供针对性更强、精确性更高的服务。垂直搜索引擎的应用方向很多,比如地图搜索、音乐搜索、图片搜索、文献搜索、企业信息搜索、求职信息搜索、购物搜索、房产搜索、天气搜索几乎各行各业各类信息都可以细化成相应的垂直搜索对象。垂直搜索引擎一般在规模上比通用搜索引擎要小,因为它只涉及某个特定的领域。垂直搜索引擎在技术上也需要信息搜集程序(但只在一些特定站点活动,并且不是对所有的链接都感兴趣) 、中间
31、处理(分词、信息提取和索引等)程序以及为用户提供查询服务。在信息搜集方面,Crawler 除了使用各种技术在限定领域内面向主题抓取尽可能全的信息外,从领域内的各种系统和数据库中获得信息更为重要,因为这些信息更为权威、也更有价值。在中间处理上,最大的挑战是如何利用模版、规则或Ontology 技术,整理所抓取的纷繁芜杂的数据,从中提取结构化信息,然后使用关系模型或 XML 等半结构化模型进行组织。只有经过有效组织,才能提供有针对性的、更为精准的查询服务。CiteSeer、GoogleEarth 、 YahooShopping、Shopping。com 等都是代表性的垂直搜索引擎。计算机论文搜索引
32、擎 CiteSeer(http:/citeseer。ist 。 psu。edu/cs)是 NEC 研究院建立的一个学术论文数字图书馆,它提供了一种通过引文链接检索文献的方式。GoogleEarth 使用了公共领域的图片、受许可的航空照相图片、KeyHole 间谍卫星的图片和很多其他卫星所拍摄的城镇照片,并将它们和 GIS 布置在一个地球的三维模型上,使人足不出户就可以在名川大山间翱翔,在摩天楼群中俯瞰。YahooShopping 和 Shopping。com 是美国最大的购物搜索引擎,其中 Shopping。com 创建于 1999 年,每月可输送 2000 万个有效销售给商家,2005 年
33、8 月被 eBay 以 6。2 亿美元收购。至于国内,垂直搜索市场更是群雄纷争,令人眼花缭乱。然而问题是,大家在纷纷寻找好的赢利模式的时候,往往忽略了应该有一个好的技术作为支持。这是一个很可悲的现象。(二)搜索质量提高1。过滤垃圾页面Web 垃圾信息泛滥,不仅浪费了搜索引擎的带宽和时间等宝贵资源,更重要的是,它们的存在大大降低了搜索引擎的查询质量和查询效率,极大地影响了用户对 Web 信息的有效使用。搜索引擎主要在两个步骤上进行反击:在 Crawler 抓取阶段即进行过滤,滤去那些质量极低、毫无内容可言的“高纯度垃圾”,这样可以节省网络带宽、费用、抓取时间、存储空间等,并且大大减轻了下一步在信
34、息分类、信息组织和查询匹配时的负担;在信息分类和组织阶段,计算网页信息的可信度,在用户查询信息时,把可信度作为一个重要因子对查询结果集进行排序,从而提高查询结果的信息质量,满足用户的实际需要。搜索引擎公司传统上的做法是,聘请专业人员,不断地搜查探测那些恶意欺骗者。当确认了一个 Web 垃圾网站后,搜索引擎停止对它的搜索和索引。然而这个探测过程非常昂贵而且缓慢,鉴于此,搜索引擎公司、国内外知名大学和研究机构近几年开始从不同的角度研究和寻找更好的方法,其中有代表性的研究成果如下:(1)Google 在 2002 年就注意到 Web 垃圾信息日渐泛滥的问题,提出要在自己的排名算法中,加大页面质量的权
35、重10 。(2)Microsoft 对近 6 亿个页面进行了研究,从 URL 属性、HostName 的解析、链接关系、内容特点等几方面分析了 Web 垃圾页面的特点,并试图按照这些统计属性来确认Web 垃圾页面8 。(3)Stanford 的 Gyongyi 等人受 Haveliwala 的“Topic-SensitivePageRank” 思想的启发,认为好的页面所指向的链接页面通常也是好的,于是他们提出了 TrustRank 的概念,依靠一个人工选取的好种子页面集,计算他们的传播结果,从而对 Web 站点按可信度排序,进而把所有站点分为“好” 和“ 坏 ”两种11 。他们还对 Websp
36、am 进行了分类研究12 ,并对Linkspam 联盟技术做了分析13 。Gyongyi 等人提出 TrustRank 的概念后,受到了广泛关注,陆续有很多研究者进行类似的研究,如匈牙利科学院的 AndrsA。Benczr 等人,以及美国 LehighUniversity 的 BaoningWu 和 BrianD。Davison 等。虽然很难见到 Google、Yahoo 等搜索引擎关于如何去除垃圾页面的技术报告,但他们一直在做着这样的工作,并且已经有所应用。这一点从相关产品的使用体验中可间接地验证。2。提高查询准确度对于一个查询,搜索引擎动辄返回几十万、几百万篇文档。面对大量的返回结果,用户
37、只能在其中浏览筛选。实际上,用户大多数时间都没有足够的耐心去浏览多屏结果。根据 Silverstein 等人的研究结果,有 85%的查询只需要给出前 10 个结果14 。如何使用户想要的查询结果出现在返回集合的前列(最好是第一屏) ,这个本来就具有挑战性的问题随着搜索引擎检索页面集的增大而越来越急迫。目前解决这个问题的主要几种方法是:(1)通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括:相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度) ,哪些不相关,通过多次交互逐步求精;智能代理跟踪用户检索行为,分析用户模型;用户注册使用,以便更好地分析用户的使用特点
38、和喜好。(2)使用正文分类技术将查询结果分类,使用可视化技术显示分类结构,用户可以有选择性地浏览自己感兴趣的类别(GoogleNews 就采用了这种方法) 。(3)使用链接结构分析进行站点聚类或页面聚类,然后将信息推荐给用户(Vivisimo公司就是采用对搜索结果自动聚类的办法来满足不同类型用户的需要) 。我们认为最有力的方法是改进排名算法。Google 的排名规则一直在变化中,2001 年基于 HillTop 算法进行的优化是比较明显的变化(HillTop 认为来自相同主题的相关文档链接对权重计算的贡献更大) ,现在又到了迫切需要算法更新的时候了。据说 Google 正在研究“多倍索引信息获
39、取系统(MIBIRS) ”,可以使搜索引擎的网页索引数量达到惊人的 1000 亿幅甚至更多,我们翘首以盼。(三)搜索能力加强1。对多媒体搜索的支持随着多媒体信息在网络上的大量涌现和人们对多媒体信息需求的高涨,知名搜索引擎如 Google、Yahoo、AltaVista、Lycos、AllTheWeb 等对于多媒体搜索的能力也在不断加强。它们或在一个统一的用户界面上提供资料类型选择,或直接提供独立的多媒体搜索引擎。另外,各种图像搜索引擎和各种娱乐搜索引擎也不断涌现。这些系统可以说在很大程度上满足了用户的需要,然而它们对多媒体搜索的支持都还在初级阶段,基本上是基于文本关键词和自动标注进行多媒体信息
40、检索,缺乏基于图像和音视频内容进行比对检索的功能。一般的说,多媒体信息的内容表示可分为物理层(如信号样本、像素等) 、特征层(如图像的颜色和纹理、语音频谱) 、语义层内容(如语音的脚本、音乐的音符、图像中的物体形状和人脸)等三个层次。基于内容的检索一般针对后两个层次。基于特征层次的内容检索主要应用于以媒体实例为输入的查询方式。检索时,首先对输入的实例提取特征模板,再与检索源中的数据相匹配。相关研究主要围绕着检索的快速性和准确性问题展开,具体涉及特征选取、匹配策略、算法优化等。关于图像处理和检索的专利较多,根据美国专利网的检索结果,与图像检索相关的专利达 186 项,但是很少见它们应用于实际系统
41、,而用于网络多媒体搜索引擎的专利,则更是罕有。2004 年 Lowe 提出了 SIFT(Scale-InvariantFeatureTransform) 15特征,该特征具有旋转、缩放不变性,并且对光照、仿射变换以及视角变化等都具有相当程度的鲁棒性。除此之外,每一个 SIFT 特征都具有很强的描述和区分能力,因此非常适用于图像实例检索。但在对海量数据的检索中,如何降低其复杂度需要进一步的深入研究。在音频检索方面,常用的特征包括:短时能量、频谱、过零率、美标度倒谱等。针对大数据量检索问题,很多工作集中在特征匹配的策略优化上。基于内容的视频检索可以看做图像和音频检索的扩展,所用特征除图像和音频中的
42、常用特征以外,还包括一些专有特征:如物体运动、镜头切换等。关于音视频检索的专利也不少,根据美国专利网的检索结果,与音频和视频检索相关的分别为 28 项和 80 项,但是应用于网络多媒体搜索引擎的专利却很少。语义层次上的内容检索研究相对更为困难一些,下面几个方面是最近几年进展较快的:场景分类技术、语音数据识别、语音说话人分割、视频数据中精彩片段提取等。然而这些技术距离大规模检索应用还有相当的距离。在这里值得一提的是,面对咄咄逼人的 Google 和 Yahoo,法国总统雅克 希拉克在2006 年新年讲话时宣布,法国决定联手德国,抓住多媒体搜索这个机会,开发“真正的多媒体搜索引擎 Quaero,以
43、应对 Google 和 Yahoo 带来的全球挑战 ”。Quaero 的拉丁语意是“我搜”,该项目的目标是,搜索时无须借助文字描述就能“读懂”音频、图像和视频的内容。目前,这样的图片识别程序已经存在。法国中型软件公司、Quaero 项目成员 LTUTechnologies 向美国联邦调查局(FBI)提供电脑取证分析工具,用于分析被扣押的硬盘中的图片,并将其与已知的恋童癖罪犯的照片相比对。另外他们还有一些可将语音转化为文字的音频解析程序。Quaero 项目组面临的挑战是,如何改进这些工具以提高搜索准确度,同时提高速度,适应大数据量的检索。目前参与 Quaero 研发的主要公司和机构包括法国电信、
44、汤姆逊公司、法国视听研究所、德国电信、贝塔斯曼集团和西门子公司等。Quaero 项目预计在未来 5 年内需要投入 10亿20 亿欧元,所需资金将由法、德两国政府以及两国企业共同承担,其中法国政府已计划 5 年内投资 2。5 亿欧元。这个项目究竟走势如何,我们将拭目以待。2。对 DeepWeb 的搜索DeepWeb 已经拥有不少研究者,如 Stanford 和 UIUC 的学者们,他们分别搭建了HiWE 16和 MetaQuerier17两个很好的原型系统。也有一些搜索引擎能够搜索DeepWeb 信息,如、。com 、www。vivisimo。com 等。然而它们或者太小,或者搜索 Invisi
45、ble 信息的能力太弱,所以使用起来很多时候不能得心应手。几大主流搜索引擎尚未提供 DeepWeb 搜索功能,主要原因是技术上还不够成熟。然而“需求是创新之母” ,我们期待在不久的将来能使用 Google、Yahoo 等查询 DeepWeb 信息,或者是基于 DeepWeb 查询的搜索引擎迅速发展起来,为我们提供更好的服务。3。ArchiveSearch搜索引擎通常能够提供的信息通常只是最近在网上有的信息,而很多情况下我们需要了解网上曾有的历史信息,甚至需要将不同时间的信息进行归纳、比较和综合。另外,对于搜索引擎来说,把自己辛辛苦苦搜集来的信息轻易抛弃也是很可惜的事。这方面的研究国内国外都曾开
46、展过,如 InternetArchive、UCLA 的 WebArchive18和北京大学的 WebInfoMall( http:/www 。infomall。cn) 。由于搜索和处理能力的限制,直到今年主流搜索引擎如 Google 才开始提供 GoogleNewsArchiveSearch 功能。实际上,简单提供对于历史信息的搜索意义是有限的,我们希望 Google 这个业界领袖能够提供更方便的 ArchiveSearch 功能,如历史信息的自动排序、自动比较与合成等。4。搜索引擎速度的提高MorganStanley 全球互联网分析师 MaryMeeker 在 2002 年 12 月就把整个
47、互联网现象总结为 SFO,就是搜索(search) 、发现(find)和获得(obtain ) 。利用搜索引擎查找相关信息并不是终极目的, “搜索” 和“ 发现”都只是手段和过程,用户的最终目的是“ 获得”。鉴于此,用户在使用搜索引擎时,对速度的要求非常高,甚至超过搜索准确度。用户也许还能够容忍查询结果不尽如人意,搜索范围不够广泛,但如果一个系统每次查询要等上几分钟,或者想要获得查询的结果(如 pdf、mp3 文件等)需要半个小时,那么可以想象,除非必须,否则用户很难有如此耐心。搜索引擎的速度有三方面的意义:其一是信息搜集速度;其二是信息处理速度;其三是提供服务的速度。搜索引擎系统的处理能力总
48、体来说一直在随着硬件设备和网络建设的发展不断提高,比如几大主流搜索引擎一直在扩大服务器集群,租用更高带宽的线路,在世界各地建立更多服务器组,等等,但这种提高还只是渐变,没有发生过质变。我们期望IPv6 的建设能够对未来的搜索引擎有大的促进,甚至能引起飞跃。(四)其他1。搜索个性化搜索引擎服务商们目前在进行一些诸如搜索历史记录服务尝试,并且通过如Toolbar,Deskbar 等客户端工具所收集的数据的理解,来提供更多满足用户趣味及习惯的服务,以提高用户对搜索服务本身更深层次的需求满足感。因此在未来,用户将越来越多地参与并体会到搜索的个性化。另外,搜索引擎为注册用户提供个性化配置服务,允许注册用
49、户登陆个性化主页,查看自己关注的内容,同时还可以向用户推荐一些高质量的新内容。几大主流搜索引擎不但都提供了这样的功能,而且还让自己的产品系列走向深入。Y!Q19是 Yahoo 公司推出的一个个性化检索系统,它使用语义网络(semanticnetwork)来分析上下文、处理歧义问题并生成用户信息的摘要。GooglePersonalizedSearch20是 Google 公司推出的个性化检索系统,该系统通过记录用户的历史查询以及历史点击来获得用户的个性化信息,并利用这些历史信息辅助检索。2。桌面搜索桌面搜索越来越受到关注的原因在于, “未来的文档管理的核心就在于搜索”。目前几大搜索引擎都推出了自己的桌面搜索系统。如“GoogleDesktop”允许使用者下载对象到计算机桌面,协助使用者在不用开启浏览器的情况下,直接获得例如天气预报报告等资料。目前此项桌面功能已提供包括多种语言版本,提供全球各地使用者将搜寻结果个人化,获得不同地区性信息。相信未来几年以桌面搜索为核心的新式办公软件,将和传统的MicrosoftOffice 等软件之间出现一场大战。3。移动搜索移动搜索的最