1、搜索引擎的未来宽带接入、分布式数据处理、数据仓库、网络计算、Web 存储、XML 、IPv6、VoIP等新型服务已经深入到互联网的各个角落,无线通信、即时通信、多媒体数据等大量信息也已接入到这个巨大的网络体中,而人类社会仍不满足于互联网的现状,并对网络信息服务提出了更高的要求。一个全球范围的基于 Internet2 的大网格(Great Global Grid)研发热潮已经形成,分布更广泛、应用更深入、服务更全面的新型互联网将逐渐取代现行的体系。随着上网用户的日益增多和网络信息服务爆炸式的增长,人们对信息搜索服务的依赖也越来越大。 “搜索无处不在,搜索无所不及。 ”是广大网民对搜索服务最基本的
2、要求,网民们期盼着搜索引擎能够成为正确引导他们快速获取信息服务的有力工具,让他们能够真正享受到“按需所得”和“按需服务” ,这种服务已经离我们越来越近了。随着互联网的不断发展,搜索服务也将进一步地发展。在未来的大网格中,搜索引擎将有以下三大特点:1),大网格体系是基于网络节点的访问服务模式,未来的搜索系统将能够解析诸如“中文.国内.体育.足球.北京.国安”的巡点字串,并能正确引导用户在相关的网格上获取“需要了解有关北京国安足球队”的信息。这样的搜索引擎必须是全开放、分布式、网格化的系统,它的信息检索模式完全顺应了人类社会对信息的常规分类原则,这种网格节点式的信息访问更有利于网民对信息服务的获取
3、,也是未来搜索服务的基准。2),信息网站将向信息网格的相关节点主动报告其服务信息动态,而不是被动地接受现在的搜索引擎 Spider 日复一日地巡访。主动报告的方式可极大地提高网络信息汇集管理的工作效率,并可将最新的信息服务在最短的时间内传递到相关用户那里。3),一组信息分拣节点将用来协助汇集各信息网站的信息动态,并能够准确地完成在大网格相应节点上的相关操作。分拣工作主要由智能化程度很高的分拣软件来承担,这种软件可以接受少量的人工干预。对某行业分类原则相当了解的专业人士将参与某些分拣节点上的分类指导工作,这对网络信息的精细分类将是有力地保障。图一简单示例了未来搜索引擎在大网格上的信息处理模式。其
4、中,每个分拣节点的前端将面对一组信息网站,专门处理这些网站的信息报告;分拣节点的后端与大网格上数个信息节点对应,可将分类处理过的信息传递到相关的节点上,并对所连接的信息节点进行管理;本节点不能很好处理的数据将会传递到其它相关的分拣节点上处理,也可由相关专业人士进行分类指导,以保证信息分类的精确度。(本地数据搜索器) 信息网站信息分拣节点信息分类节点 信息分类节点 信息分类节点 信息分类节点信息分拣的人工指导上级信息分类节点 上级信息分类节点上级信息分类节点信息分拣节点图一、未来搜索引擎的信息处理模式中文English国际国内新闻体育科技田径文教体操篮球足球语言选择上海大连北京现代国安娱乐广东(
5、a)(b)(c)(d)(e)(f)大网格的节点访问形式:a b c - d - e - f中文.国内.体育.足球.北京.国安图二、网格上的节点信息访问形式未来的搜索服务将能够做到:1),当某个网民需要获取某类信息服务时,搜索系统能够协助他在互联网上所有的信息网站上迅速找到这样的服务,要做到迅速而准确地定位;2),搜索系统能够在互联网上所有的网页中汇集同类的信息服务,并列举出相关联的内容来,相关联的、可参考的信息节点也将列在次要位置成为可选项;3),进一步地,搜索系统可以对这类信息服务进行精准正确的分析与统计,对用户进行有效的指导,让用户能够更全面地了解同类信息的变化情况。大网格上信息节点的定位
6、访问可以很好地满足网民对信息服务的需求,节点的分布式分层分类关系符合人们信息分类的习惯,节点的分类关系为关联信息的分析与统计提供了很好的服务平台。分布于大网格上的搜索系统将在多层面进行人机对话,其智能性的学习交流能力、广泛的适应能力、深度的拓展能力和快速响应能力将更强。纵观搜索引擎十年的发展历史,最早的系统可追溯到 1995 出现的 Yahoo!人工编目分类检索服务,随后出现了机器搜索网页数据与关键字检索服务为主的第二代搜索系统,如Lycos, Excite, AltaVista, Google 等,所有这些搜索服务功能都只在一定程度上解决了网民查找信息的问题,其服务质量与服务功能还差强人意。
7、由于搜索服务涉及多领域的理论与技术,其研究的挑战性极强,而搜索市场的巨大吸引力也引起了相关业界的高度关注。目前对搜索技术研究开发的动向主要集中在以下几个方面:1),努力提高检索的准确性,提高检索的效率。查准率较低是当前各搜索系统都面临的重大问题,网民不能忍受在千万条检索结果中不断地筛选自己所需的东西,人们对改善检索精度的呼声一直不断。建立开放的精细分类体系,让更多专业人士参与相关行业的信息分类管理,是解决信息分类问题的有效手段。2),分布式的体系结构,以吞吐海量数据。目前保守的估计是:互联网上的网页信息总量约 80 亿条,其它诸如无线网络的信息内容、Web 存储文件、 Web 数据库等其它大量
8、接入的内容更是无法统计。信息检索的分布式处理与服务是必然的趋势,成千上万台计算机分布在互联网的各个角落互有分工、协同工作,将可以极大地提高信息的处理能力。3),机器对自然语言的进一步理解,以使得系统能够在更高层面上分析出信息需求者到底需要什么。目前的自动分类自动聚类技术向这个方向前进了一大步,但其研究与发展的空间仍十分巨大。4),智能化操作与个性化服务是广大网民的迫切需求。具体到一个信息检索者,由于其文化程度、兴趣爱好等特定行为在一段时间内的稳定性,他的信息服务需求完全可以被搜索系统分析出来,并通过不断地交流来掌握特定群体的特别需求,进而智能化地提供极具针对性的信息服务。5), “查重过滤”
9、、 “死链处理 ”、 “打击作弊” 、 “多媒体服务”等相关技术研究对提高检索服务的质量和拓展服务功能有着重要的意义。以 IPv6 为基础的 Internet2 将逐渐取代了以 IPv4 的 Internet,大网格的 GGG 信息服务模式将远远优于 DNS 为导向的 WWW 网站模式,全开放的分布式的搜索系统必将取代现行的封闭的集中式的系统。未来的搜索系统将像 HTTP/HTML/TCP/IP 等标准化的网络协议那样在一种标准化的环境下工作: 向每个信息发布网站提供标准化的网页搜集器,产生标准化的搜索报告提供给网格的分拣机。 每个分拣机具有相同的基本操作原则,诸如:查重过滤、作弊分析、基本分
10、类等,这极有利于分拣机与专业分类人士的交流,也利于分拣机之间的交流。 在网格中存在着一个庞大的信息分类体系,这个分类体系由许许多多不同的分类子集组成,标准格式的分类描述可以使子集之间相互调用,用于拓展和管理新的子集。各大搜索引擎服务公司仍在不懈地努力着,与广大网民所期盼的一样,搜索系统面临着巨大的挑战,需要在其服务模式上的突破,需要在其服务方式上产生质的飞跃。 “更多、更好、更快”是整个 IT 界无尽的追求。现在的和未来的搜索系统比较现在的搜索系统 未来的搜索系统网页收集 被动搜索,效率低,不易监控,需要更多的网络带宽,搜索盲区较多,主动搜集,容易监控,所需带宽少,工作效率高。数据分类 较少的
11、人工干预,分类质量较差,分类体系简单且开放性较差。人工与智能结合,分类质量更高,开放而复杂的分类体系。系统管理 需要较高的管理成本,不易形成标准化的管理模式。分布式的开放的管理体系,可监控性强,便于标准化。服务质量 个性化服务功能很弱,不利于最新信息的定制与推送服务。信息查全率高,但查准率很低。个性化服务功能极强,便于根据个个兴趣爱好进行信息定制,容易获得相关信息的推送服务。因分类精确的保证,信息检索的查准率很高。体系结构 结构复杂,系统封闭。 结构简单,系统开放。可扩充性 一堆程序与数据库的集合体,不能形成标准化的组件可形成一系列标准化的小型工作单元,协同工作,具有很好的扩展性。可适应性 对海量数据的处理需要更高级的技术支持,难以适应快速变化的网络世界。开放与分布式的体系,各节点之间协同工作,可对海量数据进行分布式处理,对网络变化的适应能力强。访问形式 “”的网站式 HTML网页引导,需要 DNS 服务。不便于记忆和定位。“中文.新闻.国内.体育.足球”的节点式访问,无需 DNS 服务,无语言符号的障碍,树形节点定位能力强。作者:沈华Emali:walson_, walson_