1、文档下载 免费文档下载http:/ CD Software and Applications 2012 年第 10 期 工程技术 元搜索引擎优化的研究 李忻睿 (吉林大学,长春 130012) 摘要:元搜索引擎通过调用多个独立搜索引擎,从而提高了检索结果的覆盖面。本文简述了元搜索引擎的运作原理, 研究了元搜索引擎的核心技术,阐述了它的局限性以及未来发展趋势,并对其局限性提出实用可行的优化方案。 关键词:元搜索引擎;成员搜索引擎;网页去重;结果排序 中图分类号:TP393.09 文献标识码:A 文章编号:1007-9599 (2012) 10-0060-02 一、引言 随着网络科技的迅猛发展,网
2、络深入人们的生活。如何在网 络中寻找需求度额信息显得尤为重要。 据 Cyceillance 于 2000 年 7 月 10 日公布的一项研究表明,目 前 Internet 上已有 21 亿个唯一 URL 地址的公开网址,并且仍以 每天超过 700 万的惊人速度增长。十余年过去,信息的膨胀与爆 炸,使用户们不知所措。正如 Wurman 所说,信息爆炸给人们带 来的事信息焦虑。用户对信息的需求各不相同,于是搜索引擎逐 渐成为 web 用户不可或缺的工具。 文档下载 免费文档下载http:/ search engine,简称 MSE)作为一个新的搜 索技术的研发领域,已经在实践中初步显示了其便捷性和
3、重要性。 虽然目前元搜索的研究有不断的发展,但是由于依赖各个独立的 搜索引擎,元搜索引擎在处理查询输入和输出显示时均可能出现 问题,如检准率不易控制检索时间过长,对高级检索的支持有待 改进,检索结果不能很好体现等等。因此,元搜索的优化研究具 有一定的时代意义和创新性。 二、元搜索引擎的原理传统搜索引擎分为全文搜索引擎、目录索引、元搜索引擎。 元搜索引擎又称多搜索引擎,通过一个统一的用户界面帮助用户 在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜 索引擎来实现检索操作,是对分布 http:/ 于网络的多种检索工具的全局 控制机制。目前国内的搜索引擎发展迅速,市场也很广阔。但是, 元搜
4、索引擎的发展很缓慢,相关网站也比较少。元搜索引擎由 3 部分组成,包括请求提交、检索接口代理、检索结果显示。 (一)请求提交: 负责实现用户的检索要求,检索内容可以是单个关键词、短 语,也可以是句子,可以由用户选择搜索引擎组合,也可以由默 认的搜索引擎搜索,还可以由用户选择单个搜索引擎进行搜索。 (二)检索接口代理 由于各个独立的搜索引擎所采用的搜索算法和数据库存在很 大差异,需要将用户检索的请求转化成各个成员搜索引擎所要求 的格式,包括是否支持布尔检索、是否提供自然语言查询等高级 检索服务,逐一做出适应各个源搜索引擎的转换,以提高检准率。 (三)检索结果显示将所有来自源搜索引擎的搜索结果进行
5、二次处理,包括对结 果的去重和排序,并将处理的结果按照统一格式输出给用户。难 文档下载 免费文档下载http:/ 应最快的搜索结果先返回” 、 “位置排序法” 、 “摘要排序法”等, 各有利弊,检索处理算法好坏直接影响检索时间、检索覆盖率、 排序质量等。 以上为元搜索引擎的组成部分,也是进行设计元搜索引擎的 三个步骤。 三、现有元搜索引擎存在的缺陷 而 对 于 国内 现在 已 经 存 在的 元 搜 索 网 站 , 例 如 搜 魅 网 (someta)等,虽然能实现基本的功能,但是却有一定的缺陷, 大多数存在两个方面的问题。 其一,是搜索覆盖面虽然很全面,但是搜索的时间很长,例 如搜索“元搜索”
6、这个名词,我们用了 4 家国内利用元搜索原理 开设的搜索应网站进行了搜索测试,其中两家的搜索时间大于 30 秒,甚至无结果显示; 其二,是搜索时间较短,但是覆盖面较窄。我们同样对上述 几个网站进行测试,有的返回的搜索结果只有单一搜索引擎的结 果,并没有发挥元搜索真正的优势。以此来看,目前的元搜索引 擎还没有真正发挥其本身的优势,为广大用户提供便利。 http:/ Internet 获 取,据估计网络中有超过 8 亿个可索引的网页,大约 15TB 的信 息量,而单个搜索引擎能覆盖的不超过全部可检索页的 16%,因 此元搜索引擎的开发势必成为将来的发展趋势。 四、优化元搜索引擎的主要功能特点 元搜
7、索引擎的优化目的在于在可接受的搜索时间内,返回更 多的信息量。所研究的重点在于如何设计一个元搜索引擎并对由 多个独立搜索引擎结果的二次处理,如对检索结果的去重、权值 排序等。 其核心思路在于: .请求提交:负责实现用户的检索要求; .检索接口代理:将用户检索的请求转化成各个成员搜索引 文档下载 免费文档下载http:/ .检索结果显示:将所有来自源搜索引擎的搜索结果进行二次 处理,包括对结果的去重和排序,并将处理的结果按照统一格式 输出给用户; .个性化设计:元搜索引擎把信息数据收集起来,从用户个 性化信息库获取个性化特征,比较分析,计算结果,返回给用户。 计算机光盘软件与应用 CD Soft
8、ware and Applications 2012 年第 10 期 工程技术 五、优势分析及可行性 元搜索引擎作为一个新的搜索技术的研发领域,已经在实践 中初步显示了其便捷性和重要性。 由于 web 数据量太大,而且增长迅猛,单个搜索引擎的容量, 处理能力难以扩展到较大规模,每个搜索引擎只能包含部分 web 文档。元搜素能够分散处理负载,增加检索范围。 元搜素具有较好的扩展性,可以加入多个成员搜索引擎,它 使得各个成员搜苏引擎规模变小,性能更好。检索相应时间短, 还可使得检索的内容保持最新。 有些 web 站点的内容不能用数据采集器抓取,检索更有 效,用户为了找到满意的检索结果可能访问多个搜
9、索引擎,直 到找到合适结果,而元搜索引擎可以帮助用户自动完成这个任 务。 六、结语 本文通过对固有元搜索引擎的研究,提出元搜索优引擎http:/ 优化 的方式。针对现有元搜索引擎的缺点进行分析,提出切实可靠地 提出解决方案。 就元搜索引擎技术本身来说,如何实现和完善元搜索引擎的 智能化,个性化,专业化,将是信息检索研究的着重点,而中文 元搜索引擎还处于起步阶段,发展空间很大。相信在未来的网络 的信息检索领域,元搜素引擎会有广泛的应用前景。 文档下载 免费文档下载http:/ 1Steve Lawrence,Lee Giles CAccessi bility of information ont
10、he J J.Nature science joumals,1999,400,(8):107 2张俭恭,陈定权,昊振新关于搜索引擎与元搜索引擎的讨 论J现代图书情报技术,2OO2,92,(2):338 3黄于蓝,王洪,徐端等.搜索引擎技术的新发展多元搜索引 擎系统J.计算机工程,2002,28,(1):4-6 4陈俊杰,薛云,宋翰涛等.基于 Agent 的元搜索引擎的研究与 设计J计算机工程与应用,2003,10:33-35 5Weiyi Meng,Clement Yu,King-Lup Liu Building efficient and Metasearch Engine 6Christo
11、s Faloutsos and Douglas Oard,A Survey of Information and Filtering Methods (上接第 59 页) 境下,也能够保证正常运行。由于路由器分布于网络连接点上, 一旦其发生故障便会极易产生无法预知的严重后果,所以路由算 法的设计必须能够经受时间的考验,并确保其在网络运行环境下 具备可靠性。 其四,快速收敛性原则。收敛是指在最佳路径的判断上所有 路由器达到一致的过程。当网络发生突发事件时,会引起路由处 于可用或不可用状态。这时,路由器会发出更新信息,并将更新 信息传播至整个网络,从而启动重新计算最 http:/ 佳路径的功能,直
12、至 所有路由器均处于公认的最佳路径,避免由于路由算法收敛慢而 造成网络中断或路径循环。 其五,灵活性原则。路由算法应当准确、快速地适应各种网 络环境,如当某个网段出现故障时,路由算法必须及时发现故障, 同时为该网段中的所有路由重新选择最佳路径。 (二)路由算法的分类 路由算法能够使用多样化的度量标准来选择最佳路径,复杂 的路由算法可以采用多种度量来选择路由,其常用度量包括以下 文档下载 免费文档下载http:/ 等。路由算法包括非自适应和自适应两类。 .非自适应算法是指不测量和不利用当前的网络拓扑结构和交 通流量,而只是通过遵循某项原则选择路由。由于网络中有中心节 点,它可以依据最佳路由算法来
13、获取每对节点间的最佳路由,而后 针对每个节点构建固定路由表,并在网络拓扑改变的状态下,重新 计算和装入路由表,或者在各个路由相关节点上人工修改路由表。 .自适应算法的路由主要以网络当前状态信息为依据进行选 择,来设法适应不断变化的网络流量和拓扑结构。在自适应路由 的选择过程中,当前能够提供的路由信息必须在网络节点间传送, 所以,不可再用路由、改变的路由以及新的路由均可以在相应的 路由表中得以反映。为了确保自适应路由选择的顺利实现,必须 依靠路由选择协议,并采取计算最短路径的方法和定义交换路由 选择信息的方式。现阶段,使用最为广泛的路由选择协议是链路 状态路由选择和距离向量路由选择协议。链路状态
14、算法,也被称 为最短路径算法,是指发送路由信息到互联网上所有的节点。然 而,就每个路由器而言,仅发送它的路由表中描述了其自身链路 状态的一部分,而不是全部;距离向量算法是指每个路由器将路 由表全部或部分信息发送到邻近节点上。两种路由选择协议的区 别在于,链路状态算法可以在网络各处发送极少量的信息,距离 向量算法是在邻接路由器上发送大量信息。链路状态算法具备较 强的收敛性,相比较距离向量算法而言不易产生路由循环。此外, 链路状态算法具 http:/ 有更强的 CPU 处理能力以及更大的内存空间,所 以导致链路状态算法的运行成本较高。 参考文献: 1倪县乐,周卫华,曾志民,丁炜.高速路由交换技术的
15、研究及 展望J.计算机工程与应用,2008,2 2刘怀亮,王东,徐国华.一种基于流量工程的网络端到端性能 分析算法J.系统工程与电子技术,2009,3 3于建军.宽带网络建设文档下载 免费文档下载http:/ 技术协作信息,2007,27 4王梓斌,郑袜华,向良军.基于专家决策的网络性能管理系统 的设计J.电脑知识与技术,2007,4 5休晓明,褚庆昕,朱明英等.一种新的自相似流量模型的网络 性能分析J.科学技术与工程,2007,14 6付方发,张庆利,王进祥等.支持多种流量分布的片上网络性 能评估技术研究J.哈尔滨工业大学学报,2007,5 7李旸.基于粒度计算智能的计算机网络路由研究D.安徽大 学,2007,4 文档下载网是专业的免费文档搜索与下载网站,提供行业资料,考试资料,教学课件,学术论文,技术资料,研究报告,工作范文,资格考试,word 文档,专业文献,应用文书,行业论文等文档搜索与文档下载,是您文档写作和查找参考资料的必备网站。文档下载 http:/