1、多 Agent 技术在信息检索中的应用第 25 卷第 2 期2007 年 6 月广西师范大学:自然科学版JournalofGuangxiNormalUniversity:NaturalScienceEditionV01.25No.2Jun.2007多 Agent 技术在信息检索中的应用李燕(潍坊学院计算机与通信工程学院,山东潍坊 261061)摘要:从信息检索现状出发,运用人工智能技术,提出一种多 Agent 的信息检索方法.通过建立用户个性模型,辅助检索 Agent 在信息提取过程中的精确性 ,提高系统的个性化和智能化程度.关键词:搜索引擎;多 Agent;用户个性模型中图分类号TP391
2、文献标识码:A 文章编号:1001 6600(2007)020111-04随着 Internet 以及相关技术的发展,人们已经进入信息量极其丰富的时代,越来越多的人们关心怎样高效,准确地检索出自己想要的信息资源,于是出现了专门帮助人们检索网上信息资源的检索工具搜索引擎(searchengine).搜索引擎指对 www 站点资源和其他网络资源进行标引和检索的一类信息检索系统,这些系统通过网络搜索软件或网站登录等方式,将 Internet 上大量网站的页面收集到本地,经过加工处理再存储,从而能够对用户提出的各种查询作出响应,提供用户所需的信息.早期最原始的搜索引擎是把 Internet 中的资源服
3、务器地址收集起来,由其提供资源的类型不同而分成不同目录,再一层层地进行分类.随着 Internet 信息按几何级数地增长,这些信息通常以无组织的形式分布于开放,异构的节点中,信息的可利用性和可靠性在不断地变化,节点的动态性及信息的更新和保存问题也常常使信息变得模糊.对一个普通的用户来说,要获取并处理自己所需要的信息变得越来越困难.在这种环境下,人们将人工智能技术引入信息检索中,研究了多种发现和过滤方法,提出的模型大致分为两大类:一类是基于机器学习的大范围检索系统,另一类是智能化的用户个性化信息检索系统.搜索引擎的工作包括 3 个过程:一是在互联网中发现 ,搜集网页信息; 二是对所搜集的信息进行
4、提取和组织,并建立索引库;三是由检索程序根据用户输入的查询关键词 ,在索引库中快速检出相关文档,进行文档与查询内容的相关度比较,对检出的结果进行排序,并将查询结果返回给用户.目前比较着名的搜索引擎如 Yahoo,Excite,Infoseek,Clever,Google,sohu,WebCrawler,Lycos,Webor 等.现有的搜索引擎技术虽然在一定程度上满足了人们信息检索的需求,但仍然存在不足,主要表现在以下几个方面1:搜索精度:大部分搜索引擎仅仅是依据查询字段的匹配来收集信息 ,导致查询请求的表达能力有限.对一个查询请求返回成百上千的查询结果,而真正是用户所需的查询结果并不很多,浪
5、费用户的时间与精力.个性化:系统不能够根据用户的兴趣需求来定制检索结果 .不同的用户使用相同关键字进行查找,得到的结果总是相同的,体现不出查询的个性化.事实上,不同领域背景,知识结构的用户对文档相关性的判断以及检索结果的要求是不一样的,即使同一个用户,在不同的时期也有所侧重.主动查询:系统的检索工作是用户驱动的,用户要获得自己需要的信息 ,只有通过在搜索引擎中输入关键字进行查找才能得到.即由用户显式地提出检索请求,系统给出响应,这是一种较为被动的信息获取方法.用户希望一种主动协助获取信息的机制.动态监测:缺乏对 Web 信息进行监控并在出现用户感兴趣的新信息时主动地通知用户的能力.网络中的信息
6、是动态变化的,现有的搜索引擎只能通过再次查询才能获取一些信息的最新动态.这些不足使搜索引擎的使用和发展受到了较大的限制.Agent 技术的引进为改善搜索引擎技术提供收稿日期:20061215基金项目:国家自然科学基金资助项目(6047300)作者简介:李燕(1968 一), 女 ,山东沾化人,潍坊学院副教授.ll2 广西师范大学:自然科学版第 25 卷了新的希望.Agent 技术及其应用程序的许多良好特性,如主动性,智能性,协作性,移动性等,特别适合对复杂,协同和难以预测的问题进行处理.将 Agent 的这些特性应用到信息检索中,可以使 Agent 的优势得到充分的发挥.本文提出了一种多 Ag
7、ent 信息检索模型,模型中 Agent 能够根据用户的兴趣和爱好自主地到网上搜集信息,对用户的行为和反馈作进一步学习,实现不同用户之间信息共享,使搜索结果更符合用户需求,更好地帮助用户完成信息检索任务.1 多 Agent 技术Agent 的概念出现于 20 世纪 70 年代的人工智能(AI)中,80 年代后期才成长起来.由于分布并行处理技术,面向对象技术,多媒体技术,计算机网络技术,特别是 Internet 和 wwW 技术的发展,Agent 不仅成为 AI 和计算机领域最活跃的研究内容之一,而且引起了科学界,教育界,工业界甚至娱乐界的广泛关注.Agent 是一种在异质的协同计算环境中能够持
8、续完成自治的面向目标行为的软件实体,可以通过感知学习推理并采取相应的行动,在基于知识库的训练后能够模仿人类社会的行为.在 AI 中 ,研究人员在自己的系统中赋予 Agent 不同的结构 ,内容和能力,以方便自己特定方向的研究.Agent 具有以下几个方面的特性,:自治性.Agent 最基本的特性 ,它是指 Agent 可以在没有人或其他 Agent 直接干预的情况下运作,而且对自己的行为和内部状态有一定的控制能力.社会性.指 Agent 能够通过某种 Agent 通信语言与其他 Agent 交换信息,这是Agent 协商与协作的基础.反应性.指 Agent 能够及时地感知和响应其所处环境的变化
9、.主动性.指 Agent 能主动产生目标 ,并自行选择合适时机为实现目标执行一系列规划与动作.持续性.Agent 是连续运行的 ,其状态在运行过程中应该保持一致.推理和规划能力.Agent 具有学习知识和经验,能够进行相关的推理和智能计算.多 Agent 系统是 Agent 群体 ,各 Agent 通过协商与合作来实现多 Agent 系统的功能.各 Agent 成员的活动是自制和独立的,其自身的目标和行为不受其他 Agent 成员的限制,它通过竞争或磋商等手段协调和解决各成员 Agent 的目标和行为之间的矛盾和冲突.多 Agent 系统组织结构为 Agent 成员提供一个交互的框架,为每个
10、Agent 成员提供一个多 Agent 群体求解问题的高层观点和相关信息,以便合理地分配任务并使这些 Agent 成员能够更好地协同工作 .多 Agent 具有提高自适应性,可靠性,灵活性和重用性等优势,可以完成各个环节的协调与合作.多 Agent 的这些技术特性将在信息检索系统的开发中得到充分利用并使其成为智能信息检索系统的核心技术之一.2 基于多 Agent 技术的信息检索模型随着信息技术的高速发展,网络用户迫切需要智能化的搜索引擎来满足他们更快,更准的信息查询要求.基于多 Agent 技术的信息检索系统要能够充分表达用户需求,实现信息检索的个性化;具有较高的用户友好性;搜索信息目的性强,
11、效率高;信息服务的主动性,智能性强;实现用户之间信息共享;减少网上信息传输量和用户负担;动态地更新和维护系统构建的知识库体系 4.基于多 Agent的信息检索模型图如图1 所示.几类 Agent 的功能 :用户 Agent.用户和系统的唯一接口 ,它向系统发出请求和接受系统的服务.具体功能是负责和用户交互,给用户提供一个友好的交互界面;依据用户提供的目标样本和反馈信息生成和维护用户个性模型;接受用户传来的请求并阐明它,将请求转换成恰当的查询语言传送给协调Agent 和数据库管理 Agent;在信息查询过程中,能和用户进行交互以帮助问题的求解 ;能接收协调 Agent传来的结果并呈现给用户,由用
12、户对结果进行反馈评价,并对用户的反馈结果进行学习,动态的修改和完善用户个性模型.第 2 期李燕等:多 Agent 技术在信息检索中的应用数据库管理 Agent.管理系统中的本地数据库,完成各种数据表格,历史记录的维护以及各种文档信息的统计处理,报表生成等工作.系统管理 Agent.负责新用户 Agent 的生成,监督并管理多个 Agent 的工作 ,进行系统的整体协调与管理,合理分配和利用本地的系统资源.协调 Agent.用于系统内各个 Agent 之间的数据通信和任务分配,以协调任务进度,共享工作成果,避免重检和死锁.依据用户个性模型对用户查询词条进行扩充,将扩充后的用户查询请求转化成符合所
13、对应的独立搜索引擎语法的查询请求发送给检索 Agent,合理调用各个独立的成员搜索引擎.对搜用户图 1 基于多 Agent 的信息检索模型Fig.1Aninformationsearchmodelbasedonmultiagent索引擎所返回的信息进行分析处理,高效地完成用户下达的搜索要求.此外,数据库管理 Agent 还要将查询词条保存在本地数据库当中的历史文档里.检索 Agent.基于用户的不同要求选派不同类型的网络 Robot,对WWW,BBS,NEWSGROUP 上的信息进行固定范围和向应时间的主动搜索,对所派出的网络 Robot 进行管理和监控,对网络 Robot 返回的搜索结果进行
14、统计和排序.用户个性模型和数据库.用于存储各个用户的个性化数据,主动搜索所获取的各种网络信息,用户使用的历史记录,保证系统正常工作的规则和参数等数据.3 系统实现3.1Agent 学习要使 Agent 具有智能的关键在于 Agent 的学习.Agent 的学习分为样本学习,反馈学习和监控学习.样本学习是指用户将感兴趣的目标信息样本提交给用户 Agent,由用户 Agent 对样本进行分析,提取样本目标特征矢量,并将其添加到用户个性模型中.反馈学习用户对检索到的信息进行评价,用户 Agent 可根据用户的反馈信息,对用户个性模型中代表用户兴趣的特征矢量进行重新调整,从而使用户个性化模式更加符合用
15、户的个性,达到反馈学习的目的.监控学习是通过监视用户的信息搜索与浏览过程等使用习惯来提取特征矢量.3.2 用户个性模型的生成和维护建立用户个性模型是实现个性服务的关键.在因特网上获取用户兴趣与需求信息可通过用户主动填写,提供,也可以通过 Agent 的学习,从文档中提取关键词形成兴趣特征矢量,观察和模仿用户的行为,动态维护用户个性模型.3.3 信息过滤为了使检索结果真正符合用户的需求,就必须对检索结果进行再加工和过滤.综合几个搜索引擎的结果,形成个关心的 URL.将这个 URL 涉及的主页内容获取,形成信息过滤的资料源.根据信息资源分析用户喜好,采用向量空间法进行个性化信息过滤.把不相关的文档
16、过滤掉并对已经查阅过的文档按照相似度大小排序.对已经检索的相关文档不必返回全文,以减少通信费用并且提高检索的精度5. 向量空间模型是由 Salton 提出的关于文本表示的模型.它以特征项作为文本表示的基本单位,特征项可以由字,词或短语组成.所有的特征项构成特征项集.每个文档可以表示为一个向量,向量的维数是特征项集的个数,向量的每个分量是特征项在文档中出现的次数.具体定义如下所示:假设 D 是一个包含篇文献的文献集合:D 一d,d.,d“,d),i 一 1,2,3,.T 是特征项集合7T 一t,t.,t 一,t),.1,2,3, ,.项频 tf,为特征项 t,在文档 d 中出现的频率,文档频率d
17、 是文档集 D 中出现特征项 tf 的文档数量,定义特征项 t,在文档 d 中的权重 W,=tf,/dr,.建立文档的向量空间模114 广西师范大学:自然科学版第 25 卷型,以 t,t.,t 为坐标轴,把文档 d 表示为维向量(叫叫,叫).文档 d 和文档 d 之间的相似程度 sim(d,d)为:厶 WilWjlsim(d,dj)=cos:=/=1 二=二=.(叫 )(叫)采用向量空间模型表示文档的特征后,用户的兴趣就可以看成是一个文档,也就可以表示为一个向量.文档与用户兴趣的相似程度就可以用文档向量与用户兴趣向量的余弦相似度sim(V,)来表示.4 结束语在 Internet 技术迅速普及
18、的今天,面向 Internet 的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,而将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口.Agent 技术在 Internet 信息检索,分布式情报检索以及电子商务等领域有着广泛的应用前景.本文针对现在的网络信息检索服务中存在的缺陷,提出了基于 Agent 的模型框架,分析了各模块的功能.在网络信息服务的个性化和智能化中,Agent 起着重要作用.但由于 Agent 具有自治性和复杂性,基于Agent 的系统性能在设计阶段往往是难以预料的,需要在系统实施和运行的过程中,根据运行的效果不断地优化其功能算法,使其
19、不断完善.参考文献:1冯长远,普杰信 .一种基于分布式 Agent 的信息检索模型口.信息技术,2004,28(3):9093.2陆汝钤.知识科学与计算科学M.北京:清华大学出版社,2003:124 125.3姚莉.多 Agent 计算组织及其建模方法研究J.广西师范大学 :自然科学版,2003,21(1):6773.4汪晓岩,胡庆生 .面向 Internet 的个性化智能信息检索 J.计算机研究与发展,1999,36(9):10391046.5陈红英.智能过滤 Agent 在 Internet 上的应用-J-I.计算机工程,2002(3):7173.6宋睿华,马少平 ,张敏.一种提高 Web
20、 信息检索精度的分段检索方法 J.广西师范大学:自然科学版,2003,21(S1):151.155.ApplicationofMultiAgentTechnologyinInformationSearchSystemLIYan(CollegeofComputerandCommunicationEngineering,WeifangUniversity,Weifang261061,China)Abstract:Accordingtothecurrentstatusofinformationsearch,thispaperexertsartificialintelligencetechnologyandpresentsamultiagentinformationsearchmethod.Thispaperbuildsauserpersonalizedmodeltoaidtheaccuracyofinformationdistillinginordertoenhancethepersonalizedandintelligentdegreeofthesystem.Keywords:searchengine;multiagent;userpersonalizedmodel(责任编辑马殷华)