1、基于本体的个性化检索智能 Agent 模型探讨第 1 页 共 5 页基于本体的个性化检索智能 Agent 模型探析张秀兰,蒋玲(辽宁师范大学,大 连 116029)摘要:本文针对关键词检索无法反映出文章的语义信息及无法满足用户的个性化检索的问题,结合本体和智能 Agent 技术,提出了一种基于本体的信息检索智能 Agent 模型,研究并分析了在这种模型框架下检索信息的流程。关键词:本体,Agent,个性化检索Ontology-based Personalized Retrieval Brainpower Agent ModelZhang Xiulan,Jiang Ling(Liaoning N
2、ormal University,Dalian,116029)Abstract:Aiming at solving the problems that keywords retrieval cant reflect semantic information or satisfy the users personalized retrieval, the paper proposes the architecture called ontology-based personalized retrieval brainpower agent by combining the ontology an
3、d the agent technology. Then the paper researches and analyses information flow under the model.Keywords:Ontology ,Agent,Personalized Retrieval引言:面对当今网络的“信息迷向”和“信息过载”的现象,人们提出了个性化的主动信息服务。在实现个性化的主动信息服务中,智能 Agent 技术起到了至关重要的作用。在信息检索中引进 Agent 技术,能够提高搜索引擎的知识处理能力和理解能力,发挥搜索引擎与 Agent 技术各自的优势,将为开发新一代功能更强大的网上信
4、息搜索系统提供广阔的天地,将搜索引擎与智能代理技术结合起来是建立新的检索模式的必然趋势。Excite1应用的检索词“智能概念提取”技术(Intelligent Concept Extraction) ,对用户输入的关键字进行扩展:这种搜索引擎突破了传统搜索引擎中相对比较简单的根据关键字是否匹配,以及关键字在文档中出现的频率等来判断被搜索的文档是否符合搜索条件的简单逻辑,它借助数据字典扩展搜索条件,通过模式的提取和识别抽象化条件与文档之间的联系。一些用户个性化信息检索系统,WebWatcher 2,Washington 大学开发的ShoPBot,Stanford 大学开发的 Fab 等,这些信息
5、检索系统都是一些基于 Agent 的智能化的程序,主要通过学习用户的历史关联信息,在线引导用户检索感兴趣的信息。这种为用户导航的方式每次只能浏览一个站点,效率比较低,而且无法避免用户浏览以前已经浏览过而现在不需再看的文档或链接。此外,由于没有有效地适应信息源信息变化的机制,不能及时为用户提供新的信息,因而无法为用户快速定位感兴趣的主题。中国科学技术大学的汪晓岩 3等设计了一个面向 Internet 的个性化信息检索系统,采用分布式 Agent 技术,适用于 Internet 上文档的并行查询与检索。该系统能够满足人们在信息基于本体的个性化检索智能 Agent 模型探讨第 2 页 共 5 页检索
6、时的个性化要求,反映了当前及今后信息检索领域发展的趋势。该信息检索系统从用户的角度出发,为了满足不同用户个性化检索的需求,采用相关反馈学习算法和基于多用户个性化模式的层次智能信息滤波算法,过滤掉了大量不相关文档,有效地消除了用户迷茫问题。采用用户与用户 Agent 以及用户 Agent 与信息 Agent 的交互机制,智能化适应用户兴趣的变化及环境的变化。程静 4等采用 Agent 对 Web 信息进行过滤,将 Web Usage Mining 和 Web Content Mining 集合起来,在服务器端对用户日至文件进行分析,构建用户模型,实现信息的有选择服务。目前,在信息检索个性化服务研
7、究方面,主要还集中在根据关键词来描述用户和资源的特征,并通过关键词匹配方式实现用户和资源信息的对应关系,即是使用索引术语表示文档和查询,并利用向量来计算相似度,这种方法虽然计算方法简单,但基于关键词向量空间的建模和计算并不能十分准确地反映文章的语义信息和用户的个性化信息,因此会丢失很多语义方面的信息 5,无法满足用户极具个性化的查询需求。为了改善这种状况,人们把本体(Ontology)引入到信息的挖掘中来,建立具有自主性、移动性、智能性的信息,探索基于本体的智能信息 Agent,本体论(ontology)不仅为规范化资源描述及用户查询提供了基础,也为更准确地搜索信息提供了保证。本体作为一种新的
8、知识表示方式,将知识表示扩展到语义的层次上,克服了关键词表示的缺陷,能实现语义上的信息的表示,在个性化服务方面有着良好的应用前景 6。1 本体概述1.1 本体的概念Ontology 的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多德(384-322 b.c.) 。它在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论” ,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。后来在信息系统、知识系统等领域,越来越多的人研究 Ontology,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由 Gruber 提出的, “本体是概念化的明确的规范说明” 。
9、7,8从内涵上来看,不同研究者对于本体的认识是统一的,都把本体当作是领域(可以是特定领域的,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供一种明确定义的共识。进一步,本体提供的这种共识更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。本体是知识表示的一种形式,它能将领域知识表示为挖掘算法能够理解的形式,它能引导并加快数据挖掘过程,提高获取知识的效率和质量。1.2 本体在信息检索中的功能本体在信息检索中可以完成四个功能:1.2.1 信息资源的组织框架。以本体建立
10、一个模型框架(或称模型视图) ,其它数据在这个框架中进行有效组织;1.2.2 对用户的查询方式进行统一规整化。就是将用户的查询语句进行统一形式表述(该形式能符合一定的本体结构形式) ;1.2.3 方便 agent 的推理,优化查询效率。此过程中,agent 能从本体表达的语义,进行比较精确快速的信息查询;1.2.4 用户的检索要求标准化。本体的建立,为信息检索确定了具体的系统边界,可以将用户的检索要求标准化。基于本体的个性化检索智能 Agent 模型探讨第 3 页 共 5 页2 基于本体的智能信息 Agent 模型图 1 基于本体的智能信息 Agent 模型图 1 给出了基于本体的智能信息 A
11、gent 模型的框架。在该模型中有 3 类 Agent,分别是:用户 Agent,信息 Agent 和资源集成 Agent。用户 Agent 主要搜索用户查询的历史纪录库,推测出用户的兴趣和爱好。包括三个方面,一是用户 Agent 与用户界面交互,将用户的信息订购、爱好或经常去的网站提供给用户界面返回给用户,主动为用户提供相应的信息;二是处理用户的检索请求;三是自动将用户感兴趣的主题提供给信息搜索 Agent,由信息搜索 Agent 去在 Web 上搜索新的信息。信息 Agent 主要处理来自用户 Agent 的服务请求(如检索请求),分解、优化查询请求,并参照资源本体,生成查询计划,把该计划
12、分别发给本地资源库和网络资源元数据库。资源集成 Agent 主要是处理网络上相关资源元数据的检查、过滤、认证和注册。在本模型中,有两类资源:一类是本地的数字资源,保存在馆藏资源库中;另一类是网络上数字资源的元数据,保存在网络资源元数据库中。本地资源库与网络资源元数据库是两个相互独立的系统,它们为用户提供的服务不同。本地资源库建立在数据库之上,因此可以直接使用其强大的数据维护和管理工具。本地资源库用来存储用户满意并需要保存的信息。信息按主题存放,这样搜索起来效率很高,同时用户也可以按别的属性查询 9。在网络资源元数据库中,存储了文档的元数据,如 URL、作者、标题、日期、关键字、摘要、有效期、以
13、及该文档的用户 ID 等。用户 Agent信息 Agent本地资源库网络资源元数据库Ontology资源集成 Agent网络爬虫Internet资源注册器资源提供者基于本体的个性化检索智能 Agent 模型探讨第 4 页 共 5 页本模型的信息流程如下:(1)信息采集网络上的数字资源元数据的来源包括两种途径:由资源提供者通过资源注册器向资源集成 Agent 提交描述资源的元数据;通过网络爬虫在 Internet 上自动搜集和提取信息,并提交给资源集成 Agent。(2)信息集成在该模型中信息的集成包括两方面的内容:网络异构资源元数据库的资源的集成;网络资源与本地资源的集成。网络数字资源的集成由
14、资源集成 Agent 来实现。资源集成Agent 不是直接把搜集到的数据(来自网络爬虫和资源提供者 )存储到网络资源元数据库中,而是通过参考资源本体,对搜集的数据做检查、归并归类、标引后按照规定的元数据标准再存入元数据库。网络资源与本地资源的集成是一种松散型的集成。(3)信息挖掘用户把需求描述提交给用户 Agent,用户 Agent 对需求描述进行必要的预处理( 把用户需求转换成特定查询语言的合法语句),并把查询请求提交给信息 Agent。信息 Agent 分解、优化查询请求,并参照资源本体,生成查询计划,把该计划分别发给本地资源库和网络资源元数据库。资源库和元数据库根据查询计划,检索出满足要
15、求的结果,并返回给信息Agent,信息 Agent 再把结果返回给用户 Agent,最终查询结果由用户 Agent 返回给用户 10。(4)信息推送用户 Agent 主要搜索用户查询的历史纪录库,推测出用户的兴趣和爱好,学习拥护的需求。它与用户界面交互,将用户的信息订购、爱好或经常去的网站提供给用户界面返回给用户,主动为用户提供相应的信息。参考文献:1http:/ 2005-12-12)2Sycara K et al. Distributed intelligent agents. IEEE Expert, 1996 11(5): 36-463汪晓岩,胡庆生,李斌等.面向 Internet 的
16、个性化智能信息检索.计算机研究与发展,1999(9):1039-10464程静.基于 Agent 和 Web 挖掘的个性化用户模型研究.硕士学位论文.西南师范大学,2002(5):23-305万 捷,藤至阳.本体论在基于内容信息检索中的应用.计算机工程, 2003 (4):1226Agent BALABANOVICM. An Adaptive Web Page Recommendation ServiceA. In Proceedings of 1st International Conference on Autonomous AgentsC.New York: International
17、Institute of Informatics and systemics.1997, 37823857Cf. T. R. Gruber. A translation approach to portable ontologies. Knowledge Acquisition, 5(2):199-220, 1993.8Thomas R. Gruber. Toward Principles for the Design of Ontologies Used for Knowledge Sharing, Revision: August 23, 1993.9罗清磊,章文,李卫华.基于本体的 Web 智能信息 Agent.广东工业大学学报,2004(9):57-6010邓志鸿,唐世渭,杨冬青.基于本体的多 Agent 分布式数字图书馆资源信息发现服务模型之研究.计算机工程.2002(6):37-38,58作者简介基于本体的个性化检索智能 Agent 模型探讨第 5 页 共 5 页张秀兰,女,1963 年生,辽宁师范大学管理学院副教授,硕士生导师。蒋玲,女,1981 年生,辽宁师范大学管理学院 2004 级研究生,研究方向:信息资源建设与数字图书馆。联系方式1 地址:辽宁师范大学管理学院 47 信箱,蒋玲收 2 电话:13942879414 E-mail: