基于分面主题图探索式搜索研究.doc-道客多多

资源描述

1、1基于分面主题图探索式搜索研究赵金海（聊城大学图书馆山东聊城，252059）摘要：采用比 TMDM 更丰富的语义发现技术和现有研究方法，从信息查询动机、分面选择、原型结构、主题图探索等角度，对基于分面主题图探索式搜索分析。评价自动选择分面导航指标，论证如何整合基于分面主题图探索式搜索功能，探讨用户如何在缺乏专业知识领域采用探索式搜索实现查询信息的目的。关键词：主题图；知识管理；知识导航；探索式搜索RESEARCH ON THE FACET-BASED EXPLORATORY SEARCH IN TOPIC MAPSZhaoJinHai(Library of Liaocheng Univer

2、sity，Liaocheng in China, 252059)Abstract: Adopting the found technology and the existing research method richer than TMDM semantic, it explores and analysis the facet-based exploratory search in topic maps from the angle of the information query motivation, the facet selection, the prototype structu

3、re, exploratory search in topic maps et al. It evaluates the automatic selection facet navigation points, and proves how to integrate the function of the facet-based exploratory search in topic maps. This paper discusses how the user exploratory search in the lack of professional knowledge field to

4、achieve the purpose of the queried information.Keywords: Topic Maps; Knowledge Management; Knowledge Navigation; Exploratory Search面对复杂的信息检索系统，用户有时还会遇到不熟悉的专业领域，尤其在不了解数据结构，或查询的数据集较大时，用户常常会感到不知所措，或放弃查询需求。如何解决这一问题呢？本文向用户推荐一种可在不熟悉专业知识领域探索、索取信息的基于分面主题图探索式搜索（Facet-based Exploratory Search in Topic Maps）方法

5、，并对此进行分析研究，旨在抛砖引玉。1 使用动机（Motivation）通常情况下，用户向搜索引擎提交新查询的步骤：探索检索信息，筛选查询结果，被动获取下一步查询线索1。当用户发现某一专业领域，却缺乏该专业知识，还必须查询信息应时，这里推荐采用探索式搜索。这种探索式搜索具有允许用户在没有前期信息空间知识经验的背景下发现新信息的界面和功能。尤其在用户不了解数据结构或查询数据集较大时，可采用分面导航可视探索技术搜索信息。该技术的查询表达式不仅可从用户精选/导航中提炼，而且还可通过限制值反复限定信息空间视图，直到检索结果达到满意为止（参见图 1）。图 1：限制树生成式分面导航：利用反复选择分面和限

6、制值的方法生成信息空间2在分面导航系统中，可为一个主题分配多个分类分面，采用多种方法排序。一个分面代表该类主题唯一的重要特征或元数据属性。不论时间（诞生日期）、空间（地点）、人物（作者），材料（主题），还是活力（活动）等属性都采用直观分面描述。因它们基本采用手工本体构建，所以只用在固定数据结构2。在不同文献结构上下文中，尤其动态改变数据集时，为快速适应变化就需要一种识别分面的即信息空间主体间关系的自动化技术向用户提供最新上下文分类法。2. 分面选择（Facet Selection）一般来讲，可把代表信息空间的主题图看作一个视图、上层主题、多元关系和形成边缘的事件。设图 G =（ V,E

7、,lV,lE），设 V 为上层，E 为边缘， lV,和 lE分别表示上层和边缘功能。据 TMDM 来看，所有边缘无方向，所以不指派资源（source ）和目标（target ）的上层3；然而，为了使下面的定义更简单，强调所含导航方向分面， G 不会失去一般定向视图，每个不定向边缘将被一对指向相反的定向边缘所取代。特定边缘绘出 source： E V 和 target: E V 分别反馈到资源的上层（即代表当前观点主题的主题）和目标的上层（即查询关系，表达主题参照的另一主题）。与 RDF 比，这里主要介绍信息空间实体的三项内容（subject（主语），predicate （谓语），obj

8、ect（宾语）的特殊定义,TMDM 提供更丰富的语义，通过识别符、范围等五项内容描述多种结构4,5,即利用事件取代描述 job 和 website 的方法，当然也可用关联方法。这种把事件作为探索界面（二进制）关联的方法可有效避免用户过多接触详细细节。2.1 实体、价值和分面（Entities, Values and Facets）定义 1. 实体（entity ）是信息空间子图 G，采用一个特定的最上层 v 所有相邻的顶层抽取文摘，即 G= (v, V, E,LV, LE) 这里 v V, V V, E E 和 e E E: 资源(e) =v 目标(e) V。定义 2. 一个视图是信息空间

9、的一个实体集。Delbru 等人使用术语 partition 替代 view6。也许是错误导向，因为不同视图不一定就必须脱离开来（解体）。但上述视图概念与论述视图的定义必须一致7。定义 3. 在视图中，一个标签代表一个或几个边缘的关联。一个分面表达一系列标签的边缘，即= e lE (e) = l。F 表示一个信息空间分面集。投射分面： F 返还与一个视图关联分面，即分面() = F e e , l : lE(e) = l 。即使合并无方向关联，也可以把标签分类看作为反映各种观点的语义在上述例子的论述范围，参见图 2。图 2：一个观点由 company、person 和关联分面组成，用括号内特

10、定主题 id 描述未命名主题定义 4. 投射 Rv : F V 返还一个分面的限制值集，就是 Rv( ) = v V|Ee , 目标(e) = v。与一个分面的限制值集一致，视图就可以从信息空间中抽取文摘。视图含有一个新分面集 F = facet(),可能是空的。2.2 导航标准（Metrics for Navigation）为了测量一个分面的导航质量，下面介绍 Delbru 等人的三个标准定义。平衡（Balance）:如图 1 所示，如果这个树状合乎情理，每个分支决定优化了决定的能力8；因此，一个分面的平衡指明了它的导航效用性。针对每个对象值 Oi进行计算时，都把它作为主题3的数量

11、的（非线性）正常变量计算，这里是矢量的意思，n s 指主题的全部数量，指分面的不同宾语值的数量：基数（Cardinality）：一个合适的分面含有一定数量的可选宾语值。针对来说，宾语基数标准可作为不同宾语（限制值）计算，根据参数和，正常使用基于高斯密度函数：频率（Frequency）:合适的分面频繁地出现在收藏数据：覆盖上层/不同的概念（靠主题，有可能被具体化的描述）越多，区分信息空间时有用的分面就越多。把频率作为已定义分面数据集主题的数量来计算，：，正常作为全部主题数量的分数计算：可以把这些指标通过乘法（也许是加权）合并到最后的分数。正如7中所述，它们是唯一有用的迹象，因

12、为它们根据其导航值而不是根据其描述值排列分面。例如，表 1 所示图 2 的两个实体的结果值。显然，为了覆盖整个信息空间，仍要显示排列较低的分面。然而，在面对具有数量较大的分面的数据集时，为了给用户指引方向，就推荐隐藏/分组这些数据集（见下表）。表 1：观看图 2 两个实体 Company 和 Person 构成指标的实例。最后得出的分数是三个指标的积。（如考虑六个顶层附加实体，该值也会发生变化。）2.3 附加分面等级（Additional Facet Classes）正如本节开始所述，在组成颗粒时主题图关联与 RDF 的性质有所不同，即表达方式涉及到具有角色扮演作用的角色类型概念。因为一

13、个分面浏览器需要能够提交索取所有类型的实体（即主题类型、关联（角色）类型，以及事件类型），用户需要澄清的和选择类型之间的关系，以及还有必须考虑的附加分面等级9。尽管，TMDM 也可以定义范围概念，但它缺乏正式语义描述,象如此复杂的问题放到 3.1 子部中介绍。在介绍雇佣实例的过程中仅论证如何使用这一概念介绍了专指语境的标签，它的应用（即多语言、出处、意见、时间、观众、过滤）澄清了现有范围一个领域主题集的组成提出的另一个重要分面等级。前面介绍的指标都可以应用于附加分面等级。唯一的副作用就是表 1 中但它们整个数量增加时，每个相关分面的导航值就会整体减少（参见角色类型雇主和雇员）。3 原型结构

14、（Architecture of the Prototype）目前，可以查询后端执行情况（面向 TM4J 引擎的 tologx 模式,参见 http:/tm4j.org）。但针对SPARQL 查询语言，最初使用的处理器 browseRDF 的原型已被基于 TM 的设备所取代。为支持现存的和未来版的界面，访问计算机操作符时可采用一种更独立的解决方案代替已封装的 TMAPI。由于所有活动可转化成选择树，所以即使必要也不应耗费大量的时间去研究替代上述查询后端。4主要原型构成元素包括基于文本的用户界面、导航控制器（提供构建分面导航界面功能）、分面逻辑式（保持目前探索最新状态）、分面模式（代表分面

15、理论概念）和检索兼容主题图引擎的TMAPI1 或 TMAPI2 的文摘层。为排除不必考虑的主题图主题，可把分面分成两个小组，或分别考虑描述微小概念的主题图主题，后者可与整合过滤和聚集算法挂钩。为了获取新视图或用 union 和 intersect 运算符组合现存视图，在每一次的反复操作中用户也许选择一个具有或没有限制值的（主题）分面。在现有视图间的切换中，也可在任何时间对导航确定的分层描述进行修订。如没有（唯一）视图修订，也能追踪或返回到开始的地方。虽然，客观上提交唯一导航界面能防止用户免受细节干扰，但还有必要再提供所需信息。如前面所述不同分面分类能潜在地展现不同“导航值”性质，尤其在不同上下

16、文中重复使用某一基本主题时。为便于组合不同探索导航路径结果，就要考虑引进 union 和 intersect 运算符，一旦用户选择关联分面，就要把非正式领域语义放到最前面：遇到这种情况，可同时从多角度观察新组合视图，好像只能从某种程度上反映不同领域或主题陈述的内容，对“and/or problem”等突出的案例进行说明。4 主题图探索（Topic Maps Exporation）为了尽早发现导航对用户界面的支持，可以把标准的普通主题图用户界面当作仔细观察的Ontopia Omnigator 和 Vizigator。然后，再论证基于封面的探索界面如何获得导航的支持。下面讨论几种透视图。4.1 O

17、mnigator 与 Vizigator可把 Ontopia Omnigator 和 Vizigator 的组合界面看成典型的、综合性较强的，又能展示普通主题图内容的应用程序代表（http:/ 。当 Omnigator 作为一个普通目的的主题图浏览器时，只考虑用把它当作教学辅助工具，不向终端用户推荐。但Vzigator 是专为图示浏览器和导航主题图设计的。最初的 Omnigator 浏览器列出所有主题图类型。基于文本浏览器界面支持当前主题图所含主题间导航，然后根据 TMDM 要求基于类型分组（参见图 3（a）关联和事件目录），也可展示想了解的分类法信息，即现有父类型子类型之间的关系。也可以根

18、据内外部事件涉及的姓名、内容/地址进行全文搜索。图 2（b）展示 Vizigator 浏览器，可与图 2 所示款目图示相比接。然而，事件不像二进制关联那样处理，而是象 Omnigator 那样展示上下文目录。当两界面都支持基本搜索时，包括主题图主题之间的性质/关系这样更复杂的查询就要求增加使用 tolog 查询语言，因此，也要求具有一定的 TM 描述知识。图 3. Vizigator 显示上层 Giacomo Puccini 的描述（a），Omnigator 显示关联和事件的描述（b）4.2 分面导航（Faceted Navigation）使用 2.2 子部定义指标，有可能把关联和事件组成一

19、个分面集。该图的可视化可限制在最能支持下一步探索的主题上。用这种方法对用户在信息空间的方向定位有帮助，能避免搜索钻进死胡同。5如图 4 所示，一个单一针对作家 Giacomo Puccini 的最上层描述观察，只包含描述不同“性质”的五个分面。针对每一个性质设置，可索取限量的主题，即有可能显示限定值。对于附加信息来说，用户也可以根据精选的附加主题/学科展示或扩展当前的观察那样，靠重新提到Omnigator/Vizigator 的方法，仔细观察每一个主题图主题。多探索步骤或行为的组合，由基础选择限制值，现有选择（即必须存在的任意值）联盟和交叉的运算符组成，也有可能产生的信息查询远比基于文本的搜索

20、功能更强大。这样的查询也许包括主题图主题结构性信息，与此同时，仍能避免用户使用查询语言和描述细节（即关联和事件用 tolog进行不同处理）。图 5 显示出如何提供一些限制/约束的方法确定某戏剧（Tosca）的剧名。图 4. 在上层不论关联或事件，对 Giacomo Puccini 的描述都按类型展示高质量导航功能分面4.3 观点讨论（Discussion of Perspectives）对于大型信息空间，分面值数也许会激增。这种情况下就要利用减少观察不同关联分面初始数方法改进导航程序。为附加用户导航也许使用两种研究方法或许组合使用：（1）分面分组也许要划分实体：要求有关探索领域中具有现存结构

21、知识。（2）聚合分面值：运行时进行聚合计算，并适应不同的数据类型10。除针对任意主题图一般性研究外，应用程序构建了一个著名的原型，如 OperaMap 应用程序（http:/ 11。使用现有原型就必须采取几种手工合并和过滤操作，获取专用于不能分享（已知的）属性初始对象设置的可比性视图。但他们推荐的算法只能操作现存主题之间任意类型的关联时，这两种探索组合界面就能使用户更快地隔离出个关注主题图的碎片。最后，如果分面导航界面支持象演示限制值设置变量的定义和参照，就会产生更复杂的查询，如返还同一地点出生和去世的意大利戏剧主题图所列的人物目录。5 结语综上所述，面对不熟悉专业知识领域的信息查询，基于封面

22、的主题图探索式搜索是一种较好的选择，这种搜索工具主要是向用户提供了一个可在不熟悉的专业知识领域去探索信息的机会，利用它的搜索界面，大大地增加了现存导航的辅助功能，使结构查询仅依靠关注概念间的链接，而不用查询语言（如 tolog 或 TMQL）和图列（如 TMDM）限定如何论述信息类型成为可能。该界面也可作为用户单独查看概念和关系的方法基础。为向用户提供类似搜索界面的导航，还要存储生成的查询和所选的导航路径。目前，国内对基于分面的主题图探索式搜索研究不多，在此学习、引进和研究，旨在推进国内对主题图系列研究，应用于我国数字知识管理，服务于民众。不妥之处，望同行多加6指教和批评。参考文献1. Whi

23、te, R. W., Marchionini, G., Muresan, G. Evaluating Exploratory Search Systems. Information Processing & Management, 2008，Vol.44 Issue 2：p.433 43. Ol.2011-04-02. http:/dx.doi.org/ 10.1016/j.ipm.2007.09.0112. Delbru, R. Manipulation and Exploration of Semantic Web Knowledge. Internship Report DERI and

24、 EPITA France, July 2006.ol.2011-03-26. http:/rdelbru.free.fr/doc/Report.pdf3. Garshol, L. M.The Linear Topic Map Notation: Definition and introduction, version 1.3 (rev. 1.23, 2006/06/17).ol.2011-03-29. http:/ Dichev, C., Dicheva, D., Ditcheva, B., Moran, M.Translation between RDF and Topic Maps: D

25、ivide and Translate. Proc. Balisage: The Markup Conference 2008. ol.2011-03-26. http:/ Proceedings/html/2008/Dichev01/Balisage2008-Dichev01.html5. Oren, E., Delbru, R., Decker S.Extending Faceted Navigation for RDF data. Proc. 5th International Semantic Web Conference (ISWC). Springer Lecture Notes

26、in Computer Science (LNCS) 4273 (2006) 559572. ol.2011-03-26.http:/dx.doi.org/10.1007/11926078_406. Ueberall, M., Drobnik, O.On Topic Map Templates and Traceability. Proc. 2nd International Workshop on Topic Maps Research and Applications (TMRA). Springer Lecture Notes in Artificial Intelligence (LN

27、AI) 4438 (2006) 819. ol.2011-03-26. http:/dx.doi.org/10.1007/ 978-3-540-71945-8_27. Xu, R., Wunsch II, D.Survey of Clustering Algorithms. IEEE Transactions on Neural Networks, Vol. 16 No. 3 (2005) 645678 ol.2011-03-26. http:/doi.ieeecomputersociety.org/10.1109/TNN.2005. 8451418.W3C Working Group Not

28、e.A Survey of RDF/Topic Maps Interoperability Proposals (2006). ol.2011-03-26. http:/www.w3.org/TR/2006/NOTE-rdftm-survey-200602109. Hildebrand, M., van Ossenbruggen, J., Hardman, L./facet: A Browser for Heterogeneous Semantic Web Repositories. Proc. 5th International Semantic Web Conference (ISWC).

29、 Springer Lecture Notes in Computer Science (LNCS) 4273 (2006) 272285. ol.2011-03-26. http:/dx.doi.org/10.1007/ 11926078_2010. Hearst M.Clustering versus faceted categories for information exploration. Communications of the ACM Vol 49 No 4 pages 5961, April 2006. ol.2011-03-26. http:/doi.acm.org/10.

30、1145/ 1121949.112198311. Dichev, C., Dicheva, D., Fischer, J.: Identity: How To Name It, How To Find It. Proc. 16th International. Conference on World Wide Web (WWW) 2007. ol.2011-03-26. http:/www2007.org/ workshops/paper_133.pdf作者简介：赵金海，男，1956 年生。山东聊城人，聊城大学图书馆副研究馆员。出版专著 2 部，发表论文 40 余篇。联系方式：地址：山东聊城市文化路 34 号邮件：手机：13176951826发稿时间：2011-06-26

展开阅读全文