1、 硕士学位论文基于用户认知的 XML分面搜索关键技术研究Research on Key Technologies of XML Faceted Searchbased on users Cognition杨林慧2013年 12月国内图书分类号: TP312国际图书分类号: 621.39学校代码: 10079密级:公开工学硕士学位论文基于用户认知的 XML分面搜索关键技术研究硕士研究生:杨林慧导 师:李新叶副教授申请学位:工学硕士学专科:信息与通信工程业:通信与信息系统所在学院:电气与电子工程学院答辩日期:2014年 3月授予学位单位:华北电力大学Classified Index: TP312U
2、.D.C: 621.39Thesis for the Master Degree in EngineeringResearch on Key Technologies of XML Faceted Searchbased on users CognitionCandidate: Yang LinhuiSupervisor:School:Prof. Li XinyeSchool of Electrical and ElectronicEngineeringDate of Defence: March, 2014Degree-Conferring-Institution: North China
3、Electric Power University华北电力大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文基于用户认知的 XML 分面搜索关键技术研究,是本人在导师指导下,在华北电力大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签名: 日期: 年月 日华北电力大学硕士学位论文使用授权书基于用户认知的 XML分面搜索关键技术研究 系本人在华北电力大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的
4、研究成果归华北电力大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解华北电力大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权华北电力大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。本学位论文属于(请在以上相应方框内打 ):保密 ,在不保密年解密后适用本授权书作者签名:导师签名:日期: 年年月月日日日期:华北电力大学硕士学位论文摘 要近年来,随着网络数据库的数量和规模大幅度增加,各种各样的搜索系统已经成为人们查询网络信息的工具,例如 Google、百度等。然而,当有着不同查询意图的各类
5、用户输入同样的关键词后,得到了相同的查询结果,无法满足各类用户的需求。如何帮助不同用户更有效地查找最相关的结果文档已经成为互联网服务的一个重要问题。分面搜索是一种动态分类的信息搜索技术,是对关键词查询的补充。在分面搜索系统中,大部分是显示所有分面。当文档结构有差异并且存在大量分面时,系统不可能将所有分面显示给用户,如何将最有价值的分面推荐给用户成为如今的热点问题。目前的分面推荐方法主要是根据领域专家的经验选取,或者是仅根据统计学方法进行推荐。然而,这显然不能满足不同认知水平用户的查询需要。了解不同用户的认知因素,与它们相结合,分面搜索可以将更有价值的分面推荐给用户,使用户更加容易的达到信息需求
6、,改善用户体验。另外,还可以改善用户的检索界面,减少用户的花费成本,提高检索效率。本文围绕基于用户认知的 XML分面搜索关键技术进 行研究,首先,对影响用户搜索行为的认知因素进行获取与表示,建立用户的认知模型;其次,提出了基于用户认知的分面推荐方法,将用户认知模型中获取的认知因素与统计学分面推荐方法结合,然后进行分面推荐,并用 XML电 影数据集进行实验。实验结果表明,统计学方法和用户认知相融合可以有效地推荐最有导航能力的分面;最后,分析了场依存和场独立认知风格的用户在信息搜索时具有的不同特征以及 XML元素的粒度大小与显示的关系,给出了包含 XML 分面信息和元素粒度信息的索引结构,设计了基
7、于用户认知风格的 XML分面搜索 结果的可视化显示界面,对不同认知风格的用户显示不同粒度 XML元素并提供不同的 显示风格,在一定程度上可提高用户的体验。关键词:分面推荐;认知模型;结果显示; XML 信息检索;分面搜索I华北电力大学硕士学位论文AbstractRecently, with the increasing of the network database, search system has becomea tool of querying the network information, such as Google, Baidu, etc. When usershave dif
8、ferent query intent, theyll get the same results from the traditional searchsystem. It is becoming an important issue for internet service that helping differentusers to find the most relevant results.Faceted search is a kind of dynamic information query technique, which is acomplement to keyword se
9、arch. The existing faceted search systems mostly displayall facets. While there are a large number of facets in real docum ents usually, it isunacceptable to display them all, so it needs to make a lot of ways to recommend themost valuable facets. The existing facet recommendation methods are mainly
10、 basedon the experience of domain experts or based on the statistic features . While thesesystems recommended the same facet-values and the same results for different usersof cognition, they may not meet different usersneed. Knowing these cognitivefactors of different users and combining with them,
11、faceted search can recommendthe most valuable facets to the users. The system can reduce the cost of users andimprove the retrieval efficiency.In this paper, the key technologies of XML facet search based on userscognition are studied. Firstly, the cognitive factors of affecting users search behavio
12、rare achieved and expressed. According to the userscognitive factors, the systemconstructed users cognitive model. Secondly, a new facet recommendation methodbased on both the users cognitive and the statistic feature of facet -values is proposed.We use the XML movie datasets to do the experiment. T
13、he experiment results showthat our fusion method could recommend the facet of the most navigation capability.Finally, the paper analyzes different characteristics of the field -dependent andfield-independent cognitive style when the users are searching information, and therelationship between XML el
14、ements granularity and display. The paper introduce s theindex structure that contains XML elements faceted information and granularity ofinformation, designs visualization interface based on the users cognitive style aboutXML faceted search. For users with different cognitive styles,it could show d
15、ifferentgranularity of XML elements. To a certain extent, the system can improve usersexperience.Keywords : faceted recommendation; cognitive model; results display; XMLinformation retrieval; faceted searchII目 录目录摘 要 IAbstract 第 1章绪论 . 11.1研究背景和意义 11.2国内外研究现状 21.2.1 XML分面搜索 . 21.2.2基于用户认知的信息检索 41.3本
16、文的主要研究内容 5第 2章用户认知模型的建立 . 72.1影响用户搜索行为的认知因素分析 . 72.1.1认知能力 . 72.1.2知识结构与经验 82.1.3认知风格 102.2用户认知模型 112.2.1用户建模技术的分类 112.2.2用户认知因素的获取与表示 122.3本章总结 13第 3章基于用户认知与统计学融合的分面推荐 . 143.1基于统计学方法的分面推荐 143.2基于用户认知与统计方法的分面 -值融合推荐 153.2.1分面推荐 163.2.2分面值推荐 173.2.3基于融合方法的推荐过程 . 173.3实验结果及分析 183.3.1实验所用数据集及实验环境 183.3
17、.2分面搜索评价方法 193.3.3实验过程描述 20III目 录3.3.4推荐结果的对比分析 213.4本章总结 24第 4章基于用户认知风格的 XML分面搜索结果显示 254.1认知风格 254.1.1认知风格的定义与分类 254.1.2有关场认知风格的研究 254.2 XML元素粒度 264.3 XML分面搜索的索引结构 284.4结合用户认知风格的 XML检索结果显示 294.4.1用户界面可视化设计 . 304.4.2基于场独立 -场依存认知风格的结果显示界面 . 324.5本章总结 34第 5章结论与展望 . 365.1论文工作总结 . 365.2未来工作展望 . 36参考文献 .
18、 38攻读硕士学位期间发表的论文及其它成果 . 41致谢 . 42IV华北电力大学硕士学位论文第 1 章绪论1.1研究背景和意义XML又称可扩展标记语言 1(eXtensible Markup Language)是由 W3C 组织在1998年 2月发布的一种标准。作为 SGML(Standard Generalized Markup Language)的一个简化子集,它集成了 SGML丰富的功能与 HTML(hypertext markuplanguage)易用性的特点,以一种开放、自描述的方式定义数据结构。目前, XML已经成为因特网上数据表示和数据交换的标准,主要包括:( 1)XML (可
19、扩展标记语言),(2)XSL(可扩展的样式语言),( 3)XLL(可扩展的链接语言)。这 3个标准相辅相成,使 XML语言在数据标记、 显示风格和超文本链接方面功能强大2,数据交换非常便利。XML是在 HTML基础上形成的新一代 Web语言,由于它具有自描述性、灵活的数据结构及丰富的数据表示能力。目前,多个应用领域已经确定了与 XML相关的行业标准,例如,电子商务中的 ebXML、数学领域的 MathML 、化学领域的 CML 、金融行业的 XBRL、描述图形的 SVG、描述地理信息的 GML等都是以 XML为基础的 1。此外,XML技术在数字图书馆建设中起到了非常重要的作用。在信息检索领域中
20、,大部分的搜索任务在本质上是探索性的、不精确的,用户需要探索信息库,发现概念之间的关系,以引导方式缩小选择范围。分面搜索是不断筛选事物的属性、过滤搜索结果的查询方法,它是搜索和浏览的结合 3。分面搜索有效提高了信息检索的效率,改善了用户体验。然而已有的分面搜索研究主要是以系统为中心的信息检索,没有考虑影响用户检索行为的认知因素。系统无法根据用户的认知因素给出相应的建议。无法满足用户真实需求,改善用户的满意度。自从1977年梅尔第一次明确提出认知观后 4,到现在为止,将认知的概念应用到信息检索科学中已经得到学科界的普遍认同,认知信息检索的研究也越来越受到人们的关注。但目前将认知因素结合到分面搜索
21、中,还处于一种初级发展状态,还很少有学者对基于用户认知的分面搜索进行研究。综上所述,研究基于用户认知的 XML分面搜索关 键技术,可以为基于用户认知的信息检索提供一种有效的方法,课题的研究具有一定的学术意义以及实际的应用价值。1华北电力大学硕士学位论文1.2国内外研究现状1.2.1 XML分面搜索1.2.1.1 XML简介XML是标准通用标记语言 SGML的子集,其目标 是允许普通的 SGML在Web上以目前 HTML 的方式被服 务、接收和处理。XML极其简单且易于掌握和使用。与 HTML相同,XML使用尖括弧 0,则第一种方法所花费的交互成本比第二种低。 ANG表示多个话题的平均标准增益。
22、|Q|是用户查询话题的数量。正如文献 48, 49 所述,假设用户找到第一个相关结果时,用户会结束查询会话,并且用户可以从结果列表中找到相关结果,可以辨别相关的分面或分面值,是否与相关结果文档匹配。在分面搜索系统中,用户交互模型和成本模型评价方法的具体流程 50如图 3-2所示。其中,图中所用的符号含义如表 3-1所示。表 3-1.图 3-2中的符号含义符号q含义当前查询Rq 查询 q的结果列表FVqFq查询 q推荐的分面值列表查询 q所有可能的分面列表词项 x在列表 y中的位置结果数目、分面值和分面数目Loc(x ,y)Cost19华北电力大学硕士学位论文在分面搜索系统中,首先,用户输入话题
23、点击搜索。其次,用户在当前查询中,检查当前结果列表的第一页。假设,结果每一页都会显示至多十个结果。如果用户在第一页找到了相关结果,那么用户选择它,并且结束会话。如果用户没有找到相关结果,那么用户会浏览分面值的推荐列表,如果有相关的分面值,用户就点击列表中的第一个相关分面值,系统会返回新的结果列表和分面值。如果所推荐的分面值都不相关,用户会选择继续推荐分面值,继续点击相关的分面值。直到用户获得满意的结果。图 3-2分面搜索系统用户交互成本 评价方法的流程图3.3.3实验过程描述本文实验中,假设用户找到一个相关结果后,用户结束搜索会话。当前查询的结果列表的每一页上至多有十个结果,用户在结果列表上检
24、查相关结果。如果用户在第一页找到了相关结果,则用户停止会话。如果没有找到相关结果,则用20华北电力大学硕士学位论文户继续选择分面和分面值推荐。在实验中,随机抽取了某高校的 16名用户,其中包括本科生和研究生。在搜索过程中,用户要尽量与平时的搜索习惯保持一致。 14个查询话题如表 3-2所示。其中,16名用户参与了本文提出的融合推荐方法和统计学分面推荐方法,仅有 12名用户参与了认知推荐方法。本文将融合推荐方法、统计学推荐方法和认知推荐方法进行对比分析。表 3-2实验中十四个查询话题 关键字话题序号Topic 1Topic 2Topic 3Topic 4Topic 5Topic 6Topic 7
25、Topic 8Topic 9Topic 10Topic 11Topic 12Topic 13Topic 14话题关键字Stephen chowShaolinShanghaiYimou ZhangSteven SpielbergAround the worldHua mulanPiratesTitanicBeijingManzuForbidden CityYunnanFeng xiaogang3.3.4推荐结果的对比分析本文对十多个不同的话题进行了实验,随机抽取的所有用户,要求从 14个话题中选择 10个话题做实验。所有的 16名用户参与了融合推荐方法和统计学推荐方法的实验,其中只有 12名用户
26、参与了认知推荐方法。表 3-3为融合推荐方法与统计学推荐方法比较得到的 NG和 ANG值 。在这里,公式 (3-10) 中的 cost代表融合推荐方法的交互成本, rawCost代表统计学推荐方法的交互成本。图 3-3表示的是不同用户融合推荐方法与统计学推荐方法之间的 ANG变化曲线。表 3-4所示为融合推荐方法与用户认知推荐方法 NG和 ANG的评价结果。这里,公式(3-10)中的 cost仍是融合推荐方法的交互成本,而 rawCost是基于用户认知推荐方法的交互成本。图 3-4表示的是不同用户融合推荐方法和用户认知推荐方法之21华北电力大学硕士学位论文间 ANG变化曲线。表 3-3和表 3
27、-4中,“ /”表示用户对该话题不感兴趣,没选择它。表 3-3融合方法与统计学方法比 较的 NG与 ANG值Topic1 2 3 4 5 6 7 8 9 10 11 12 13 14 ANGUserUser 1 0.070.080.2400/0.13/ 0.40.080.59/0 0.170.060.250.350.250.0600.270.150.40.640.470.65/ / / 0.05 0.30.3800.200.180.230.300.240.170.250.230.240.180.140.160.280.330.250.41User 2User 3User 4User 5User
28、 6User 7User 8User 9User 10User 11User 12User 13User 14User 15User 160 / 0.440.210.630/ 0.06/0.05/ 0 00.13/ 0 /0.360.58/0.140.070.1400.780.450.47/0.510.050.190.4/ / 0.09 0.05/ 0.410.0500.530.620.71/0.05 0.05/0.0700 0.05/ / 0.060.06/0.550.320.20.45/0.610.260.07/0.17 / /0 0.350.07/0.28/0.410.720.050.1
29、1/0.0700 0 / 0.610.160.280.03/ 0.2 0.250.24/0.550/ / 0.220.060.230.140.0700.240/ 0.070.1400 0.42 /0.190/ 0 0.060.260.650.570.740.690.560.210.63/00.110.1300.310.48/0.450.530.55/ / 0.050 0.15/ 0 / / 0.240.360.070.35/ 0.0700.510.790.130.07/0.67/0 0.480.240.260.090.610.390.450 0.060.09/0.110.34/ / / 0.5
30、8 0.62表 3-4融合方法与用户认知方法的 NG与 ANG值Topic1 2 3 4 5 6 7 8 9 10 11 12 13 14 ANGUserUser 1 0.120.05/0.13/0.23/ 0.360.070.310.090.26/0.25/0 0 0.580.340.560.52/ / / 0.05 0.150.09/0.190.130.270.210.260.220.140.140.19User 2User 5User 6User 8User 9User 10User 11User 130 0.190.150.110.0500.1200.250.660.120/ 0 0.170 0.090.320.280.04/00.450.560.480.640.0900.05 0.44/0.120.05/ 0.150.070.230/ / 0.09/0.350.220.38/0.470.07/ 0.590.160.220.050.28/0.050.31/0.550/ / 0.250.0500 / 0.050.1200.29 /0.11/0.050.130.040/ 0.250.120.240.610.510.12/0.04 0.52 / / 0.0422