1、基于二分图模型的上下文有关网站服务发现1.华东师范大学软件工程学院,上海 200062,中国 2.信息和通信技术研究所,京都 619-0289,日本 3.庆应义塾大学,神奈川县 252-8520,日本C 4 高等教育出版社和施普林格出版社柏林海德堡 2013摘要 随着面向服务架构(SOA )不断成熟,由于服务发现,服务消费需求导致迫切要求。不同于 Web文档,执行服务以此实现目标和用户期望的目标。这会导致这样的概念,即服务发现应该不仅把服务的“使用情境” 考虑进去,而且应该把探索的很好的服务内容(描述)考虑进去。在本文中,我们将介绍用来表示服务使用的服务理念。在查询处理中,为了进行检查识别服务
2、,需要检查服务内容和服务方面。我们建议通过上下文加权二部图模型代表服务。基于二分图模型,我们通过查询扩展减少查询之间的差距空间和服务空间,以此来提高召回。我们还通过考虑服务内容,实用性以及 content-relevance,为了结果排名而设计了一个迭代算法以此提高精度。最后,我们开发了一个可以实施这一机制的服务搜索引擎,并进行一些实验来验证我们的想法。1.简介近年来,网上 Web 服务(WSS )由于有数以千计的服务被公众访问,所以呈现爆炸式增长。优选的服务通过简单的组装以满足用户的需求。为了支持服务组装,不同的工具,诸如 ActiveBPEL 的 1),Oracle BPEL2),和 BP
3、MN 建模 3),已根据该要求被设计和实现,以帮助定义逻辑协作图服务。由于the WS 消费不断上升,为了设计 WS 发现机制找到相关和适当的服务,这一迫切需要已经出现了。要是没有这样的机制,大量手动所需的努力将继续成为基于 WS 应用的瓶颈。对于目前 WS 的搜索引擎,如 BindingPoint4) ,WebServiceList5 )和 Salcentral6) ,基于内容的映射仍然是最流行的技术。我们通过图表描述说明两种服务内容。 图表 1 中,一种是由 WSDL7 定义) (左侧) ,而另一个是 RESTful8)Web 服务(右侧) 。一般情况下,服务描述的内容可能包括服务名称,操
4、作名称,参数和服务 document9) 。然而,值得一提的是,由于短的服务描述,基于内容的映射算法是不够的,这使得映射之间查询空间和服务空间1 难以转换。如图 2 所示 ,我们从 ProgrammableWeb10)收集服务并获得长期经销,其中约 70的服务都是少于 30 个条款,90的服务是少于 40 个条款。提高测绘质量的一种方法是做本地内容分析并且执行术语概念化2。例如, 如果条件 a 和 b 经常共同出现在许多内容, 那么这两个词都应该语义上是接近的。Woogle3 采取同样的方法来设计 WS 搜索引擎。在一定程度上,通过精确语义聚集紧密条款,这有助于提高系统精确度。但是,这个本地的
5、分析方法是通过限制服务描述长度或服务描述之间的重叠。它也试图要求用户为了所需要的服务,如操作名,参数名称,甚至可组合的服务要求等等提供详细的信息。用户输入请求过多会使系统难以使用。服务 SI 使用上下文的第一定义(使用上下文)是定义为一组使用服务的应用程序实例 AJ 的,表示为A SI=*,0SL*,其中 0L? M.M 是数的服务。Des 和 SL 分别是应用程序的说明和使用 AJ 的服务 aj。此外,我们不能要求所有用户,特别是对于非专业用户,知道如何查询服务的名称和参数要求。在这里一个被忽略的很重要的一个事实是服务被定义为在应用程序中使用。如该图 3 所示,有一个所谓“ Buddy Pi
6、ng ”的应用程序通过整合实现现有的几种服务,包括“ del.icio.us ” , “ Flickr”和“谷歌地图” 。一般情况下,用户所知道的任务描述(即应用程序要求)比相关的服务更清楚。在这种情况下,用户可能更喜欢递交面向应用的查询(查询到任务描述) ,而不是以内容为导向的查询(查询到的服务内容) 。例如,如图 3 所示,用户可能不知道的服务 “ del.icio.us ”到它的应用需求的可用性。与此相反,最好是通过查询来检索该服务像面向应用服务的功能描述“手机标记” 。基于内容的映射方法用来解决这类查询是效率不高并且没有用,这是因为缺乏应用程序相关的信息。基于内容的映射方法与结果排名总
7、是一起使用。由于服务描述的缺乏,所以排名结果不太可信。对于成功的反面搜索引擎,解决最重要的问题之一就是要区分具有类似内容的服务。据说,甚至 forWeb 网页搜索以及页面的排名是由两个额外的元素,决定域相关性和使用流行度4所决定的,这个域是和,体育、社会,等等主题相关。域相关性意味着这一页对于主题域重要,但对于其他的并不重要。使用流行意味着如果一个页面被大量的页面所指代,我们认为它是普遍接受的, 并且将给排名得分添加额外的价值。PageRank5是代表这一点的实例。在这方面, 对于服务排名我们需要考虑域相关性,查询和服务是否可以申请相同的域, 并且有用性是由服务的使用频率决定。定义 2(服务效
8、用) 如果服务使用 si 被应用 aj 所使用,据说 si 对 aj 很有用。在这项工作中, 我们提出一个新颖的上下文敏感的 WS 发现方法来执行应用导向的查询处理和服务级别。第六版本新型的排名算法和新的实验结果已大大扩展。如图 3 所示,上下文显示出服务从使用到应用程序需求。在这个例子中,为了实现“BuddyPing” 应用程序, 在“del.icio.us”、 “Flickr”和“谷歌地图”中使用一些服务。对于每一种服务, 它可以检索由应用程序的需求及其协作服务组成的应用程序上下文。我们的“上下文”与以往定义使用的方式比如服务(7、 8)不同。基于这种背景下, 我们设计算法不仅可以来解决面
9、向应用的查询,通过在查询空间 (面向应用的)和服务空间之间架起了桥梁 ,而且可以解决通过考虑服务主题的实用性和排名服务。我们工作的主要贡献总结如下。首先,我们提出了由定义为上下文除了服务内容的服务使用区分服务。使用上下文 (简称上下文) 在定义 1 中进行了定义,它代表服务和应用程序之间的关系。设计一个加权两偶图模型是用来表示上下文。其次, 我们提出一种在服务空间和应用程序空间之间架起桥梁的算法,这是在服务描述和应用程序之间利用上下文图和提取隐含的术语描述。它是用来解决面向应用的查询。第三,我们设计一个由两部分构成的网络划分排名算法评估服务效用的定义的 topic-sensitive 二分图,
10、 正如在定义 2 中所定义的除了基于词汇的相关性。我们学习主题分类器分类到不同的服务和应用程序的主题, 如艺术或娱乐。我们构建由两部分构成的服务和应用程序的图形每个主题域和评估他们的基于主题的有效性分析加权图的结构。第四, 我们建议分发的查询和解决他们最相关的主题领域。最后的服务级别算法将基于内容的相关性值在一起基于主题的实用性价值。本文的其余部分安排如下。第 2 节介绍了背景知识。第 3 节介绍了动机。第 4 节介绍了系统的概述框架。 第 5 节学习从上下文中制作主题分类和细节生成话题敏感二部图的方法。第 6 节产生之间的语义桥梁查询空间和服务空间。第 7 节设计服务敏感的话题用处排名算法考
11、虑二分图的结构。第 8 节展出了整个查询处理和排名算法。第 9 节讨论了我们工作。在第 10 节中,我们证明了系统性能。在第 11 章,我们讨论了相关工作。最后,在第 12 节,我们总结了这项工作。2 背景知识Web 服务往往会陷入两个阵营:大网站服务和 REST 兼容(表述性状态转移)Web 服务 9-12 。大Web 服务通常是以机器可读的描述写在网页描述服务描述语言( WSDL) 。 WSDL 是一种基于 XML 语言描述的技术规范 Web 服务,包括服务描述和接口定义。该接口定义包含提供的操作通过 Web 服务时,输入和输出文档的语法,通信协议用于通信的服务,以及一些进一步的信息。 R
12、EST 试图描述它使用 HTTP或类似的架构协议通过约束接口的一组公知,标准操作(如 GET, POST , PUT , DELETE 为 HTTP) 。以前的工作服务搜索时经常使用接口定义为普通的文本和使用文本处理方法分析计算中的语义关系。查询被分成条款。之间的相似性查询项和服务内容的计算方法。接口比较是一个复杂的任务相比,术语相似性计算,也就是通常所使用的专业用户。我们的工作能为这些互补的工作中发挥以前的工作,如 3,13 。在这里,我们只使用 WSDL 文件作为不考虑共同服务描述内容操作结构。2.1 HITS 算法1997 年,克莱因伯格14发表了算法的连通性,分析了万维网。该算法计算两
13、个分数是每个文档:集线器得分和权威得分。这具有很高的权威性文件的分数预期具有相关的内容,而文件具有高的分数枢纽预计包含指向相关内容。直觉是:一个文件,它指向对许多人是个不错的枢纽,一个文件,很多文件点是一个不错的权威。及物动词,文档这点对许多好的权威是一个更好的枢纽,同样指出了很多很好的集线器的文档是偶数更好的权威。轮毂和权威的计算 scoresis 完成如下:设 N , E 是在附近的一组节点和边图。对于每一个节点 n 在 N,令 H n的是其枢纽得分和 A n的权威得分。初始化 H n和 A n的 1 对所有 n 在 N。当矢量 H 和 A 都没有收敛:对于所有的 n 在 N, A N:
14、? =( N,N ) E H ? n的对于所有的 n 在 N, H n的: ? =( N,N ) E A ? n的归一化 H 股和 A 载体。3 动机诚如上文第 1 节中,服务优先以完成通过简单的组装用户的应用需求。目前不同组织提供的工具支持服务组装。通常,通过使用这些工具我们可以定义业务过程图,它是不可执行的。一个例子示于图 4 ,其用于由 BPMN ,建模与绘制纸文本分类基础15。为了使其可用/ 可运行,服务搜索引擎将执行搜索的每个服务单位根据每一步的服务需求描述。例如,数据预处理(步骤 4) ,它会做搜索五个服务对应 4-1至 4-5 。我们的一个想法是获得整个服务包查询“文本预处理”
15、(应用需求) ,而不是执行,搜索服务单位一个接一个。因为非专业可以了解应用程序的要求更好比个人服务描述,例如“文本预处理”到“制止”,除了基础的服务内容搜索,面向应用的服务搜索是可行的,必要的。让我们看到如表 1 中所示的说明性示例。随着相关应用收集一些流行的服务,我们列出他们服务内容的说明和代表应用条件(使用 TFIDF 16 权重的方法来提取这些重要术语) 。如果服务描述条款不存在疑问,这些服务不会返回答案给用户,即使该查询词非常接近的服务说明条款。例如,俗称的服务“谷歌地图” ,它不会返回为一个回答查询“旅行路线” 。以前工作很少铲球这种异质性问题查询空间和服务之间的空间。一般来说,应用
16、程序相关的术语往往表现出什么样的情况它被用于代替它是什么,如表 1 所示,对于非专家,面向应用的查询,可能会更有用和可行的。在这种情况下,相关性异质空间是必要的,从一个空间中的一个术语,其他条款在另一个空间。 Woogle 3此提及在一定程度上但它仍然没有本地术语之间的服务语义分析描述并不能解决相对于该问题应用要求。相关搜索服务的另一个问题是服务的排名。 即使“地图”包含在一个查询,如“旅游路线地图“,返回的结果将不享有“谷歌地图” ,以在列表的顶部,因为只有匹配的术语是“映射”为“谷歌地图”服务描述,因此服务 含有较多的查询词的排名更高。在这种情况下,我们建议要考虑服务的有用性,定义为服务的
17、普及,以及服务的相关性。直观地说,最好是返回用户的普遍可接受的服务,这是经常使用的并认为是比较可信的。此外,我们注意到,如表 2 所示,对于相同的查询,结果可能与不同的域(主题)有关,因为当前的搜索和排序算法只考虑内容的相关性。通常,它并不总是如此,因为与查询“位置码”显示在我们的例子。这里的“位置代码”使得意义上的“区域”主题更多。服务“邮政编码”可能有这个较高的查询实用性。在网上(右部)查询处理,当用户提交查询 Q =TI代表一个查询词 TI,它会尝试通过翻译 q 来捕捉的q 语义更多服务相关的术语。意识到这一点的方法是分发查询,以不同的主题域和选择最相关根据查询扩展领域语义方面,解决在第
18、 6 节,然后我们提交 Q搜索引擎以不同的主题域。返回的结果是有序的通过结合双方的内容相关性和有用性领域,它是通过使用二分图结构评价分析,如第 7 节。对于离线部分(左边部分) ,我们有三个模块: 在第 5 节主题建模:这是用来区分应用程序,服务和查询.我们学习主题模型通过生成 16 主题vectorswith 顶部敏感类别 ODP 的(项目开放目录)resources11) 。然后,我们的服务,应用程序或查询,分类定义作为海峡,与此主题模型通过分配他们主题矢量为 VSTR = VCI 海峡 与 CI 和 VCI 海峡代表主题域和主题相关性,分别用我1,16 和 VCI 海峡0,1。语义桥梁建
19、设第 6 节,这是用来桥服务空间和查询空间之间的差距。我们通过分析发现长期概率相关二部图。应用程序相关的条款可以适应由 queryexpansion 轻松服务说明条款。 主题敏感的二分图在第节 7 的排名。这是用于计算服务实用性。对于每一个主题领域,我们利用建立自己的二部图高度相关的服务和应用。我们评估服务或应用程序的主题下重要性分析了二分图结构。建造与计算对于每个模块将详细介绍了在下面的章节。5 基本模型生成5.1 主题模型生成我们生成一组偏向量代表不同的主题作为开发的 ODP 。这样做是离线只有一次。我们可以使用其他来源的话题模型生成。在这种工作中,我们使用消耗臭氧潜能值,因为它是免费提供
20、和手工建造。让钛是集合在 ODP 主题域词的页面。这里我们使用的前 16 类消耗臭氧潜能值的。在钛的条款表示为主题的术语向量狄,其中每个维度对应的术语。如果发生在长期钛,其价值在向量是 1 ,而我们用统计术语秩向量来表示的项 t 出现在词的数量。对于由一个术语向量表示的任何内容,我们可以计算它通过比较内容主题分布值向量与这些主题的载体。给定一个内容字符串 str 中,我们可以使用多项朴素贝叶斯分类器17来计算概率类别设置为他们的最大似然参数估计。让 STRK 是 str 中的第 k 个元素。我们计算海峡的主题分布的概率如下:P( CI | STR ) =P( CI) P( STR | CI)P
21、( STR ) P( CI) K P( STRK | CI ) , ( 1 )其中 p ( STRK | CI)可以计算出从长期矢量秩。我们然后正常化 P( CI | STR ) , I 1 , 16 ,使 CI C P ( CI | STR) ? = 1 。在这里, P( CI)是均匀重视,因为我们假设所有主题是等可能的。P( CI)可以是不均匀的。在这种情况下,我们可以 drawthe 主题分布的概率对给定字符串 4 。5.2 二分图模型的上下文 根据定义 1,服务 SI,A SI可以看出,作为一组应用程序,并且将在所使用的服务应用程序 12) 。我们定义一个加权二部图模型 G =( ,)
22、来表示应用程序之间的关系和使用的服务,如图所示。 6,在这里 = SA 带 SA =,其中 S 是服务集和 A 是应用程序设置。边集为 SA,这代表了涉及的服务和应用程序之间的关系:如果一个服务是由应用程序使用,之间有一个链路它们。上一个环节,有一对权重(WSA )代表对于一个应用程序服务的连接强度或应用程序服务,其中 sS 和A.对于单服务 SJ,其个别情况下是应用 AI 和其他 AI 使用的服务。例如,在图 6,将样品服务 s1 的上下文是 A1,S2 和 S3。上下文可以由一个二分图,来模拟其捕获应用程序之间的简单用法关系和服务。正如我们提到的但是在第 3 节,一般在不同的主题领域,服务
23、的用处是不同。例如,直观, “亚马逊”的服务更在“业务”主题有用比“运动”主题。因此,我们建立话题敏感的二分图的每个主题域如下。5.2.1 主题敏感的二分图的构建与主题模型上面生成的,每个服务或应用程序 O,它被分配一个有价值的话题向量为 V O = VCIo的与 VCI 表示当前对象的松紧度 o 到话题域的词。我们只分配对象在前 K 高相关的主题域,而不是所有领域。和 topicsensitive 图生成算法见算法 1 。首先,我们生成主题分布向量的应用而不是服务。主要的原因是该服务的描述较少的话题,敏感区分的比较应用说明,因为一般服务说明用于声明,而不是 domainsensitive 服
24、务操作使用方法,例如,图 1 和图 3,对于“YouTube”的服务,根据它的描述,它的高度相关前 3 主题是计算机,科学和商业,相反,基于它的应用,高度相关的话题是娱乐,艺术和社会,这是普遍接受的。然后在第 1 节中定义为每个应用程序 ai 和 CJ 主题,该主题的相关性向量为 V AI = VCJai和 CJ C VCJAI = 1 和 VCJAI = P ( CJ | AI) 。其次,对于应用程序,我们选择高度相关在前 K 主题加入。为了使这些主题图高效简洁,我们定义了一个门槛( ? 0, 1 ) ,以控制分布范围的服务和应用。如果 ai 有已涉及到在前 K 课题(K 顶部K)的积累概率
25、(用 p ( CJ 计算 | AI ) ) 。高于我们停止 ai 的分销至其他主题。例如,如果应用程序应用程序是通过分发到娱乐,艺术与社会概率分别为 57 , 35 和 7 ,我们就可以停止其分配到其他题目的概率小于 7 ,因为它有一个总经销概率 99 这三个主题。如果我们分发到所有其他的话题,它可以作为在这些议题进行分析的噪音。对于每个主题 CJ ,所选高度相关的应用程序是 A( CJ ) = ai , 0 我。注一个应用程序可能属于不同的主题。因此,对于 CI 和 CJ ,和 i 时,会很可能为(C ) A ( CJ ) ? 。第三,对于每一个主题,我们收集使用的应用程序的服务 AI 为
26、S( CJ ) = S( AI) ,其中 S (AI )是指在 AI 中使用的服务。的应用程序和服务,然后加入到二分图的介绍上面:对于 CJ,其服务是S( CJ ) = SK , 0 K 表。通过使用 S ( CJ )和 A ( CJ ) ,我们可以建立二分图 G CJ 为主题CJ 。我们代表通过服务和应用程序之间的紧密性关系联动重量在第 7 节介绍。基于此图模型,我们实现查询扩展从应用程序空间在第 6 和服务的服务空间实用性排名第 7 。6 二分图 - 基于查询扩展正如在第 3 节,如果一个查询包含在应用方面的描述中,这可能不是在服务描述存在,然后它会导致服务之间的映射问题空间查询和空间。在
27、基于内容的映射搜索将不会返回这些服务涉及到具体的应用的要求,所以导致低召回率和精度。一种流行的方式来解决这个问题的方法是做查询扩展 18 从不同的空间与条件。我们利用服务使用上下文这样一个目的:从转换条款查询(应用程序)的空间服务空间。6.1 定期筛选服务或应用程序描述包含条款。由于许多条件是毫无意义的,嘈杂的,我们采取了两步预处理用于滤除这些条款: 1 )我们去掉停用词和一些预定义类型的使用条款,如形容词,副词,等; 2 )我们采用互信息 19 (公式( 2 ) )以去除条款与较少的信息价值。IV(T)= P(T ) ?sP(S | T) logP(S | T)P(S ), (2)其中 t
28、是一个服务描述术语,且 s 是一个服务。我们选择的基础上, IV 值,其中前 N 翔实的文字 N的基础上开发的数据结果选定集.我们采用同样的计算应用方面。从现在开始,我们提到条款保持termfiltering 后的条款。6.2 应用程序之间语义桥梁建设(查询)空间和服务空间假设两个条款与 TA 从应用说明 K 和 TSJ 从服务描述。从语义上,相关程度由 PCI ( TSJ 计算 | TAK) ,占相关租期 TSJ 条件概率和 TaK,下一个主题类词。这是这个词的相关重要性的话题域。概率 PCI ( TSJ| TAk)被计算如下:k)为给定的服务平方米的条件概率长期 TA三应用说明主题词。 P
29、CI ( TSJ| SM )是 TSJ 发生的条件概率相对于服务 SM 为主题的词。计算被配制如下:其中,f 一公里( TAK, SM , CI )是共同出现的次数应用说明长期 TAk 和服务 SM 和 F A ( TAK, CI )是具有长期 TA 申请总数在话题 ci 中。其中 TsJM 和? 瓦特 SM TSwm 是通过计算的项的权重 TFIDF ,对于 TSJ 而长期重服务 SM 总数,分别。结合在方程的方程组。 ( 3 ) - ( 5 ) ,我们收购最后计算的 PCI ( TSJ| TAK)为:6.3 查询扩展 查询扩展算法见算法 2。它首先计算查询 Q 分布向量VCIQ 不同主题域
30、。其次,它选择最相关条款每个TCI TQ =T J。第三,它收集所有的相关 条款和计算的全球统计信息这是由基于主题术语位列每个相关术语相性,因为在 4 号线,最后,我们选择了全球高排名的条款,最终扩展条款由排名 Relqt 值。7 二分图型服务排名对于一个查询,排名的结果是基于内容的相似性。它可以很好的工作文本丰富的领域,但没有文字有限区域。不幸的是服务描述很短。因此一个内容映射为基础的方法效率不高服务等级。在这里,除了内容映射为基础的排名,我们建议基于分析的迭代增强算法的加权二部图的链接结构,称为基于上下文的排名。基于内容的等级评估服务的相关性查询;基于上下文的等级评估服务的有用性查询。而是
31、采用了全球二分图中,我们还是拿敏感话题二部图,如第 2 节 。采用这种设计的优点是:1)二分图中可以更令人信服的排名服务或应用程序对于一个特定的主题,让排名更准确;2 )它可以减少大量的链接对象是问题高排名在一定程度上。如该图所示。 7 ,图链接分布是非常不均衡的,因为一些通用服务可以经常用于整个主题针对不同的应用,这类似于常见的术语中的文件。我们可以分发链接到不同的域,削弱了影响引入到我们的基于链接的有效性排名。7.1 主题敏感的服务效用计算之后我们有话题敏感图,我们评估这些服务每个主题域下他们的话题的重要性。这样的一种等级的是基于分析以图形链接结构。我们同时享有的服务和应用。基本思路是:在
32、一个主题域, 1 )如果应用程序是高度与此相关的主题领域,使用的服务都应该要到这个话题领域高度相关; 2 )如果服务高度与此相关的主题领域,相关应用应该是这个领域高度相关。我们代表通过迭代这个相互加强关系计算如公式(7 ) 。RCM 的地方 0 (S j)条和 RCM0 ( AI)为初始值的排名对 s j 和 AI 在主题领域厘米, 和 是权重为平衡初始等级值和迭代排名的重要性值,这些值是 0 和 1 之间。每次迭代之后,我们执行 L2 范数( | | * | | 2 ) 20 。 NB ( )表示邻居关系的二部图:通过直接任意节点链接是邻居。在服务方面,邻居是应用程序,并为应用程序,邻居们服
33、务。由这样,排名是在每个主题域进行。我们代表 k 次迭代像RCM 后,根据题目的排名第 k +1 (S 十)和 RCM 第 k +1 ( AI)的服务和应用程序分别。我们使用 WS ai 和纬的 Sj 表示链路权重。在主题领域厘米,这些计算公式。 (8) ,用于表示联动从应用关联紧密度(链接权重)爱到服务的 Sj ( WS AI)或服务的 Sj 应用 AI(纬的 Sj ) 。因为根据该服务的有用性进行评价话题敏感的曲线图,我们认为术语的使用过主题域。联动的权重是由估值服务描述和应用之间的语义关系描述为式(8) 。在我们的计算,联动权重是相同的值,而不是从两个不同的方向。在一个主题域厘米, F
34、A (泰 K,S , cm)为应用长期泰之间共生 k 和服务的 Sj ;F A (泰K, CM)是具有长期泰应用程序的数量 K 表。 |大|在 ai 的项数。之后我们获得的权重参数为图形的每一侧,我们进行归一化,以它们为:同样,我们进行了计算 wai 的 Sj。 我们证明了该算法收敛的附录部分在纸张的 8 查询处理和排名查询处理算法显示在算法 3。我们把 成以下步骤: 首先,查询主题的相关性计算线 1。二, 它是话题敏感的查询扩展在第 2 行,在每相关的主题领域,进行域名查询扩展。第三,基于内容的查询处理检索结果候选人在 3 号线。第四,之后我们获得了所有候选人,我们检索的预先计算的二部图型排
35、名值在 4 号线。第五,排名这些候选人考虑内容相似 CNQ()基于链接的有效性 RCI()和查询主题相关的 VCI q 如(9)所式。其中 VCI q 作为查询主题相关的价值词,性 Rci(SJ )和 CNQ(SJ)是基于图的有用性评价和contentbased 相关度评价。9 讨论9.1 与 HITS 比较克莱因伯格提出了 HITS 14算法,二分链接用于排名的网页进行结构分析算法他们的权威和中心值。 HITS 背后的假设是 “一个好的页面将链接到其他网页好和意志其他不错的网页“链接。我们的链接结构分析算法类似于 HITS 但起始点是不同的以下部分组成:首先,两种算法使用存在的内在张力内的二
36、部图。 HITS 具有相同的对象(页)在二分 graph.We 两侧使用一个链接来关联不同类型的对象,服务和应用的,由用法语义(加盟) 。我们把主题相关的想法加固评估,以确定我们的迭代算法,这是说,重要的服务/应用程序将有一个具体的 topic.On 其他下重要的邻国一方面,所述加强值是通过分析积累术语级语义关系如公式。 ( 7 )式和(8 ) 。第二,该图形结构是不同的。 HITS 是 querydependent 链接建设,它是没有效率的在线查询处理。我们的图表是预先建立的主题敏感的。因此,我们可以有效地提高了系统的性能避免大量链接的服务高度的问题排名。在某些主题领域视为良好的服务通过连锁
37、分析未必好于 others.We 假设为建立按照预先定义的主题的二部图,并保持图中部件与特定主题。第三,我们假设分配的迭代初始值计算如公式。 ( 7) ,其是 R0 (S j)条和 R0 (AI) 。该如在HITS 算法中使用的初始值可以是均匀的,或通过使用谷歌的 PageRank PageRank 算法分配 API。在这里,我们假设分配的初始值是主题相关的服务和应用程序,这是 VCJSi 和 VCJAK 。9.2 与其他 Web 服务的搜索引擎的比较服务地方特性,如内容有哪些服务描述和结构信息是操作定义,吸引了大量的关注。除了这些,我们建议要分析上下文获取的(外部信息)从用户/开发者使用的定
38、义,以协助搜索,已成功地应用在网络搜索。我们的工作补充到执行的搜索以及以前的工作本地物业,但精确度仍然较低。比较与以往的基于内容的搜索服务,我们强调: 1 )面向应用的服务发现其中有从未被提及。我们建议返回协作服务与类似的服务。 “类似的”指之间协作的人,同样的服务作用; 2 )评估服务基于主题的有用性。考虑到服务的基于主题的有用性偏基于内容的相关性提供对结果进行排序的好方法。Woogle 3分析了服务描述的内容和结构的信息,如果有的话,要得到的语义关系之间的描述条款。方法见 1 , Woogle 类系统的薄弱点是: 1)生成查询服务的描述或结构信息是不为方便普通用户,即使是专家; 2)服务描
39、述内容或结构信息太短而无法支持良好的查询处理。然后,有必要导入新的信息服务。本文提出了导入上下文连同先前使用的信息解决服务搜索问题。通过使用上下文,则我们工作的优点是,我们可以描述服务更清晰,更容易产生疑问。虽然服务上下文是不是第一次使用 inWS 发现域时,出发点是不同的。此前,上下文已被用于申报相关服务属性到实施,如前置条件和后置条件。它作为服务的本地特性来过滤返回的结果。在我们的方法,我们利用服务之间的关系和应用程序。一般而言,对于非专业用户,我们的上下文很容易使用。9.3 算法的合理性本文所提出的方法是采取的第一项工作服务实用性为一体的排名元素订购结果,虽然它已经在网络搜索中使用4,5
40、 。其目的是最有用的服务排在顶部的列表和促进服务的选择。我们假设,如果一个应用程序是高度相关的主题领域,其服务也高度相关此域,表示为了支持实施到本申请中,这些服务是重要和必要的; 反之亦然。此外,我们分配链接重量为评估服务之间的相关性强度和链接的应用程序通过积累条款潜伏语义关系如公式(8) 。更进一步,我们考虑查询和服务之间的域一致性。通过这种方式,我们能够更准确地确定哪些服务是更重要的疑问。9.4 差异与服务组合需要注意的是在这项工作的目的之一是寻找该服务面向应用的查询。服务的任务成分组成所选择的服务,让他们一起工作,而这项工作没有找到可组合服务,但找到的候选人服务组合。为了支持可组合的服务
41、发现,它需要搜索,例如,参数的详细查询约束结构或组合物的订单。在这项工作中,我们只考虑对一种服务的存在可能性应用程序的要求,并没有考虑协作逻辑。10 实验结果10.1 实验数据集我们专注于使用服务的上下文来解决应用型查询,不注重内容分析或(参数)的结构相似性查询,所以我们做不会收集了大量的结构良好的基于 WSDL 的服务。相反,我们收集服务及与服务相关的上下文从ProgrammableWeb 的,它记录了大量的免费的 API 服务( REST 风格为主)和他们的参与申请。对于每项服务,我们可以得到的服务的描述包括服务名称,服务描述和 URL ;每个混搭 application13 ) ,把它们
42、当作服务其中有标题,描述,以及所涉及的业务上下文网址。最后,我们得到 1 577 服务和 3 996 申请。为了避免过拟合问题,我们用 80 的背景下,作为训练数据来构建公式的语义桥梁。 (3)与运算服务用处在方程(7) 。我们使用服务的 5开发数据选择参数和 15 作为测试数据。对于图中的排名,我们分配均匀的初始值两个 R0 (S j)条和 R0 ( AI)在方程。 ( 7 ) ,因为初始值不影响这么多的排名为报道 21 。在我们的实验中,我们主要是与比较我们的方法对测试数据内容映射为基础的方法,而不是任何先进的技术为基础的内容映射方法,例如, Woogle 3。因为我们工作的主要目标是介绍
43、了解决上下文应用型信息查询和增长的业绩排名中,这项工作是补充前面的内容为导向的服务搜索。我们可以结合以前的工作与我们的。 Woogle 要求 Web 服务进行相似度计算的结构。在我们的数据集,我们没有这种结构的信息。因此,在实验中,我们只是我们的工作与内容映射比较方法。对于查询生成,我们用(的一部分)的应用从开发数据和测试数据描述,查询并采取由应用程序使用的正确的服务答案。例如,查询“手机标签”如图 3 所示,可能的预期结果是“ del.icio.us ”“ Flickr 的”和“谷歌地图” 。10.2 数据状态我们总结了服务描述任期分布状态图。 2,其中服务的 70 ,少于 30 条款。对于
44、应用程序, 50 有大约 10-19 描述方面与图 1 所示。 8,请注意,目前只有 48 的在我们的数据服务具有上下文。图 9示出应用程序的根据我们的主题模型,与主题分布顶级 K = 3 和停止参数? = 0.8 。该主要涉及题目是“电脑” , “社会 ” , “商界 ” , “艺术” ,和“娱乐” 。我们不上划分主题强调类别分成较小的由潜入分级 ODP 的结构,这将有助于获得一个更(更好的)服务配送主题域。然而,我们已经验证该系统甚至可以用这种粗糙的改进资源分布。并详细介绍了课题分工的手段将被保留为将来的工作。10.3 评价指标我们用远震 P N, MAP 和 MRR 的指标来评价系统性能
45、22 ,对于一个查询 Q :P N :精度(p )于前 N 个结果。 P N =| ? CAQ 的 Rq |的 Rq | ,其中 CAQ 是一组标记的正确答案和 Rq 是一套由系统返回的前 N 个结果。在我们的实验中,我们选择 N = 3 , 5 和 10 。地图:是指平均精度。它被用来评价全球下令返回结果的相关性。其中蔡是第 i 个相关的服务到 q 在 CAQ 和 RCAI 是设置从顶部的成绩名列检索结果,直到你获得服务才。意思是倒数排名是: MRR = 1/rq ,其中 RQ 是军衔对于 q 的第一个相关的服务。在该 MRR 值越高,该系统就更好了。对于一个查询集合 Q 中,我们计算的平均
46、值 P N, MAP 和材料去除率。10.4 性能我们实现使用基于内容的基线系统映射方法 3 。该内容 basedmethod matchesweb 通过在 Web 服务名称比较的话服务和 descriptions.We 进行长期筛选,并把字成一个袋子的话。基于基线系统上,我们实施建议的方法。一些符号用于在实验的结果:BS :以内容为基础的映射实现基线系统方法; - 经验:使用期限 expansionmethod ; -t:使用主题敏感的处理; -G :使用基于图形的排名; OURS :我们的系统是“ BS -T - EXP- G” 。因此, “ BS -T -地契” , “ BST-G“和”
47、 BS - EXP- G“的意思是基线系统相结合与话题敏感的扩张,话题敏感图形排名并与一个大的图形排名全球扩张不主题模型,分别。对于在 10.4.1 实验, 10.4.2 ,10.4.3 , 10.4.6 和我们使用自动生成的查询如上所述;为 10.4.4 和 10.4.5 中,我们使用手动生成的查询后面解释。10.4.1 查询扩展深度和表现一般而言,扩张的术语不越更好,由于不相关的字词的引入。在此基础在开发数据集,我们选择最好的扩张深度查询那些从上下文自动生成描述。我们利用查询扩展深度( 3 , 5 , 10 ,15,20 ,和 25 ) ,以查看在图 P N 的性能。 10 和图 MRR
48、和 MAP 。 11 ,对于这些质疑,扩张深度 5 可以赢得最佳的性能。所以我们选择 5 对接下来的两部分“ ( 10.4.2 和 10.4.3 )实验使用。10.4.2 性能比较从生成的查询根据不同的实施方式的上下文在测试数据集,我们检查依据的查询性能我们的系统上。其结果示于图12 和图 13 。这种类型的查询是困难的 BS 系统,因为应用程序服务条款及术语之间的一些重叠。无论是话题敏感的基于图形的排名( BS- TG)和查询扩展( BS -T - EXP)实现大的改善。在这种情况下,长期扩张有很大帮助查询处理。我们的方法我们的性能比非主题系统更好( BS- EXP- G) 。10.4.3
49、性能改进和查询困难我们还分析,帮助我们的方法的有效性已研究了近几年难以查询 23 。在图 14 ,我们显示的结果为先前的自动生成面向环境的查询。根据 BS systemsMAP 价值观,我们查询排序从最高到最低。较高的MAP 值是指基于内容的实用程序映射方法用于搜索和排序比较好。然后,我们划分的查询同样分为五个垃圾桶。宾 0 分配最低 MAP 值和斌 4 最高查询的人。 “改进”和“减少”是什么意思的改善并降低到“P 10”的这 5 箱的查询由比较我们和 BS 。显然,对于难以查询(低级地图与 BS) ,我们可以提高性能。于斌0 ,我们可以解决与 MAP 值不差的所有查询比 BS ,例如,提高了 53 比 0 下降。但斌 4 ,我们失去了约10 个查询到 BS 。总的来说,结果表明我们的方法进行比 BS 系统更好。10.4.