计算机科学与技术毕业论文（设计）：同类网站查询接口的集成系统设计与实现.doc-道客多多

资源描述

1、毕业论文（设计）论文题目：同类网站查询接口的集成系统设计与实现学生姓名：学号： 0808210132所在院系：计算机与信息工程系专业名称：计算机科学与技术届次： 2013届指导教师：淮南师范学院本科毕业论文（设计）诚信承诺书1.本人郑重承诺：所呈交的毕业论文（设计），题目同类网站查询接口的集成系统设计与实现是本人在指导教师指导下独立完成的，没有弄虚作假，没有抄袭、剽窃别人的内容； 2.毕业论文（设计）所使用的相关资料、数据、观点等均真实可靠，文中所有引用的他人观点、材料、数据、图表均已注释说明来源； 3. 毕业论文（设计）中无抄袭、剽窃或不正当引用他人学术观点、思想和学术成果，

2、伪造、篡改数据的情况； 4.本人已被告知并清楚：学院对毕业论文（设计）中的抄袭、剽窃、弄虚作假等违反学术规范的行为将严肃处理，并可能导致毕业论文（设计）成绩不合格，无法正常毕业、取消学士学位资格或注销并追回已发放的毕业证书、学士学位证书等严重后果； 5.若在省教育厅、学院组织的毕业论文（设计）检查、评比中，被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为，本人愿意接受学院按有关规定给予的处理，并承担相应责任。学生（签名）：日期：年月日目录淮南师范学院 2013 届本科毕业论文0同类网站查询接口的集成系统设计与实现学生：（指导老师：）（淮南师范学院计算机与信息工程系）摘要:随着 I

3、nternet 与网络技术的飞速发展，网上的信息以海量方式增长，然而我们却不能快速而准确获取有效的信息。海量信息只能通过查询接口访问获得，为了能够同时访问同一领域多个 Web 数据库，需要对多个 Web 数据库的查询接口进行集成通过实验分析，基于查询条件的深网查询接口集成方法不仅简化了模式匹配的复杂过程，而且很大程度上提高了模式集成的精度因此，此集成方法是高效可行的研究深度网的最终目的是为获取隐藏于 Web 应用之后的网络数据库中的数据，通过查询接口在线访问后台数据库，这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。传统的搜索引擎只能进行静态页面的搜索，现有的接口集成方法主要

4、集成各个网站提供的高级搜索接口，这样建立的集成接口由于包含过多的属性，面在一些属性上可代用户选择的候选值更是繁杂，不便用户使用，于是设计了基于查询条件的集成接口，避免了浏览复杂的查询接口。关键词:查询接口；数据库；接口集成；搜索；属性抽取Congener website query interface integration system design and implementationStudent: Wei Min (Faculty Adviser：Chen lei)(Department of computer and information engineering, Huainan

5、Normal University)Abstract:With the rapid development of Internet and network technology, the information on the net growth in vast amounts of way, but we cant get effective information for accurate and fast. Can only be acquired through query interface to access vast amounts of information, in orde

6、r to be able to access to the same field at the same time multiple Web database, the need for multiple Web database query interface 同类网站查询接口的集成系统设计与实现1integration. Through the experimental analysis, based on the query conditions of deep Web query interface integration method not only simplifies the

7、complex process of pattern matching, and largely enhances the precision of model integration. Therefore, based on the query conditions of deep Web query interface integration method is efficient and feasible. The ultimate goal of network research depth is for hidden in the Web application after the

8、network data in the database, through online access to background database query interface, which changed the traditional way based on search engine query and access to information brings great challenge. Traditional search engines can only carry on the static page search, the existing interface int

9、egration approach mainly integrated each site offers advanced search interface, so that establish the integration of the interface due to contain too many attributes, face on some of the properties for the users choice of candidate values is more complex, inconvenient to users, so the integration in

10、terface design based on the query conditions, avoiding the browse complex query interface.Key word:Query interface; Database; The interface integration;Search; Attribute sampling淮南师范学院 2013 届本科毕业论文2前言论文主要任务是针对当前同一领域的不同站点所提供的各个查询接口进行集成，为用户提供一个统一的查询接口，从而节省用户的查询时间。用户在统一的查询接口上输入查询条件，这个查询条件会被分解并传送到各个站点，并

11、被提交，从而得到站点的部分查询结果，再将各站点得到的查询结果进行整合，最终为用户返回一个完整的查询结果。使用本体(ontology 定义为用户浏览和查询处理领域知识)的“桥梁”作用,设置属性之间的映射关系不同的接口模式,准确地识别语义之间的关联不同的界面特性,模型融合,根据模式匹配的结果,合并网站数据库查询接口设置在相同的语义属性,并且尽量保持查询接口领域的结构特点和属性顺序,以取得集成查询界面。互联网包含了大量的可获取信息,它的内容存储在一个真正的在线数据库,但是这个信息获得得通过查询接口来访问。为了提供给用户属于网络特定的区域根据去问的途径需要对网络数据库查询接口集成。因此，同类查询接口集

12、成可以看作是同领域各本地查询接口之上的全局视图。同类查询接口集成主要完成两个方面的工作：模式的集成与模式的匹配。从模式匹配来看,传统的模式匹配方法主要由对比匹配发现属性相关性和统一的全局模型。然而,由于 Web 数据库的自治性导致查询接口形式和内容的多样性,和最终所有可能的属性组合的搜索空间很难，使模式匹配面临更多的挑战。使属性之间高精度匹配,查询接口模式匹配使用领域本体概念映射方法,遵循本体语义元信息,计算的模式统一,建立属性之间的映射关系不同的接口模式,实施不同的深层网络查询接口属性匹配。在模式融合方面，传统模式融合方法没用充分考虑属性的模式信息，只是针对属性标签，导致集成结果不够完善和精

13、确，因此，查询接口模式融合通过定义模式融合规则对模式匹配结果进行处理，以最终获得源模式集的全局查询接口。目前国内在利用计算机实现集成的网站查询接口集成系统设计和这一领域的研究还有很大可能的研究空间，所以选择了这个主题,力求在这个领域作出贡献。模式匹配方法模式匹配方法主要包括基于本体、基于统计模型和基于聚类。1.1模式匹配方法基于本体每个源接口形式化为 XML 架构，并产生相应的 XML 架构的基础，然后再定义一组规则，形成主体匹配的自定义域本体概念，，产生集成接口。然而，由于这种方法的匹同类网站查询接口的集成系统设计与实现3配精度依赖于所定义的匹配规则，需要大量的人工定义精确的规则。基于本

14、体的关系数据库模式匹配的方法，先计算输入的单词相似的本体，然后使用聚类方法和定义的概念聚集近似映射功能映射得到的最终结果。然而，在计算的输入字和本体相似时，考虑只有这两个关键词的相似性，没有得到充分利用本体语义级别的功能。基于本体的集成方法，通过建立综合查询接口领域本体，然后定义推理规则消除冲突，使每个查询的界面和集成的查询接口匹配。然而，这第一场比赛后可能使综合查询接口集成方法不能完全与本地查询接口匹配，导致在一个综合的结果是不可靠的，全面，准确。在模式融合方面，提出并实现查询接口集成的原型系统的首要条件是设计一种交互式聚类匹配算法，得到不同查询接口属性之间的对应关系，将获得匹配关系的属性聚

15、集到同一类中，并根据聚类规则选出每一类中的特征属性。由于复杂的映射关系频繁出现，不能完全自动化实现集成的过程，需要通过用户交互方式指导解决映射过程中不确定的问题，最后将每一类的特征属性作为统一查询接口的属性。但是，该方法忽略了查询接口中很多有用的信息，并且需要用户交互来解决问题。由此可见，虽然同类网站查询接口集成取得了一些研究成果，但是，仍然有很多关键问题有待进一步改善。在模式集成，综合查询界面，提出并实施了一个原型系统的首要条件是要设计一个互动的聚类匹配算法，以获得不同的查询接口属性之间的映射关系将被匹配到同一类物业聚集，根据规则选择每个集群在要素属性类。由于复杂的映射经常发生，不能完全实现

16、自动化，从而实现集成的过程，需要通过用户交互指导解决问题的过程中的不确定性映射，最后是每类作为一个统一的查询接口属性的特性。然而，该方法忽略了很多有用的信息的查询接口，需要用户交互来解决问题，并给用户带来不便，有一些关键问题有待进一步改进。1.2模式匹配方法基于统计模型基于统计模型：分析统计模型属性名称同时出现的频率和模式，应用“正关联”和“负关联”双重算法同时处理简单的 1:1 匹配和复杂的 M:N 匹配，正相关”往往对应元素之间的“群组关系” ，而“负关联”通常对应于“同义关系” ，然后把得到的相关知识应用于辅助匹配。使用关联搜索方法获得属性间的复杂匹配，该方法通过应用关联公式计算属性间的

17、关联值，然后定义函数选择、同义属性匹配。然而,这种方法基淮南师范学院 2013 届本科毕业论文4于统计抽样空间,没有充分考虑属性语义之间的关联。1.3模式匹配方法基于聚类优先选择用于获取相关的属性的匹配方法，首先通过聚类相关的属性的集合，然后用最大的选择策略和贪婪策略和设计新的选择策略相结合的策略，删除不正确的属性关联。然而，该方法只考虑查询接口的属性标记，并忽略其它有用的信息，在同时，不识别匹配的复杂性。然而，这种方法不考虑之间的语义关联的属性和属性忽略了其他有用的信息。基于集群的模式匹配方法，先在小组赛使用的相关属性，那么相似的概念来计算通过聚类的代名词属性终于可以用贪心算法来匹配选择。然

18、而，这种方法将查询接口一组平图案的属性作为一个实体，忽略了丰富的结构信息查询接口。2 深网查询接口集成分析属性分析是查询接口集成的最主要途径，利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系，从而获得一个集成的查询接口，其框架如图所示：模式匹配s c h e m a m a t c h i n g模式匹配s c h e m a m a t c h i n g1 本体结构2 本体辅助属性层次匹配（ O M A ）3 本体辅助实例级匹配（ O M A ）4 生成映射表1 生成集成接口的属性标签2 生成集成接口的属性类型3 生成的集成接口属性值域4 生成的集成接口属性的布局图

19、深网查询接口集成框架2.1 模式匹配数据库的自治性使得不同查询接口语义相似或相同的属性具有不同的标签、不同的数据格式与组织结构。为了获得统一的查询接口，对不同的语义查询接口要匹配的属性相同。因此，模式匹配是网络的异构信息集成的关键问题。定义 1：模式匹配（schema matching）。可以形式化定义为函数 schema 同类网站查询接口的集成系统设计与实现5matching（I1，I2，），其中 I1，I2 为输入信息，A 为辅助信息，满足如下条件：）I1S1，D1S1 为输入模式信息，D1 为满足模式 S1 的数据实例。）I2S2，D2S2 为输入模式信息，D2 为满足模式 S2

20、的数据实例。）A 表示所有可利用的帮助更好理解模式语义并协助完成匹配任务的所有辅助信息，如字典、本体等。）匹配函数 schema matching（I1，I2，）在执行过程中先产生模式元素间候选对应关系集，经辅助工具判断最终生成模式元素间确定的对应关系集作为输出。候选对应关系集（candidate correspondence set，CSS）的形式化描述为 CSS S1i，S2j，similarysimilary，0,1 ，其中 S1i 表示模式 S1中第 i 个元素按语义规则书写的表达式。S1表示模式元素的个数，如果S1m，那么0,m。S2j 与 S1i 类似，表示 S2 中

21、第 j 个元素按语义规则书写的表达式，S2表示模式元素的个数，如果S2n，那么 j0，n 。similary 表示 S1i 与 S2j 的相似度，表示相似度阈值，如果 S1i 与 S2j 的相似度大于（等于）阈值，那么意味着 S1i 与 S2j 相似，将相似关系记录于确定的匹配对应关系集（matching correspondence set，MCS）中，最后，将作为匹配函数的输出。通过模式匹配模式定义，根据现有的资料，发现语义对应模式成员之间正确的映射，它包含 2 种类型匹配：简单的和复杂的匹配。简单的匹配是指以 1:1 的语义属性之间的映射。不同于简单的 1:1 匹配，复杂匹配的是属

22、性频繁 1：M 匹配或 M：n 匹配，即 M 模式属性匹配另一个模式的 N 个属性。目前的研究重点是 1:1 匹配，简化了复杂的匹配，主要由于在搜索空间的属性的所有可能组合的消耗是非常困难的。2.2 模式融合匹配关系模型之间的融合性能，通过建立统一的全局查询接口，集成查询接口。定义 2 模式融合可以看作一个三元组（DS，IS，IS*）：）DSdS1，dS2，DSn ，DS 表示在线数据库集合，DSi（1in）为一个在线数据库；）ISIS1，IS2，ISM ，IS 表示查询接口模式集合，IS（1jm）为一个数据库的查询接口模式；）IS*IS1IS2ISM，IS*表示在模式 IS1，IS2，ISM

23、匹配基础上，淮南师范学院 2013 届本科毕业论文6合并了网站查询接口集合中表示同一语义的属性，同时尽可能地保持该领域查询接口的属性顺序和结构特征，产生的集成查询接口页面。一个设计良好的集成查询接口应具备以下 3 个特点：）完备性（conciseness）:在同一领域的深网查询接口中，如果其他查询接口中的任何属性与之都不相似，那么这个属性应该出现在集成查询接口中。）一致性（coherence）:源自不同查询接口语义相似的属性以统一的通用属性显示在集成查询接口中，集成查询接口中的属性标签具有一定的共性，能够传递不同查询接口中同义属性的含义。）用户友好性（friendly）:集成查询接口的属性标

24、签应该是该领域中最常用的词汇，且属性间的结构合理，布局恰当，为用户提供较好的可视化效果。3 基于本体的深网查询接口集成3.1 本体构建和本体概念模型为了提高本体的构建效率，并在一定程度上能够保证领域本体的质量，提出了一种半自动构建本体的算法。Step1、通过本体构建工具构建核心本体：1）领域术语抽取。确定领域类型，从特定领域深网查询接口表单中对领域术语进行抽取。2）领域概念抽取。领域核心本体要求领域概念必须是语义明确的，所以需要用领域内最通用的语义来描述该类术语。3）概念间层次关系获取。捕获术语间的语义关系，例如同义（Synonymy）关系、继承（ISA）关系、包含（part-of）关系等。4

25、）领域本体精炼。本体工程师以本体工程学标准对已获取的领域本体概念及概念间的语义关系进行修正。5）领域本体描述。采用本体描述语言（如 RDF，XML，OWL 等）描述领域本体，本体描述语言提供了机器对文档内容可处理的机制。Step2、如果某个术语不存在于核心本体中，那么通过匹配方法确定术语和本体概念之间的语义关系。Step3、如果相匹配，那么将匹配的概念加入到核心本体适当位置，以完成本体的自动扩展。同类网站查询接口的集成系统设计与实现7完成本体构建后，本体可以形式化地表示为概念层次结构，用户的查询以及相关数据可以映射到概念空间，它可以看作是一个保存概念和概念之间关系的知识系统。定义 3 ：领域本

26、体概念模型（domain ontology concept model，DOCM ）。描述了特定领域实体的术语组织以及术语之间的关系，每个概念可以形式化为Class Ai， DTi， Si ， CIi ， CAi ， SCi ， nI1，nI2，nIk ，Ni ，表示与该概念相关的数据信息，其中：Ai 表示概念主类，它是特定领域下通用的、人们易于理解的词汇，该词汇表示一类概念，可以看作描述这类概念的关键字；DTi 表示概念所属的数据类型；Si表示概念主类的同义词集合，即概念别名；CIi表示概念主类的实例集合；CAi 表示与概念相关的条件属性集合，主类与条件属性表示包含关系；SCi表示概念主类

27、的子类集合，主类与子类表示继承关系；nI1， nI2，，nIk表示概念主类的 k 个实例的计数器；Ni 表示概念主类的计数器。DOCM 具有良好的组织结构，能够清晰地描述概念及概念之间的关系。本体构建采用 Protg(是一个史丹佛大学开发的本体编辑和知识获取软件,开发语言采用 Java,属于开放源码软件) 作为本体编辑工具，并以 OWL 作为本体描述语言。通过对 OWL 文件的操作，可以很容易地实现对 DOCM 的调用。3.2 基于本体的模式匹配基于本体的网站查询接口模式匹配方式有属性级和实例级 2 种匹配：定义 4：本体的属性级匹配。假设 A*表示 Web 数据库查询接口的属性，Ai 表示

28、DOCM 中概念节点的概念主类， Si 表示 Ai 的同义词集合，CAi 表示 Ai 的条件属性，SCi 表示 Ai 的子类， Sim（A*，Ai）表示应用基于本体的短语相似度算法。计算 A*与 Ai 的相似度值，表示相似度阈值，Ni 表示 Ai 的计数器。属性级匹配存在以下几种情况：）如果 A*Si或者 A*Ai，那么表示 A*与 Ai 是 1：1 的属性匹配，Ai 的计数器加，即；）如果 A*Si ，A*Ai，且 Si（A*，Ai），那么表示 A*与 Ai 是 1:1淮南师范学院 2013 届本科毕业论文8的属性匹配，同时，将 A*作为 Ai 的一个同义词加入同义词集合 Si中，Ai

29、的计数器加 1，即 NiNi1；）如果 A*CAiSCi ，那么表示 A*与 Ai 是 M：1 的属性匹配，Ai 的计数器加，即 NiNi1；）如果 A*DOCM，且 Ai，Si（A*，Ai），表示 A*与 Ai 不存在匹配关系，那么创建一个新类 Class，将 A*作为 Class 的主类加入 DOCM 中，并设置 A*的计数器为。定义 5：基于本体的短语相似度算法。给定短语 P1 和短语 P2，通过预处理将短语P1 和短语 P2 分别表示为词集 P1c1，c2 ， cm和 P2cl1，cl2，cln ，对于短语 P1 中的每个词汇 ci（1im，借助通用本体 WordNet 分别计算其与短

30、语 P2中每个词汇 clj（1jn）的相似度，其计算如式（1）所示：其中，overlap(ci,clj)表示词汇 ci 与词汇 clj 的语义重合度，即在 WordNet 概念树中，词汇 ci 与词汇 clj 之间包含相同上位概念的个数。Depth(ci)表示词汇 ci 的概念深度，即词汇 ci 在 WordNet 概念树中到达根节点的层次深度，同理， depth(clj)表示词汇 clj 在WordNet 概念树中到达根节点的层次深度。如果短语 P1 中词汇 ci 与短语 P2 中词汇 clj相同，那么 Sim(ci，clj) 1。然后，在短语 P2 中找到与短语 P1 中词汇 ci 相似度

31、最大的值作为短语 P1 相似度值集中的一个值 Si，从而获得短语 P1 的相似度值集Sim1S1，S2 ，Sm ，采样同样方法获得短语 P2 的相似度值集Sim2sl1，sl2，sln 。短语 P1 和 P2 的最后相似度通过每个短语中词汇各自的相似度占总单词个数的比例获得，其计算如式(2)所示：假设给定短语 P3，为相似度阈值。如果 Sim(P1，P2) Sim(P1 ，P3) 成立，那么可以推测短语 P2 和短语 P3 是语义相似的，都应记录于匹配对应关系集中。通过关键字属性级匹配方法，可以准确识别 DOCM 中类或属性与来自不同查询接口属性之间的匹配关系，不仅能够识别简单匹配，而且能够

32、识别复杂匹配。相比于传统模式匹配方法，大大提高了匹配精度并降低了模式匹配过程的复杂性。同类网站查询接口的集成系统设计与实现9假设属性来自查询接口 QI1，属性来自查询接口 QI2，即 eQI1 ，fQI2，同时，在 DOCM 中存在主类 g，该主类 g 包含 2 个同义词汇 e 和 f，那么，在比较查询接口 QI1 中属性 e 和查询接口 QI2 中属性 f 时，首先比较查询接口 QI1 中属性 e 与DOCM 中主类的相似度。通过比较，如果发现查询接口 QI1 中属性 e 与 DOCM 中主类g 相似，并且在 g 的同义词集合中包括同义词 f，那么 DOCM 中的主类 g 可以看作“桥接”

33、，进而推出查询接口 QI1 中属性 e 和查询接口 QI2 中属性 f 是相似的，此时查询接口 QI1 中属性 e 和查询接口 QI2 中属性 f 为 1:1 的简单匹配。对于 M:N 匹配，首先将其转换为 M1 匹配和 1：N 匹配，进而获得 M：N 匹配。例如：某个源查询接口中存在属性“公共属性” ，它包含 2 个条件属性“date from”和“date to”，当查找 DOCM 时，DOCM 中包含类属性“from”和“to ”，并且类属性“from”和“ tp”在 DOCM 中的概念主类为“出版日期，那么通过比较可知源查询接口属性“publication”与 DOCM 中主类“出版日

34、期 ”是相似的，进而可以推知“publication”与“from ”和“to”为 1:M 匹配， “date from”与“publication date”为M1 匹配， “from”和“to”与“date from”和“date to ”为 M：N 匹配。定义 6:基于本体的实例级匹配。假设 A*表示 Web 数据库查询接口的属性，Ai 表示 DOCM 中概念节点 Ci 的概念主类， CI*表示 A*的实例集合， CIi表示 Ai 的实例集合， NI1，NI2 ， Nik表示 Ai 的 k 个实例计数器集合。如果 A*与 Ai 相似，那么 SiM(A*，Ai) 成立，其中表示 A*和

35、Ai 的相似度阈值。对于查询接口属性A*的实例 Ins*j，Ins*jCI* ，存在以下几种情况：1)如果 IN*j CIi ，那么 NihjNij1；2)如果 INs*jCIi ， CIiINS1，INsk ，SiM(Ins*j，INsM)MSiM(Ins*j ，INS1) ，SiM(Ins*j ，INS2)，SiM(IN*j，INsk)，1Mk，那么 NiMNiM1，否则表示实例 INs*j 的概念不存在于 Ai 的实例中，那么将 INs*j 作为一个新实例加入 DOCM 中类 Ai 的CIi 中，同时，将新实例的初始计数器设置为 1。例、假设源查询接口包含属性“category ”，其实

36、例空间为 “architecture and photograhy”， “philosophy”， “Biography” ，DOCM 中包含主类“subject” ，其实例空间为“history” ， “philosophy”， “architecture” 。由于源查询接口属性“category”淮南师范学院 2013 届本科毕业论文10与 DOCM 中主类“subject”相似，因此，需要合并属性值，以确定实例空间。通过基于本体的短语相似度算法计算“architecture and photograhy”与“architecture”是相似的，那么 DOCM 中主类“subject”的实

37、例“architecture”计数器加 1；源查询接口属性实例“philosophy”在 DOCM 中主类“subject ”的实例值中，那么 DOCM 中主类“subject”的实例 “philosophy”计数器加 1；源查询接口属性实例“Biography”与DOCM 中主类“subject”的所有实例值均不相似，表明实例“Biography”不存在于DOCM 中主类“subject”的实例值中，那么将“Biography”作为主类“subject”的一个新实例加入 DOCM 中主类“subject”的实例值中，并将计数器初始值设置为 1，以丰富本体实例。查询接口集成模式匹配详细流程如图

38、 2 所示：图 2 查询接口集成模式匹配过程其过程可以分为 3 个阶段：1)、数据预处理同类网站查询接口的集成系统设计与实现11为了避免因为形式上的差别导致丢失匹配，在执行匹配过程之前，需要对查询接口及 DOCM 进行标准化处理。标准化步骤：Step1、考察每个词汇，如果词汇中含有不属于集合，0，9的字符，那么将其用空格字符替换。Step2、转换所有的大写字符为与之等价的小写字符。Step3、停用词移除。停用词是指那些在语言中常常出现、但是可以忽略的单词。它们作为句子的组成成分，却不能表达文档的任何内容。Step4、转换词汇中的缩写和简写。Step5、通常，一个词汇在不同的语境中有着不同的语法

39、形式，词干提取使得匹配过程能接受单词的不同变化形式，从而提高查全率。因此，需要对每个词汇使用词干分析算法提取词干。2)、匹配发现Step1、依次遍历每个源查询接口的模式链表，获取每个逻辑属性的属性标签；Step2、通过基于本体的属性级匹配算法对该属性标签进行匹配；Step3、如果源查询接口属性含有实例集合，那么调用基于本体的实例级匹配算法；Step4、最后将匹配结果存储于映射表中。3）、记录匹配关系映射表结构如图 3 所示，它记录了 DOCM 中每个本体概念与之相匹配的所有源查询接口属性之间的映射关系。映射表以链表形式表示，每个本体概念结点链接了与该结点相匹配的源查询接口属性信息，这些信息包

40、括URL，Action ，Name ，type，label ，value ，constraint。淮南师范学院 2013 届本科毕业论文12图 3 映射表通过映射关系能够自动识别相同语义查询接口的不同表现形式，将异构数据库进行整合。3.3 模式融合规则模式融合通过由模式匹配器识别出的属性映射关系合并源查询接口的模式，以构造全局查询接口。接口模式的融合包括 4 个方面：1）、查询接口集成属性标签的确定网站查询接口集成以源查询接口模式作为输入，通过 DOCM 建立语义相近属性间的映射关系，将多个数据库模式生成为模式元素间属性与 DOCM 中概念的映射，在不同查询接口间发现 1:1 匹配和 M:N

41、匹配，使这些模式合并为统一的全局模式。由于不同查询接口界面不同，并且对于同一查询条件命名方式也不相同，因此，通过基于本体的深网接口模式匹配，将不同查询接口的属性标签映射为 DOCM 中的类(概念) ，用DOCM 中的主类对不同查询接口表示相同语义的元素统一命名，作为集成查询接口的属性标签，同时保留集成查询接口与各源查询接口的映射关系。2）、查询接口集成属性类型的确定根据类型识别器识别各属性的类型，属性类型由以下两个规则确定：规则 1、如果所有已匹配同义属性具有相同的类型(MAiN e)，那么全局属性的属性类型为该类型。规则 2、如果各源查询接口同义属性的类型不完全相同，那么分别记录各源查询

42、接口同义属性类型个数，在集成查询接口中，以出现次数最多的属性类型作为集成查询接口该属性的类型。3）、查询接口集成的属性值(即搜索空间)的确定在查询接口集成属性值的选择过程中，根据属性类型的不同，属性值融合分为 2种方式：字符类型属性值融合和数值类型属性值融合。对于不同查询接口的同义属性，如果该属性的属性值与 DOCM 中同义主类的实例相匹配，那么不作处理；如果该属性的属性值与 DOCM 中同义主类的实例不相匹配，那么，将源查询接口属性的属性值作为该主类的新实例加入到 DOCM 中。字符类型值融合(Merging alphabetic domains)：使用值之间的语义关系来合并它们并生成全局

43、值集合。选择方法包括以下 2 种：同类网站查询接口的集成系统设计与实现13字符串匹配(approximatest string matching)。两个属性名字的一种近似字符串匹配是找出两个名字字符串的编辑距离是否在一个允许的阈值内。编辑距离，即将一个字符串转换成另一个字符串所需要插入、删除和替换的字符数。例如，将 NKN 转换成 NIKON 需要添加 2 个字符，而较长的字串长度为 5，因此它们的编辑距离为 2.5，即 0.4。短语相似度匹配(phrase similarty matching)。即使用基于本体的短语相似度算法获得两个包含多个单词的属性值的相似度，如果相似则选择最常用的值作

44、为全局属性值。例 4、如图 4 所示，属性“subject”和属性“category”来自 2 个不同的源查询接口，DOCM 中包含主类“subject” ，因此，集成查询接口中该同义属性以 DOCM 中的主类为主，即为“subject” ，经过相似度计算，合并每个查询接口的实例值，得到集成查询接口属性“subject ”的实例值。图 4 合并字符型实例值例子数值类型值融合：分为离散型数值和区间型数值。对于离散型数值融合只需将各源查询接口同义属性的离散数值合并即可。对于区间型数值一般由数值和区间(range) 修饰语联合表示。例如， “baby”被解释成“under 3 years” ， “t

45、een”表示“1318years ”， “adult”表示“over 18 years ”。此时，需要建立一个语义词典保存常用的 range 标识，并记录 range 的含义，如表 1 所示：范围修饰符符号小于超于远超于表 1 区间标识符字典淮南师范学院 2013 届本科毕业论文14例 5、如果 2 个源查询接口的同义属性的属性值均含有数值区间类型值，那么在合并值的过程，首先解析属性值，对于未出现于区间标识符字典中的字符(除数字外)用空格表示，出现过的字符，根据区间标识符字典，将属性值表示为数值区间。当属性的属性值匹配完毕后，按照升序对属性值进行排序，并在每两个相邻值之间增加区间标识，

46、如图 5 所示：局部范围1 0 以下1 0 2 02 0 3 03 0 4 0局部范围小于 5小于 1 0小于 1 5小于 2 0小于 5 0全局范围0 55 1 01 0 1 51 5 2 02 0 3 03 0 4 05 0 图 5 区间型数值合并过程4)、集成查询接口布局的确定。一般情况下，用户友好的、重要的、使用频率高的属性出现在查询接口的前面位置。在源查询接口中，每个属性都有各自的位置，而属性布局的位置反映了属性的重要程度。通常，查询接口的前几个属性的使用频率比后面属性的使用频率高。为了保证重要的属性仍然在全局查询接口的前面位置，引入属性位置平均值概念，用于确定全局查询接口属性的排序

47、。定义 7、属性位置平均值 (attribute average position)。集成查询接口属性的位置平均值等于该属性在所有源查询接口中位置的总和与其出现次数总和的比值，其计算如式(3) 所示：其中 M 表示所有包含与 ci 匹配的源查询接口个数； lposk(ci)表示属性 ci 在查询接口 k 中的位置；lfeok(ci)表示属性 ci 在查询接口 k 中出现的次数，如果是 1:1 匹配，则同类网站查询接口的集成系统设计与实现15为 1；如果是复杂匹配，则为查询接口中复杂匹配的属性个数。查询接口集成的布局规则如下：规则 1、当布局集成查询接口时，首先按照全局属性的位置平均值升序排序，

48、值较小的属性排列在前面。规则 2、如果属性位置平均值相同，那么按照全局属性的出现频率和的顺序排列，频率和较大说明属性较为重要，需要放在前面。规则 3、如果集成查询接口的属性包括所有源查询接口属性，那么集成查询接口属性的数量可能会较多。为了消除一些不重要的属性，可以考虑设置一个阈值，用来表示集成查询接口中所期望的属性个数。4 实验应用 Protg 工具构建领域本体，并通过 java API 对 Protg 进行调用。在比较相似度的过程中，通过 JWNL API 调用 WordNet，同时，借助 DOCM 获取所有接口间的模式匹配，实现查询接口的集成。以图书领域为例，如果集成查询接口属性个数阈值设置为 10，相似度阈值设置为 0.8。图 6 深网集成查询接口示例淮南师范学院 2013 届本科毕业论文16其中：区域 1 表示参数设置；区域 2 表示源查询接口的 URL 集合；区域 3 表示一个查询接口界面；区域 4 表示集成查询接口界面；区域 5 表示查询接口间的匹配过程。如果用户从区域 2 中选择一些 URL，那么经过模式抽取和模式匹配后，将在区域 4 中产生这些的集成查询接口；如果用户需要比较某个源查询接口和集成查询接口的差异时，用户可以从区域 2 中选择源查询接口的 URL，双击该 URL，其接口结构将在区域 3 中显示。通过区域 3

展开阅读全文