1、学校代码 10345 研究类型 应用基础研究硕 士 学 位 论 文题 目: 覆盖粒计算及其应用研究 Research on the Covering and Its ApplicationBased on Granular Computing Research on the Covering and Its ApplicationBased on Granular ComputingThesis Submitted toZhejiang Normal Universityfor the degree ofMaster of EngineeringByShuang Liu(Computer So
2、ftware and Theory)Thesis Supervisor: Professor Jiyi WangJune, 2011I覆盖粒计算及其应用研究摘 要粒计算是研究基于多层次粒结构的思维方法、问题求解方法、信息处理模式及其相关理论、技术和工具的学科。它覆盖了所有和粒度相关的理论、方法和技术,主要用于对不确定、不准确、不完整信息的处理,对大规模海量的数据和对复杂问题的求解。粗糙集作为粒计算的一个重要分支,在理论和应用上不断取得丰硕成果的同时,也得到了广泛有意义的推广。而覆盖广义粗糙集理论是 Pawlak 粗糙集理论在划分基础上推广到覆盖建立起来的,它是研究与覆盖相关的理论体系及其应用,
3、由于它是在粗糙集理论上的关系推广,有关粗糙集的一些理论和应用并不一定在覆盖广义粗糙集下适用。因此,本文的主要内容是在粒计算思想理论背景下,研究与覆盖相关的理论及其应用。具体研究工作如下:一、在面向基于粗糙集理论的动态信息系统规则挖掘的研究中,利用覆盖粒计算相关理论提出了一种能消除引起差异信息系统规则挖掘中不一致因素的公理化方法。实验结果表明,在保持时间复杂度不变的情况下,利用改进的规则挖掘算法,通过消除不一致因素而获得的规则能更全面和更大程度地反映条件属性值变化与决策变化趋势之间的内在联系。二、在面向冲突分析的研究中,在粒计算思想理论背景下,首次提出了“关联冲突”的概念。利用覆盖冲突分析策略,
4、通过“服务资源”实例建立了关联冲突分析的合理泛化模型,讨论了关联冲突过程中所可能引发异常的阶段,并对不同阶段引发的异常进行了详细的分析,给出了具体的解决方案,从而完善了各个领域冲突的解决。三、在面向分类法准确性(单标签和多标签数据集)的研究中,利用拓扑覆盖邻域理论,给出了寻找覆盖系统上重叠元素的相关公理化方法。在粒计算的思维体系背景下,以实例辅证,给出了独立于数据标签和不同理想分类结果假设(一种假摘 要II设为划分,另一种假设为覆盖)的评价分类法准确性的统一范式,为提高和评估分类法准确性的计算提供了重要的参考意义。最后,文章是在同一个思想理论背景下,讨论了基于覆盖的相关理论和应用。以上研究工作
5、是覆盖广义粗糙集的理论及其应用的补充和发展,充分的体现出了粒计算背景下知识发现理论和方法的独特性,具有重要的理论意义及潜在的应用价值。关键词:粒计算;覆盖;动态信息系统;规则挖掘;关联冲突;分类IIIRESEARCH ON THE COVERING AND ITS APPLICATION BASED ON GRANULAR COMPUTINGABSTRACTGranular computing (GrC) is viewed as an interdisciplinary study of computation in nature, society and science, characte
6、rized by structured thinking, structured problem solving and structured information processing with an underlying notion of multiple levels of granulation. It consists of all the theories, methodologies, techniques and tools related to the granularity, which is mainly used to deal with uncertainty,
7、imprecise and incomplete information and seek resolutions from the large-scale massive dataset or complicated problem. Rough set, as a very important branch of GrC, is being improving and perfecting on theory and application as well as is being extending widely and significantly. Generalized rough s
8、et on covering is the one that partitions Pawlak rough set theory is extended into coverings. It focuses on the study of covering, so that many theories and applications in the Pawlak rough set are not tenable and suitable in the generalized rough set on covering. Therefore, this dissertation will m
9、ainly make research on covering theories and its applications under background of GrC, whose content is shown as follows:First of all, for the rules mining based on rough set theory in dynamic information system, a pre-process approach to eliminate the elements that cause inconsistence of rules mini
10、ng in difference information system is proposed under the background of covering theory based on granular computing. Experiment shows that relationship between the changes of condition attributes values and trend of decision-making can be fully reflected as much as possible by a modified rules minin
11、g algorithm under the same time complexity through this pre-process approach.Secondly, for the conflict analysis, associated-conflict is firstly introduced in the perspective of GrC, and a reasonable and comprehensive approach to its analysis, using covering based on granular computing, is outlined.
12、 We argue that this model of associated-conflict analysis, given by the example of service-resource, will provide more profound ABSTRACTIVinsight for the conflict resolution in different fields.Thirdly, for the accuracy of classification method on single label dataset or multi label dataset, a unifi
13、ed paradigm for the accuracy used to evaluate different classification methods, using topological covering based on GrC, is presented, independent on number of data labels and different assumptions of ideal classification result(one assumption is partition, the other is covering). And some correspon
14、ding examples are also discussed to illustrate the accuracy in different classification situations. This unified paradigm will provide important reference value for the evaluation and improvement of accuracy of classification method.In brief, this paper discusses theories and applications related to
15、 the covering under the same theory background, and it can be treated as supplement and development of generalized rough set on covering. And it reflects the specificity on theories, methodologies, techniques and tools of knowledge discovery under the background of GrC, with significant referred and
16、 applied value in the future.KEY WORDS: GrC; Covering; Dynamic Information System; Rules Mining; Associated-conflict; ClassificationV目 录摘 要 .IABSTRACT.III目 录 .V第一章 绪 论 .11.1 粒计算 .11.1.1 粒计算提出背景 .11.1.2 粒计算任务和目标 .21.1.3 粒计算基本要素和理论构成 .21.1.4 粒计算研究方向与方法 .51.1.5 粒计算基本思想和实质 .61.2 覆盖广义粗糙集理论 .61.2.1 覆盖广义粗糙
17、集的研究背景 .71.2.2 覆盖广义粗糙集的国内外研究现状 .81.3 本文研究的意义、目标、方法和主要内容以及创新点 .81.3.1 本文研究的意义 .81.3.2 本文研究的目标 .81.3.3 本文研究的方法 .91.3.4 本文研究的主要内容以及创新点 .9第二章 粒计算的独特魅力 .11以孤立点挖掘为例 .112.1 引言 .112.2 引起孤立点的原因 .122.3 孤立点挖掘方法的思想描述 .122.4 讨论 .132.5 小结 .15第三章 覆盖粒计算在基于粗糙集的动态信息系统规则挖掘中的应用 .173.1 引言 .173.2 预备知识 .173.3 规则挖掘 .193.3.
18、1 动态信息系统中不一致性的辨识和消除 .19目 录VI3.2.2 规则挖掘算法 .203.4 实例分析 .223.5 小结 .24第四章 基于覆盖粒计算的关联冲突分析 .264.1 引言 .264.2 预备知识 .274.3 粒计算背景下的相关工作 .274.4 粒计算视角下的关联冲突 .294.4.1 关联冲突定义 .304.4.2 关联冲突分析建模 .304.5 讨论 .374.6 小结 .39第五章 基于覆盖粒计算的分类准确性研究 .405.1 引言 .405.2 预备知识 .415.3 讨论 .425.3.1 理想分类结果假设为划分 .425.3.2 理想分类结果假设为覆盖 .445
19、.4 粒计算视角下的分类准确性统一范式 .455.5 多标签数据分类准确性探究 .475.6 小结 .50第六章 总结与展望 .526.1 总结 .526.2 展望 .53参考文献 .54攻读硕士学位期间取得的研究成果 .61致 谢 .62浙江师范大学学位论文独创性声明 .63学位论文使用授权声明 .631第一章 绪 论1.1 粒计算粒计算(Granular Computing, GrC)是一门飞速发展的新学科,它是由美国学者T.Y.Lin 于 1997 年提出的 1。短短十几年的发展已经见证了它对科学特别是计算机科学的作用和影响。诸多国内外学者就粒计算的基本理论和方法做了大量的工作 2-12
20、。但为粒计算下一个正式的、精确的、能够广为接受的定义仍然是一件困难的事情。人们对粒计算的描述是建立在对它的直觉认识上的:粒计算是研究基于多层次粒结构的思维方法、问题求解方法、信息处理模式及其相关理论、技术和工具的学科。作为软计算科学的一个重要分支,它覆盖了所有和粒度相关的理论、方法和技术,主要用于对不确定、不准确、不完整信息的处理,对大规模海量的数据和对复杂问题的求解,正逐渐成为人工智能研究领域的热点之一。1.1.1 粒计算提出背景研究粒计算有许多原因。其一是一致性:现实世界充满了结构和层次,它们体现在各种自然系统、社会系统和人工系统之中。因此,人们对现实世界的感知、理解、解释和表示也是有结构
21、、分层次的。Zadeh 将人类的认知能力概括为:粒化、组织和因果推理 13。粒化是将一个整体分割成部分,每个部分是拥有相同、相似性质的个体的集合。组织是将松散的个体联系在一起,形成有着内在联系的整体。因果推理是找出原因与结果之间的必然联系。粒计算模型应该能描述这三种能力。因而粒计算的结构和现实世界的结构、人们的思维模式及行为方式是一致的。其二是系统性:粒计算的结构提供了对所解决的问题多视角、多层次的理解、概括和操作。作为一个整体,粒计算提供的思维模式和行为方式是系统的、完整的。其三是简化第一章 绪 论2性:粒计算是提倡对问题进行不同层次的抽象和处理。在抽象过程中,可以只重视主要特性而忽略不相关
22、的细节,从而达到对问题的简化。其四是灵活性:粒计算的结构允许人们在不同的时间、不同的情况下,将注意力集中在不同的层次及层与层之间的自然过渡上,缩放和转承是灵活多变的。其五是有效性:用粒计算指导的思维模式和行为方式将复杂问题分解成若干小问题。这种分而治之的方法是非常实用的,可以运用到不同的领域。其六是经济性:粒计算寻求在不同粒度上的近似解。这样的方法可以提高效率、降低成本。其七是容忍性:通过使用不同信息粒度,粒计算可以容忍不确定、不完全或有噪音的信息,从而获得具有鲁棒性的解决方案。1.1.2 粒计算任务和目标粒计算的形成综合了许多学科的科研成果 14,它的理论建立在对各个领域的共性进行概括、总结
23、和整理之上,形成了对问题求解的普遍适用的原理、方法和策略。在过去的若干年中,许多学者对粒计算的具体模式和方法进行了研究。同时和粒计算原理相似的研究还在不断地出现,只是在不同的领域中运用了略微不同的名词和术语。将粒计算作为一个独立的学科研究可以防止这种不必要的重复劳动。(1) 粒计算的任务作为一个新兴的研究领域,粒计算是一门关于问题求解的艺术。它有着两项特殊的任务:其一是从各个不同的领域中概括出它们的共性,不考虑它们低层次上的差异,从而提炼出抽象的、高层次的、综合的认识;其二是将特定领域中隐含的结构明确化,以期总结出独立于具体领域的普遍原理。(2) 粒计算的目标粒计算之所以新且独特,并不完全在于一组具体的方法和策略,而在于提出一个统一的框架,对这些方法和策略进行全面的理解及综合。通过对粒计算的研究试图达到以下目标:将隐式的结构显式化;将不明显的原理明显化;将特定领域的特殊原理普遍化;将下意识的行为变成有意识的行为。1.1.3 粒计算基本要素和理论构成(1) 粒计算的基本要素 14, 15