1、复合决策粗糙建模与计算方法研究 汪琳娜 杨新 杨习贝 四川工商学院电子信息工程学院 Department of Computer Science, University of Regina 西南交通大学信息科学与技术学院 江苏科技大学计算机科学与工程学院 摘 要: 经典决策粗糙集缺乏处理多种类型共存的复杂数据的能力。为解决该问题, 首先通过融合的技术手段提出了量化复合关系, 并验证了量化复合关系是交-复合关系和并-复合关系的推广形式, 然后在此基础上构建了相应的决策粗糙集模型。最后借助矩阵运算直观地描述了复合关系的融合过程, 并给出了求解决策粗糙近似集的新方法。在 UCI 数据集上的实验结果表
2、明该模型和方法有效且稳定。关键词: 复杂数据; 决策粗糙集; 量化复合关系; 矩阵运算; 作者简介:汪琳娜 (1986) , 女, 硕士, 讲师, 研究领域为智能信息处理和三支决策等;作者简介:杨新 (1981) , 通讯作者, 男, 在读博士, 副教授, 研究领域为智能信息处理、数据挖掘等;E-mail:;作者简介:杨习贝 (1980) , 男, 博士后, 副教授, 研究领域为粗糙集理论、粒计算与机器学习。基金:国家自然科学基金项目 (No.61572242, No.61573292) Research on composite decision-theoretic rough modeli
3、ng and computational methodWANG Linna YANG Xin YANG Xibei School of Electronic and Information Engineering, Sichuan Technology and Business University; School of Information Science and Technology, Southwest Jiaotong University; School of Computer Science and Engineering, Jiangsu University of Scien
4、ce and Technology; Abstract: Traditional decision-theoretic rough set lacks the ability to deal with various types of complexity data. To tackle this issue, by considering fusion technology, this paper firstly proposed the quantitative composite relation, and further verified that it is the populari
5、zation form of intersection-composite relation and union-composite relation. Subsequently, the corresponding decision-theoretic rough set model was presented. Finally, the fusion process with composite relation was intuitively described by matrix operations, and a novel method was introduced to comp
6、ute the decision-theoretic rough approximations. The experimental results on UCI datasets show that the model and approach are efficient and stabilized.Keyword: complexity data; decision-theoretic rough set; quantitative composite relation; matrix operations; 1 引言粗糙集理论是一种处理不确定性信息的粒计算模型之一, 最早是由波兰数学家P
7、awlak1在集合论的基础上提出。该理论可以在缺少任何先验信息的基础上对数据进行有效处理, 目前已广泛应用于医疗诊断、模式识别和人工智能等领域2-5。在大数据时代数据类型通常呈现出多样化等特点。经典粗糙集通过二元等价关系对全体论域进行划分, 运用严格的代数包含运算定义上近似集和下近似集, 对不确定的知识进行刻画。但是在实际信息系统中, 数据类型包含名义型、数值型、集值型、区间型和缺失型等, 经典粗糙集不能有效处理以上类型的数据。为解决此问题, 各种不同的二元关系被相继提出, 如邻域关系6、偏序关系7、相容关系8、容差关系9等。针对各种单一类型数据, 我们可以分别运用以上关系在粗糙集中对对象进行
8、粒化处理, 但是如何在粗糙集中同时对多种类型数据进行融合处理仍然是当前研究难点之一。目前有部分学者针对此问题开展了相关研究。Zhang 等10通过严格的交运算针对等价关系、邻域关系、容差关系和特征关系定义了复合二元关系, 进而提出了一种能够融合名义型、数值型、集值型和缺失型四种数据类型的复合粗糙集模型, 给出了计算上下近似集的矩阵计算方法。Qian 等11在多粒度空间下给出了融合多种关系的多粒度粗糙集模型, 并进一步提出了悲观和乐观的多粒度决策粗糙集模型。Chen 等12在概率粗糙集模型下给出了广义的复合概率粗糙集模型, 并且研究了复杂数据下的最大分布约简问题。通过定义复合优势关系, 罗川等1
9、3建立了基于复合有序二元关系的粗糙集模型。从以上研究可以发现, 在粗糙集视角下处理复杂数据的关键是定义能够合理融合多种数据类型的复合关系。但是以上关于复杂数据融合的研究都没有考虑代价敏感的决策粗糙集方法。Yao 等14提出的决策粗糙集 (decision-theoretic rough set, DTRS) 通过引入贝叶斯决策理论, 在考虑期望决策风险代价最小的情况下给出了计算阈值的合理数学公式表达, 为代价敏感的粗糙集决策提供了切实可行的方法。近年来, 决策粗糙集以及由其导出的三支决策理论已经广泛地用来解决邮件过滤、石油投资、图像处理等问题15-20。本文以决策粗糙集模型为研究对象, 采用多
10、个二元关系处理各种类型的数据, 然后在矩阵视角下探讨了不同二元关系的融合机制, 并提出了基于量化复合关系的决策粗糙集模型及其矩阵计算方法, 最后通过 UCI 数据集验证和分析了模型的有效性和稳定性。2 决策粗糙集定义 11一个具有单一数据类型的信息系统 (简称为单类信息系统) 可以定义为一个四元组 S= (U, AT, V, f) :U 是非空有限的对象集合;AT 是非空有限的属性集合, AAT, A 中每个属性的类型相同; 是值域, V a是对象在属性 a 下的所有可能取值;f:UAV 是一个映射函数, 使得aAT, xU, f (x, a) V a。定义 21设 S 是一个单类信息系统。A
11、AT, E A是论域 U 上由 A 诱导出的一个等价关系, 定义为根据 (1) 式, 论域 U 在等价关系 EA下被分成若干等价类, 记为 , 其中 称为包含对象 x 的等价类。XU, 经典粗糙集的上下近似集可以定义为:针对经典粗糙集模型缺乏容错能力的问题, 引入概率近似空间可以得到概率粗糙集模型。定义 314设 S 是一个单类信息系统。给定一对阈值对 (, ) , 其中01, 则概率粗糙集模型的上下近似集可以定义为:其中 称为粗糙隶属函数, 也称为条件概率, |表示集合的势。决策粗糙集是一种基于贝叶斯决策风险的概率粗糙集, 能利用代价矩阵给出构建概率模型所需的阈值。同时根据三支决策的理论和概
12、念, 决策粗糙集的上下近似集也可以表示为具有决策语义的三个互不相交的区域, 即接受决策区域 (正域) , 延迟决策区域 (边界域) 和拒绝决策区域 (负域) , 分别表示为:下面以二分类问题为例。在单类信息系统 S 中, 可以用具有 2 个状态的集合=X, X和 3 个行动的集合 A=a P, aB, aN来描述贝叶斯决策过程。其中状态集中 X 和X 互补, 行动集中 aP, aB, aN分别表示将对象分类到正域、边界域和负域的决策动作。给定一个损失函数矩阵如下:其中 PP, BP, NP分别表示当状态为 X 时采取行动 aP, aB, aN下的损失, PN, BN, NN分别表示当状态为X
13、时采取行动 aP, aB, aN下的损失。因此可以给出分别采取行动 aP, aB, aN下的期望损失为:根据贝叶斯决策准则, 我们会选择期望损失最小的行动集作为最佳的行动方案。通过推导 (详细过程可参见文献14) , 可以得到关于阈值对 (, ) 的具体计算公式如下:3 复合决策粗糙集模型经典决策粗糙集模型只能运用等价关系处理名义型数据的分类和决策问题。在本节中, 讨论了多种类型共存的复杂数据的三种融合策略, 并提出了一种基于量化复合关系的决策粗糙集扩展模型, 探讨针对复杂数据的代价敏感决策问题。定义 410一个具有多种数据类型的信息系统 (简称为复合信息系统) 可以定义为一个四元组 CS=
14、(U, AT, V, f) :U 是非空有限的对象集合;AT是非空有限的属性集合, 是具有相同数据类型的属性合集, k 是数据类型的数量, 其中 是值域, V a是对象在属性 a 下的所有可能取值;f:UAV 是一个映射函数, 使得aAT, xU, f (x, a) V a。例 1 表 1 给出了一个复合信息系统 CS 示例, 其中论域 U=x1, x2, x3, x4, x5, x6, 属性 , 其中 AT前四个属性子集的数据类型分别为名义型、数值型、区间型、集值型, 第五个属性子集为名义型的决策属性。表 1 复合信息系统 下载原表 定义 510设 R 是一个二元关系, 则可以给出 U 上关
15、于 R 的关系矩阵 MR= (mij) nn, 其中定义 610给定一个复合信息系统 CS。假设 , 基于二元关系的交运算得到的复合关系定义为:其中 表示同一数据类型在属性集 Ci上的二元关系, 上式也可简记为:此时 U 上关于复合关系 的关系矩阵为其中以上复合关系是多个二元关系的交运算, 可以称 为交-复合二元关系。这种交-复合二元关系融合方法过于严格, 下面给出并-复合二元关系的定义。定义 7 给定一个复合信息系统 CS。假设 , 基于二元关系的并运算得到的复合关系定义为:其中 表示同一数据类型在属性集 Ci上的二元关系, 上式也可简记为:此时 U 上关于并-复合关系 CRC的关系矩阵其中
16、在复合信息系统下, 以上给出了关于多个二元关系的交-复合关系和并-复合关系 CRC。交-复合关系 比较严格, 要求两个对象要满足每一个二元关系, 容易造成粒化过细;并-复合关系 CRC相对宽松, 只要求两个对象满足其中任一个二元关系, 但容易造成粒化过粗。因此为了得到可以量化的复合关系, 我们给出以下定义:定义 8 给定一个复合信息系统 CS。假设 。设 01, 则基于阈值 的量化复合关系 QCRC可以定义为:其中 k 表示二元关系的数量 (每一个数据类型对应一个二元关系) , 表示两个对象间满足二元关系的总数量。此时关于 QCRC的复合关系矩阵MQRCC= (mij) nn的元素可以表示为:
17、由上式可知, 量化复合关系满足自反性, 不一定满足对称性和传递性。定理 1 当 时, 量化复合关系 QCRC退化为并-复合关系;时, 量化复合关系 QCRC退化为交-复合关系由定理 1 可知, 量化复合关系是并-复合关系和交-复合关系的推广形式。下面基于量化复合关系给出复合决策粗糙集的定义。定义 9 给定一个复合信息系统 CS, 则复合决策粗糙集的上下近似集可以定义为:其中 是基于复合关系类 QCRC (x) 的条件概率。同样我们可以得到关于量化复合关系的三支决策区域为:设 Pr (X|QCRC (x) ) =p, 则 Pr (X|QCRC (x) ) =1-p。根据贝叶斯风险决策规则, 在量
18、化复合决策粗糙集下, 我们可以得到三个区域的风险决策代价分别为正域决策风险:p PP+ (1-p) PN边界域决策风险:p BP+ (1-p) BN负域决策风险:p NP+ (1-p) NN下面给出复合决策粗糙集的一些性质。定理 2 给定一个复合信息系统 CS。假设 , 则有以下性质:4 近似集的矩阵计算通过对多个二元关系的量化融合处理, 可以利用阈值 有效控制数据融合的效果, 并运用复合决策粗糙集对复合信息系统进行代价敏感分类和决策。下面采用布尔矩阵分析二元关系融合处理的过程, 并给出了一种新的复合决策粗糙近似集的矩阵直观计算方法。定义 1010设 是一个非空有限的对象集合, X 是 U 的
19、任意一个非空子集, 即 XU, 则 X 可以表示为布尔矩阵如下:其中 V (X) 为 X 在 U 上的特征矩阵, T 为矩阵的转置运算。例 2 在表 1 中, 给定一个复合信息系统 CS, 其中论域 U=x1, x2, x3, x4, x5, x6。假设 X=x1, x2, x4, x6, 则 X 在 U 上的特征矩阵为 V (x) =1, 1, 0, 1, 0, 1。表 1 中存在名义型、数值型、区间型、集值型数据, 因此我们可以分别运用等价关系、邻域关系、偏序关系、相容关系计算不同类型属性集合下的二元关系。定义 11 给定一个复合信息系统 CS, 假设 , 则有(1) 如果属性集 Ci是名
20、义型数据, 则采用定义 2 中的等价关系计算关系矩阵。(2) 如果属性集 Ci是数值型数据, 则采用欧氏距离空间下的邻域关系6计算关系矩阵, 可以表达为(3) 如果属性集 Ci是区间型数据, 则采用偏序关系7计算关系矩阵, 可以表达为(4) 如果属性集 Ci是集值型数据, 则采用相容关系8计算关系矩阵, 可以表达为例 3 假设邻域关系中的 =0.1, 根据以上四种二元关系, 可以对表 1 中的数据分别计算得到各自的关系矩阵如下:由以上四个关系矩阵可以得到交-复合关系 CRC下的复合关系矩阵为相似的, 并-复合关系 CRC下的复合关系矩阵为假设量化阈值 =0.7, 则量化复合关系 QCRC下的复合关系矩阵为文献10和13中均是运用特征矩阵、关系矩阵及其诱导矩阵三者的数量积运算和截矩阵计算粗糙集的上下近似集。与以上文献不同, 下面给出一个更加简洁的矩阵计算近似集的方法。根据文献21, 我们首先给出复合决策粗糙集的一个等价定义。定义 12 给定一个复合信息系统 CS, 则复合决策粗糙集的上下近似集还可以定义为:其中 时, 我们定义 等于无穷大。定义 13 假设一个矩阵 , 则两个截矩阵可以表示为根据以上定义的特征矩阵、复合关系矩阵和截矩阵, 下面在不计算诱导矩阵的前提下给出更加直观的矩阵计算复合决策粗糙近似集的方法。