收藏 分享(赏)

一种基于一致性准则的属性约简算法.doc

上传人:dreamzhangning 文档编号:2232004 上传时间:2018-09-06 格式:DOC 页数:10 大小:705.50KB
下载 相关 举报
一种基于一致性准则的属性约简算法.doc_第1页
第1页 / 共10页
一种基于一致性准则的属性约简算法.doc_第2页
第2页 / 共10页
一种基于一致性准则的属性约简算法.doc_第3页
第3页 / 共10页
一种基于一致性准则的属性约简算法.doc_第4页
第4页 / 共10页
一种基于一致性准则的属性约简算法.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、计算机学报2010 年第 2 期, 2010,33(2)1一种基于一致性准则的属性约简算法杨明 (南京师范大学计算机科学与技术学院,南京 210097)摘要:粗糙集方法提供了一种新的处理不精确、不完全与不相容知识的数学工具. 属性约简是粗糙集理论的重要研究内容之一,已有的大多数属性约简算法主要针对离散值属性的约简,面向连续值属性的约简报道较少.为此,在引入新的对象一致性定义后,提出一种新的基于一致性准则的属性约简模型,该模型可针对离散或连续值属性进行有效的约简,是经典粗糙集属性约简模型的有效推广.依据新模型,提出了一种基于一致性准则的属性约简算法,该算法可有效进行连续值属性的约简,且通过错分对

2、象数的控制可有效增强属性约简的有效性.理论分析和实验表明提出的算法是有效可行的.关键词: 粗糙集;属性约简;一致性准则中图分类号:TP311 文献标识吗:AA novel algorithm for attribute reduction based on consistency criterionYANG Ming ( School of Computer Science and Technology, Nanjing Normal University,Nanjing 210046 )Abstract: Rough set theory is a new mathematical tool

3、 to deal with imprecise, incomplete and inconsistent data. Attribute reduction is one of important parts researched in rough set theory. Many existing algorithms mainly aim at the reduction of discrete-valued attributes, very little work has been done for attribute reduction aiming to continuous-val

4、ued attributes. Therefore, in this paper, after introducing a new definition on consistency of objects, we introduce a novel model based on consistency criterion for attribute reduction. The newly designed model is very suitable for the decision table with discrete-valued or continuous-valued attrib

5、utes, and an extension of the classical rough set model. Based on this model, a novel algorithm for attribute reduction based on consistency criterion is proposed. This algorithm can effectively obtain an attribute reduction for the decision table with continuous-valued attributes, and meanwhile the

6、 effectiveness of the attribute subset obtained by the new model can be enhanced by controlling the number of the misclassified or consistent objects. Theoretical analysis and experiments shows that the algorithm of this paper is efficient and feasible.Key words: rough set; attributes reduction; con

7、sistency criterion1 引言波兰数学家 Z.Pawlak 80 年代初提出的 Rough Set(RS,粗糙集 )是一种新的处理不精确、不完全与不相容知识的数学理论 1,近年来该理论在机器学习、数据挖掘及模式识别等多个领域得到了广泛的应用 2-4.在粗糙集理论中,属性约简是重要研究内容之一,也是知识获取的关键步骤.现有的属性约简大体上可分为基于差别矩阵及其改进的属性约简算法 5-9、基于正区域的属性约简算法 10-11、基于启发式的属性约简算法 12-13三种,但这些基于经典Rough 集模型的算法都是针对离散值属性,不适合连续值属性的约简.目前,在粗糙集理论框架下,进行连续值

8、属性约简是当前粗糙集研究的重要内容之一,受到研究者的极大关注,取得了一定的进展 5,14-17,但现有的模型主要侧重于理论模型,相应模型下的高效算法还报道不多,这是因为研究者重点放在经典粗糙集模型的改进,如文献16作者提出的覆盖粗糙集的拓扑方法. 从粒度计算角度来看,经典粗糙集除了需要连续属性值离散化外,采用等价关系对数据进行粒度划分不利于挖掘隐含在数据集的潜在知识,且人们认识自然也是从不同的粒度考虑的。于是,研究者提出基于覆盖的方法,这些方法是对 Rough 集模型的有效扩展 14-17.这些扩展的属性约简模型为我们提供了理论依据,但相应的高效属性约简算法还报道不多.为此,针对已提出的邻域覆

9、盖模型 14,17,文献18提出一种基于邻域的属性约简算法,以满足连续值属性的约简需要. 新模型诱导出的属性约简算法避免了连续值属性的离散化,增本课题得到国家自然科学基金(60873176)及江苏省自然科学基金(BK2008430)资助. 杨明,男,1964 年 11月生,博士,教授,博士生导师,主要研究方向为数据挖掘,机器学习,粗集理论与应用. Email:. 计算机学报2010 年第 2 期, 2010,33(2)2强了约简的有效性,为粗糙集模型下连续值属性的约简提高了一条新的途径. 但该算法须求解各对象的邻域,存在计算代价高的不足,且邻域参数选择缺乏理论上的合理解释.为此,本文引入基于一

10、致性准则的属性约简模型,该模型采用一致性对象保持策略来获取属性约简,不仅有效扩展了经典的粗糙集模型且可有效避免计算各对象的邻域,因而可有效提高属性约简的效率.基于新模型,本文提出一种基于一致性准则的属性约简算法,该算法无须计算各对象的邻域,且依据统计机器学习的间隔理论 19-20可对参数选择在理论上给出合理的解释.实验结果表明本文算法是有效可行的.2 粗糙集概念粗糙集理论的要点是将分类与知识联系在一起,并用等价类关系形式化表示分类.可理解为:知识是使用等价类 R 对离散空间 U 的划分,记为 U R=X1,X2,Xn,称为 Xi 为 U/R 的等价类.为节省篇幅,仅介绍和属性约简及核有关的一些

11、概念,关于粗糙集的其他一些概念可参见文献 2,3.决策表 DT 是一个四元组,其中,U 是一组对象的非空有限集合,称为论域;设有 n 个对象,则 U 可表示为: U=x1,x2,xn,Q 是属性集合, V= ,V a 为属性 a 的值域Qa集;f 是 UQ V 的映射.属性集合 Q 通常分为条件属性集 C 与决策属性集 D. 对 B Q,无差别关系 IND(B)定义为(x ,y)U 2 | aB, f(x,a)= f(y,a),通过 IND(B)将 U 划分为若干个类Ei(1i |U/IND(B)|).为便于叙述,设条件属性集合 C 中有 m 个属性:C 1,C2, C3,Cm,其值域为有限离

12、散集合,并用|.|表示集合的基 .不失一般性,假设仅有一个决策属性 D,其取值范围是 1,2,k.由 D 导出的等价类构成 U 的一个划分: , , ,其中, =xU: f (x,D)12ki=i,i=1,k. 定义 17. 在决策表 DT 中,对 P C,若两个不同的对象 x 和 y 在属性集 P 下具有相同的条件属性值而具有不同的分类,则称 x 和 y 关于 P 不一致的,否则称 x 和 y 关于 P 一致的.定义 2.设 X U 为论域的一个子集,P C,X 的关于 P 的下近似为 PX=xU: xp X;其中,x p 表示 U 中所有与 x 在关系 IND(P)下是等价的元素构成的集合

13、.定义 3.设 P C,对划分 , , 的 P-近似精度为 = .12k1|/|kii定义 4. 设 P C,若 = ,且不存在 R P,使得 = ,则称 P 为 C 的一个(相对于PRC决策属性 D 的)属性约简.称满足 = 的条件属性子集 P 为候选属性约简.所有 C 的属性PC约简的交称为 C 的核(简称核),记为 Core(C).定义 5.如果属性 aC 满足 ,则称属性 a 为不可缺少的(indispensable),否则,a称属性为冗余的.性质 1.属性 aCore(C)当且仅当 a 是不可缺少的属性.利用定义 4 和定义 5,研究者提出一些高效的属性约简算法(如:文献8,10,1

14、1,12).然而,这些基于经典 Rough 集模型的属性约简算法仅适用于离散值属性的约简. 因此,寻找可有效求解连续值属性的约简算法是本文的主要目标.3 基于一致性准则的属性约简模型为克服经典 Rough 集模型的不足,研究者对 Rough 集模型进行了扩展,使其适应连续值属性的约简,该方面的研究取得了一定的进展 14,17,18,但还有很多问题需要解决,如:避免求解各对象的邻域、寻找邻域参数值在理论上的合理解释等.为此,本节在引入对象的一致和 不一致概念后,提出基于一致性准则的属性约简模型并得到该模型下的若干性质.定义 6.设 DT 为一决策表, P C, 对两个对象 x, y U,f (x

15、,D) f(y,D), 若有 或(,)Pdxy,则称 x, y 在 P 上是 一致的;否则,x, y 在 P 上是 不一致的,其中(,)Pdismxy计算机学报2010 年第 2 期, 2010,33(2)30( 被称为一致性参数), 或 表示两个对象 x 与 y 之间的距离或不(,)Pdxy(,)Pismxy相似度(相离度),如: .,a|,|ffa定义 7. 设 DT 为一决策表, P C, 对 x U, 若 y U, f(x,D) f(y,D),有 或(,)Pd,则称 x 在 P 上是 一致对象;否则,x 在 P 上是 不一致对象(非 一(,)Pdismxy 致对象),其中, 0, 或

16、表示两个对象 x 与 y 之间的距离或不相似度(,)dy(,)Pism(相离度). 为方便计,属性子集 P (P C)上的所有 一致对象集和所有 不一致对象集分别简记为 U(P, )和 IU(P, ).依据上述 一致对象和 不一致对象的定义,得到决策表属性约简的新定义如下.定义 8. 设 DT为一决策表,设 P C, 0,若 U(P, )= U(C, )且 U(O, )U(P, )( O P),则称 P 是 C 的一个约简.对定义 8,我们分离散值属性和连续值属性两种情况进行分析. 一方面,当决策表 DT为离散值属性情况时,设 0,若令 U 中两个对象在属性子集 P 上的距离 定义为 (,)P

17、dxy(1)1, .(,)(,);(,)Pifastfxafydxyotherwi则令x P=y| =0可得与定义 2 一致的等价关系 IND(P),从而可得| U(C,0)|/|U| , , C|U(P,0)|/|U| .可见,在特定约束下,定义 8 与经典属性约简的定义 4 是一致的. 因此,定义 8 是经典 Rough 集属性约简模型的推广 .另一方面,对连续值属性而言,设 P C, 0,令 x(x U)关于 P 的 邻域为 NN(x,P,)=y| .对任意 X U,定义 X 关于 P 的下近似为 PX=xU| NN(x,P, ) X,(,)Pdx 有下列引理和定理成立.引理 1. 若

18、xi(xi U)在 P 上是 一致对象,若 f(xi,D)=s,则 NN(xi,P, ) .s证明: 反证法.若存在 y NN(xi,P, ),而 y ,则存在 j s, 使 y .于是,有sj成立,这与 xi 在 P 上是 一致对象矛盾.故 NN(xi,P, ) .证毕.(,)Pidxy s引理 2. 对给定的 ( 0), 设 P C,若 i j( ), 则 .1,ijkij证明:反证法. 若 ,必存在 x ( ),则 x ( ),这与ijijij 矛盾. 证毕.ij定理 1. 对给定的 ( 0), 设 P C,有 U(P, )= 成立.1kii证明:因 xU| NN(x,P, ) ,由引理

19、 1 和定义 7 可知 U(P, ) 成iPi1kii立.反之,因 中的每个对象都是 一致对象,故 U(P, )成立.证毕.ikii由定理 1 和引理 2 可知,有|U( P, )|= 成立. 可见,由定义 8 给出的属性约简模1|kii型可诱导出基于邻域的属性约简模型但无须计算各对象的邻域. 也就是说,本文提出的基于一致性准则的属性约简模型仅关心不同类对象之间的可分性而无须关心同类对象之间的差别,这与统计机器学习的间隔理论是一致的. 依据间隔理论,若增大不同类之间的间隔,则间隔之间的误分对象数将增加; 而依据本文基于一致性准则的属性约简模型,我们采用参数 来有效控制误分对象数并使得间隔尽可能

20、大. 为进一步分析参数 与误分对象数之间的 关系,我们给出下面的定理 2.计算机学报2010 年第 2 期, 2010,33(2)4定理 2. 给定的 ( 0, 0),对任意 B C,有 U(B, ) U(B, )成立.21121证明. 若 x(x U)在 B 上是 一致对象,则对任意 y U, f(x,D) f(y,D),有 ,从22(,dxy而有 ,因此有 U(B, ) U(B, )成立.证毕.1,)Bdy1从定理 2 可以看出,增大参数 意味着间隔的增大,同时意味着误分对象数可能增大.寻找增大间隔且保持误分对象数尽可能少的属性子集是我们的一个主要目标. 此外,如何依据基于一致性准则的属性

21、约简模型快速有效求解属性子集也是本文的另一个主要目标.4 基于一致性准则的属性约简4.1 基于一致性准则的属性约简算法为快速有效地得到基于一致性准则的属性约简,需剖析属性子集不断扩展情况下一致对象集的变化(即其单调性). 为此,引入下面的引理 3 和定理 3.引理 3. 给定的 ( 0), 对任意 A B, B C,设对 有 成立,若(,)Adxy(,)Bdxyx(x U)是关于 A 的 一致对象,则 x(x U)是关于 B 的 一致对象.事实上,常用的距离度量函数均满足引理 3 条件,如:当属性子集 A 上的距离函数定义为 p-范数(p=1,2, )时,引理 3 的条件成立,即若 有 (A,

22、Ady(,)xy(,)BxyB),简称距离度量 满足单调性. 依据引理 3 可得下面的定理 3.Bd定理 3. 给定的 ( 0),设距离度量 满足单调性,则对 B1 B2 Bn C,有BdU(B1, ) U(B2, ) U(Bn, ) U(C, )成立.证明. 由引理 3 可知,对任意 A B, B C,由 可得 ,即有 U(A, )(,)Axy(,)dxyU(B, )成立. 故结论成立. 证毕.依据定理 3, 若给定的距离度量满足单调性,则通过逐步扩展重要属性即可得到一个有效的属性约简.也就是说,对已得到的一致对象集 U(B, ),我们希望扩展这样的属性 a (CB)使得 U(B a, )的

23、一致对象数尽可能增多, 同时希望寻找可快速求解 U(B a, )的 策略.为此目的,我们引入下面的定义 9、定理 4 和定理 5.定义 9. 对给定的 ( 0), B C,定义区别矩阵 MB= 为: (,)ijx(2)1,)(,)(,)(,)0ijBijBijfxDfdxMx 当 且 时 , 其 他定理 4. 对给定的 ( 0)和属性子集 B(B C),其相应区别矩阵为 MB,若对xi U,f( xi,D)=s(1 s k),有 成立,则 xi 在 B 上是 一致对象;否|11,(,)|UkBijjj isMx则,x i 在 B 上是 不一致对象.证明. 由 知,x i 与任意不同类对象 xj

24、 U (f(xj,D) s)在 B 上是|11,(,)|kijjj isx 一致的,因而由定义 7 可得 xi 在 B 上是 一致对象. 否则,若 , |11,|kBijjj is则存在 xj U (f(xj,D) s)使得 =0,即 ,从而 xi 与 xj 在 B 上是 不一致(,)ij(,)Bijdx的,进而 xi 在 B 上是 不一致对象.证毕.为方便计,令 , . 可以看出, 越大,|1(,)()UBiBijjIMx(,)iBixUIMI()IM可区分的不同类对象数越多.定理 5. 对给定的 ( 0), 设距离度量 满足单调性,若已知属性子集 A(A C)和 B(Bd C)的区别矩阵分

25、别为 MA 和 MB,则属性子集 A B 的区别矩阵 为: B计算机学报2010 年第 2 期, 2010,33(2)5(3)1,(,)(,)(,)(,),0AijBijABij jAijMxxxfDfd 当 =或 1,当 且, 其 他证明. 对任意两个不同类的对象 xi 和 xj, 若 1 或 1,则因距离度,ijMx(,)Bijx量 满足单调性,可得 1;否则,对 1 且 1,计算Bd(,)ABij()AijijM,如果 ,那么 1 ;否则, 0. 证毕.(,)Aijx,ijdx(,)ABij(,)A依据定理 4,对给定的 ( 0)和属性子集 B(B C),可便捷快速求解 U(B, ).

26、而依据定理 5,可由两个属性子集上的区别矩阵 MA 和 MB 快速得到并集的区别矩阵 ,从而A由定理 4 可快速求解 U(A B, ). 进一步,结合定理 3,可得如下属性重要性的评价准则:Sig(a,B, )=| U(A a, )| | U(B, )| (4) 对(4)式,由定理 3 知 Sig(a,B, ) 0,若 Sig(a,B, )0,则表明属性 a 相对于 B 来说重要性为 0,因而是冗余的. Sig(a,B, )的值越大表明属性 a 越重要. 因此,若采用前向搜索方法,则每次希望选择重要性尽可能大的重要,直到剩余的所有属性的重要性都为 0. 依据上述分析,我们可得一种基于一致性准则

27、的属性约简算法,其主要思路为:(1) 对给定的决策表,初始化 ( 0)为一个合适的值,令约简集 B= ,选择一个满足单调性的距 离度量函数 或不相似性度量 dissim;(2)计算各属性 a 的区别矩阵;(3)若 ( C B)中存在使d Sig(a,B, )0 最大的属性 a,则增加该属性 a 到 B; 否则,若对 a (C B),Sig(a,B, )都为 0,则选择使得( )最大的属性 a 并增加到 B;(4) 重复(3)直到 U(B, ) =U(C,()BIM (BI)为止 . 依据上述一致性准则及相应的属性约简思路,基于一致性准则的属性约简算法的具体描述如下.算法 1. ARBCC(At

28、tribute Reduction Based on Consistency Criterion)输入:(1) DT=;(2) 一致性参数 ;输出:一个属性约简 R.主要步骤:步骤 1. a C:计算区别矩阵 Ma;步骤 2. ;步骤 3. 计算 U(C, );步骤 4. 对 a ( C R),计算 Sig(a,R, ); 步骤 5. 求使 Sig(a,R, )最大的属性 b= ; /由定理 4 和公式(4)()rgmx(,)CSiaR步骤 6. if Sig(b,R, )0, R=R b; 计算区别矩阵 ; goto 步骤 4; /由定理 5 可得R步骤 7. if U(R, ) U(C,

29、) then步骤 7.1 对 a ( C R),计算 ; ()aIM步骤 7.2 求使( )最大的属性 b= ;I ()rgax)()RbRCIMI步骤 7.3 if then )b(IR=R b;计算区别矩阵 ;goto 步骤 4; /由定理 5 可得R步骤 8. Return(R).在 ARBCC 算法中,步骤 5 可由定理 4 和公式(4) 快速得到;步骤 6-7 中的 可由Rb定理 5 快速求得,因而使得 ARBCC 算法可有效改进属性约简的效率.由间隔理论可知,增大间隔可引起误分对象的增加,而增大一致性参数 隐含着增大间隔,通过允许有一定数量的误分对象来合理增大间隔可有效增强分类器的

30、推广性. 我们知道一致对象数的减少意味着不一致对象的增加,而不一致对象的增加表明误分对象的增加,因而在 ARBCC 算法中通过控制不一致对象数可增强约简子集的有效性.因此,ARBCC 算法的有效性可从统计机器学习的间隔理论角度得到合理的解释,且参数 的值可通过误分计算机学报2010 年第 2 期, 2010,33(2)6对象数来进行有效的设置;同时,也可通过 来有效控制误分对象数. 此外,为降低区别矩阵的空间代价可采用文献6的压缩存储策略;限于篇幅,该部分工作将另文讨论 .为便于问题的讨论,本文的实验中采用的距离度量为 (即 -范数).(,)max|(,)(,)|BBdyffya4.2 与经典

31、 Rough 集及邻域模型比较与经典 Rough 集及邻域模型相比,本文提出的基于一致性准则的属性约简模型具有以下优点:(1)经典 Rough 集属性约简模型仅适用于离散值属性的约简,即连续属性须先离散化,而基于一致性准则的属性约简模型既适用离散值属性的约简,也可直接用于连续值属性的约简.基于一致性准则的属性约简模型是经典 Rough 集属性约简模型的有效扩展.(2)基于邻域的属性约简模型须计算各对象的邻域,而基于一致性准则的属性约简模型无须计算各对象的邻域,仅需计算不同类对象之间的相似性而不需要计算同类对象之间的相似性;同时,本文模型有效利用已得属性子集上的区别矩阵可快速求得两个属性子集的并

32、集上的区别矩阵,因而使得由新模型诱导出的属性约简算法更加简洁快速.从时间复杂度角度来看,对一个具有 N 个对象 k 类的决策表,其中各类对象数分别为N1,N2,Nk( ),基于邻域的属性约简模型计算各对象邻域的时间复杂度至少为 O(N2);1iN而基于一致性准则的属性约简模型计算不同类对象之间相似性的时间复杂度至多为 O(),因而可有效提高计算效率 .1,ijijkj(3)在基于一致性准则的属性约简模型中,参数 的取值可从统计机器学习的间隔理论角度进行合理的解释,并可通过误分对象数加以合理控制,因而有利于增强分类器的推广性能.实例 1. 假定数据集 dataset 是一个人工合成数据集,它是一

33、个 2 维 2 类的数据集(第 1维属性记为 a,第 2 维属性记为 b),其中第 1 类和第 2 类各有 60 个样本;第 1 类样本由高斯分布随机生成,其均向量为3,1、协方差阵为 ;第 2 类样本由均向量为0.5.13,2.5、协方差阵为 的高斯分布随机生成,该数据集见图 1 所示.0.15.2图 1. 人工数据集为了有效解释参数 的作用,本文给出一个简单的例子加以说明(见实例 1). 采用经典 Rough 集属性约简算法均得到属性约简 a, b.然而,若不考虑个别对象的误分,则属性b 可将图 1 数据集中的两类对象有效区分开来,如若允许图 1 中两个虚线框中的 4 个对象误分,则可得属

34、性约简b;换句话说,若通过增大参数 使得图 1 中两个虚线框中的 4 个对象为不一致对象,则有效增大两类之间的“间隔”,且可得到属性约简b.计算机学报2010 年第 2 期, 2010,33(2)7当然,在实际应用中,如何有效选择参数 是一个值得研究的问题. 本文的准则是希望找到“间隔”大且不一致对象数相对小情况下的参数 ,该准则符合我们的直觉. 为了验证该准则的有效性,第 5 节将给出相关的实验结果.5 实验结果5.1 数据集描述为进一步验证算法的性能,本文采用网上(http:/www.ics.uci.edu)提供的 UCI 数据集,共有 11 个数据集,各数据集的描述见表 1.表 1. 实

35、验中所采用的数据集描述序号 数据集名称 对象数 类别数 条件属性数1 Pima Indians Diabetes (Diabete) 768 2 82 Glass 214 6 93 Heart_disease(Hd) 270 2 134 Ionosphere 351 2 345 Iris 150 3 46 Vehicle 846 4 187 WBCD 683 2 98 WDBC 569 2 309 WPBC 194 2 3210 Wine recognition data (Wine) 178 3 1311 Waveform domain data (Wave) 5000 3 215.2 实验

36、分析为方便计,将文献13提出的属性约简算法简记为 Wang 算法,将文献18提出的基于邻域的属性约简算法简记为 Hu 算法. 我们对 ARBCC 算法、 Wang 算法及 Hu 算法进行了性能比较. 对 ARBCC 算法和 Wang 算法,侧重比较他们的分类精度;而对 ARBCC 算法和Hu 算法,主要比较他们的效率 . 为便于讨论,参数 的取值从集合0.25, 0.22, 0.2,0.15, 0.13,0.11,0.1,0.08,0.05,0.02,0中选择, 并采用“间隔”大且不一致对象数相对小的属性子集选择准则. 为测试ARBCC和Wang算法的性能,用表 1中的前10个数据集来测试由属

37、性子集诱导出的分类器精度. 在实验中,我们采用10-fold交叉验证的平均分类精度来评价属性子集的优劣, 并分别用3NN、C4.5、RBF网络(简记为RBFNN )及KSVM 四个不同的分类器来评价分类精度. 这里,KSVM采用核化的C -SVM,其核函数采用RBF核;分类器3NN 、C4.5、RBFNN 采用Weka(Version 3-5) 软件的缺省参数 . ARBCC和Wang的分类性能测试的实验结果如表 2所示.为测试 ARBCC 算法和 Hu 算法的效率,我们随机从 Wave 数据集中抽取500,1000,1500,2000,3000 个对象构成一组实验数据,采用 Matlab7.

38、0.4 实现这两种算法且比较参数 取 0.15 和 0.25 两种情况下的算法执行效率, 实验结果如图 1 所示.图 1. 算法 ARBCC 和 Hu 的执行时间计算机学报2010 年第 2 期, 2010,33(2)8由图 1 可以看出,与 Hu 算法比, ARBCC 算法有效改进了属性约简的效率,这与 4.2节的理论分析是一致的. 而图 2 和表 2 的实验结果则为参数 的有效选择提供了一条新的途径,与 Hu 算法比,本文模型的参数值 易于选择,具体说明如下:由图 2(a)可见,随着参数 的逐渐减小,不一致对象数也逐渐减少,即“间隔”减小意味着误分对象减少,而“间隔”增大意味着误分对象逐步

39、增多. 因此,我们希望在误分对象数较少的情况尽可能使“间隔”大. 而由图 2(b)可见,当随着参数 取值为 0.085 左右时,各分类器可取得比较满意的分类精度,而随着参数 取值的不断减小,各分类器的精度是不断降低的,即对数据集 Vehicle, 应取0.095,0.085之间的某个值. 该实验结果表明,在实际应用中,若当参数值 较小时不一致对象数仍不为 0,则通过允许有一定数量不一致对象来增大参数 .表 2 分类性能比较3NN C4.5 RBFNN KSVMdataset Algorithms forattribute reductionNumber of attributes Accura

40、cy Accuracy Accuracy AccuracyWang - 73.84.8 72.45.1 73.93.9 80.74.7DiabeteARBCC(0.05) 6 72.14.0 75.63.6 73.74.8 80.53.8- 69.08.0 69.74.8 62.28.1 79.43.7Wang 7 69.412.0 678.8 68.210.9 78.86.8GlassARBCC(0.02) 7 72.08.0 72.86.0 71.910.3 82.37.4- 78.898.8 77.27.9 83.07.2 87.87.6Wang 11 76.711.4 79.37.4

41、85.97.7 89.66.8HdARBCC(0.1) 8 81.37.2 80.46.6 81.57.4 87.89.7- 85.57.3 90.605.6 92.03.3 98.33.6Wang 3 84.97.1 85.24.8 79.28.0 91.55.4IonosphereARBCC(0.11) 10 92.25.8 92.32.6 92.62.9 97.42.4Wang - 94.76.5 94.05.5 96.06.8 98.74.3Iris ARBCC(0.11) 2 96.05.3 94.05.5 96.05.3 98.72.7- 71.24.8 72.23.7 64.86

42、.1 88.73.6Wang 15 69.65.3 70.85.6 65.06.3 86.83.3VehicleARBCC(0.08) 11 70.95.7 72.23.3 65.46.7 85.13.7Wang - 96.22.6 95.603.4 96.12.5 98.22.0WBCDARBCC(0.22) 7 96.62.4 96.32.6 96.21.7 98.21.9- 97.12.4 92.63.0 93.52.2 98.91.6Wang 8 93.02.3 91.62.6 93.82.5 97.52.1WDBCARBCC(0.08) 11 96.52.0 94.02.5 94.9

43、3.6 99.11.6- 71.56.7 70.813.7 75.87.1 84.06.5Wang 2 67.66.0 76.110 75.510 82.47.3WPBCARBCC(0.1) 8 71.012.5 76.110 78.87.3 82.48.0- 95.92.7 906.5 97.13.9 99.41.8Wang 7 88.66.8 89.26.2 94.35.3 97.63.9WineARBCC(0.15) 7 97.62.9 92.9.15.2 97.62.9 99.41.8注:“-”表示条件属性集的基; 黑色加粗表示较高设别率;ARBCC(0.15)表示当参数 取 0.15

44、 时得到的属性约简. 这里的分类精度 Accuracy 用 10-fold 交叉验证的平均分类精度和标准差来表示.计算机学报2010 年第 2 期, 2010,33(2)9图 2. (a)不一致对象数随参数 的变化;(b) 分类精度随参数 的变化由表 2(表 2 中参数 的值是在不一致对象数不超过 8 情况下得到的)可见,多数情况下,由 ARBCC 和 Wang 算法诱导出的分类器性能优于由全部属性集得到的分类器性能. 进一步,对 Glass, Iris, Ionosphere, WBCD,WDBC 和 Wine 数据集而言,由 ARBCC 算法诱导出的分类器性能一致优于 Wang 算法诱导出

45、的分类器性能 ; 对 WPBC 数据集而言,由ARBCC 算法诱导出的分类器性能与 Wang 算法诱导出的分类器性能是可以比较的;对 Hd和 Vehicle 而言,由 ARBCC 算法诱导出的分类器和 Wang 算法诱导出的分类器互有胜负;对 Diabete 而言,Wang 算法得到的属性子集是整个属性集,因而由 ARBCC 算法诱导出的分类器性能略优于 Wang 算法诱导出的分类器性能. 可见,总体上 ARBCC 算法诱导出的分类器具有较优的分类性能. 而某些情况下 ARBCC 算法诱导出的分类器性能略低,这可能是因为这里参数 不是最优化得到的参数引起的.综上分析,通过参数 的选择,ARBC

46、C 算法可有效降低约简属性集的规模,改进分类器的性能,因此是经典 Rough 集模型的拓展和改进. 当然,在实际应用中,如何更加有效选择精度参数 ,降低区别矩阵的存储代价将是我们的未来研究内容之一.6 结 语在引入新的一致性定义后,提出一种新的基于一致性准则的属性约简模型,该模型可针对离散或连续值属性进行有效的约简,是经典粗糙集属性约简模型的有效推广.依据新模型,提出了一种基于一致性准则的属性约简算法,该算法可有效进行连续值属性的约简,且通过错分对象数的控制可有效增强属性约简的有效性.理论分析和实验结果表明提出的算法是有效可行的.参考文献1 Pawlak Z. Rough setsJ. Int

47、ernational Journal of Information and Computer Science, 1982, 11(5):341-356.2 Pawlak Z. Rough set approach to multi-attribute decision analysisJ.European Journal of Operational Research, 1994,72(3):443-459.3 Liu Qing. Rough sets and rough reasoningM. Beijing: Science Press,2001(in Chinese)(刘清.Rough 集及 Rough 推理M.北京:科学出版社,2001.)4 Swiniarski R W, Skowron A. Rough set methods in feature selection and recognitionJ. Pattern Recognition Letters, 2003,24:833-849.5 Jensen R, Shen Q. Semantics-Preserving Dimens

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报