1、工程科技 锏成譬院 瓠)2014年第6期 基于信息熵的不完备模糊信息系统属性约简 汤乔杨思春 (安徽工业大学, 安徽马鞍山 243002) 摘 要:现实世界中广泛存在的信息不完备和模糊现象,限制了粗糙集理论在实际问题中的典型应用,目前在不完备 模糊领域中基于分辨矩阵的算法时间复杂度较高,无法满足大规模数据的快速属性约简。针对这个原因,将 完备信息系统中基于信息熵的快速属性约简算法推广到不完备模糊信息系统。通过相容关系及基于相容关 系的近似集,给出计算条件信息熵的方法;在此基础上,设计出基于信息熵的不完备模糊信息系统的属性约 筒算法。理论分析和实例结果表明了该算法的可行性和较好的时间优越性。 关
2、键词:不完备模糊信息系统;属性约简;相容关系;信息熵 中图分类号:TP18 文献标识码:A 文章编号:16720547(2014)060111-04 一、引 言 粗糙集理论(rough set theory,RST)由波兰科学 家Pawla 于1982年提出,是一种处理不精确、不相 容与不完全知识的数学工具,由于优点众多近年来在 多个领域得到了广泛应用。属性约简是粗集理论的一 个重要组成部分,许多研究已经定义具有清晰的目标 和完善的信息系统的属性约简并给出属性约简方法。 然而,在实际问题中,由于不确定因素或条件限制等 常出现系统中属性未知,同时由于噪音、人为主观性 等因素,又会使信息系统中的属
3、性出现模糊现象,因 此,研究不完备模糊信息系统的属性约简具有非常重 要的意义。 模糊集的粗糙集理论在1990年由Dubois等人 提出后得到了迅速发展。近几年来不完备和模糊信息 系统的属性约简成为研究热点之一,对于不完备信息 系统,有Kryszkiewic2提出的基于容差关系的粗糙 集扩展模型,Meng等人3提出的基于相容关系的快 速属性约简算法等等;对于模糊信息系统,有管涛等 提出的模糊目标信息系统的属性约简等。对于不 完备模糊信息系统,其属性约简方法的研究越来越重 要s ,然而单纯借鉴不完备或模糊信息系统的属性 约简方法并不能获得较好的效果,同时国内外现有研 究中基于分辨矩阵的启发式算法时
4、间复杂度较高,局 限性较大,无法满足大规模不完备且模糊数据的快速 属性约简。本文由文献叫得到启示,将基于信息熵的 快速属性约简算法推广到不完备模糊信息系统中。通 过相容关系及相容关系近似集的设计,利用条件信息 熵给出不完备模糊信息系统的属性约简算法。最后通 过一个算例,分析验证算法的可行性和高效性。 二、基本概念 定义1c l 设S=( ,C,D, ,F)是不完备模糊目标 信息系统,其中 幻, , 是论域,c=c , c 是条件属性集合,D= , , 是目标属性集 合, , 是信息函数集。对每个cC都有 厂芒F使得f: c, c为C的值域,且至少有一个属 性CC使得 c有空值,用六表示空值,且
5、对每个 dD都有 : D, ,其中 定义 6设不完备信息系统Js=(U,C,V,F)上有 二元关系: B)=f U I bB,6( )=6(Y)Vb( )=V b(Y)=六l, 其中B口c,则称 (口)为相容关系。 由定义可知,相容类中空值与其他任意属性值是 相等的,相容关系产生相容类 ( ),其分类UT(B)= ( ): U)构成论域 的覆盖,U UB( )= 。 定义 对于信息系统5=(U,C,V,F), U,B 口C在相容关系 (B)下 的上、下近似集分别为 f 1 (X)= U I ( )n =v ( )I l J 与 ( )=f U J ( ) X l_ X ( ) x 由定义显然得
6、出: ( ) ( )。同时,由定义可 知,上近似集表示的是可能属于x的对象集合,下近 似集表示的是肯定属于X的对象集合,在不完备模 糊信息系统中,由于信息是不完备的,存在空值的属 收稿Et期:20140819 作者简介:汤乔(1990一),女,安徽广德人,安徽工业大学计算机科学与技术学院硕士研究生,研究方向:粗糙集; 杨思春(1970一),男,安徽六安人,安徽工业大学计算机科学与技术学院副教授,硕士生导师,博士,研究方向:自然语言处 理,粗糙集。 白 陵呈院;兹2014年第6期 性,所以上近似集要求比完备的信息系统较宽松,而 下近似集要求更为严格。 三、不完备模糊信息系统的属性约简 不完备模糊
7、信息系统的属性约简,对于条件属性 不完备的问题,以相容类代替等价类划分条件属性; 对于目标是模糊的问题,本文引入基于相容关系的不 完备模糊近似集作为决策分类的标准,细分模糊概 念,以求得条件信息熵,在此基础上将传统的基于信 息熵的属性约简算法加以改进,具体做法如下。 定义4f 设 =(U,C,V,F;D,W)是不完备模糊 目标信息系统,对于 U,B口c,模糊集W U)在 不完备空间上基于相容关系 (日)的不完备模糊上、 下近似集分别为: (W)( )=m W(,)l YE死( ) 与 ( )( )=rainW(,)l Y ( ) 则 (W) = U 1 ( )( ) ),01(1 IUI),所
8、以B不是S 的一个分配约简。因此B是s的一个分配约简。 2)充分性 B是s的一个分配约简,即16B( )I=1&(耘)I=1(江 1,2, ),可得H(DIB)=日(DtC)=0。又因为任意 的属性集合B口B都不是分配协调集,即关于B六 至少有一个对象满足 呋(瓤)I1(1 IU),则日 (DIB)日(DIC)=0,故B相对于目标属性D独立。 因此B是Js相对于D的一个相对约简。证毕。 由定理3可知,如果信息系统在二元关系下是相 容的,相对决策属性约简与分配约简是等价的,同理 可证明相对约简与分布约简、最大分布约简也存在等 价关系。但是,在不相容的不完备模糊信息系统中这 种等价关系是不存在的。
9、同时,条件信息熵反应了知 识的分类能力强弱,于是设计以信息熵为基础的属性 约简算法。 四、基于信息熵的属性约简算法 (一)条件信息熵的算法 对于条件不完备且目标模糊的信息系统,利用相 容关系划分不完备的条件属性,利用基于相容关系的 不完备模糊近似集划分模糊的决策属性,给出计算条 件信息熵的方法。 算法1条件信息熵H(DiB)的算法 输入:信息系统S=(U,C,V,F;D,W),B口C,阀 值 输出:条件信息熵日(DIB) 步骤1根据定义2中的相容关系,求出相容类 划分UTc 步骤2由 ( )( )=rain (Y)ly1“8( ), (W) m UI ( )( )仅求出UR。 步骤3由UTC和
10、URD计算条件信息熵日(D ) H(DIB):一 蕊)P( ) )xlog2(P(),IX ) i=1 j 1 步骤4返回条件信息熵日(D ) 算法1中步骤1计算相容类的时间复杂度为D (1CIIUIz);步骤2的时间复杂度为0(IUI),步骤3计 算条件信息熵的时间复杂度为0(IUI),因此综合整 个计算,算法1的时间复杂度为D( )+D(M)+0(I CIIU1。)=D(ICIIUI o (二)基于信息熵的属性约简算法 由属性重要度及定理2可知,目标属性集D相 对于条件属性C的条件信息熵H(DIC)越大说明C 对于分类的影响越低,因此以分类能力不减弱,即日 (DIC)的大小为标准,按其大小
11、降序排列条件属性, 若H(DIC)= (DIC一c),则删除C,重复删除得到属 性约简。 算法2基于信息熵的属性约简算法 输入:不完备模糊信息系统S=(U,C,V,F;D,W) 输出:属性约简reduction 步骤1根据算法1计算 (DIC) 步骤2对每个c C,根据算法1计算 (DIC ), 并按其大小排序c中属性,顺序为e 记B=C 步骤3 i=1 to ICI do 步骤31根据算法1,求得H(DIB一e ); 步骤32 (H(DIC) (DIB“e ) then B=B一e; e for i 步骤4输出reduction=B 算法2中步骤1的时间复杂度,即算法l的时间 复杂度,为0(
12、ICIIU2I),步骤2计算条件信息熵及对 条件属性排序的时间复杂度为0(ICIIUI)+0(ICllog2(I C1),步骤3循环的时间复杂度为0(ICIIUI)所以综 合整个计算,算法2的时间复杂度为0(ICIIUI2)+D(I CIl )+D(ICllogz(ICI)+D(ICIIUI)=D(ICIIU1 ) 五、算例及分析 以下给出一个例子,来验证分析算法的可行性。 不完备模糊目标信息系统如表1所示。 表1 不完备模糊目标信息系统 U Xi x2 X3 】 K5 】(6 C1 1 2 2 2 2 C2 2 1 1 l 1 C3 0 1 0 1 0 0 C4 l O l l 1 d 02
13、 O5 07 O6 01 03 记条件属性集C=C ,C2 9c,C l,目标属性集D= d根据相容关系计算条件属性的相容类划分,得 【 J, 2, , j, 5, 6, -02 +01x2+07x,+06x4+09xs+03 6 计算目标属性的划分,D =To( ) = 枷, 其 中阀值a=05,则D2= J,扔, 6,则 H(DIC)一e(x )P( ) )xlog(P(DbY )= 一l13 铜陡譬院霉瓠2014年第6期 1 1og23O46 二 同理根据相容关系可计算每个条件属性的相容 类划分: 已 。f i J, 2,幻,x4, , 【 2I= J,9C2物, , , 6 【厂 dI
14、= ,X3, , ,262 己 = , j, , , 6, 2 由公式(1)计算目标属性D相对每个条件属性 的信息熵: 日(DIcJ)=O81, (DIc2)=081, 日(DIC,)=054,日(DIc )=081 根据条件熵的大小排列对应的条件属性为c, C2,C4 9 C3 记B=C,计算日(DIB一C )=O46=H(DIC),说明 C 对于分类没有意义,是不必要的属性,则删除条件 属性CJ,记日=c2,cJ,C4 H(DIB一C:)=O54(DIC),说明C2是必要的 属性,则不能删除属性c2 日(DIB一C )=046=H(DIC),则删除条件属性 C4,记曰=c2,c, (DB-
15、c,)=081日(DiG),则不能删除属性C3 所以, =c。,C,是该不完备模糊目标信息系统的 一个属性约简。 这里如果采用文献6和文献7的方法来计算 上例信息系统的属性约简,虽然所得的属性约简与本 文方法的结果相同,但是文献6和文献7方法的时 间复杂度均为0(ICI31UI2),远大于本文算法。这说明 本文基于信息熵的不完备模糊信息系统的属性约简 算法是可行的、高效的。 六、结语 本文以快速求解属性约简为目的,利用粗糙集和 模糊集相结合的理论研究了不完备模糊信息系统。分 别利用相容关系和相容关系的模糊近似集划分条件 属性和目标属性,给出计算条件信息熵的方法,在此 基础上设计出属性约简算法。
16、算法以信息熵为启发知 识,以条件属性集为初始约简集,删除不必要的属性 得到属性约简,该算法的时间复杂度为0(ICIIUI。)实 例证明了算法的可行性,通过与其他算法的比较表明 了本文算法较其他算法更为快速。 参考文献: 1PAWLAK zRough setsJInternational Journal of Parallel and Programming,1982,11(15):341-356 2Kryszkiewiez MRough set approach to incomplete iorma tion systemsJInformation Sciences,1998,(112):3
17、9-49 3MengZQ,ShiZZAfastapproachto attribute reductioninin complete decision systems with tolerance relation-based rough setsJInformation Sciences,2009,(179):2774-2791 4管涛,冯博琴模糊目标信息系统上的知识约简J软件 学报,2004,15(10):14701476 5曾雪兰,孙兴星,于莹莹基于全序优势关系的不完备模糊信息 系统及其属性约简J计算机应用,2012,32(5):1303-1306 6魏大宽不完备模糊决策信息系统粗糙集模
18、型与知识约简 研究D南京:南京理工大学,20062051 7梁继林,张强不完备模糊目标信息系统的Ot,B精度约筒 算法J运筹与管理,2011,20(1):26 8杨习贝,杨静宇,吴陈,等不完备模糊信息系统J中国 工程科学,2006。8(7):4752 9付昂,王国胤,胡军基于信息熵的不完备信息系统属性约 简算法J重庆邮电大学学报(自然科学版),2008,20(5): 587-590 10蒋云良,杨章显,刘勇不协调系统快速属性约简方法J 自动化学报。2012,38(3):382-388 11杨明决策表中基于条件信息熵的近似约筒J电子学 报,2007,35(11):21562160 12王国胤Ro
19、ugh集理论与知识获取M西安:西安交通大 学出版社。2001 13张文修,梁怡,吴伟志信息系统与知识发现M北京:科 学出版社。2003 Attribute Reduction Based on Information Entropy in Incomplete and Fuzzy Information System Tang Qiao,Yang Si-ehun (Anhui University ofTechnology,Maanshan Anhni 243002,China) Abstract:The incompleteness of information and fuzziness
20、of objective exist widely in real life that confines the application of clas sieal rough set theoryHowever,the algorithm based on discemable matrix has a higher time complexity in the field of incomplete and fuzzy at present,which cannot meet the needs of the rapid reduction in mass dataFor this rea
21、son,the rapid attribute reduction algorithm based on information entropy in complete information system is extended to the incomplete and fuzzy information systemThe method for computing conditional information entropy is proposed by tolerance relation and the approximation of itOn this basis,the at
22、tribute re duction algorithm of incomplete and fuzzy information system based on information entropy is designedThe theoretical analysis and ex- ample illustrate the feasibility of the algorithm and a better time for superiority Key words:incomplete and fuzzy information system;attribute reduction;tolerance relation;information entropy 一114