1、第9章 模糊集,数据挖掘与知识发现(第2版)吉林大学计算机科学与技术学院 李雄飞,数据挖掘与知识发现(第2版),(47-2),粗糙集,模糊集用于描述和处理没有明确外延的模糊概念。本章介绍模糊集基本理论和方法,具体包括: 模糊集定义与隶属函数 模糊集的基本运算 分解定理与扩展原理 模糊集的特征 模糊集的度量 模糊关系 模糊聚类分析 模糊集与粗糙集比较,数据挖掘与知识发现(第2版),(47-3),引言,模糊数学是研究和处理模糊现象的数学。有一类概念没有明确外延,称为模糊概念。模糊概念无法用康托集合论来刻画。 1965年,L.A.Zadeh提出模糊集合论用隶属程度来描述差异的中介过渡,是一种用精确的
2、数学语言描述模糊性问题的方法。 著名的复杂性与精确性“不相容原理”当系统的复杂性不断增长时,对系统特性精确而有效描述的能力将相应降低,直至达到一个阈值,一旦超过该阈值,精确性和有效性将变成互相排斥的两个特性,即,系统复杂程度越高,人们对它的认识越模糊。不相容原理深刻地揭示了模糊数学产生与发展的必然性。 模糊集理论已经成为数据挖掘研究的有效工具。,数据挖掘与知识发现(第2版),(47-4),模糊集定义与隶属函数,定义9.1 论域U上的一个模糊集合A通过一个隶属函数刻画:A (x) : U0, 1,xU (9.2)对任意xU,都指定一个数A(x)0, 1与之对应,称为x对A的隶属度(Degree
3、Of Membership),A 称为A的隶属函数(Membership Function)。 若A (x)=0,则x完全不属于A; 若A (x) =1,则x完全属于A; 若0A (x)1,则x属于A的隶属度为A (x)。 当A的值域为0, 1时,A退化为经典集合的特征函数,而A退化为经典集合,即经典集合是模糊集合的特例。 模糊性的根源在于客观事物之间的差异存在中间过渡,存在亦此亦彼的现象。 隶属函数是模糊集理论的基本概念,它以0、1之间的一个数反映一个元素隶属于集合的程度,进而描述模糊现象。 隶属函数的确定过程本质上是客观的,但又允许有一定的人为技巧。,数据挖掘与知识发现(第2版),(47-
4、5),模糊集定义与隶属函数,常用的隶属函数。 1. 三角形隶属函数2. S隶属函数3. 正态隶属函数,数据挖掘与知识发现(第2版),(47-6),模糊集定义与隶属函数,4. 梯形隶属函数模糊集表示方法(扎德表示法): 1. 当U为有限个元素时,称其为有限论域,设U=x1, x2, xn,U上的模糊集A可以表示为:(9.7) 表示每个元素xi的隶属度为A (xi),而不是通常意义下的分式求和。 2. 当U是连续论域时,这里的积分号不是通常的积分含义,该式表示对每个x都指定了相应的隶属度A (x)。,数据挖掘与知识发现(第2版),(47-7),模糊集定义与隶属函数,例9.1 以年龄为论域,取U=0
5、, 200,为定义“年老”O与“年轻”Y这两个模糊集,Zadeh给出的隶属函数如下(如图9.1所示):,数据挖掘与知识发现(第2版),(47-8),模糊集定义与隶属函数,例9.2 若模糊集A的扎德记法形式为序偶形式表示A,A=(a, 0.3), (b, 0.7), (c, 1), (d, 0), (e, 0.25) 向量形式表示A,A=(0.3, 0.7, 1, 0, 0.25),数据挖掘与知识发现(第2版),(47-9),模糊集的基本运算,模糊集间的运算实际上是逐点对隶属度作相应的运算。 定义9.2 设A,B是同一论域U上的两个模糊集合,其隶属函数分别为A (x)和B (x),A与B的并集、
6、交集分别记为AB和AB。A的补集记为 。它们的隶属函数分别为:(9.10)(9.11)(9.12) 其中,max和表示最大运算,min和表示最小运算。,数据挖掘与知识发现(第2版),(47-10),模糊集的基本运算,定义9.3 设A,B是同一论域U上的两个模糊集, 若xU,都有A (x)B (x),则称A包含B,记作AB; 若xU,都有A (x) =B (x),则称A等于B,记作A=B; 显然,A=B当且仅当AB且BA。 例9.3 设论域U=x1, x2, , x5,U上的模糊集A,B分别为:A=0.9/x1 +0.7/x2 +1/x3 +0.2/x4 +0.3/x5B=0.6/x1 +0.8
7、/x2 +0.5/x3 +0.5/x4 +0/x5 求AB,AB, 及 。,数据挖掘与知识发现(第2版),(47-11),模糊集的基本运算,论域U上的模糊集A、B、C,空集用表示,模糊集的并、交、补运算具有如下性质:模糊集理论中互补律不成立。表明模糊集中的元素不再具有“非此即彼”或“非真即伪”的分明性,这也是模糊集的本质特征。,数据挖掘与知识发现(第2版),(47-12),模糊集的基本运算,定义9.4 映射T : 0,120, 1称为三角模,如果满足条件: (1) T(0, 0)=0,T(1, 1)=1 (2) ac,bd T (a, b)T (c, d) (3) T (a, b)T (b,
8、a) (4) T (T (a, b), c)=T (a, T (b, c) 若三角模满足T(a, 1)a (a0, 1),则称之为T模。 若三角模满足T(0, a)a (a0, 1),则称之为S模。 例如,以下三角模是T模: 以下三角模是S模:,数据挖掘与知识发现(第2版),(47-13),分解定理与扩展定理,定义9.5 设A为论域U上的模糊集,0, 1,令A=x| A (x),称A 为A的截集。令 =xU |A (x),称 为A的强截集。 显然,A和 都是经典集合。 例9.4 令U=x1, x2, x3, x4, x5,A=0.9/x1+0.7/x2+1/x3+0.2/x4+0.3/x5 ,
9、求A0.3,A0.5,A0.7,A1,A0。 解 A0.3=x1, x2, x3, x5,A0.5=x1, x2, x3,A0.7=x1, x2, x3,A1=x3,A0=U。 定理9.1 (AB)=AB,(AB)=A B 证明 x(AB) (AB) (x) A (x) B (x) A (x)或B (x) xA 或xB x(A B)类似可证明第二式。 注意 。,数据挖掘与知识发现(第2版),(47-14),分解定理与扩展定理,定理9.2 若,则A A。 定义9.6 对U上的模糊集合A,称A1为A的核,记作core (A),即:core (A)=xU | A (x)=1 (9.13) 称Supp
10、A=x| A (x)0为A的支集,称SuppAA1为A的边界。 核core(A)由完全隶属于A的成员组成。若core(A)不空,则称A为正规模糊集;否则,称为非正规模糊集。 随着阈值从1下降,逐渐趋于0(不到达0),A从A的核core(A)扩展为A的支集SuppA。因此,经典集合族A|01象征着一个具有游移边界的集合。如下图。,数据挖掘与知识发现(第2版),(47-15),分解定理与扩展定理,定义9.7 设0, 1,A为论域U上的模糊集,和A的数乘记为A,定义其隶属函数为:A (x)= A (x) (9.14) 定理9.3(分解定理) 设 0, 1,A为模糊集,A为A的截集,则:(9.15)
11、定理9.4(隶属函数形式的分解定理) 设 0, 1,A为模糊集,A为A的截集, 是A的特征函数,则有:(9.16) 图9.4用以说明分解定理的直观意义。图中只画出三个水平,”下的隶属函数的图形。当取遍0, 1上的所有值时,对应每一元素x取所有A隶属函数值中的最大值对应的点,再将这些点连成一条曲线即为模糊集A的隶属函数曲线。,数据挖掘与知识发现(第2版),(47-16),分解定理与扩展定理,扩展原理 X和Y是两个论域,f为从X到Y的映射f : XY A为X上的一个模糊集,A在映射f下的像是Y上的一个模糊集B=f(A),对yY, ,其中xX且y= f (x)。模糊集合的扩展原理反映了这样一种特性:
12、允许将一个映射或关系的定义域从论域U上的点扩展到论域U上的模糊集。扩展原理不仅可以用于映射,还可以用于关系或谓词。图9.5说明了扩展原理的直观意义。,数据挖掘与知识发现(第2版),(47-17),模糊集的特征,1. 高:隶属函数值的上确界,即称 为A的高,记作hgt(A)。模糊集是正规的,等价于其高为1。 2. 单峰性:A是单峰的,当隶属函数为单峰函数(即只有一个最大值)。 3. 凸性:模糊集A称为凸模糊集,当隶属函数满足对x1, x2U, 0, 1,A (x1(1) x2)minA (x1), A (x2) (9.17) 4. 基:给定有限论域U上的模糊集A,A的基定义为其隶属函数值的和,记
13、作Card (A),即: 。若U是无限的,则定义 。例如,模糊集A=0.1/x1+0.3/x2+0.6/x3+1.0/x4+0.4/x5, 则Card (A)=2.4。,数据挖掘与知识发现(第2版),(47-18),模糊集的特征,一些常用的模糊集算子: (1) 规范化算子:(9.18) (2) 集中化算子: CON_A(x)=A (x)2 (9.19)或 CON_A(x)=A (x)P ,p1 (9.20) (3) 松散化算子: DIL_A(x)= A (x)0.5 (9.21)或 DIL_A(x)=2A (x)A (x)2 (9.22)或 DIL_A(x)= A (x)r ,r(0, 1.0
14、) (9.23) (4) 相对密集算子:(9.24) 或者,p1,(9.25) (5) 模糊化算子:(9.26),数据挖掘与知识发现(第2版),(47-19),模糊集的度量,定义9.8 设映射d : F (U ) 0, 1,如果满足条件:则称d (A)为模糊集A的模糊度。 例9.5 设U为有限集,U=x1, x2, xn,令(9.27) H : F (U) 0, 1满足模糊度定义的条件,故H是模糊度,称为模糊熵。 例9.6 设U=x1, x2, xn,令 , 其中 是A的 截集,K : F (U) 0, 1满足定义9.8的条件,故K是模糊度,也称为模糊指标。,数据挖掘与知识发现(第2版),(4
15、7-20),模糊集的度量,模糊集间的距离: 定义9.9 若d (x, y)0,且满足条件: (1) d (x, y)=0,当且仅当x = y (2) d (x, y)= d (y, x) (3) d (x, y)d (x, z)+ d (z, y) 则称d (x, y)为x与y间的距离。 例9.7 当U=x1, x2, xn时,闵可夫斯基(Minkowski)距离定义为:(9.28) 当U=a, b时,闵可夫斯基距离定义为:(9.29) 当P=1时,上式为汉明(Hamming)距离。 当P=2时,上式为欧几里得(Euclidean)距离。,数据挖掘与知识发现(第2版),(47-21),模糊集的
16、度量,定义9.10 设映射N : F (V)F (U)0, 1,如果满足条件:则称N为F (U)上的贴近度。 例9.8 U=x1, x2, xn时,汉明贴近度为:(9.32) U=a, b时,汉明贴近度为:(9.33) U=x1, x2, xn时,欧几里得贴近度为:(9.34) U=a, b时,欧几里得贴近度为:(9.35),数据挖掘与知识发现(第2版),(47-22),模糊关系,定义9.11 设U、V为两个论域,称U V上的模糊集R为从U到V的一个模糊关系。即,对(x, y)U V,都指定它对R的隶属度R (x, y) R :U V0, 1 例9.9 设身高的论域为U=140, 150, 1
17、60, 170, 180,单位为厘米,设体重的论域为V=40, 50, 60, 70, 80,单位为公斤。表9.1表示人的身高与体重之间的模糊关系。,数据挖掘与知识发现(第2版),(47-23),模糊关系,定义9.12 若U与V都是有限论域,则模糊关系R=(ri j)可以用一个矩阵来表示,其中矩阵R的元素定义为:(9.36) 矩阵R称为模糊矩阵。 当ri j 0, 1时,模糊矩阵退化为一般矩阵,表示一个经典集合。 例9.9中的数据构成的模糊矩阵为,数据挖掘与知识发现(第2版),(47-24),模糊关系,定义9.13 设R、S皆为m行n列的模糊矩阵(模糊关系),R=(rij),S=(sij),则
18、可通过模糊矩阵表示R与S的并、交、补及截矩阵(截关系):(9.37)(9.38)(9.39)(9.40)显然,模糊矩阵R的截矩阵R 是一个布尔矩阵。,数据挖掘与知识发现(第2版),(47-25),模糊关系,定义9.14 设R为U V上的模糊关系,S为V W上的模糊关系,则R对S的合成是一个U到W的模糊关系,记为R S,其隶属函数为:(9.41) 当RF (U U ) 时,R2 =R R,R n = R n1 R。 若U、V、W为有限论域,U=u1,ul,V=v1,vm,W=w1,wn,则模糊关系的合成可通过模糊矩阵的模糊乘积表示。 定义9.15 设R =(rij)l m ,S =(sij)m
19、n ,则定义T=R S的元素为:(9.42) 称T为R对S的合成,也称T为R对S的模糊乘积。例如t11=(r11s11) (r12s21) (r13s31),其他元素计算方法类似。,数据挖掘与知识发现(第2版),(47-26),模糊关系,模糊关系的合成运算满足如下性质: (1) 结合律:(Q R ) S =Q (R S ) (2) 关于并的分配律:(Q R ) S =(Q S ) (R S ),S (Q R ) =(S Q ) (S R )但关于交的分配律不成立,即:(Q R ) S (Q S ) (R S ),S (Q R ) (S Q ) (S R ) (3) 设O为零关系,I为恒等关系,
20、则有:O R = R O=O,I R = R I =R (4) Q R Q S R S ,Q R S Q S R ,Q R Q n R n (5) (Q R ) =Q R,数据挖掘与知识发现(第2版),(47-27),模糊关系,定义9.16 设R=(rij)n n为论域U上的模糊矩阵(模糊关系), (1) 若对任意的i都有rii =1,则称R满足自反性。 (2) 若对任意的i,j都有rij = rji,则称R满足对称性。 (3) 若有R RR,则称R满足传递性。 称满足自反性、对称性和传递性的模糊关系为模糊等价关系;称仅满足自反性和对称性的模糊关系为模糊相似关系。 定理9.5 R为模糊等价关系
21、的充要条件是对任意的0, 1,截矩阵R 是经典集合论中的等价关系。 在经典集合论中,等价关系对应论域上的一个划分,即等价关系可用于对论域对象进行分类。由定理9.5可知,模糊等价关系R确定之后,当给定一个0, 1时,可得到一个普通的等价关系R ,从而得到一个水平的分类。 定理9.6 若01,则由R分出的每个类必是由R分出的某一类的子类(R的分类法是对R的分类法的“加细”)。,数据挖掘与知识发现(第2版),(47-28),模糊聚类分析概述,传统的聚类分析是一种硬划分,它把每个待分类的对象严格地划分到某个类中,体现了非此即彼的性质,因此这种分类的类别界限是分明的。然而事物之间的界限往往是不分明的,客
22、观世界中存在着大量的模糊划分的现象,模糊集合论为这种软划分提供了有力的数学工具。 Ruspini于1969年提出了模糊划分的概念。 已经提出很多基于模糊划分概念的模糊聚类方法。 传递闭包法 最大树法 编网法 基于摄动的模糊聚类方法 模糊C-均值方法 模糊聚类反映了对象属于不同类别的不确定性程度,表达了对象类属的中介性,可以更客观地反映现实世界。 模糊聚类分析已经广泛应用于经济学、生物学、气象学、信息科学、工程技术科学等许多领域。,数据挖掘与知识发现(第2版),(47-29),模糊划分,设含有n个对象的集合O=x1, x2, xn,将对象划分到c个簇中,每个对象xk 隶属于第i个簇的隶属度为ui
23、k ,则形成的划分可表示为一个矩阵U。 定义9.17 矩阵U=(ui k )是非退化模糊C-划分,若U满足以下条件:例9.12 设对象集合O=x1, x2, x6,c=3,如下形式的矩阵是一个模糊3-划分,即将6个对象“模糊地”划分到3个簇中:将对象划分到k个簇的硬划分方式是有限的,与硬划分不同,模糊C-划分的方式有无穷多种。,数据挖掘与知识发现(第2版),(47-30),模糊相似系数的标定方法,设X=x1, x2, xn是全体对象的集合,每一对象有m个特征,以 (xi1, xi2, xim) 表示第i个对象。 基于模糊关系的模糊聚类分析方法中,首先要建立模糊相似矩阵。建立模糊相似矩阵R=(r
24、ij)nn的过程称为标定,rij表示对象xi 和xj 的相似程度,称为相似系数。 数量积法,数据挖掘与知识发现(第2版),(47-31),模糊相似系数的标定方法,2. 夹角余弦法3. 相关系数法4. 最大最小法,数据挖掘与知识发现(第2版),(47-32),模糊相似系数的标定方法,5. 算术平均最小法6. 几何平均最小法7. 绝对值指数8. 指数相似系数法,数据挖掘与知识发现(第2版),(47-33),模糊相似系数的标定方法,9. 绝对值倒数法其中,M应适当选取,使rij 0, 1。 10. 绝对值减数法其中,C应适当选取,使rij 0, 1。 11. 参数法,数据挖掘与知识发现(第2版),(
25、47-34),模糊相似系数的标定方法,12. 贴近度法先对xi ,xj做归一化处理,使xik,xjk0, 1(k=1, 2, m),则xi ,xj的相似程度可表示为某种贴近度。如rij =1C (d (xi, xj )a。其中C、a为适当选择的参数值,d(xi, xj)为模糊集间的距离,可以取闵可夫斯基距离等。 13. 专家打分法取若干专家对xi,xj相似程度的打分,分数的平均值作为rij。由上述方法建立的模糊矩阵R=(rij)n n,一般只满足自反性、对称性,即R是一个模糊相似矩阵。因此,还需求出一个模糊等价矩阵,以便用于聚类。,数据挖掘与知识发现(第2版),(47-35),模糊聚类分析,根
26、据定理9.5,模糊等价关系确定之后,给定的0, 1,相应得到的截关系R 是一个普通的等价关系,利用R可以得到与对应的分类。由定理9.6可知,较大的值对应的分类“较细”。 例9.13 给定论域U=x1, x2, x5,假设对象间的模糊相似矩阵为可以验证R是模糊等价关系。 根据不同的得到不同水平的分类, 如图9.6所示。,数据挖掘与知识发现(第2版),(47-36),模糊聚类分析,(1) 当0.81时, (2) 当0.60.8时(3) 当0.50.6时, (4) 当0.40.5时,数据挖掘与知识发现(第2版),(47-37),模糊聚类分析,(5) 当00.4时,数据挖掘与知识发现(第2版),(47
27、-38),传递闭包法,传递闭包法聚类 通过标定得到模糊相似矩阵R, 求出包含矩阵R的最小模糊传递矩阵,即R的传递闭包t (R), 依据t (R)进行聚类。 定理9.7 设R是n阶模糊相似关系,则存在一个最小的自然数k (kn),使得R的传递闭包t(R)=Rk ,且对一切大于k的自然数l,恒有Rl = Rk。 定理表明,在不超过n次运算内,即可求得R的传递闭包t (R),从而得到一个模糊等价矩阵。 例9.14 设有5个环境单元,每个环境的污染数据按空气、水分、土壤、作物为序排列如下:x1(5, 5, 3, 2) x2(2, 3, 4, 5) x3(5, 5, 3, 2)x4(1, 5, 3, 1
28、) x5(2, 4, 5, 1)选择绝对值减数方法为标定方法,(C0.1,m4)即:,数据挖掘与知识发现(第2版),(47-39),传递闭包法,得到模糊矩阵R如下:R是模糊相似矩阵,但不是模糊等价矩阵。采用传递闭包法建立一个模糊等价矩阵。这里,R4为模糊等价矩阵。 取=0.6时,得到截矩阵故聚类簇为x1, x3,x2,x4, x5。,数据挖掘与知识发现(第2版),(47-40),最大树法,最大树法是用图论方法研究模糊聚类的直观有效方法。算法步骤如下: (1) 建立模糊相似矩阵 (2) 画出最大树 (3) 聚类 最大树的画法有两种:Prim法和Kruskal法。 模糊相似矩阵R如图。 Prim算
29、法求解过程如下: (1) 先取对象1,依次找出与其相关系数最大的,如,0.8=R (1, 3),,数据挖掘与知识发现(第2版),(47-41),最大树法,(2) 取=0, 1,砍断连接权重小于的枝,各连通分支构成上的聚类。 若取=0, 0.4,则只得到一类:1, 2, 3, 4, 5; 若取=0.4, 0.5,则得到两类:2,1, 3, 4, 5; 若取=0.5, 0.6,则得到三类:2,4, 5,1, 3; 若取=0.6, 0.8,则得到4类:2,5,4,1, 3; 若取=0.8, 1,则得到5类:1,2,3,4,5。 Kruskal算法求解过程如下: (1) 依次在R的非主对角线中找到最大
30、元,如,0.8=R (1, 3),见下图: (2) 以下同Prim算法中的步骤(2)。,数据挖掘与知识发现(第2版),(47-42),模糊C-均值聚类,模糊C-均值(Fuzzy C-Means,FCM)方法是最常见的基于目标函数最小化的聚类算法。用向量xk 相对于第i个簇的隶属度uik0, 1。 假设对象集合为Ox1, x2, xn,每个对象为p维向量,即xk =xk1, xk2, xkp。将对象划分到c个簇,第i个簇的质心也为一个p维向量,即vi =vi1, vi2, vip,在FCM中,将n个p维数据向量分类到c个簇中的模糊划分方式组成的集合定义为:其中,m1, 是权指数。,数据挖掘与知识
31、发现(第2版),(47-43),模糊C-均值聚类,模糊C-均值(FCM)算法:在算法中,参数m影响簇的模糊性,m越大则簇越模糊。 当m1+时,模糊C-均值的解变成硬划分的情形; 当m 时,对所有i,k有uik=1/c,此时的划分解模糊性最大。 尚无选择最优的m的理论基础,通常取m=2。,数据挖掘与知识发现(第2版),(47-44),模糊C-均值聚类,聚类的质量受初始值的设定、簇的个数以及具体算法等多方面因素的影响。较常见的聚类有效性的度量如下: 1. 划分系数划分系数具有如下性质: (1) (2) F (U, c)=1,当且仅当划分是精确的。即,每个对象仅属于一个簇,隶属度为1。 (3) F
32、(U, c)=1/c,当且仅当对i,k,uik =1/c, 即矩阵U中所有元素都等于1/c。 实际应用时,希望得到较大的划分系数值,此时划分的模糊度较小。,数据挖掘与知识发现(第2版),(47-45),模糊C-均值聚类,2. 划分熵划分熵在精确划分时达到最小值。 所有的uik 越接近于0或1,划分熵越小,聚类质量越好; 所有的uik越接近于0.5时,划分熵越大,聚类质量越差。 3. 紧致性与分离性紧致的、良性分割的聚类的CS值较小。若一个聚类结果能使簇质心间的距离尽可能大,簇内对象与簇的质心间的距离尽可能小,则其聚类质量较好。,数据挖掘与知识发现(第2版),(47-46),模糊集与粗糙集,模糊集与粗糙集比较(1)前者着眼于知识的模糊性,后者着眼于知识的粗糙性。两者从不同的侧面反映知识的粒度性。(2)模糊集强调集合边界的状态,强调集合本身的含混性;粗糙集强调集合对象间的不可分辨性。(3)模糊集研究的是属于同一类的不同对象对集合的隶属关系,重在隶属程度;粗糙集以不可分辨关系为基础,研究的是不同类中的对象组成的集合之间的关系,重在分类,分类的能力在于论域上的不可分辨关系提供的知识多少。(4)模糊集是数据挖掘中常用的聚类方法之一;粗糙集是数据挖掘中常用的分类方法之一。,数据挖掘与知识发现(第2版),(47-47),课外阅读,