1、1,模糊聚类分析一. 数据规格化;二. 构造模糊等价矩阵.,2,数据规格化常用的数据规格化方法有如下几种:1. 数据标准化(i) 对特性指标矩阵U*的第j列,计算(ii) 作变换则以uij作为元素的特性指标矩阵就是数据规格化的特性指标矩阵,记作 U* =(uij)nm,3,2. 最大值规格化 (i) 对U*的第j列,计算则U* =(uij)nm为规格化后的特性指标矩阵.还有中心规格化、极差规格化、对数规格化等.,4,构造模糊等价矩阵 设被分类对象的集合为 U=u1,u2, , un, 每一个对象ui有m个特性指标(即反映对象特征的主要指标),并记 ui =ui1,ui2, , uim, i =
2、1,2,n 其中uij表示第i个对象的第j个特性指标,则n个对象的所有特性指标构成一个矩阵,记作称U*为U的特性指标矩阵.,5,构造模糊相似矩阵设数据uij (i =1,2,n; j =1,2,m)均已规格化,下面用多元分析的方法来确定对象ui=(ui1, ui2, uin)和uj =(uj1, uj2, ujn)之间的相似程度 rij =R (ui, uj)0,1, (i =1,2,n; j =1,2,m) 从而构造出一个对象与对象之间的模糊相似矩阵,6,下面介绍几种确定的常用方法. 1. 相似系数法 相似系数法包括:数量积法、夹角余弦法、相关系数法、指数相似系数法、非参数相似程度法等等,例
3、如, (2) 交角余弦法(3) 相关系数法,7,2.距离法设d(ui, uj)表示对象ui和uj的距离, 则d(ui, uj)越大, rij就越小, 而d(ui, uj)越小, rij就越大。 一般地, 可取 rij=1d(ui, uj)在实际应用中, 常采用如下距离来确定rij.,8,9,3. 贴近度法当对象ui=(ui1, ui2, uim)为模糊向量(即uik0,1)时, ui与uj的相似程度rij可由如下方法确定 (1) 最大最小法(2) 算术平均最小法(3) 几何平均最小法,10,4.主观评定法在一些实际问题中, 被分类对象的特性指标是定性指标, 这是可请有关专家和有实际经验的人员用
4、评分的办法来主观评定被分类对象间的相似程度。,11,模糊关系的传递性定义: 设RF(UU),则(1) R称为传递的,如果R R R(2) 称包含R的最小的传递模糊关系为R的传递闭包,记作t(R).,12,定理设U=u1,u2, , un, RF(UU), 则若R是自反的, 则mn,有t(R) = Rm由此可见,当R为自反模糊关系时,必有自然数mn, 使t(R)=Rm下面介绍一种快速求m的方法-平方自合成法 :第一步: R R = R2 R ,则t(R)=R ;否则,进行如下第二步.第二步: R2 R2 = R4 R2 ,则t(R)=R2 ;否则,进行如下第三步.第三步: R4 R4 = R8
5、R4 ,则t(R)=R4 ;否则,进行如下一步,如此继续下去,必有自然数k ,使2k-1 n 2k且R R2 R4 R2k = t(R) 即对于n阶自反模糊矩阵,至多只需进行k=log2n+1步平方合成运算就可达到t(R),因此,可取 m= 2k , k= log2n +1 这里log2n表示不超过log2n的最大整数.例如 当n =30时,至多只需平方合成5次便可达到目的.,13,例2 设,14,例 考虑某环保部门对该地区五个环境区域U=u1,u2, u3,u4, u5 , 按污染情况进行分类, 设每个区域包含空气、水分、土壤、作物四个要素, 环境区域的污染情况有污染物在四个要素中的含量超过
6、的程度来衡量。设这五个环境区域的污染数据为u1 =(80,10,6,2), u2 =(50,1,6,4), u3 =(90,6,4,5), u4 =(40,5,7,3), u5 =(10,1,2,4) 试用模糊传递闭包法对U进行分类。,15,解: 由题设知特性指标为污染物在空气、水分、土壤、作物这四个要素中的含量.其特性指标矩阵为(1) 数据规格化采用最大值规格化, 作变换把U*规格化为,16,(2) 构造模糊相似矩阵R=(rij)55采用最大最小法,即确定模糊相似矩阵为,17,(3) 利用平方合成法求t(R)因为 而R8 = R4 ,所以(4) 选取适当的置信水平值0,1, 按截矩阵进行t(
7、R)动 态聚类首先把t(R)中的元素从大到小排序为 10.700.63 0.62 0.53,18,取=1,得根据分类原则, U被分成五类: u1 , u2 , u3 , u4 , u5 .取=0.70,得因为 根据分类原则, U被分成四类: u1 , u2 , u4 , u3 , u5 .,取=0.63,得因为 根据分类原则,被分成三类: u1 ,u2 ,u4 , u3 , u5 . 同理可得,取=0.62,可得U被分成二类:u1 ,u2 ,u3 , u4 , u5 . 取=0.53,可得U被分成一类:u1 ,u2 ,u3 , u4 , u5 .,19,2.直接聚类法 (1) 将模糊相似矩阵中
8、的所有不同的元素从大到小排序,设为 1=1 2 m (2) 选取= k (k=1,2,m) 直接在R上找出k水平上的相似类.并进行归并,即得到k水平上的等价分类.寻找相似类和归并的原则:若rijk, 则将ui与uj分为同一类,设B1, B2是k水平上的两个类,若B1B2 , 则称它们为相似的, 将所有相似类的类合成一类, 最后得到的分类就是k水平上的等价分类. (3)画动态聚类图,20,例 利用直接聚类法对例1中给出的环境区域 U=u1,u2, u3,u4, u5 , 进行等价分类.解: 由例1知模糊相似矩阵为(1)将中的元素进行排序为10.70 0.63 0.62 0.560.55 0.54
9、 0.53 0.380.370.24(2)取=1,因相似程度为1的元素只有自己,故U被分成五类: u1 , u2 , u3 , u4 , u5 .取=0.70, 因r24= r42 =0.70,故得相似类为 u2 , u4 ,u1 , u2 , u3 , u4 , u5 .,21,将所有相似的类合并成一类,即得等价类为: u2 , u4 ,u1 , u3 , u5 .取=0.63, 因r14= r41 =0.63,故得相似类为 u2 , u4 ,u1 , u4, u1, u3 , u5 . 将所有相似的类合并成一类,即得等价类为:u1 , u2 , u4 , u3 , u5 .取=0.62, 因r23= r32 =0.56,故得相似类为 u2 , u3 ,u1 , u2 , u4, u3 , u5 . 将所有相似的类合并成一类,即得等价类为: u1 , u2 , u3 , u4, u5 .同理可得, 当=0.56, 0.55, 0.54时所有的等价类与=0.62的等价类相同.取=0.53, 因r25= r52 =0.53,故得相似类为 u2 , u5 ,u1 , u2 , u3 , u4, u5 . 将所有相似的类合并成一类, 即得等价类为: u1 , u2 , u3 , u4 ,u5 .,