1、模糊聚类分析,模糊矩阵,模糊矩阵 模糊矩阵间的关系及并、交、余运算 模糊矩阵的合成 模糊矩阵的转置 模糊矩阵的截矩阵,模糊矩阵,设R = (rij)mn,若0rij1,则称R为模糊矩阵. 当rij只取0或1时,称R为布尔(Boole)矩阵. 当模糊方阵R = (rij)nn的对角线上的元素rii都为1时,称R为模糊自反矩阵.,模糊矩阵间的关系及并、交、余运算,设A=(aij)mn,B=(bij)mn都是模糊矩阵,定义 相等:A = B aij = bij; 包含:AB aijbij; 并:AB = (aijbij)mn; 交:AB = (aijbij)mn; 余:Ac = (1- aij)mn
2、.,设A = (aik)ms,B = (bkj)sn,称模糊矩阵 A B = (cij)mn, 为A 与B 的合成,其中cij = (aikbkj) | 1ks .,模糊方阵的幂定义:若A为 n 阶方阵,定义A2 = A A,A3 = A2 A,Ak = Ak-1 A.,模糊矩阵的合成,模糊矩阵的转置,定义 设A = (aij)mn, 称AT = (aijT )nm为A的转置矩阵,其中aijT = aji.,转置运算的性质:,性质1:( AT )T = A; 性质2:( AB )T = ATBT,( AB )T = ATBT; 性质3:( A B )T = BT AT;( An )T =( A
3、T )n ; 性质4:( Ac )T = ( AT )c ; 性质5:AB AT BT .,模糊矩阵的截矩阵,设A = (aij)mn,对任意的0, 1,称 A= (aij()mn,为模糊矩阵A的 - 截矩阵, 其中当aij 时,aij() =1;当aij 时,aij() =0.显然,A的 - 截矩阵为布尔矩阵.,模糊聚类分析,模糊关系 模糊等价矩阵 模糊相似矩阵 模糊聚类分析的一般步骤,模糊关系,与模糊子集是经典集合的推广一样,模糊关系是普通关系的推广.,设有论域X,Y,X Y 的一个模糊子集 R 称为从 X 到 Y 的模糊关系.模糊子集 R 的隶属函数为映射 R : X Y 0,1. 并称
4、隶属度R (x , y ) 为 (x , y )关于模糊关系 R 的相关程度.特别地,当 X =Y 时,称之为 X 上各元素之间的模糊关系.,模糊关系的运算,由于模糊关系 R就是X Y 的一个模糊子集,因此模糊关系同样具有模糊子集的运算及性质.,设R,R1,R2均为从 X 到 Y 的模糊关系. 相等:R1= R2 R1(x, y) = R2(x, y); 包含: R1 R2 R1(x, y)R2(x, y); 并: R1R2 的隶属函数为(R1R2 )(x, y) = R1(x, y)R2(x, y); 交: R1R2 的隶属函数为 (R1R2 )(x, y) = R1(x, y)R2(x,
5、y); 余:Rc 的隶属函数为Rc (x, y) = 1- R(x, y).,(R1R2 )(x, y)表示(x, y)对模糊关系“R1或者R2”的相关程度, (R1R2 )(x, y)表示(x, y)对模糊关系“R1且R2”的相关程度,Rc (x, y)表示(x, y)对模糊关系“非R”的相关程度.,模糊关系的矩阵表示,对于有限论域 X = x1, x2, , xm和Y = y1, y2, , yn,则X 到Y 模糊关系R可用mn 阶模糊矩阵表示,即 R = (rij)mn, 其中rij = R (xi , yj )0, 1表示(xi , yj )关于模糊关系R 的相关程度.又若R为布尔矩阵
6、时,则关系R为普通关系,即xi 与 yj 之间要么有关系(rij = 1),要么没有关系( rij = 0 ).,模糊关系的合成,设 R1 是 X 到 Y 的关系, R2 是 Y 到 Z 的关系, 则R1与 R2的合成 R1 R2是 X 到 Z 上的一个关系. (R1 R2) (x, z) = R1 (x, y)R2 (y, z)| yY 当论域为有限时,模糊关系的合成化为模糊矩阵的合成.设X = x1, x2, , xm,Y = y1 , y2 , , ys, Z= z1, z2, , zn,且X 到Y 的模糊关系R1 = (aik)ms ,Y 到Z 的模糊关系R2 = (bkj)sn ,则
7、X 到Z 的模糊关系可表示为模糊矩阵的合成: R1 R2 = (cij)mn 其中cij = (aikbkj) | 1ks.,模糊等价矩阵,若模糊关系R是X上各元素之间的模糊关系,且满足:(1)自反性:R(x, x) =1;(2)对称性:R(x, y) =R(y, x); (3)传递性:R2R, 则称模糊关系R是X上的一个模糊等价关系.,当论域X = x1, x2, , xn为有限时, X 上的一个模糊等价关系R就是模糊等价矩阵, 即R满足:,I R ( rii =1 ),RT=R( rij= rji),R2R.,R2R ( (rikrkj) | 1kn rij) .,当时, R的分类是R分类
8、的加细.当由1变到0时, R的分类由细变粗,由模糊等价关系R确定的分类所含元素由少变多,逐步归并,最后成一类,这个过程形成一个动态聚类图,称之为模糊分类,故R是模糊等价矩阵 再令由1降至0,写出,按分类, 以此类推,可以得到:,1 0.8 0.6 0.5 0.4, ,r 5 4 3 2 1,于是,得到动态聚类图如右图所示,模糊相似关系,若模糊关系 R 是 X 上各元素之间的模糊关系,且满足:(1) 自反性:R( x , x ) = 1;(2) 对称性:R( x , y ) = R( y , x ) ; 则称模糊关系 R 是 X 上的一个模糊相似关系.当论域X = x1, x2, , xn为有限
9、时,X 上的一个模糊相似关系 R 就是模糊相似矩阵,即R满足:(1) 自反性:I R ( rii =1 );(2) 对称性:RT = R ( rij = rji ).,模糊相似矩阵的性质,定理1 若R 是模糊相似矩阵,则对任意的自然数 k,Rk 也是模糊相似矩阵.定理2 若R 是n阶模糊相似矩阵,则存在一个最小自然数 k (kn ),对于一切大于k 的自然数 l,恒有Rl = Rk,即Rk 是模糊等价矩阵(R2k = Rk ). 此时称Rk为R的传递闭包,记作 t ( R ) = Rk .上述定理表明,任一个模糊相似矩阵可诱导出一个模糊等价矩阵.,平方法求传递闭包 t (R): RR2R4R8
10、R16,模糊聚类分析的一般步骤,(1)数据标准化,设论域X = x1, x2, , xn为被分类对象,每个对象又由m个指标表示其形状: xi = xi1, xi2, , xim, i = 1, 2, , n 于是,得到原始数据矩阵为,a 平移 标准差变换,其中,b 平移 极差变换,(2)建立模糊相似矩阵方法,a 相似系数法 -夹角余弦法,b 相似系数法 -相关系数法,其中,c 距离法,海明距离,欧氏距离,(3)聚类(并画出动态聚类图),从(2)求出的n阶模糊相似矩阵R出发,用平方法求其其传递闭包t(R),它就是将改造成的n阶模糊等价矩阵,再让由大变小,就可形成动态聚类图,最佳分类的确定,在模糊
11、聚类分析中,对于各个不同的0,1,可得到不同的分类,从而形成一种动态聚类图,这对全面了解样本分类情况是比较形象和直观的.但在许多实际问题中,需要给出样本的一个具体分类,这就提出了如何确定最佳分类的问题.,称为总体样本的中心向量.对应于 值的分类数为r第 j 类的样本数为nj,第 j 类的样本标记为,第 j 类样本的中心向量为,作F- 统计量:,如果满足不等式FF ( r -1, n -r )的F值不止一个,则可根据实际情况选择一个满意的分类,或者进一步考查差 ( F - F )/F 的大小,从较大者中找一个满意的F值即可.,实际上,最佳分类的确定方法与聚类方法无关,但是选择较好的聚类方法,可以
12、较快地找到比较满意的分类.,由于F服从自由度r-1,n-r为的F分布,其分子表示类与类之间的距离,分母表示类本身的距离,那么F的值越大,则说明类与类之间的距离越大,即分类的结果越好,建 模 实 例,蜢的分类 DNA序列分类,蠓的分类,左图给出了9只Af和6只Apf蠓的触角长和翼长数据, 其中“”表示Apf,“”表示Af.根据触角长和翼长来识别一个标本是Af还是Apf是重要的., 给定一只Af族或Apf族的蠓,如何正确地区分它属于哪一族?将你的方法用于触角长和翼长分别为(1.24,1.80), (1.28,1.84),(1.40,2.04)三个标本.,模糊判别方法先将已知蠓重新进行分类.,当 =
13、 0.919时,分为3类1, 2, 3, 6, 4, 5, 7, 8, 9,10, 11, 12, 13, 14, 15,三类的中心向量分别为(1.395, 1.770),(1.560, 2.080),(1.227, 1.927).,A1 = (0.200, 0.637) (Af 蠓), A2 = (0.390, 1.000) (Af 蠓), A3 = (0.000, 0.821) (Apf 蠓),再将三只待识别的蠓用上述变换分别变为,B1= (0.015, 0.672), B2 = (0.062, 0.719), B3 = (0.203, 0.953 ).,采用贴近度,3 (A, B) =,
14、计算得: 3(A1, B1) = 0. 89, 3(A2, B1) = 0.65, 3(A3, B1) = 0.92. 3(A1, B2) = 0.89, 3(A2, B2) = 0.69, 3(A3, B2) = 0.92. 3(A1, B3) = 0.84, 3(A2, B3) = 0.88, 3(A3, B3) = 0.83.根据择近原则及上述计算结果,第一只待识别的蠓(1.24, 1.80)属于第三类,即Apf 蠓;第二只待识别的蠓(1.28, 1.84)属于第三类,即Apf 蠓;第三只待识别的蠓(1.40, 2.04)属于第二类,即Af 蠓., 设Af是传粉益虫, Apf是某种疾病的
15、载体, 是否应修改你的分类方法?若需修改, 为什么?,DNA序列分类与模糊识别,2000网易杯全国大学生数学建模竞赛题:生物学家发现DNA序列是由四种碱基A,T,C,G按一定顺序排列而成,其中既没有“断句”,也没有标点符号,同时也发现DNA序列的某些片段具有一定的规律性和结构. 由此人工制造两类序列(A类编号为110;B类编号为1120).网址:.现在的问题是如何找出比较满意的方法来识别未知的序列(编号为2140), 并判断它们那些属于A类,那些属于B类, 那些既不属于A类又不属于B类.,(1) 已知类别DNA序列的模糊分类,提取已知类别的20个DNA序列的A,T,C,G的百分含量构成如下矩阵
16、:X = (xij)204,其中xi1, xi2, xi3, xi4分别表示第个DNA系列中的A,T,C,G的百分含量. 采用切比雪夫距离法建立模糊相似矩阵,然后用传递闭包法进行聚类,动态聚类图如下.,(2) 确定最佳分类,将20个已知DNA序列分成如下3类为最佳:,A1 =1,2,3,5,6,7,8 9,10, A2 =4,17, A3 =11,12,13,14,15,16,18,19,20.,建立标准模型库:A1, A2, A3.,(3) 未知DNA序列的模糊识别采用格贴近度公式: 0(A, B) =A B + (1 -AB)/2, 将隶属于A1的DNA序列归为A类,隶属于A3的DNA序列归为B类,隶属于A2的DNA序列归为非A,B类.,