1、模糊聚类分析方法对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。载科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。一、模糊聚类分析的一般步骤1、第一步:数据标准化 9(1) 数据矩阵设论域 为被分类对象,每个对象又有 个指标表示其性状,12,nUx m即,12,iiim (1,2)in于是,得到原始数据矩阵为。121212mnnxx其中 表示第 个分类对象的第 个指标的原始数
2、据。nmx(2) 数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间 上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,0,1将数据压缩到区间 上。通常有以下几种变换:, 平移标准差变换ikixs(1,2;,)inkm 其中 , 。1nkik21()kikix经过变换后,每个变量的均值为 0,标准差为 1,且消除了量纲的影响。但是,再用得到的 还不一定在区间 上。ikx, 平移极差变换,1minaxikkikiiii x(1,2)m显然有 ,而且也消除了量纲的影响。0ikx 对数变换lgi
3、kikx(1,2;,)nk 取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设论域 , ,依照传统聚类方法确定相似12,nUx 12,iiimxx系数,建立模糊相似矩阵, 与 的相似程度 。确定ij (,)ijijrR的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具(,)ijijrRx体用什么方法,可根据问题的性质,选取下列公式之一计算。(1) 相似系数法 夹角余弦法。122mikjijikjkxrA 最大最小法。1()mikjijijkxr 算术平均最小法。12()mikjijijkxr 几何平均最小法。12()mikjijijkxrA以上 3 种方法中要求 ,否则
4、也要做适当变换。0ijx 数量积法,1,mijikjijrxMA其中 。1a()ikjij 相关系数法,1221()()mikijkjij mikijkjxxrA其中 , 。1miikx1jjkx 指数相似系数法,21()3exp4mikjijkxrsA其中 ,21()nkikiis而 。1nkikx(,)m(2) 距离法 直接距离法,1(,)ijijrcdx其中 为适当选取的参数,使得 , 表示他们之间的距离。经常c01ijr(,)ijdx用的距离有 海明距离。1(,)mijikjdxx 欧几里得距离。21(,)()mijikjdxx 切比雪夫距离。1(,)mijikjxx 倒数距离法。,(
5、,)ijijijMrdx其中 为适当选取的参数,使得 。01ijr 指数距离法。exp(,)ijijrd3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法 传递闭包法根据标定所得的模糊矩阵 还要将其改造称模糊等价矩阵 。用二次方法R*R求 的传递闭包,即 = 。再让 由大变小,就可形成动态聚类图。R()t* 布尔矩阵法 10布尔矩阵法的理论依据是下面的定理:定理 2.2.1 设 是 上的一个相似的布尔矩阵,则 具有传R12,nUx R递性(当 是等价布尔矩阵时) 矩阵 在任一排列下的矩阵都没有形如R的特殊子矩阵。110,0布尔矩阵法的具体步骤如下: 求模糊相似矩阵的 截矩阵 .R
6、若 按定理 2.2.1 判定为等价的,则由 可得 在 水平上的分类,R U若 判定为不等价,则 在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的 0 一律改成 1 直到不再产生上述形式的子矩阵即可。如此得到的 为等价矩阵。因此,由 可得 水平上的分类*R *R(2) 直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包 ,()tR也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下: 取 (最大值) ,对每个 作相似类 ,且1ixiRx= ,iRx|1jir即将满足 的 与 放在一类,构成相似类。相似类与等价类的不同之处是,ijrij不同的相似类可能
7、有公共元素,即可出现, , .iRikxiRjkxijx此时只要将有公共元素的相似类合并,即可得 水平上的等价分类。1 取 为次大值,从 中直接找出相似度为 的元素对 (即22(,)ijx) ,将对应于 的等价分类中 所在的类与 所在的类合并,将所有2ijr1ixjx的这些情况合并后,即得到对应于 的等价分类。2 取 为第三大值,从 中直接找出相似度为 的元素对 (即3R3(,)ijx) ,将对应于 的等价分类中 所在的类与 所在的类合并,将所有的这3ijr2ixjx些情况合并后,即得到对应于 的等价分类。3 以此类推,直到合并到 成为一类为止。U二、最佳阈值 的确定在模糊聚类分析中对于各个不
8、同的 ,可得到不同的分类,许多实际0,1问题需要选择某个阈值 ,确定样本的一个具体分类,这就提出了如何确定阈值 的问题。一般有以下两个方法: 按实际需要,在动态聚类图中,调整 的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识确定阈值 ,从而得出在 水平上的等价分类 用 F 统计量确定 最佳值。 11设论域 为样本空间(样本总数为 ) ,而每个样本 有12,nUx nix个特征: , 。于是得到原始数据矩阵,如下m,iiim (1,2)表所示,其中 , 称为总体样本的中心向量。1,nkikx x指 标 样本 1 2 k m 12inxxx1
9、1122221212( )kmii ikimnnnknmkxxxxxxxxx 设对应于 值的分类数为 ,第 类的样本数为 ,第 类的样本记为:rjjn,第 类的聚类中心为向量 ,其中 为()()12,jjjnxx j ()()()12,jjjjmxx ()jkx第 个特征的平均值,即k, ,()()1jnjkikjxx,2)m作 统计量F,()1()()1jrjnrjjijixrFn其中 ()()21mj jkxx为 与 间的距离, 为第 类中第 个样本 与其中心 间的距()jx()()jji ji()jx()jx离。称为 统计量,它是遵从自由度为 , 的 分布。它的分子表征类F1rnrF与类
10、之间的距离,分母表征类内样本间的距离。因此, 值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。基于模糊聚类分析的多属性决策方法的实际应用聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。第一节 雨量站问题一、问题的提出某地区设置有 11 个雨量站,其分布图见图 1,10 年来各雨量站所测得的年降雨量列入表 1 中。现因经费问题,
11、希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?2x7x145x106x81x39x图 1 雨量站分布图表 1 各雨量站 10 年间测得的降雨量年序号 1x23x45x67x89x101x1 276 324 159 413 292 258 311 303 175 243 3202 251 287 349 344 310 454 285 451 402 307 4703 192 433 290 563 479 502 221 220 320 411 2324 246 232 243 281 267 310 273 315 285 327 3525 291 311 502 388
12、330 410 352 267 603 290 2926 466 158 224 178 164 203 502 320 240 278 3507 258 327 432 401 361 381 301 413 402 199 4218 453 365 357 452 384 420 482 228 360 316 2529 158 271 410 308 283 410 201 179 430 342 18510 324 406 235 520 442 520 358 343 251 282 371二、问题的分析应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考
13、虑尽可能地减少降雨信息问题。一个自然的想法是就 10 年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类” (所获降雨信息十分相似)的雨量站中“多余”的站。问题求解 假设为使问题简化,特作如下假设 每个观测站具有同等规模及仪器设备; 每个观测站的经费开支均等;具有相同的被裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。三、问题的解决求解步骤:1、数据的收集原始数据如表 1 所示。2、建立模糊相似矩阵利用相关系数法,构造模糊相似关系矩阵 ,其中1)(rijr 21112)()(|nknkjjiik jjkii xx其中 , 1
14、,2,,11。ix01ki , 1,2,,11。jnkj1取 ,代入公式得 =0.839,由于运算量巨大用 C 语言编程计算出,ij21r其余数值,得模糊相似关系矩阵 ,具体程序如下1)(#include#includedouble r1111;double x11;void main() int i,j,k; double fenzi=0,fenmu1=0,fenmu2=0,fenmu=0;int year1011=276,324,159,413, 292 ,258,311,303,175,243,320,251 ,287,349,344,310,454,285,451,402,307,47
15、0,192 ,433,290,563,479,502,221,220,320,411,232,246 ,232,243,281,267,310,273,315,285,327,352,291,311,502,388 ,330,410,352,267,603,290,292,466 ,158,224,178,164,203,502,320,240,278,350,258,327,432 ,401,361,381,301,413,402,199,421,453,365,357 ,452,384,420,482,228,360,316,252,158 ,271,410,308,283,410,201
16、,179,430,342,185,324,406,235,520 ,442,520,358,343,251,282,371;for(i=0;i11;i+) for(k=0;k10;k+) xi=xi+yearki;xi=xi/10;for(i=0;i11;i+)for(j=0;j11;j+) for(k=0;k10;k+) fenzi=fenzi+fabs(yearki-xi)*(yearkj-xj);fenmu1=fenmu1+(yearki-xi)*(yearki-xi);fenmu2=fenmu2+(yearkj-xj)*(yearkj-xj);fenmu=sqrt(fenmu1)*sq
17、rt(fenmu2);rij=fenzi/fenmu;fenmu=fenmu1=fenmu2=fenzi=0;for(i=0;i11;i+) for(j=0;j11;j+)printf(“%6.3f“,rij);printf(“n“);getchar();得到模糊相似矩阵 R1.000 0.839 0.528 0.844 0.828 0.702 0.995 0.671 0.431 0.573 0.7120.839 1.000 0.542 0.996 0.989 0.899 0.855 0.510 0.475 0.617 0.5720.528 0.542 1.000 0.562 0.585 0.
18、697 0.571 0.551 0.962 0.642 0.5680.844 0.996 0.562 1.000 0.992 0.908 0.861 0.542 0.499 0.639 0.6070.828 0.989 0.585 0.992 1.000 0.922 0.843 0.526 0.512 0.686 0.5840.702 0.899 0.697 0.908 0.922 1.000 0.726 0.455 0.667 0.596 0.5110.995 0.855 0.571 0.861 0.843 0.726 1.000 0.676 0.489 0.587 0.7190.671 0
19、.510 0.551 0.542 0.526 0.455 0.676 1.000 0.467 0.678 0.9940.431 0.475 0.962 0.499 0.512 0.667 0.489 0.467 1.000 0.487 0.4850.573 0.617 0.642 0.639 0.686 0.596 0.587 0.678 0.487 1.000 0.6880.712 0.572 0.568 0.607 0.584 0.511 0.719 0.994 0.485 0.688 1.000对这个模糊相似矩阵用平方法作传递闭包运算,求 即42:R 。4*()tR3、聚类注: 是对称矩
20、阵,故只写出它的下三角矩阵 168.097.68.07190719069.71.09. 68886 .2. 1.0.61.097.1.094. 92586197.0.86.1*R取 0.996,则*0.96R 1111在置信水平为 0.996 的阈值 下相似度为 1,故 同属一类,所245,x 245,x以此时可以将观测站分为 9 类 , , , , , , ,42,x53678x, , 。9x101x降低置信水平 ,对不同的 作同样分析,得到:0.995 时,可分为 8 类,即 , , , , , , , ,42,x561x37x89x , 。10x1=0.994 时,可分为 7 类 , ,
21、 , , , , , ,42,x561x738x9, 。10x1=0.962 时,可分为 6 类 , , , , , , , , ,42,x561x739x810x 。1x0.719 时,可分为 5 类 , , , , , , , , ,42,x561x739x81x 。10x245696.01753994.08162.719.00第二节 成绩评价问题一、问题的提出某高中高二有 7 个班级,学生成绩的好与差,没有明确的评定界限,并且班级间成绩好坏的表现具有一定的模糊不确定性。二、问题的分析解决上述问题可运用模糊聚类分析方法。现以 7 个班级某次其中考试的四门主课成绩为依据,对 7 个班级成绩好
22、坏的相关程度分类。设 7 个班级组成一个分类集合: 分别代表 1 班到 7 班。每127(,)Xx个班级成绩均是四门基础课(语文、数学、英语、综合)作为四项统计指标,即有 这里 表示为第 个班级的第 门基础课指标1234,ijiiiXXijij。这四项成绩指标为:语文平均成绩 ,数学平均成(,7;)j 1iX绩 ,英语平均成绩 ,综合平均成绩 。各班级成绩指标值见表 1。2i 3i 4iX表 1 7 个班 4 门基础课的成绩指标三、问题的解决1、数据标准化 12采用极差变换 , (1)minaxijijX式中 是第 i 个班级第 门基础课平均成绩的原始数据, 和 分别为不ijxj maxin同
23、班级的同一门基础课平均成绩的最大值和最小值。 为第 个班级第 门基ijXj础课平均成绩指标的标准化数值。当 时, ,当 时,minijx0xmaxij。1x表 2 平均成绩指标值的标准化数值2、用最大最小法建立相似矩阵计算模糊相似矩阵 R,根据标准化数值建立各班级之间四门基础课成绩指标的相似关系矩阵,采用最大最小法来计算 :ijr1()mikjijijkxr其中 是表示第 个班级与第 个班级在四门基础0,1(,27,34)ijrij ij课成绩指标上的相似程度的量。取 , =0,其余运算量可以通过2,1ij2rMATLAB 编程运算,程序如下: 13clcclear allmeanp=0 0.
24、0273 1 0.6119 0.7368 0.7229 0.2911;0 0.2553 0.7791 0.8385 0.4587 0.5341 1;0.4285 0 0.8492 1 0.3966 0.5439 0.9513;0.6605 0 1 0.4012 0.3488 0.0864 0.7731;%平均成绩指标值的标准化数值Ca=0;0;0;0;% 初始化比较的数据Cb=0;0;0;0;% 初始化比较的数据mina=0;% 初始化比较的数据maxa=0;% 初始化比较的数据for i=1:7for j=1:7for m=1:4Ca=meanp(m,i);Cb=meanp(m,j);min
25、a(1,m)=min(Ca,Cb);%计算任意两横的最小值maxa(1,m)=max(Ca,Cb);%计算任意两横的最大值endR(i,j)=sum(mina)/sum(maxa);% 计算 ,即相似程度的量ijrendendR %显示相似矩阵得相似矩阵: 10.2130270.3654819.2.7.434.0.802.30.6.87.1.61973.98.1R 3、改造相似关系为等价关系进行聚类分析矩阵 满足自反性和对称性,但不具有传递性,为求等价矩阵,要对 进R R行改造,只需求其传递闭包。由平方法可得 210.536036036.15151.7.0.36.50.60.961.1.731
26、R 420.5.360606.1155367.11.0.5060.9.6.17336.1.1R 840.5.0.36.0.6155367.11.0.50.1.60.9.6. 73361R 最后可得到 。844R故传递闭包为 ,它就是模糊等价矩阵。用其可对 7 个班级进行聚类分析。令 由 1 降至 0,写出 ,按 分类元素 和 归同一类的条件是Riuj(,)ijRu(,12,3456,7)ij取 =1,则有10100RU 可分 7 类 , , , , , , 。1u23u45u67u降低置信水平 ,对不同的 作同样分析,得到取 =0.77, U 可分 6 类 , , , , , 。1234,567取 =0.73, U 可分 5 类 , , , , 。uu,u取 =0.69, U 可分 4 类 , , , 。1234,567,取 =0.61, U 可分 3 类 , , 。取 =0.36, U 可分 2 类 , 。u234567,u取 =0.15, U 可分 1 类 。,按不同的置信水平对 7 个班级进行模糊聚类,将会得到不同的分类结果