1、灰色关联聚类灰色系统基本概念:我们将信息完全明确的系统称为白色系统,信息完全未知的系统称为黑色系统,部分信息明确、部分信息不明确的系统称为灰色系统。灰色关联聚类是根据灰色关联矩阵将一些观测指标或观测对象聚集成若干个可以定义类别的方法。灰色关联聚类主要用于同类因素的归并,以使复杂系统简化。由此,我们可以检查许多因素中是否有若干个因素关系十分密切,使我们既能够用这些因素的综合平均指标或其中的某一个因素来代表这几个因素,又可以使信息不受到严重损失,从而使得我们在进行大面积调研之前,通过典型抽样数据的灰色关联聚类,可以减少不必要变量(因素)的收集,以节省成本和经费。一、灰色关联聚类的基本方法灰色关联聚
2、类实际上是利用灰色关联的基本原理计算各样本之间的关联度,根据关联度的大小来划分各样本的类型。其计算的原理和方法如下。现设有 m 个样本,每个样本有 n 个指标,并得到如下序列:X1 = ( x1(1), x1(2), , x1(n)X2 = ( x2(1), x2(2), , x2(n).Xm = ( xm(1), xm(2), , xm(n)对所有的 ij,i, j=1,2,m,计算出 Xi 与 Xj 的绝对关联度 , 从而得到上三角矩阵 A。ijA= ,其中 ii =1;i=1 ,2,m;m2211 灰色绝对关联度计算方法:设母序列X 0与子序列X i长度相同,它们分别为:)(,)2(,1
3、(000nxxXiiii 则其相应的始点零化序列为: )(,)2(,1(000 nxxXiiii 式中: )()(000xk1iiiX则 X0 与 Xi 的灰色绝对关联度的计算公式为 001ssiii 式中: 12000)()(nknxs1200)()(nkiii 12 00000 )(21)(nk iii nxkxs例:现假设有母序列 X0 和子序列 X1、X 2、X 3、X 4 和 X5,求母序列与个子序列的绝对关联度。序号 1 2 3 4 5 6 7X0 2.64 2.72 2.73 2.72 2.64 2.63 2.54X1 63.19 59.12 46.48 51.06 48.18
4、38.6 41.03X2 43.6 41.1 56.9 58.5 62.2 64.5 67.7X3 69.785 59.446 51.047 43.156 36.684 29.152 24.835X4 2.609 2.244 1.547 1.479 1.435 1.299 1.258X5 1.178 1.05 1.038 0.956 0.935 0.875 0.891第一步:进行始点零化由 可求得;)1()(0iii xkX0100x 08.64.27.)1(2)(000 x同理可获得其他零点化值,如下。序号 1 2 3 4 5 6 7X00 0.00 0.08 0.09 0.08 0.00
5、-0.01 -0.10X01 0.00 -4.07 -16.71 -12.13 -15.01 -24.59 -22.16X02 0.00 -2.50 13.30 14.90 18.60 20.90 24.10X03 0.00 -10.34 -18.74 -26.63 -33.10 -40.63 -44.95X04 0.00 -0.37 -1.06 -1.13 -1.17 -1.31 -1.35X05 0.00 -0.13 -0.14 -0.22 -0.24 -0.30 -0.29第二步:求 、 和 0si0si0.1962000)7(1)(kx83.596201011)()(ks77.2562
6、020)7()(kx151.926203033)7(1)(kxs5.726204044)()(k1.186205055)7(1)(kxs 78.3)(7(21)(62 0000101 k xk6.)()(62 0020002 kxs 1.52)7(1)(62 00300303 k xk9.)(2)(62 00400404 kxs 37.1)(7(1)(62 00500505 k xk第三步:求绝对关联度 50.78.359.1.01100 ss同理分别可求得:; ; ;50.2.354.063.0若取临界值 r 0 ,1,一般要求 r 0.5,当 rij时,则可将 Xi 与 Xj 视为同类特征
7、。r 可根据实际问题的需要来确定,若 r 越接近于 1,则分类越细,每一组中的变量相对地越少;若 r 越小,则分类越粗,这时每一组中的变量相对地越多。二、举例分析我们仍以上一节中的例子进行分析,利用灰色绝对关联度的计算方法进行聚类分析。在本例中,共有 7 个样本,每一个样本中有 6 个指标,为了节约今后调查和收集资料的成本,我们需要将指标进行归类,以达到精简指标的目的。 第一步:进行始点零化利用 可求得(见下表) ;)1()(0iii xkX序号 样本 1 样本 2 样本 3 样本 4 样本 5 样本 6 样本 7X00 0.00 0.08 0.09 0.08 0.00 -0.01 -0.10
8、X01 0.00 -4.07 -16.71 -12.13 -15.01 -24.59 -22.16X02 0.00 -2.50 13.30 14.90 18.60 20.90 24.10X03 0.00 -10.34 -18.74 -26.63 -33.10 -40.63 -44.95X04 0.00 -0.37 -1.06 -1.13 -1.17 -1.31 -1.35X05 0.00 -0.13 -0.14 -0.22 -0.24 -0.30 -0.29第二步:求 、 和 0sijis=0.19; 83.59; 77.25; 151.92123s5.72; 1.184s5s; ;78.30
9、106.721.5203s;94s15s第三步:求绝对关联度; ; ; ;50.1.250.34.63.05; ; ; ;.1278.13.141.5; ; ; 490327025; ;5.3; 64则可得绝对关联矩阵 A164.052.17.49.01.785.163.0.0A若我们假定绝对关联度的临界值取 0.60,则我们依次可检查出:X 5 与 X0 一类,X 3 与 X1 一类,X 5 与 X4 一类。取标号最小的指标作为各类的代表,可将 X5 和 X4并入 X0 中成为一类,这样 6 个指标的聚类结果为:X 5、X 4、X 0 , X 3、X 1 , X 2也就是说,我们在以后资料的收集中,只要收集X0、X 1、X 2 三个指标的数据即可。