1、17.5 聚类分析的 SPSS 实现一、 系统聚类法的 SPSS 实现例 7.5.1 利用全国 30 个省市自治区经济发展基本情况的八项指标数据(见数据集 wyzb6_5.) ,用系统聚类法对这 30 个省市自治区作一初步的分类,并说明各类地区经济发展的特点。操作分析(Analyze) 分类(Classify) 系统聚类(Hierarchical Cluster)打开系统聚类分析(Hierarchical Cluster Analysis)对话框1变量(Variable(s))列表框 设置分析变量。 2标志个案(Label Cases by)框 设置分析对象的标志变量。3分群(Cluster)
2、单选择框 设置聚类分析的类型。4输出(Display)复选择框 设置聚类分析的输出结果,统计量和图都是默认选项。5统计量(Statistics)按钮 设置输出的统计量。合并进程表(Agglomeration schedule)默认选项,输出聚类分析的凝聚状态表;相似性矩阵(Proximitymatrix)为复选项,输出各样品的距离矩阵。聚类成员(Cluster Menbership)选择框:无(None)选项: 不显示类的样品构成;单一方案(Single solution)选项:选择此项,并输入一个确定的分类数 n,并输出聚成 n 个类时各个类的样品构成情况。方案范围(Range of sol
3、utions):选择此项,并输入两个数n1,n2,将显示指定聚成 n1 类到 n2 类时各个类的样品构成情况。26Plots 按钮 设置输出图形:树状图 冰状图7Method 按钮 设置聚类分析的具体方法。 聚类方法:组间连接:类间平均法组内连接:类内平均法最近临元素:最短距离法最远临元素:最长距离法质心聚类法:重心法中位数聚类法:中位数法Ward 法:离差平方和法度量方法选择框:选择计算样品距离的方法转换值选择框:选择原始数据标准化的方法Z 得分,最常用的方法38Save 按钮 设置需要保存的分析结果。输出结果的统计分析 凝聚状态表聚类表群集组合 首次出现阶群集阶 群集 1 群集 2 系数
4、群集 1 群集 2 下一阶1 4 14 .338 0 0 52 20 26 .702 0 0 83 28 29 1.086 0 0 144 27 30 1.542 0 0 85 4 5 2.148 1 0 206 17 18 2.799 0 0 127 23 24 3.518 0 0 178 20 27 4.380 2 4 179 10 15 5.322 0 0 2210 3 16 6.278 0 0 1811 7 8 7.354 0 0 1312 17 22 8.946 6 0 2313 7 12 10.544 11 0 2014 25 28 12.336 0 3 2415 2 21 14.
5、261 0 0 2116 11 13 16.234 0 0 1917 20 23 18.377 8 7 24418 3 6 21.701 10 0 2319 1 11 25.088 0 16 2120 4 7 30.319 5 13 2521 1 2 38.329 19 15 2622 10 19 46.588 9 0 2723 3 17 55.690 18 12 2524 20 25 64.922 17 14 2825 3 4 78.747 23 20 2826 1 9 99.284 21 0 2727 1 10 130.814 26 22 2928 3 20 166.861 25 24 2
6、929 1 3 232.000 27 28 0第 1 列:步骤号,一共进行了 29 聚类第 2 和 3 列:表示某步聚类时的哪两个样品或类进行了合并,合并后的类号为第 2 列的样品或类号第 4 列:聚类时的两个样品或类间的距离第 5 和 6 列:表示某步聚类时是样品还是类参与合并第 7 列:表示本步所聚成的类,再下面的第几步聚类时用到。 成员表群集成员案例 8 群集 7 群集 6 群集 5 群集 4 群集1:北京 1 1 1 1 12:天津 1 1 1 1 13:河北 2 2 2 2 24:山西 3 3 3 2 25:内蒙 3 3 3 2 26:辽宁 2 2 2 2 27:吉林 3 3 3 2
7、 28:黑龙江 3 3 3 2 29:上海 4 4 4 3 110:江苏 5 5 5 4 311:浙江 1 1 1 1 112:安徽 3 3 3 2 213:福建 1 1 1 1 114:江西 3 3 3 2 2515:山东 5 5 5 4 316:河南 2 2 2 2 217:湖北 6 2 2 2 218:湖南 6 2 2 2 219:广东 5 5 5 4 320:广西 7 6 6 5 421:海南 1 1 1 1 122:四川 6 2 2 2 223:贵州 7 6 6 5 424:云南 7 6 6 5 425:西藏 8 7 6 5 426:陕西 7 6 6 5 427:甘肃 7 6 6 5
8、 428:青海 8 7 6 5 429:宁夏 8 7 6 5 430:新疆 7 6 6 5 4 水平冰柱图 树状图Dendrogram using Ward MethodRescaled Distance Cluster Combine6C A S E 0 5 10 15 20 25Label Num +-+-+-+-+-+山西 4 -+江西 14 -+-+内蒙 5 -+ +-+吉林 7 -+ | |黑龙江 8 -+-+ |安徽 12 -+ +-+湖北 17 -+ | |湖南 18 -+-+ | |四川 22 -+ +-+ |河北 3 -+-+ | +-+河南 16 -+ +-+ | |辽宁
9、6 -+ | |青海 28 -+ | |宁夏 29 -+-+ | |西藏 25 -+ +-+ |贵州 23 -+ | |云南 24 -+-+ |广西 20 -+ |陕西 26 -+ |甘肃 27 -+ |新疆 30 -+ |江苏 10 -+-+ |山东 15 -+ +-+ |广东 19 -+ | |天津 2 -+-+ +-+海南 21 -+ +-+ |浙江 11 -+-+ | | |福建 13 -+ +-+ +-+北京 1 -+ |上海 9 -+7结果分析:1 2 3 4 5 6 7 84类 北京天津上海浙江福建海南河北山西内蒙辽宁吉林黑龙江安徽江西河南湖北 湖南四川江苏山东广东广西贵州 云南
10、西藏陕西甘肃青海宁夏新疆5类 北京天津浙江福建海南河北山西内蒙辽宁吉林黑龙江安徽江西河南湖北 湖南四川上海 江苏山东广东广西贵州 云南西藏陕西甘肃青海宁夏新疆6类 北京天津浙江福建海南辽宁河南湖北湖南四川江西吉林黑龙江安徽山西内蒙上海 江苏山东广东广西贵州 云南西藏陕西甘肃青海宁夏新疆7类 北京天津浙江福建海南辽宁河南湖北湖南四川江西吉林黑龙江安徽山西内蒙上海 江苏山东广东广西贵州 云南陕西甘肃新疆西藏青海宁夏8类 北京 辽宁 江西 上海 江苏 湖北 广西 西藏8天津浙江福建海南河南 吉林黑龙江安徽山西内蒙山东广东湖南四川贵州云南陕西甘肃新疆青海宁夏二、动态聚类法的 SPSS 实现在 SPSS
11、 中,凝聚点的指定不是必须的,系统会自动根据分类数目,结合样品情况来选取凝聚点。形成初始分类的方法通常有两种,一是直接将每个样品按与其距离最近的凝聚点并类,二是先让每个凝聚点自成一类,将样品依此并入与其距离最近的凝聚点的一类,并计算该类的重心,以这个重心代替原来的凝聚点,再考虑下一个样品的并类,直至所有样品都归类为止。操作:分析(Analyze) 分类( Classify) k-均值聚类(K Means Cluster)打开 k-均值聚类分析(K Means Cluster Analysis)对话框变量列表框 :聚类数(Number of Clusters)输入框 输入指定的聚类数目。1迭代(
12、Iterate)按钮 设置快速聚类的迭代终止条件。 92保存(Save)按钮 设置需要保存的分析结果。3选项(Options)按钮 选择快速聚类的输出结果,并指定对缺失数据的处理方法。输出结果的统计分析 凝聚点表Initial Cluster CentersCluster1 2 3 4 5 6GDP 5381.72 55.98 2849.52 5002.34 630.07 2462.57居民消费水平 2699 1110 1258 1527 942 534310固定资产投资 1639.83 17.87 704.87 1229.55 150.84 996.48职工平均工资 8250 7382 48
13、39 5145 4475 9279货物周转量 656.50 4.20 2033.30 1196.60 301.10 207.40居民消费价格指数 114.00 117.30 115.20 117.60 121.40 118.70商品零售价指数 111.60 114.90 115.80 114.20 117.20 113.00工业总产值 1396.35 5.57 1234.85 2207.69 324.72 1642.95 最后类中心表Final Cluster CentersCluster1 2 3 4 5 6GDP 5381.72 790.33 2647.02 5078.80 829.98
14、2462.57居民消费水平 2699 2112 1704 1727 1347 5343固定资产投资 1639.83 294.11 605.01 1332.25 239.38 996.48职工平均工资 8250 7342 4945 5544 4895 9279货物周转量 656.50 240.30 1083.87 1111.05 410.62 207.40居民消费价格指数 114.00 116.60 116.80 116.70 118.05 118.70商品零售价指数 111.60 112.70 114.87 114.25 115.95 113.00工业总产值 1396.35 477.17 11
15、35.45 2117.17 448.49 1642.95 类间距离表Distances between Final Cluster CentersCluster 1 2 3 4 5 61 5007.873 4551.063 3029.978 6060.033 4153.0042 5007.873 3256.018 5128.239 2570.901 4340.7423 4551.063 3256.018 2786.774 2119.168 5765.1184 3029.978 5128.239 2786.774 4804.944 5918.4585 6060.033 2570.901 2119
16、.168 4804.944 6316.4716 4153.004 4340.742 5765.118 5918.458 6316.471 分类表Cluster MembershipCase Number 省份 Cluster Distance1 北京 2 1168.5252 天津 2 1057.828113 河北 3 1082.8824 山西 5 516.8015 内蒙 5 848.1236 辽宁 3 1062.6997 吉林 5 833.3158 黑龙江 3 1242.4309 上海 6 .00010 江苏 4 480.52911 浙江 3 2046.16412 安徽 3 935.18113
17、 福建 3 1472.33314 江西 5 807.88515 山东 4 480.52916 河南 3 1111.73817 湖北 3 477.43218 湖南 3 660.95719 广东 1 .00020 广西 5 837.03021 海南 5 902.60322 四川 3 1114.15923 贵州 5 644.34324 云南 5 552.00425 西藏 2 1377.91126 陕西 5 576.34127 甘肃 5 758.14428 青海 5 1209.84729 宁夏 5 834.48330 新疆 5 494.696 每类中包含的样品数Number of Cases in e
18、ach Cluster1 1.0002 3.0003 10.0004 2.000Cluster5 13.000126 1.000Valid 30.000Missing .0001 2 3 4 5 6广东 北京天津西藏辽宁 河北河南 湖北湖南 四川安徽 浙江福建 黑龙江江苏山东广西 新疆江西 吉林山西 内蒙海南 贵州 云南 陕西甘肃 青海宁夏上海习 题1 土壤样品聚类sav 记录了 20 个土壤样品的有关指标的数据,5 项指标分别是:含沙量 X1,淤泥含量 X2,粘土含量 X3,有机物X4,PH 值 X5。利用系统聚类法完成样品分类,选取合适的分类数目,并通过分析各类中所含样品各指标值的统计性质,说明各类土壤的特点。2 森林及草资源sav 记录了世界 18 个国家的森林及草原资源的分布情况。共有 4 项指标,分别是:森林面积 X1,森林覆盖率 X2,林木蓄积量 X3,草原面积 X4。利用快速聚类法完成样品分类,选取合适的分类数目,并通过分析各类中所含样品各指标值的统计性质,说明各类国家的森林及草原资源的分布的情况。