1、数 理 统 计(课 程 大 作 业 2)聚类和判别分析学 院: 机械工程学院专 业: 材料加工工程日期:2014 年 12 月 22 日0摘要:本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5 个与经济发展水平相关联的指标,对全国 28 个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。关键字:经济类型 SPSS 聚类分析 判别分析 1 引言中华人民共和国成立后,通过有计划地进行大规模的社会主
2、义建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。按预定计划,到 2010 年,中国将建立起比较完善的社会主义市场经济体制;到2020 年,建立起比较成熟的社会主义市场经济体制。但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。近年来,这种不均衡引起了人们的注意。新中国成立至 1978年的 30 年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。自 1978 年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先
3、发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003 年广东省为 13626 亿元,约相当于 3 个湖南(4639 亿元)或 10 个贵州(1365 亿元)或 35 个青海(390 亿元).从人均地区生产总值来看,2003 年浙江为 20147 亿元,3 倍于江西(6678 元),4 倍于甘肃,5.6 倍于贵州。本文就是在这样的背景下提出来的,使用 SPSS Statistics 19.0 这一统计软件,利用国家统计局公布的中国统计年鉴 2013中提供的 2012 年我国各地区经济发展的数据,依据各
4、地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5 个与经济发展水平相关联的指标,对全国 28 个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区1的经济发展水平进行分类,并对分类的结果进行了分析。2 数据采集本文数据来源于中国统计年鉴 2013,具体数据见表 1表 1 源数据地区居民消费水平(元)社会固定资产投资(亿元)人均地区生产总值(元) 政府消费支出(亿元) 城镇居民人均总收入(元/人)北京 30349.5 6112.4 87475 4451.8 36468.75天津 22984
5、.0 7934.8 93173 1698.7 29626.41河北 10749.4 19661.3 36584 3272.7 20543.44山西 10829.0 8863.3 33628 1605.4 20411.71内蒙古 15195.5 11875.7 63886 2466.9 23150.26辽宁 17998.7 21836.3 56649 2178.8 23222.67吉林 12276.3 9511.5 43415 1566.2 20208.04黑龙江 11600.8 9694.7 35711 2812.7 17759.75上海 36892.9 5117.6 85373 2807.3
6、 40188.34江苏 19452.3 30854.2 68347 7329.0 29676.97浙江 22844.7 17649.4 63374 4013.3 34550.30安徽 10977.7 15425.8 28792 1876.3 21024.21福建 16143.9 12439.9 52763 1854.8 28055.24江西 10572.9 10774.2 28800 1560.5 19860.36山东 15095.0 31256.0 51768 5960.3 25755.19河南 10380.3 21450.0 31499 3584.0 20442.62湖北 12283.0
7、15578.3 38572 2897.3 20839.59湖南 11739.5 14523.2 33480 2397.7 21318.76广东 21823.3 18751.5 54095 6241.8 30226.71广西 10519.5 9808.6 27952 1612.2 21242.80海南 10634.5 2145.4 32377 448.3 20917.71重庆 13655.4 8736.2 38914 1389.3 22968.14四川 11280.2 17040.0 29608 2831.4 20306.99贵州 8372.0 5717.8 19710 1039.7 18700
8、.51云南 9781.6 7831.1 22195 1763.2 21074.50西藏 5339.5 670.5 22936 289.6 18028.32陕西 11852.2 12044.5 38564 1944.9 20733.88甘肃 8542.0 5145.0 21978 1131.9 17156.89青海 10289.1 1883.4 33181 410.2 17566.28宁夏 12120.4 2096.9 36394 404.2 19831.41新疆 10675.1 6158.8 33796 1891.8 17920.682三 聚类分析3.1 聚类分析过程首先将数据导入 SPSS
9、中,并剔除待分析的河北、浙江、新疆三省数据。表 3 所示的为聚类分析的汇总结果:表 3 案例处理汇总案例有效 缺失 总计N 百分比 N 百分比 N 百分比28 100.0 0 .0 28 100.0a. 平方 Euclidean 距离 已使用 b. 平均联结(组之间)从表 3 中可以看到 28 个样本的数据全都有效,均用于系统聚类分析过程。表中列出了有效样本、缺失样本和样本总数的个数和百分数。表4显示的是样本的凝聚过程。对本文选取的28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。表 4 聚类表群集组合 首次出现阶群集阶 群集 1 群集 2 系数 群集 1 群集
10、 2 下一阶1 12 18 3568152.164 0 0 112 10 21 4789624.428 0 0 93 22 26 7892087.384 0 0 84 19 27 12067895.815 0 0 75 15 25 13591635.444 0 0 126 3 7 14116255.332 0 0 147 19 28 19190996.708 4 0 198 22 23 21666276.496 3 0 139 10 16 23240192.308 2 0 1110 6 20 30411453.520 0 0 1211 10 12 41848265.896 9 1 1612 6
11、 15 42054641.615 10 5 1413 22 24 53920958.101 8 0 2314 3 6 54768430.052 6 12 1915 1 8 64763844.618 0 0 2216 10 14 81191025.397 11 0 20317 5 17 96231017.522 0 0 1818 5 11 1.141E8 17 0 2119 3 19 1.218E8 14 7 2020 3 10 1.515E8 19 16 2321 4 5 1.868E8 0 18 2522 1 2 2.597E8 15 0 2723 3 22 2.667E8 20 13 26
12、24 9 13 3.113E8 0 0 2525 4 9 3.780E8 21 24 2626 3 4 1.133E9 23 25 2727 1 3 3.450E9 22 26 0表4所列各项的意义如下:阶聚类步骤号;群集组合在某步中合并的个案;系数距离或相似系数;首次出现阶群集新生成聚类;下一阶对应步骤生成的新类将在第几步与其它个案或新类合并。从中可以看出聚类的进度和类详细合并的步骤。可以从表中看出,第 12 和第 18 个样本最先进行了聚类,样本间的距离为3568152.164。表 5 显示的是聚类后的集群成员:表 5 群集成员案例 群集1:北 京 12:天 津 13:山 西 24:内蒙古
13、 35:辽 宁 36:吉 林 27:黑龙江 28:上 海 19:江 苏 310:安 徽 2411:福 建 312:江 西 213:山 东 314:河 南 215:湖 北 216:湖 南 217:广 东 318:广 西 219:海 南 220:重 庆 221:四 川 222:贵 州 223:云 南 224:西 藏 225:陕 西 226:甘 肃 227:青 海 228:宁 夏 2从表 5 可以看到系统聚类分析的最终结果为:北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。图 1 为垂直冰柱图,形状类似于冬天屋檐上垂下
14、的冰柱,因此得名。横轴:案例(Case )表示被聚类的对象;纵轴:群集数(Number of clusters)表示被聚成几类;图 1 以冰柱图表示聚类分析结果。图中第 1 列为聚类步骤号,第 1 行为样本及样本号。图中每一列代表一个冰柱,深色柱代表冰柱的长短。从冰柱的长短变化可以看出聚类的全过程。即如果样本或新类在第 n 步合并,则在图中第n 步以上合并项对应列中用深色填充,没有空格。由于冰柱图是按照聚类的编号进行排列,所以其与聚结表的顺序刚好相反,也就是说聚结表的第一步对应于冰柱图的最后一步。冰柱图一般从表格的最后一行开始观察。最后一行中,类的数目为 27,即聚积成 27 类,其中样本江西
15、和广西用深色柱连接在一起,表示成两个样本聚成一类,其余每个样本构成一类。因此从冰柱图中可以非常清楚地看到,聚成 n时类时,各个样本的类归属情况。5图1 冰柱图图 2 为聚类分析之后的树状图:图2 树状图图 2 清晰地表示出了聚类的全过程。它将实际的距离按比例调整到 0256的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将和水平线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。3.2 聚类分析结果总结从上一部分的聚类分析过程可以看出,SPSS 软件将本文所采用的
16、数据分为3 类,如表 6 所示:表 2集群 地区第一类 北京、天津、上海第二类 其他省、自治区、直辖市第三类 内蒙古、辽宁、江苏、福建、山东、广东北京市、天津市、上海市构成一类。北京、天津作为老牌经济强省,同时也是北方京津冀经济圈的主要经济贡献力量,其在全国经济整体盘面上表现一直相对强劲。上海市作为中国的经济中心,其整体发展水平高于全国其他地市,其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。内蒙古由于近几年煤炭等能源生产增长,还有富饶的草原畜牧业,经济发展迅速。而辽宁、江苏、福建、山东、广东这些沿海地区,由于受到改革开放经济政策的影响,经济实力仅次于北京、
17、上海、天津。故以上几个省份被划为一类。其余省市被划分为一类。这些省市中也包括黑龙江省等经济条件较好的省市,但各行业领域发展并不均衡,故将其划入该类中。4 判别分析4.1 判别分析过程根据聚类分析的结果,将省份分为 3 类,在 SPSS 中添加一个新变量 G 用来表示类别,取值为 1、2 和 3,同时在表中添加了三个个案河北、浙江、新疆,作为待判样本。下面是判别结果相关表格。下表 7 为参与分析的个案处理的摘要显示,可以看出,共有 28 个样本作为7判别基础数据进入分析。表 7 分析案例处理摘要未加权案例 N 百分比有效 28 90.3缺失或越界组代码 3 9.7至少一个缺失判别变量 0 .0缺
18、失或越界组代码还有至少一个缺失判别变量0 .0排除的合计 3 9.7合计 31 100.0下表 8 为分组的统计量统计信息。由下表可以看出一共有 3 个组,其中第一组 3 例,第二组 19 例,第三组 6 例。同时,下表给出了各组中变量的均值和标准差。表 8 组统计量有效的 N(列表状态)G 类别 均值 标准差 未加权的 已加权的居民消费水平 30075.4667 6958.49808 3 3.000社会固定资产投资 6388.2667 1428.71648 3 3.000人均地区生产总值 88673.6667 4035.79005 3 3.000城镇居民人均总收入 35427.8333 53
19、57.35214 3 3.0001政府消费支出 2985.9333 1385.21562 3 3.000居民消费水平 10686.6263 1816.10285 19 19.000社会固定资产投资 9417.9158 5710.44151 19 19.000人均地区生产总值 31458.2105 6544.42549 19 19.000城镇居民人均总收入 20020.6563 1518.89422 19 19.0002政府消费支出 1661.3158 938.74936 19 19.000居民消费水平 17618.1167 2668.37565 6 6.000社会固定资产投资 21168.93
20、33 8537.01207 6 6.000人均地区生产总值 57918.0000 6708.25283 6 6.000城镇居民人均总收入 26681.1733 3121.52932 6 6.0003政府消费支出 4338.6000 2430.30174 6 6.000居民消费水平 14249.3214 6810.84948 28 28.000社会固定资产投资 11611.3857 7880.56214 28 28.000人均地区生产总值 43258.3929 20322.59927 28 28.000城镇居民人均总收入 23098.6789 5646.00438 28 28.000合计政府消费
21、支出 2376.9429 1755.02985 28 28.0008下表 9 为组均值的均等性检验表:表 9 组均值的均等性的检验Wilks 的 Lambda F df1 df2 Sig.居民消费水平 .153 69.121 2 25 .000社会固定资产投资 .570 9.437 2 25 .001人均地区生产总值 .092 123.026 2 25 .000城镇居民人均总收入 .172 60.366 2 25 .000政府消费支出 .592 8.615 2 25 .001该检验方法的原假设是组均值对应相等,此时各变量间没有显著差异。本例中的各变量的显著性概率均小于 0.05,所以拒绝原假设
22、,即认为各变量之间存在显著的差异。下表 10 为汇聚的组内矩阵表,该表显示了各个变量两两之间的协方差和相关系数。表 10 汇聚的组内矩阵居民消费水平 社会固定资产投 资 人均地区生产总 值 城镇居民人均总 收入 政府消费支出居民消费水平 7672426.660 3033279.657 5216758.878 5283078.918 1480414.129社会固定资产投资 3033279.657 38217995.847 8001104.608 3391896.304 6634790.857人均地区生产总值 5216758.878 8001104.608 41140382.873 960452.
23、898 1465320.179城镇居民人均总收入 5283078.918 3391896.304 960452.898 5905955.377 1618204.396协方差政府消费支出 1480414.129 6634790.857 1465320.179 1618204.396 1969279.350居民消费水平 1.000 .177 .294 .785 .381社会固定资产投资 .177 1.000 .202 .226 .765人均地区生产总值 .294 .202 1.000 .062 .163城镇居民人均总收入 .785 .226 .062 1.000 .474相关性政府消费支出 .38
24、1 .765 .163 .474 1.000a. 协方差矩阵的自由度为 25。下表 11 的协方差矩阵,展示了聚类分析后的各个类的变量两两之间的协方差:94.2 判别分析结果总结首先,对协方差矩阵的均等性进行箱式检验。下表 12 为对数行列式表,该表包括各类别和合并组内的对应的秩和对数行列式:表 12 对数行列式G 类别 秩 对数行列式1 .a .b2 5 74.0803 5 80.611汇聚的组内 5 78.557打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。表 11 协方差矩阵G 类别 居民消费水平 社会固定资产投 资 人均地区生产总 值 城镇居民人均总 收入 政府消费支出居民消
25、费水平 48420695.503 -9852735.767 -27368710.967 36940141.442 4156123.882社会固定资产投资 -9852735.767 2041230.773 5741544.133 -7654132.957 -1084074.793人均地区生产总值 -27368710.967 5741544.133 16287601.333 -21531547.583 -3479584.133城镇居民人均总收入 36940141.442 -7654132.957 -21531547.583 28701221.961 4071622.6831政府消费支出 41561
26、23.882 -1084074.793 -3479584.133 4071622.683 1918822.303居民消费水平 3298229.580 4319615.980 9662694.105 1680206.960 662639.440社会固定资产投资 4319615.980 32609142.188 8424512.846 3916161.119 4982434.632人均地区生产总值 9662694.105 8424512.846 42829504.953 3747667.059 1404456.119城镇居民人均总收入 1680206.960 3916161.119 3747667
27、.059 2307039.664 413414.2662政府消费支出 662639.440 4982434.632 1404456.119 413414.266 881250.360居民消费水平 7120228.610 3556875.065 2245580.000 5590592.956 3354119.110社会固定资产投资 3556875.065 72880575.051 7380659.140 5922954.673 15670819.526人均地区生产总值 2245580.000 7380659.140 45000656.000 -76717.890 3662392.520城镇居民人
28、均总收入 5590592.956 5922954.673 -76717.890 9743945.307 4974081.5533政府消费支出 3354119.110 15670819.526 3662392.520 4974081.553 5906366.532居民消费水平 46387670.622 6278134.148 1.252E8 36970857.207 5704313.183社会固定资产投资 6278134.148 62103259.585 30401569.858 8345411.101 11060870.150人均地区生产总值 1.252E8 30401569.858 4.13
29、0E8 1.003E8 16762748.823城镇居民人均总收入 36970857.207 8345411.101 1.003E8 31877365.455 5444351.363合计政府消费支出 5704313.183 11060870.150 16762748.823 5444351.363 3080129.790a. 总的协方差矩阵的自由度为 27。10表 12 对数行列式G 类别 秩 对数行列式1 .a .b2 5 74.0803 5 80.611汇聚的组内 5 78.557打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。a. 秩 3b. 案例太少无法形成非奇异矩阵通过表 1
30、3 得出检验结果:表 13 检验结果 a箱的 M 79.900近似。 3.083df1 15df2 339.325FSig. .000对相等总体协方差矩阵的零假设进行检验。a. 有些协方差矩阵是奇异矩阵,因此一般程序不会起作用。将相对非奇异组的汇聚组内协方差矩阵检验非奇异组。其行列式的对数为 71.701。表 14 为特征值表:表 14 特征值函数 特征值 方差的 % 累积 % 正则相关性1 15.035a 94.5 94.5 .9682 .878a 5.5 100.0 .684a. 分析中使用了前 2 个典型判别式函数。表 15 为 Wilks 表:11表 15 Wilks 的 Lambda
31、函数检验 Wilks Lambda 卡方 df Sig.1 到 2 .033 78.313 10 .0002 .533 14.494 4 .006该表中各项为 Wilks 的值、卡方值、自由度和显著性概率。当显著性概率小于 0.05 时,拒绝原假设,认为组间均值不相等。由表中可以看出,显著性概率均小于 0.05,所以认为组间均值不等。表 16 为标准化的典型判别式函数系数,其中包含了各独立变量对应的判别函数的标准化系数值:表 16 标准化的典型判别式函数系数函数1 2居民消费水平 -.124 -.666社会固定资产投资 -.121 .880人均地区生产总值 .857 .199城镇居民人均总收入
32、 .737 .359政府消费支出 -.207 .040表 17 为结构矩阵表,该表内为判别变量与根据函数内相关系数绝对大小排序的标准化公共判别函数变量之间的合并组内相关系数:表 17 结构矩阵函数1 2人均地区生产总值 .807* .210居民消费水平 .605* -.155城镇居民人均总收入 .567* .066社会固定资产投资 .038 .914*政府消费支出 .142 .662*判别变量和标准化典型判别式函数之间的汇聚组间相关性 按函数内相关性的绝对大小排序的变量。*. 每个变量和任意判别式函数间最大的绝对相关性12表 18 为典型判别式函数系数表,里面列出的是各变量及常数项对应的没有进
33、行标准化的典型判别函数系数:表 18 典型判别式函数系数函数1 2居民消费水平 .000 .000社会固定资产投资 .000 .000人均地区生产总值 .000 .000城镇居民人均总收入 .000 .000政府消费支出 .000 .000(常量) -11.563 -3.051非标准化系数利用上表 17,可以得到前两个判别函数的表达式:f1= -11.563, f2= -3.051表 18 为组质心处的函数值表:表 19 组质心处的函数函数G 1 21 9.107 -1.3002 -2.201 -.2973 2.416 1.592在组均值处评估的非标准化典型判别式函数该表包括对应与表 17 中
34、两个函数的各类别的函数值。可得:河北:f1= -11.563 ,f2= -3.051浙江:f1= -11.563 ,f2= -3.051新疆:f1= -11.563 ,f2= -3.051可以看出,河北、浙江和新疆的最大值在都在 f2 判别函数处取得。继续进13行判别,将河北、浙江、新疆的分入聚类分析所分出的三个类中。接下来进行进一步的判别分析,采用 Fisher 判别法。首先来看分类处理的摘要,如表 20 所示:表 20 分类处理摘要已处理的 31已排除的 缺失或越界组代码 0至少一个缺失判别变量 0用于输出中 31下表 21 显示的为组的先验概率:表 21 组的先验概率用于分析的案例G 先
35、验 未加权的 已加权的1 .333 3 3.0002 .333 19 19.0003 .333 6 6.000合计 1.000 28 28.000该表包括各类别和全部对应的先验概率和参与分析的未加权和经过加权的个案数。各类别的先验概率等于 1 除以类别数。在本文中,类别数等于 3,所以各类别的先验概率均等于 0.333。然后进行 Fisher 判别,表 22 为 Fisher 线性判别函数的系数表:表 22 分类函数系数G1 2 3居民消费水平 -.004 -.004 -.005社会固定资产投资 .000 .001 .001人均地区生产总值 .003 .001 .002城镇居民人均总收入 .0
36、11 .008 .010政府消费支出 -.007 -.005 -.006(常量) -244.062 -76.524 -137.397Fisher 的线性判别式函数利用该表得到 3 各类别的分类判别函数为:14f1= -0.004居民消费水平+0.003人均地区生产总值+0.011城镇居民人均总收入-0.007政府消费支出-244.062f2= -0.004居民消费水平+0.001社会固定资产投资+0.001人均地区生产总值+0.008城镇居民人均总收入-0.005政府消费支出-76.524f3= -0.005居民消费水平+0.001社会固定资产投资+0.002人均地区生产总值+0.010城镇居
37、民人均总收入-0.006政府消费支出-137.397利用上述三个判别函数对河北、浙江和新疆的经济类型进行判断。将各省的变量值带入各函数。经过计算可得:河北:f1=25.76134,f2=161.23172,f3=87.4835浙江:f1=211.8256,f2=169.4565,f3=214.2001新疆:f1= -1.48952,f2=54.63684,f3=50.8343由上面的结果可以看出:浙江在 f3 处取得最大值,因此应该被分为第三类。新疆、河北在 f2 处取得最大值,因此应该被分为第二类。表 23 为分类结果表:表 23 分类结果预测组成员G1 2 3合计1 3 0 0 32 0
38、19 0 193 0 0 6 6计数未分组的案例 0 2 1 31 100.0 .0 .0 100.02 .0 100.0 .0 100.03 .0 .0 100.0 100.0初始%未分组的案例 .0 66.7 33.3 100.0a.已对初始分组案例中的 100.0% 个进行了正确分类。5 结论本文运用 SPSS 数理统计软件,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5 个与经济发展水平相关联的指标,对我国 31 个省份 2012 年的地方生产总值进行了聚类分析。在此基础上,进行 Fisher 判别分
39、析,15得出了各类的 Fisher 线形判别函数,并且对所有样品进行了回报判别,回报率均为 100%,说明建立的判别分析方法适用。同时,可以通过之前给出的 Fisher规范判别函数,将待检验的个案的各指标带入其中,比较计算值的大小就可以预测该个案属于哪个类,如预测河北省属于第二类。分析结果显示,北京、天津、上海构成了中国经济金字塔的最上层,由于北京是中国政治、文化中心,又是中国的首都,因此经济发展必然有所保证;天津作为沿海直辖市,经济势头也相当迅猛;而上海是中国的经济中心,也是长江三角洲的核心,经济发展全国首屈一指。内蒙古、辽宁、江苏、福建、山东、广东构成了中国经济发展的第二集团。其中内蒙古最近几年由于煤炭资源的大力开采和畜牧业的天然优势,逐步将经济提升到第二集团;而辽宁、山东、江苏、福建和广东作为我国沿海地区,经济发展较其他地区优先,所以经济发展状况良好。其他省、市、自治区被划分为最后一类,这也是由于中国地区差异造成的。判别分析中,浙江被划分为第二集团,浙江作为沿海省份,与江苏、福建经济状况相当。河北和新疆被划分为最后一类,由中西部发展迟缓造成。按经验分析,这样的聚类和判别分析也是相当合理。参考文献:1 孙海燕,周梦,李卫国,冯伟.应用数理统计M.北京: 北京航空航天大学数学系, 2014.2 国家统计局 .2013 年中国统计年鉴M.北京:中国统计出版社,2013.