1、全国各地区农民家庭收支的聚类与判别分析【摘要】本文引用某年全国各地区农民家庭收支的抽样调查资料,运用 SPSS 统计软件中的聚类分析和判别分析对这些原始数据进行分类处理,旨在研究全国各地区农民家庭收支的分布规律对此进行简要讨论。【关键词】农民家庭收支 聚类分析 判别分析一、引言随着中国经济的发展和社会的进步,人民的生活水平日益提高,特别是在我国广大农村,农民的生活水平更是上了一个大台阶,这主要有以下三个原因:第一是中国城镇化水平的提高和农村剩余劳动力的大量转移,许多农民也像城镇人口一样取得了固定性的工资收入;第二是农民不再单纯地依靠种植收入,而是进行家庭经营取得经营收入; 第三也是最重要的是政
2、府意识到“三农”问题的重要性,加大了对农业、农村、农民的投入力度。正因为如此,近年来各地农民家庭收入逐年递增,正朝着小康水平迈进。农民家庭的收入增加,必然会导致家庭消费支出总额的增加和家庭消费支出结构的变化。从最近几年的统计数据可以看出:农村地区对吃穿等基本生活资料的消费呈下降趋势,而对于文化教育及医疗保健的支出消费逐年递增。从农村家庭收支的变化情况可以看出整个国家的经济增长状况,以小见大,为政府决策提供一定的依据。二、数据选取及数据分析(一)数据选取为了研究我国各地的农民家庭收支情况,现抽取了 2012年 31 个省、市、治区八个指标变量,依次为 X1(农村人均消费食品支出) 、X2(农村人
3、均衣着支出) 、X3(农村人均居住支出) 、X4(农村人均家庭设备及服务支出) 、X5(农村人均交通及通信支出) 、X6(农村居民文教娱乐支出) 、X7(农村人均医疗保健支出) 、X8 农村人均其他商品及服务服务支出)(单位:元) 。以上数据均来源于中国统计局 2012年数据,以下运用 SPSS20.0进行因子分析。其原始数据如表 1:表 1 全国各地区农民家庭收支情况XH DQ X1 X2 X3 X4 X5 X6 X7 X81 北京 3944.8 948 2199.8 773.5 1398.8 1152.7 1125.2 336.22 天津 3019.9 780.7 1263.5 451.3
4、 1066.3 766.1 760.4 228.43 河北 1817 396.6 1137.3 349.9 604.3 358.5 543.7 156.8(二)数据分析对数据进行描述性统计分析如表 2,我们可以看到各地区农民各项消费支出相对全国农民平均消费支出的情况,在农村居民消费支出中食品、住宅、交通通讯占了大部分比重说明随着农村居民收入的增加,人们更加注重人们的饮食、居住环境。也就是说人们更加注重享受消费,对于医疗卫生,文教娱乐等发展消费方面其所占比例相对减少。对于吉林省的农村居民的消费支出我们可以看到在食品支出、住宅支出、家庭设备和生活用品、交通通讯等方面吉林省低于各省的平均水平,吉林省
5、的农村居民对于享受消费方面发展较弱。这有可能是人们的思想观念问题,对于享受消费方面观念保守,还有一种可能是由于吉林省是农业大省,在饮食上存在地缘优势,导致食品价格偏低,而且由于我省的经济发展水平的限制,人们对于住房、家庭设备、交通通信等4 山西 1860 501.8 1142.1 298.3 626 498 490.2 149.75 内蒙古 2379.8 481.8 1079 269 912.2 514 588.9 157.46 辽宁 2300 517.9 979.8 250.5 668.7 556.6 548.8 176.27 吉林 2268.8 478.7 836.8 251.9 699
6、606.3 840.5 204.18 黑龙江 2164.9 544.6 754.7 229.7 611.3 518 727 167.79 上海 4847.6 704.4 1834.1 646.1 1704.8 952.1 1029 253.410 江苏 3049.1 610.7 1493.2 532.9 1311.1 1184.2 724.2 232.711 浙江 3947.3 751.6 1950.1 604.4 1499.9 902.2 746.1 251.112 安徽 2180.8 331.9 1139.8 346.9 516.6 385.9 510.1 14413 福建 3403.5
7、471.4 1165.8 426.7 795 565.8 380.6 193.114 江西 2232.8 265 1030.2 278.3 494.5 342.7 380.4 105.615 山东 2321.5 454.7 1399.9 405.7 937.6 501 635.3 120.216 河南 1701.7 424.1 1060.7 361.6 525.1 343.8 468.8 146.217 湖北 2154 316.4 1206.2 397.9 496.1 394.6 591.9 169.718 湖南 2574.8 318 1088.2 373.5 481.6 400.2 497.
8、2 136.619 广东 3658.7 319.5 1196.1 378.5 760.1 466.6 446.5 232.720 广西 2085.6 156.5 1200.8 274.6 453 270.2 383.9 108.821 海南 2410.1 178.9 828.6 207.5 435.6 254 306.5 155.222 重庆 2216.1 380.2 557 413.5 489.3 394.2 482.2 8623 四川 2514.2 338.5 787.4 333.2 463.9 329.3 498.3 101.924 贵州 1740.6 226.8 758.4 211.4
9、 371.3 226.4 282.5 84.325 云南 2080.6 241.1 804.4 247 470.2 289.2 362.6 66.226 西藏 1592 372.6 251.6 173.3 364 40.9 82.7 90.527 陕西 1520.1 332.7 1258.1 298.7 503.3 445.5 619.9 136.428 甘肃 1648.6 303.1 682.3 250.4 436 327.3 398 100.429 青海 1858.6 404.5 1209.7 257.4 683.7 283.3 520.1 121.630 宁夏 1891.4 463.4
10、1033.2 305 620.8 373.4 492.1 172.231 新疆 1891.1 429.9 1298.5 219.1 646.4 261.7 444.2 110.2的需求小于经济发达的省市,而且其物价水平也显著低于经济发达城市,再收入差距日渐缩小的今天,吉林省的农村居民可以花更少的钱享受更好的生活。而吉林省农村居民在衣着支出、文教娱乐、医疗保健方面的支出显著高于各省的平均水平,可以看到吉林省农村居民对于生活品质、教育、医疗保健的重视还是高于全国平均水平的,这有利于我们我省培养人才,提高居民的身体素质,促进吉林省更好更快的发展。但是对于衣着支出高于全国平均水平,我认为主要是由于我省
11、的制造业比较落后,主要靠从外省的批发运输,导致其成本增加从而居民的衣着支出增加,而且随着居民收入的增加,物价水平不断上涨,人们更加重视衣着等外在也是导致其支出上升的原因。表 2中全国各省市的各项指标的偏度与峰度均大于 0,各项指标呈现右偏尖峰分布,以均值作为集中趋势,各省市的各项指标均存在一定的高估或低估,这是不准确的特别是吉林省在 X1、X3、X4、X5 指标存在一定的低估,X2、X6、X7、X8 存在一定的高估。总的来说吉林省在发展消费能力方面即衣着支出、文教娱乐支出、医疗保险支出、其他方面的支出显著高于其他省市,这有利于我省农村居民的在文化、医疗、制造业、服务业等相关产业的发展,表明了吉
12、林省农村居民对文化医疗方面的重视,是十分有利于我省的文化事业的发展以及居民身体素质的提升。而吉林省农村居民在食品支出,居住环境支出、家庭生活用品支出以及交通通信方面的支出等享受消费方面的支出却显著低于全国各省市的平均水平,表现出了我省的农村居民消费结构存在问题,是不利于我省农村居民整体消费水平的提升,不利于吉林省整体经济模式的发展转变。表 2 描述性统计极小值 极大值 均值 标准差 方差 偏度 峰度统计量 统计量 统计量 统计量 统计量 统计量 标准误 统计量 标准误X1 1520.1 4847.6 2428.258 795.9023 633460.533 1.471 .421 1.845X2
13、 157 948 433.74 179.594 32253.917 1.039 .421 1.236.821.821X3 251.6 2199.8 1117.010 392.7930 154286.355 .700 .421 1.658 .821X4 173.3 773.5 348.958 137.6252 18940.688 1.460 .421 2.195 .821X5 364.0 1704.8 711.177 346.2881 119915.415 1.578 .421 1.773 .821X6 40.9 1184.2 480.797 263.2933 69323.354 1.350 .
14、421 1.677 .821X7 82.7 1125.2 545.413 211.6889 44812.190 .781 .421 1.525 .821X8 66.2 336.2 157.919 60.9286 3712.290 .941 .421 .969 .821三、聚类分析经济研究过去常常采用定性分析,根据经验进行经济决策,这种方法有很多的弊端,因而人们越来越多地采用定性与定量分析相结合,以事实说话,更客观地反映经济变化的规律。这里我们利用已有的统计数据,运用 SPSS 统计软件对其进行分析,主要进行的是聚类和判别分析。表 3 案例处理汇总案例有效 缺失 总计N 百分比 N 百分比 N
15、百分比31 100.0 0 0.0 31 100.0Ward 联结上表为个案处理综述表。表中显示有效个案为 31 个;缺失个案为 0 个,即没有缺失个案;个案总数为 31个,说明所选随机样本 100%有效。脚注显示聚类时采用的是ward方法,具体聚类方法为默认设置的欧氏距离平方值法。图 1 树状图上面的图 1清晰地表示了聚类的全过程。它将实际的距离按比例调整到 0 至 25 的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。如图所示,将所选指标进行粗分,分为五类:第一类:北京、浙江和上海。第二类:福建、天津、广东、江苏。第三类:河北、山西、河南、陕西、青海、宁夏、新疆。第四类:
16、内蒙、辽宁、吉林、黑龙江、安徽、江西、山东、湖北、湖南、广西、海南、重庆、四川、云南。第五类:贵州、甘肃。从原始数据中,我们可以清楚地看出北京和上海、浙江三地的消费支出在全国各地区中水平最高,特别是住房支出远远高于其它省市,此外生活用品和文化生活服务支出的数额也较别的地区偏高。仅次于北京和上海的地区就是福建、天津、广东、江苏,这个省份的消费水平在整个国家中居于前列。如表 3:表 4 聚类分析结果群集成员案例 5 群集 案例 5 群集1:北京 1 17:湖北 42:天津 2 18:湖南 43:河北 3 19:广东 24:山西 3 20:广西 45:内蒙 4 21:海南 46:辽宁 4 22:重庆
17、 47:吉林 4 23:四川 48:黑龙江 4 24:贵州 59:上海 1 25:云南 410:江苏 2 26:西藏 511:浙江 1 27:陕西 312:安徽 4 28:甘肃 513:福建 2 29:青海 314:江西 4 30:宁夏 315:山东 4 31:新疆 316:河南 3这个结果从一个侧面反映出了我国经济发展的水平和结构。经济水平有了较大的提高,但经济重心仍然集中在几个发达的主要省市,如北京、上海、浙江等。中国实行改革开放政策以来,经济有了突飞猛进的增长,特别是农村经济的迅速发展,但经济发展不平衡的问题也一直伴随着,并且还有越演越烈的趋势,东部发达地区和南方一些经济基础好的省市的发
18、展已经达到中等发达国家的水平,但是广大中西部地区的经济水平特别是西部内陆地区的经济远远落后于经济发达地区。国家也意识到这个问题,因而提出西部大开发的伟大战略,东部帮助西部,共同走向繁荣。从原始数据和上面的分析结果,我们可以很明显地感觉到这一点,第一类地区的消费支出中食品的消费占了大部分,根据恩格尔定律知道这些地区的恩格尔系数比较高,经济发展程度不高。而第二类和第三类地区的消费支出中非生活必需品的消费比重较高,北京的住房支出达到最高,上海的交通通信服务支出最多,说明这些省市的恩格尔系数较低,经济发展较好。四、判别分析判别分析是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。我们常
19、用的判别分析方法有距离判别法、费歇尔判别法和贝叶斯判别法等。这里采用的是费歇尔判别法,这种方法是以费歇尔准则为标准来评选判别函数的。所谓费歇尔准则,指的是较优的判别函数应该能根据待判对象的 n 个指标最大限度地将它所属的类与其他类区分开来。表 5 分类函数系数类别1 2 3 4 5X1 .148 .117 .067 .082 .059X2 .174 .134 .099 .099 .083X3 .084 .061 .052 .049 .033X4 .118 .071 .040 .037 .036X5 -.056 -.057 -.038 -.051 -.033X6 .064 .076 .011 .
20、036 .020X7 -.094 -.089 -.029 -.032 -.035X8 .082 .072 .021 -.011 .009(常量) -463.838 -267.823 -103.199 -125.367 -67.595表 6 分类结果预测组成员lb 1 2 3 4 5 合计1 3 0 0 0 0 32 0 4 0 0 0 43 0 0 7 0 0 74 0 0 0 14 0 14初始 计数5 0 0 0 0 3 31 100.0 0.0 0.0 0.0 0.0 100.02 0.0 100.0 0.0 0.0 0.0 100.03 0.0 0.0 100.0 0.0 0.0 10
21、0.04 0.0 0.0 0.0 100.0 0.0 100.0%5 0.0 0.0 0.0 0.0 100.0 100.0a. 已对初始分组案例中的 100.0% 个进行了正确分类。各类判别函数如下:a=0.148*食品+0.174*衣着+0.084*住宅+0.118*家庭设备和用品-0.056*交通通讯+0.064* 文教娱乐-0.094*医疗保健+0.082 其他支出-463.838b=0.117*食品+0.134*衣着+0.061*住宅+0.071*家庭设备和用品-0.057*交通通讯+0.076* 文教娱乐-0.089*医疗保健+0.072 其他支出-267.823c=0.067*食
22、品+0.099*衣着+0.052*住宅+0.040*家庭设备和用品-0.038*交通通讯+0.011* 文教娱乐-0.029*医疗保健+0.021*其他支出-267.823d=0.082*食品+0.099*衣着+0.049*住宅+0.037*家庭设备和用品-0.051*交通通讯+0.036* 文教娱乐-0.032*医疗保健-0.011 其他支出-125.367e=0.059*食品+0.083*衣着+0.033*住宅+0.036*家庭设备和用品-0.033*交通通讯+0.020* 文教娱乐-0.035*医疗保健+0.009*其他支出-67.595分别选取北京、天津、河北、内蒙、甘肃的变量数据代入
23、 a、b、c、d、e 五个函数中,发现其分别在函数 a、b、c、d、e 中取得最大值,于是分别判断北京、天津、河北、内蒙、甘肃分别属于第一类、第二类、第三类、第四类、第五类。以上的分析结果使我们得到了以下结论:中国人口消费结构不合理的问题仍然存在,有待解决。特别是在一些经济不发达的地区,这个问题表现得尤为突出。人们大部分的收入还是主要用于吃穿等生活必需品的消费,而对于医疗卫生保健的消费比重不高,至于那些化生活服务性的支出比重就更小了。这一方面与他们的收入有限不无关系,另一方面也是由于这些消费数额颇高,大大超出了他们支付范围。国家及各级地方政府应采取一些措施解决这个问题,供需是相互促进的,人们的
24、消费水平上去了,需求量有所增长,就会相应地促进供给量的提高,这就使经济发展呈现一个良性循环,以内需拉动经济增长,使国民经济健康有序地发展。参考文献1袁志发、周静芋.多元统计分析.科学出版社,2002.2苏金明.统计软件 SPSS12.0 for Windows 应用及开发指南.电子工业出版社,2004.3王苏斌、郑海涛、邵谦谦.SPSS 统计分析.机械工业出版社,2003.4任红燕、史清华.山西农户家庭粮食收支平衡的实证分析.农业技术经济,1999.5.5黎倩.江西渔民家庭收支情况调查.中国渔业经济,2001.2.6戴伟慧.上海居民家庭收支出现新变化.中国信息报,2005.8.5.7张筑平.贵州农户家庭经济收支构成及水平分析.贵州社会科学,2004.4.82002 年农村居民家庭收支主要指标.调研世界,2003.4.