1、一、对我国 30 个省市自治区农村居民生活水平作聚类分析1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从年的调查资料中抽取个样本,指标数据如下:地区农产品价格指数(上年=100)农村住宅投资(亿元)农村居民消费水平(元)农村居民生活消费支出合计(元)农村居民家庭人均纯收入(元)耕地面积 2008(万公顷)农村私营企业就业人数(万人)北 京 98.27 93.04 12886 9254.
2、8 13262 231.7 153.9 天 津 103.03 48.31 7814 4936.7 10075 441.1 8.0 河 北 99.70 441.75 3867 3844.9 5958 6317.3 80.9 山 西 100.43 168.71 4500 3663.9 4736 4055.8 51.7 内蒙古 99.83 33.17 4486 4460.8 5530 7147.2 18.4 辽 宁 102.90 162.05 5739 4489.5 6908 4085.3 99.5 吉 林 103.77 71.65 4663 4147.4 6237 5534.6 21.2 黑龙江
3、98.07 126.45 4536 4391.2 6211 11830.1 42.8 上 海 102.23 2.12 13609 10210.5 13978 244.0 258.4 江 苏 99.92 284.55 8196 6542.9 9118 4763.8 569.8 浙 江 100.25 513.75 9878 8928.9 11303 1920.9 398.3 安 徽 99.08 412.48 4447 4013.3 5285 5730.2 105.9 福 建 98.04 176.35 6879 5498.3 7427 1330.1 113.1 江 西 96.81 236.53 43
4、97 3911.6 5789 2827.1 173.2 山 东 101.23 566.90 5733 4807.2 6990 7515.3 273.6 河 南 99.07 729.47 4061 3682.2 5524 7926.4 137.7 湖 北 96.30 210.06 4758 4090.8 5832 4664.1 66.4 湖 南 90.61 298.41 4513 4310.4 5622 3789.4 104.5 广 东 94.95 337.44 5880 5515.6 7890 2830.7 124.4 广 西 89.25 248.80 3561 3455.3 4543 421
5、7.5 89.0 海 南 101.91 26.22 3846 3446.2 5275 727.5 5.3 重 庆 88.99 80.12 3652 3624.6 5277 2235.9 36.7675四 川 96.94 456.10 4748 3897.5 5087 5947.4 140.3 贵 州 96.11 137.22 2926 2852.5 3472 4485.3 25.4 云 南 96.50 158.97 3603 3398.3 3952 6072.1 41.3 陕 西 95.83 151.79 3683 3793.8 4105 4050.3 1.7 甘 肃 100.22 97.33
6、 2975 2942.0 3425 4658.8 22.0 青 海 94.61 63.63 3684 3863 542.7 10.5 11.4 宁 夏 99.39 29.51 3894 4675 1107.1 43.6 16.7 新 疆 92.87 79.35 3590 3457.9 4643 4124.6 18.7 数据来源:中国统计年鉴 2010 、将数据进行标准化变换:地区农产品价格指数(上年=100)农村住宅投资(亿元)农村居民消费水平(元)农村居民生活消费支出合计(元)农村居民家庭人均纯收入(元)耕地面积2008(万公顷)农村私营企业就业人数(万人)北 京 0.09 -0.67 2.
7、82 2.53 2.37 -1.36 0.37 天 津 1.33 -0.91 0.92 0.15 1.30 -1.29 -0.78 河 北 0.47 1.24 -0.56 -0.46 -0.07 0.84 -0.21 山 西 0.65 -0.25 -0.33 -0.56 -0.48 0.02 -0.44 内蒙古 0.50 -0.99 -0.33 -0.12 -0.21 1.15 -0.70 辽 宁 1.30 -0.29 0.14 -0.10 0.25 0.03 -0.06 吉 林 1.52 -0.78 -0.26 -0.29 0.02 0.56 -0.68 黑龙江 0.04 -0.48 -0.
8、31 -0.15 0.01 2.84 -0.51 上 海 1.12 -1.16 3.09 3.06 2.60 -1.36 1.20 江 苏 0.52 0.38 1.06 1.04 0.98 0.28 3.66 浙 江 0.61 1.64 1.69 2.35 1.71 -0.75 2.31 安 徽 0.30 1.08 -0.35 -0.36 -0.30 0.63 -0.01 福 建 0.04 -0.21 0.57 0.46 0.42 -0.97 0.05 江 西 -0.28 0.12 -0.36 -0.42 -0.13 -0.42 0.52 山 东 0.86 1.93 0.14 0.08 0.2
9、7 1.28 1.32 河 南 0.30 2.82 -0.49 -0.55 -0.22 1.43 0.24 湖 北 -0.42 -0.03 -0.23 -0.32 -0.11 0.24 -0.32 湖 南 -1.89 0.46 -0.32 -0.20 -0.18 -0.07 -0.02 广 东 -0.77 0.67 0.19 0.47 0.57 -0.42 0.14 广 西 -2.24 0.19 -0.68 -0.67 -0.54 0.08 -0.14 海 南 1.04 -1.03 -0.57 -0.68 -0.30 -1.18 -0.81 重 庆 -2.31 -0.74 -0.64 -0.5
10、8 -0.30 -0.64 -0.56 四 川 -0.25 1.32 -0.23 -0.43 -0.36 0.71 0.26 贵 州 -0.46 -0.42 -0.92 -1.00 -0.90 0.18 -0.65 云 南 -0.36 -0.31 -0.66 -0.70 -0.74 0.75 -0.52 陕 西 -0.54 -0.34 -0.63 -0.48 -0.69 0.02 -0.83 甘 肃 0.60 -0.64 -0.90 -0.96 -0.92 0.24 -0.67 青 海 -0.85 -0.83 -0.63 -0.45 -1.88 -1.44 -0.76 宁 夏 0.39 -1.
11、01 -0.55 0.00 -1.69 -1.43 -0.71 新 疆 -1.30 -0.74 -0.67 -0.67 -0.51 0.05 -0.70 、用均值聚类法对样本进行分类如下:聚类成员案例号 地区 聚类 距离1 北 京 1 1069.19 2 天 津 2 3060.35 3 河 北 3 920.65 4 山 西 4 1506.42 5 内蒙古 3 577.12 6 辽 宁 2 2453.89 7 吉 林 3 1487.95 8 黑龙江 3 5006.41 9 上 海 1 2094.38 10 江 苏 2 2853.42 11 浙 江 1 3015.14 12 安 徽 3 1204.
12、49 13 福 建 2 1612.46 14 江 西 4 1880.40 15 山 东 3 2088.55 16 河 南 3 1282.27 17 湖 北 3 2230.15 18 湖 南 4 2053.35 19 广 东 2 1119.98 20 广 西 4 1412.14 21 海 南 4 2541.05 22 重 庆 4 1423.51 23 四 川 3 1138.14 24 贵 州 4 2025.41 25 云 南 3 2196.63 26 陕 西 4 1127.91 27 甘 肃 4 2123.67 28 青 海 4 4568.60 29 宁 夏 4 4247.12 30 新 疆 4
13、 1360.50 分四类的情况下,最终分类结果如下:第一类:北京、上海、浙江。第二类:天津、 、辽宁、 、福建、甘肃、江苏、广东。第三类: 浙江、河北、内蒙古、吉林、 黑龙江、安徽、山东、河南、湖北、四川、云南。第四类:山西、青海、宁夏、新疆 、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。二、判别分析针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:案例数目 实际组 预测组 p1 1 1 0.9982 2 2 0.5753 3 3 0.9974 4 4 0.3615 3
14、 3 0.8366 2 2 0.2347 3 3 0.7878 3 3 0.0979 1 1 0.52110 2 2 0.43911 1 1 0.48612 3 3 0.99213 2 2 0.73914 4 4 0.41515 3 3 0.24416 3 3 0.40617 3 3 0.38718 4 4 0.42119 2 2 0.33320 4 4 0.9521 4 4 0.28522 4 4 0.45323 3 3 0.95124 4 4 0.33725 3 4* 0.27826 4 4 0.63227 4 4 0.27828 4 4 0.22229 4 4 0.12430 4 4 0
15、.981*. 错误分类的案例从上可知,只有一个地区判别组和原组不同,回代率为 96%。下面对新疆进行判别:已知判别函数系数和组质心处函数如下:标准化的典型判别式函数系数函数 1 2 3农产品价格指数 0.18 0.398 0.394农村住宅投资 0.493 0.687 -0.197农村居民价格水平 0.087 0.362 0.243生活消费支出 1.004 0.094 -0.817人均纯收入 0.381 -0.282 0.565耕地面积 -0.041 1.019 -0.235就业人数 -0.631 -0.742 0.802组质心处的函数函数组号 1 2 31 10.678 -0.369 -0.
16、6282 1.747 -0.751 1.1753 -0.962 1.899 -0.0324 -2.595 -1.177 -0.306判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7将西藏的指标数据代入函数得:Y1=-1.08671Y2=-0
17、.62213Y3=-0.84188计算 Y 值与不同类别均值之间的距离分别为:D1=138.5182756D2=12.11433124D3=7.027544292D4=2.869979346经过判别,D4 最小,所以新疆应归于第四类,这与实际情况也比较相符。三,因子分析:分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经 spss 软件分析结果如下:(1)各指标的相关系数阵:Correlation Matrix1.000 .356 .296 .351 .187.356 1.000 .968 .922 .584.296 .968 1.000 .864 .625.351 .922
18、 .864 1.000 .578.187 .584 .625 .578 1.000Correlation 从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。(2 )检验:KMO and Bartletts Test.701145.58510.000Kaiser-Meyer-Olkin Measure of SamplingAdequacy.Approx. Chi-SquaredfSig.Bartletts Test ofSphericity由上表可知:巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为0.如果显著性水平a
19、为0.05,由于显著性水平小于0.05,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析(3)各指标的贡献率如下表:Communalities1.000 .9791.000 .9381.000 .9231.000 .8781.000 .598Initial ExtractionExtraction Method: Principal Component Analysis.从中可以看出,各个指标的贡献率都在百分之五十之上比较高。Total Variance Explained3.449 68.973 68.97
20、3 3.449 68.973 68.973 3.200 63.997 63.997.867 17.340 86.313 .867 17.340 86.313 1.116 22.315 86.313.526 10.517 96.830.140 2.796 99.626.019 .374 100.000Component12345Total % ofVariance Cumulative % Total % ofVariance Cumulative % Total % ofVariance Cumulative %Initial Eigenvalues Extraction Sums of Sq
21、uared Loadings Rotation Sums of Squared LoadingsExtraction Method: Principal Component Analysis.从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方差的68%,累积方差贡献率为68.973%。第二个因子的特征根为0.863,解释原有变量总方差17.34%,累计方差贡献率为86.313%。(4)碎石图:54321Compnet Nubr43210EigenvaluScre Plot(5)因子载荷阵如下:Component Matrix a.446 .883.967 -.052.952
22、 -.125.936 -.039.729 -.2581 2ComponentExtraction Method: Principal Component Analysis.2 components extracted.a. 由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要;第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。为便于对各因子进行命名,对因子载荷阵实施正交旋转。旋转之后的因子载荷阵:Rotated Component Matrix a.150 .978.936 .251.944 .177.902 .253.773 -.0191 2ComponentEx
23、traction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.Rotation converged in 3 iterations.a. (6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进行分类。将五个指标按高载荷分成两类:意 义1 收 支 因 子2 价 格 因 子高 载 荷 指 标农 村 居 民 消 费 水 平农 村 生 活 消 费 支 出农 村 居 民 家 庭 人 均 收 入农 产 品 价 格 指 数四,主成分分析:(1)各指标间的相关系
24、数矩阵如下表所示:Correlation Matrix1.000 .356 .296 .351 .187.356 1.000 .968 .922 .584.296 .968 1.000 .864 .625.351 .922 .864 1.000 .578.187 .584 .625 .578 1.000Correlation 可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。(2)求相关矩阵的特征值和特征向量:特 征 根 方 差 贡 献 率 累 计 贡 献 率3.449 68.973 68.9730.867 17.34 8
25、6.3130.526 10.517 96.830.14 2.796 99.6260.019 0.374 10012345从上表可知,前两个特征值累计贡献率已达86.313%。说明前两个主成分基本包含了全部指标具有的信息。因此,取前两个特征值,并计算相应的特征向量:(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:1 2农 产 品 价 格 指 数 0.135112 1.018454农 村 居 民 消 费 水 平 0.280371 -0.059977消 费 支 出 0.276022 -0.144175家 庭 人 均 年 纯 收 入 0.271383 -0.044983就 业 人 数 0.2
26、11366 -0.297578compoent所以,前两个主成分为:第一个主成分:F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5第二个主成分:F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农居民的收入支出状况的综合指标。在第二主成分中,第一个指标系数较大,是农产品价格水平指标。(4)因子得分:Component Score Coefficient Matrix-.193 1.009.2
27、85 .031.307 -.051.272 .041.293 -.2181 2ComponentExtraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.根据上表写出以下因子得分函数:F1=-0.193农产品价格指数+0.285农村居民消费+0.307消费支出+0.272家庭人均纯收入+0.293就业人数F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人均纯收入-0.218就业
28、人数(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=0.63997F1+0.22315F2(旋转之后的方差贡献率)F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5将各地区指标值代入上式得到各地区农村生活水平的综合值及排名:名 次 地 区 综 合 评 价 值1 上 海 1.91182 北 京 1.49813 浙 江 1.45174 江 苏 1.13465 天 津 0.47006 山 东 0.362
29、07 福 建 0.28418 辽 宁 0.17749 广 东 0.167110 吉 林 -0.038911 江 西 -0.125412 黑 龙 江 -0.152113 安 徽 -0.157014 内 蒙 古 -0.170815 河 南 -0.174616 四 川 -0.178017 河 北 -0.184718 湖 北 -0.212519 山 西 -0.248620 海 南 -0.295121 湖 南 -0.323822 宁 夏 -0.473323 云 南 -0.501824 陕 西 -0.503025 甘 肃 -0.547526 新 疆 -0.574727 重 庆 -0.595628 广 西
30、-0.595929 贵 州 -0.664630 青 海 -0.7414(6)对结果进行分析:从中可以看出,各地区的农村居民生活水平存在差异。其中,北京、上海、浙江、江苏地区的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。主要表现在农民收入水平和消费水平两个方面。这几个城市属于沿海地区,经济比较发达,工农业发展遥遥领先于其他地区。其次,天津、山东、福建、辽宁、广东综合评价值相对较低。不过也处于全国前十的地位。青海、贵州、广西、重庆、新疆、甘肃、陕西、云南等几个地区农村居民生活水平发展比较落后。原因是这些地区大多位于中国中西部,地理位置不佳,交通不便,经济发展水平不高,进而影响到农村经济的发展。农村居民收入水平和消费水平均比较低。因此,要提高这些地区农民的生活水平,政府应该加大这些地区的基础设施建设,提高这些地区农村居民的收入水平。