1、多元统计分析课程论文-我国农村居民收入与支出多元统计分析班级:统计 1203姓名:李 犁学号:13041207242015 年 7 月 2目录1.引言 31.1 研究问题的背景 .31.2 研究问题的目的 .32.分析方法的简单介绍 42.1 主成分分析 .42.1.1 主成分分析的思想 42.1.2 主成分分析的几何意义 42.2 聚类分析 .52.2.1 聚类分析的思想 52.2.2 聚类分析的过程 53.农村居民收入的多元统计分析 53.1 主成分分析 .53.2 聚类分析 .74. 农村居民支出的多元统计分析 94.1 主成份分析 94.2 聚类分析 .115. 结论 133【摘要】本
2、文主要研究农村居民收入与支出的相关问题,利用 spss 软件,首先对农村居民收入进行了数据的收集和整理,数据取自中国统计年鉴网络实时数据,利用多元统计分析中的主成分分析,分析影响农村居民收入的几个重要因素。再对其进行聚类分析,按照农村居民不同的收入对 30 个省、自治区、直辖市进行聚类,分出几个不同的收入等级。然后对农村居民支出情况的数据进行主成分分析,分析影响收入的因素,再对其进行聚类分析,分析不同的支出等级,最后将收入与支出综合分析,大致得出结论,我国实际的居民收入与消费结构还存在一定的不合理。【关键词】农村居民收入 农村居民支出 主成分分析 聚类分析 1.引言1.1 研究问题的背景我国是
3、发展中的农业人口大国,农业的基础地位和作用比任何国家都重要,小康目标能否全面实现,重点、难点在提高人民收入,要实现农村稳定,农民小康和农业现代化,前提条件就是要保持农民收入的持续稳定的快速发展。2000 年,在国家连续三年扩大内需的宏观政策作用下,我国居民消费保持了稳中有旺的运行态势。但是从城乡消费结构来看,农村消费明显不如城市消费活跃。农村消费之所以增长缓慢,主要是因为农村居民收入停滞不前以及受到农村传统消费观念的主导1.2 研究问题的目的劳动者报酬收入和家庭主营收入已成为农民收入的主要来源,但是由于我国经济发展的不平衡,各地区的农民收入有着很大不同,另一方面,经济改革使得地区之间、农民内部
4、之间的富裕家庭和贫穷家庭之间的收入差距越来越大。 “二元思维”造就了经济发展层面上的“两个中国”-“城市中国”和“农村中国” , “三农”问题日益突出, “三农”问题的核心是农民问题,即农民利益和平等待遇问题, “三农”是我国的根本问题,建设现代化农业、发展农村经济、增加农民收入,始终是中国政府面临的重大问题如何客观准确的分析这些差异,具有重要的理论和实际意义,因此,本文试图用多元统计分析对我国各地区农民收入来源及消费支出问题进行全面深入的分析。42.分析方法的简单介绍2.1 主成分分析2.1.1 主成分分析的思想主成分分析也称主分量分析,由于多个变量之间往往存在着一定程度的相关性。人们自然希
5、望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。2.1.2 主成分分析的几何意义主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有 n 个样品,每个样品都测量了两个指标(X1 ,X2) ,它们大致
6、分布在一个椭圆内如图 1 所示。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系 x1Ox2 中,单独看这 n 个点的分量 X1 和 X2,它们沿着 x1 方向和 x2 方向都具有较大的离散性,其离散的程度可以分别用的 X1 方差和 X2 的方差测定。如果仅考虑 X1 或 X2 中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维” 的有效办法。图 15如果我们将该坐标系按逆时针方向旋转某个角度 变成新坐标系 ,这里 是椭12yO1y圆的长轴方向, 是椭圆的短轴方向。旋转公式为2y122cosiniYX我们看到
7、新变量 和 是原变量 和 的线性组合,它的矩阵表示形式为:1Y1X21 12 2cosinYT其中, 为旋转变换矩阵,它是正交矩阵,即有 或 。T1TI2.2 聚类分析2.2.1 聚类分析的思想根据距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。2.2.2 聚类分析的过程假设总共有 n 个样品(或变量) ,第一步将每个样品(或变量)独自聚成一类,共有 n类;第二步根据所确定的样品(或变量) “距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成 n 1 类;第三步将“距离”最近的两个类进一
8、步聚成一类,共聚成 n 2 类; ,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。3.农村居民收入的多元统计分析3.1 主成分分析利用 Spss 软件,对农村居民收入情况的数据进行主成分分析,分析结果如图一:6相关矩阵 a纯收入 工资性收入 家庭经营纯收入 财产性收入 转移性收入纯收入 1.000 .932 -.094 .881 .768工资性收入 .932 1.000 -.398 .865 .738家庭经营纯收入 -.094 -.398 1.000 -.342 -.435财产性收
9、入 .881 .865 -.342 1.000 .817相关转移性收入 .768 .738 -.435 .817 1.000a. 此矩阵不是正定矩阵。解释的总方差初始特征值 提取平方和载入成份 合计 方差的 % 累积 % 合计 方差的 % 累积 %1 3.654 73.082 73.082 3.654 73.082 73.0822 .945 18.897 91.9793 .277 5.533 97.5124 .124 2.488 100.0005 -3.088E-16 -6.177E-15 100.000提取方法:主成份分析。公因子方差初始 提取纯收入 1.000 .853工资性收入 1.00
10、0 .901家庭经营纯收入 1.000 .197财产性收入 1.000 .901转移性收入 1.000 .803提取方法:主成份分析。成份矩阵 a成份1纯收入 .924工资性收入 .949家庭经营纯收入 -.444财产性收入 .949转移性收入 .896提取方法 :主成份。7成份矩阵 a成份1纯收入 .924工资性收入 .949家庭经营纯收入 -.444财产性收入 .949转移性收入 .896提取方法 :主成份。a. 已提取了 1 个成份。第一个主成分中的 4 个变量在 0.05 水平上都是显著的,相关系数越大,说明该主成分受该指标的影响也越大,因此,决定第一个主成分 prin1 大小的主要是
11、 x1、x2、x3 、x4 第一个主成分即可反映农村居民收入情况。3.2 聚类分析通过以上主成分分析可得出:第一主成分得分 ;xx4321 89065.5067.59.04876.0prin1 第二主成分得分 ;78932 综合得分 E=0.8080prin1+0.1133prin2;其中,0.8080 为第一主成分贡献率,0.1133 为第二主成分贡献率。对数据进行聚类分析,可得出结果如图四:图四 聚类分析结果 18由聚类分析结果 1 可以看出:当 NCL 为 2 时,半偏 R2(SPRSQ)较大,0.4359 ,说明 RSQ在从 NCL 为 3 到 2 的过程中减少了 0.4359,说明
12、NCL 为 3 时为最优,再看 CCC 值,由于CCC 无正数,所以忽略,再看 PSF,当 PSF 在 NCL=3 时达到峰值 73.8,最后看 PST2,在NCL=3 时增加到 NCL=2 的增加量最多,因此,将其分为 3 类。图五 聚类分析结果 2第一类为高收入地区:上海第二类为中等收入地区:北京、浙江、天津、江苏、广东第三类为低收入地区:河北、辽宁、山东、黑龙江、吉林、海南、江西、湖南、广西、福9建、山西、安徽、内蒙、西藏、新疆、河南、四川、贵州、青海、陕西、宁夏、云南、甘肃、湖北4. 农村居民支出的多元统计分析4.1 主成份分析对数据中的农村居民支出数据进行 spss 主成分分析结果如
13、下:图六 相关矩阵的特征值公因子方差初始 提取合 计 1.000 .992食 品 1.000 .830衣 着 1.000 .781居 住 1.000 .717家庭设备 1.000 .773交通通信 1.000 .829文教娱乐 1.000 .888医疗保健 1.000 .678其 他 1.000 .909提取方法:主成份分析。图七 主成分分析特征向量解释的总方差初始特征值 提取平方和载入成份 合计 方差的 % 累积 % 合计 方差的 % 累积 %1 7.396 82.182 82.182 7.396 82.182 82.1822 .490 5.440 87.6233 .367 4.073 91
14、.6964 .275 3.050 94.7465 .215 2.393 97.1396 .125 1.387 98.5267 .075 .838 99.3648 .057 .636 100.0009 3.008E-16 3.342E-15 100.00010解释的总方差成份初始特征值 提取平方和载入合计 方差的 % 累积 % 合计 方差的 % 累积 %1 7.396 82.182 82.182 7.396 82.182 82.1822 .490 5.440 87.6233 .367 4.073 91.6964 .275 3.050 94.7465 .215 2.393 97.1396 .125
15、 1.387 98.5267 .075 .838 99.3648 .057 .636 100.0009 3.008E-16 3.342E-15 100.000提取方法:主成份分析。 xx8765 4321 425.038.0349.0348.0 690.12.prin1 X1-x8 与 prin1-prin8 之间的相关系数如图所示:图八 相关系数矩阵成份矩阵 a成份1合 计 .996食 品 .911衣 着 .884居 住 .847家庭设备 .879交通通信 .910文教娱乐 .942医疗保健 .823其 他 .953提取方法 :主成份。a. 已提取了 1 个成份。11第一个主成分中的 8 个
16、变量在 0.05 水平上都是显著的,相关系数越大,说明该主成分受该指标的影响也越大,因此,决定第一个主成分 prin1 大小的主要是x1、 x2、 x3、x4、x5、x6 、x7 、x8 第一个主成分即可反映农村居民收入情况。由于只抽取了一个变量,所以无法旋转此解。4.2 聚类分析通过以上主成分分析可得出:第一主成分得分 ;xx8765 4321 425.038.0349.0348.0690.12.prin1 综合得分 E=0.8955prin1;其中,0.8955 为第一主成分贡献率。对数据进行聚类分析,可得出结果:图九 聚类分析结果 112由聚类分析结果 1 可以看出:当 NCL 为 2
17、时,半偏 R2(SPRSQ)较大,0.4301 ,说明 RSQ在从 NCL 为 3 到 2 的过程中减少了 0.4301,说明 NCL 为 3 时为最优,再看 PSF,当 PSF 在NCL=3 时达到峰值 84.2,最后看 PST2,在 NCL=3 时增加到 NCL=2 的增加量最多,因此,将其分为 3 类。图十 聚类分析结果 2第一类为高消费地区:上海第二类为中等消费地区:北京、浙江、广东、江苏、福建第三类为低消费地区:天津、辽宁、黑龙江、吉林、内蒙、广西、江西、湖北、山东、湖南、河北、四川、安徽、宁夏、海南、山西、河南、贵州、新疆、陕西、甘肃、青海、云13南5. 结论本次研究主要研究分析了
18、我国各地区农村居民家庭人均收入与消费支出的统计特性。通过大量的统计数据,我们不难发现,我国实际的居民收入与消费结构还存在一定的不合理。通过对我国居民收入水平聚类分析以及主成分分析发现,我国居民收入差距并没有得到明显的改善;同时对比消费支出统计分析结果发现高收入地区不一定对应高消费水平,例如福建省为低收入地区,而其消费水平为高水平,天津市为高收入水平地区,其消费水平却为低水平。尽管各省份存在贫富差距是市场经济的结果,但是对于经济增长起到了一定的促进作用不过贫富差距必须维持在一个适当的“度”上,差距过大会引发诸多的危害,尤其是不合理因素造成的贫富差距过大,不仅使得社会心理被扭曲,产生诸多的社会安全
19、问题。另外,我们要着重分析一下调整中低收入分配的重要性基于本文的统计分析,我们知道,我国大多数省市还处于中低收入水平,从分析结果中可以看出,收入水平低的居民消费量与收入量的比例要远远大于高收入群体,消费差距再通过乘数效应对经济拉动作用的差距是巨大的。所以应该在保证人民收入稳定的基础上,还要进一步的提高各个阶段的消费能力,缩小贫富差距。14附录 1参考文献1.张九军. 中国农村居民家庭收入来源和烧沸支出的多元统计分析2.二十一世纪的中国城镇居民收入与支出的多元统计分析报告3.何晓群.多元统计分析4.黄燕,吴萍. SAS 统计分析及应用15附录 26-28 分地区农村居民人均消费支出 (2013
20、年)单位:元消费支出 合 计 食 品 衣 着 居 住 家庭设 备 交通通 信 文教娱 乐 医疗保 健 其 他地 区及 用 品 全 国 6625.5 2495.5 438.3 1233.6 387.1 796.0 485.9 614.2 174.9北 京 13553.2 4695.9 1172.9 2387.0 898.2 1452.2 1330.9 1167.1 449.1天 津 10155.0 3539.7 927.6 1403.4 599.1 1816.2 750.4 732.6 386.0河 北 6134.1 1963.3 458.0 1266.8 382.6 792.3 399.0 6
21、96.0 176.1山 西 5812.7 1920.7 471.8 1206.0 288.2 699.1 502.5 559.0 165.4内蒙古 7268.3 2583.5 564.7 1111.6 302.3 1106.5 555.2 831.2 213.3辽 宁 7159.0 2518.9 584.2 1279.3 299.4 850.3 632.9 789.5 204.4吉 林 7379.7 2438.5 535.2 1288.4 273.1 961.2 691.4 968.6 223.4黑龙江 6813.6 2397.7 551.1 1120.9 288.7 809.3 601.4
22、839.2 205.2上 海 14234.7 5334.6 770.7 2260.4 693.7 1718.7 963.7 1990.9 501.9江 苏 9909.8 3283.2 685.1 1788.7 556.4 1420.8 1022.3 809.9 343.4浙 江 11760.2 4190.9 848.1 1933.8 564.9 1891.1 1048.0 943.9 339.5安 徽 5724.5 2269.7 335.2 1138.9 390.4 540.9 376.7 551.7 121.0福 建 8151.2 3600.8 483.6 1418.4 483.4 806.
23、3 592.8 481.7 284.3江 西 5653.6 2389.1 308.6 1163.1 323.9 587.6 356.4 401.3 123.8山 东 7392.7 2553.7 493.4 1409.6 438.1 1040.5 571.7 738.8 146.8河 南 5627.7 1938.5 481.8 1043.9 416.0 616.0 408.1 603.7 119.7湖 北 6279.5 2308.5 347.7 1415.7 425.0 605.9 407.4 624.4 144.9湖 南 6609.5 2537.0 342.3 1438.3 420.3 640
24、.0 426.3 638.3 167.1广 东 8343.5 3736.6 309.2 1337.9 474.1 1041.0 685.3 502.0 257.516广 西 5205.6 2084.7 170.9 1360.5 281.1 516.3 276.2 413.4 102.5海 南 5465.6 2625.0 181.0 937.7 291.5 589.2 354.5 362.2 124.4重 庆 5796.4 2539.0 411.0 674.4 474.3 581.8 443.3 535.9 136.7四 川 6308.5 2665.0 467.3 986.8 446.6 665
25、.0 385.8 557.4 134.5贵 州 4740.2 2036.2 254.2 980.8 272.4 489.7 301.4 302.3 103.2云 南 4743.6 2097.6 211.4 906.3 258.8 589.9 241.1 352.9 85.5西 藏 3574.0 1938.9 370.6 189.7 273.1 522.8 63.6 71.5 143.9陕 西 5724.2 1821.3 385.1 1206.2 344.1 581.0 463.8 776.4 146.5甘 肃 4849.6 1798.5 352.7 794.0 302.6 598.4 366.
26、5 513.3 123.5青 海 6060.2 1872.0 449.3 1449.1 314.9 910.9 270.1 676.7 117.1宁 夏 6489.7 2021.8 453.3 1409.6 382.8 827.0 439.7 702.0 253.4新 疆 6119.1 2072.0 484.7 1623.8 256.4 693.9 286.9 593.4 108.06-26 分地区按来源分农村居民人均纯收入 (2013 年)单位:元地 区 纯 收 入工资性收入 家庭经营纯 收入 财产性收入 转移性收入全 国 8895.9 4025.4 3793.2 293.0 784.3北
27、京 18337.5 12034.9 833.4 2023.5 3445.7天 津 15841.0 9091.5 4571.6 1120.0 1058.0河 北 9101.9 5236.7 3219.2 161.6 484.4山 西 7153.5 4041.1 2273.9 93.2 745.3内蒙古 8595.7 1694.6 5348.4 371.0 1181.7辽 宁 10522.7 4209.4 5160.2 283.2 870.0吉 林 9621.2 1813.2 6855.1 187.9 765.017黑龙江 9634.1 1991.4 6365.4 429.6 847.8上 海 1
28、9595.0 12239.4 1062.0 1446.8 4846.8江 苏 13597.8 7608.5 4258.4 572.1 1158.7浙 江 16106.0 9204.3 4758.6 727.5 1415.7安 徽 8097.9 3733.5 3681.4 113.6 569.3福 建 11184.2 5193.9 4890.5 359.9 739.8江 西 8781.5 4422.1 3683.8 191.0 484.6山 东 10619.9 5127.2 4525.2 283.9 683.8河 南 8475.3 3581.6 4285.4 160.3 448.1湖 北 886
29、7.0 3868.2 4381.6 99.1 518.1湖 南 8372.1 4595.6 2962.0 147.7 666.9广 东 11669.3 7072.4 2596.4 1040.5 960.0广 西 6790.9 2712.3 3420.4 70.4 587.8海 南 8342.6 3001.5 4153.8 347.9 839.3重 庆 8332.0 4089.2 3136.5 234.7 871.7四 川 7895.3 3542.8 3321.2 202.3 829.1贵 州 5434.0 2572.6 2355.9 78.4 427.2云 南 6141.3 1729.2 3650.4 229.8 532.0西 藏 6578.2 1475.3 4157.0 88.9 857.1陕 西 6502.6 3151.2 2500.0 212.3 639.0甘 肃 5107.8 2203.4 2231.0 132.9 540.5青 海 6196.4 2347.5 2570.3 165.9 1112.7宁 夏 6931.0 2878.4 3250.0 133.3 669.3新 疆 7296.5 1311.8 4654.5 230.1 1100.0