应用回归分析论文[1].doc-道客多多

资源描述

1、关于影响 GDP 的回归分析摘要：GDP 是体现国民经济增长状况和人民群众客观生活质量的重要指标。为了研究影响 GDP 的潜在因素，通过收集到的样本数据运用课本学过的回归分析知识，建立与 GDP 有影响的自变量与因变量间的多元线性回归模型，借助统计软件 SPSS 对样本作初等模型，同时结合统计专业知识对初等模型作 F 检验、回归系数检验、异方差性检验、假设检验等，确立最终的经验回归方程，回归方程对样本的是拟合度最好的。最后通过对做出来的模型分析得出 GDP 的主要影响因素，对提高 GDP 具有一定得现实意义。引言：在当今欧美主导的经济发展理论下，衡量一个国家的综合实力看的不仅是国家的军事实力

2、、国家影响力，而更看重国家的经济实力，而 GDP 代表一国或一个地区所有常住单位和个人在一定时期内全部生产活动的最终成果，是当期新创造财富的价值总量，它是一个国家经济实力的最好体现，具有国际可比性，是联合国国民经济核算体系(SNA)中最重要的总量指标，为世界各国广泛使用并用于国际比较。众所周知 2008 年我国 GDP 跃居世界第三位，是仅次于美国、日本的第三大经济国，而 2009 年在金融危机的影响下我国 GDP 稳中求进，依然保持着 9.0%的增长态势。提高 GDP 已经成为经济发展的潮流，利用国家的各种有限资源，在最大程度上发挥资源的利用率，推动经济的发展是势在必行的，因为资源一直在减少

3、，而人口一直在增加，要保持经济的增长就必要抓住主要因素，提高 GDP。一、多元线性回归模型的基本理论首先是对线性回归模型基本知识介绍：随机变量 y 与一般变量 x1,x2,x3.xp 的理论线性回归模型为： 012.pyxx其中，，.，是 P+1 个未知参数，称为回归常数，，.，称为回归系数。y 称为被01p解释变量（因变量），而 x1,x2,.,xp 是 P 个可以精确测量并可控制的一般变量，称为解释变量（自变量）。是随机误差，在多元线性回归模型中有五个基本假设：假设一：随机误差项 0 均值假定；(),2.iEn假设二：随机误差项同方差；2var01i假设三：随机误差项

4、不相关假设四：随机误差项服从如下正态分布；2(0,),1.iNincov(,)0,(,01,2.)ijijn只有求得的经验回归方程通过了回归分析中各检验并满足上述四个1.pyx假设时，我们才可以明确此时的经验回归方程对我们的样本数据拟合得好，可以用此时的回归模型作控制与预测了。二、回归模型初步建立与检验CoefficientsaUnstandardized CoefficientsStandardized Coefficients Collinearity StatisticsModel B Std. Error Beta t Sig. Tolerance VIF(Constant) 2.3

5、77E-15 .058 .000 1.000Zscore: 居民消费水平（元） .317 .212 .317 1.493 .148 .077 13.006Zscore: 固定资产投资（亿元）.946 .075 .946 12.666 .000 .621 1.611Zscore: 职工平均工资（元） .094 .134 .094 .701 .490 .192 5.211Zscore: 居民消费价格指数 .069 .069 .069 1.003 .326 .729 1.371Zscore: 工业增加值率（%） -.067 .092 -.067 -.732 .471 .409 2.4421Zscor

6、e: 农村居民家庭人均纯收入（元）-.288 .218 -.288 -1.321 .199 .073 13.683a. Dependent Variable: Zscore: GDP(亿元）表（1）收集的数据由于存在单位上的差异，且数据量很大，故可能存在误差、量纲的影响。首先将数据标准化，再对样本作模型假设，可得出 y 对 6 个自变量的线性回归方程为：y=2.377*E-15+0.317x1+0.946x2+0.094x3+0.069x4+0.069x5-0.067x5-0.288x6ANOVAbModel Sum of Squares df Mean Square F Sig.Regre

7、ssion 27.508 6 4.585 44.157 .000aResidual 2.492 24 .1041Total 30.000 30a. Predictors: (Constant), Zscore: 农村居民家庭人均纯收入（元）, Zscore: 固定资产投资（亿元）, Zscore: 居民消费价格指数, Zscore: 工业增加值率（%）, Zscore: 职工平均工资（元）, Zscore: 居民消费水平（元）b. Dependent Variable: Zscore: GDP(亿元）表（2）应用 F 检验对回归方程进行显著检验，检验统计量为：F=SSR/SSE，SSR 为回归

8、回归平方和，SSE为残差平方和，从上表中的结果可以看出显著性 p 值，由于 p 近似为 0，在显著水平为 0.05 的条件下：p ，可知其回归方程高度显著。三、回归方程系数检验但回归方程显著并不表示每个自变量对 y 的影响都显著，因此我们队方程的回归系数作显著性检验。如果某个自变量对 y 的作用不显著，那么在模型中相应的系数值就为 0。提出假设检验：H0：j=0，j=1，2p 若接受原假设，则自变量不显著；若拒绝原假设，那么相应的自变量是显著的。参考表（1），虽然该方程 F 检验回归方程是显著的，但在显著性水平取 0.05 时，某些单个自变量对 y 并不显著。CorrelationsZsco

9、re: GDP(亿元） Zscore: 居民消费水平（元）Zscore: 固定资产投资（亿元）Zscore: 职工平均工资（元） Zscore: 居民消费价格指数Zscore: 工业增加值率（%）Zscore: 农村居民家庭人均纯收入（元）Correlation Coefficient1.000 .629* .953* .187 -.357* -.471* .732*Sig. (2-tailed). .000 .000 .315 .049 .007 .000Zscore: GDP(亿元）N 31 31 31 31 31 31 31Correlation Coefficient.629* 1.0

10、00 .589* .491* -.318 -.612* .879*Sig. (2-tailed).000 . .000 .005 .081 .000 .000Zscore: 居民消费水平（元）N 31 31 31 31 31 31 31Spearmans rhoZscore: 固定资产投资（亿元）Correlation Coefficient.953* .589* 1.000 .143 -.348 -.425* .646*Sig. (2-tailed).000 .000 . .444 .055 .017 .000N 31 31 31 31 31 31 31Correlation Coeffic

11、ient.187 .491* .143 1.000 -.100 -.280 .357*Sig. (2-tailed).315 .005 .444 . .592 .127 .049Zscore: 职工平均工资（元）N 31 31 31 31 31 31 31Correlation Coefficient-.357* -.318 -.348 -.100 1.000 .475* -.445*Sig. (2-tailed).049 .081 .055 .592 . .007 .012Zscore: 居民消费价格指数N 31 31 31 31 31 31 31Correlation Coefficien

12、t-.471* -.612* -.425* -.280 .475* 1.000 -.663*Sig. (2-tailed).007 .000 .017 .127 .007 . .000Zscore: 工业增加值率（%）N 31 31 31 31 31 31 31Correlation Coefficient.732* .879* .646* .357* -.445* -.663* 1.000Sig. (2-tailed).000 .000 .000 .049 .012 .000 .Zscore: 农村居民家庭人均纯收入（元）N 31 31 31 31 31 31 31*. Correlatio

13、n is significant at the 0.01 level (2-tailed). 表（3）*. Correlation is significant at the 0.05 level (2-tailed).从上表中可以看出，y 与 x1、x 2、x 5的相关系数较大，说明自变量与 y 高度相关。其他几个变量对 y 的贡献不是很大，故需剔除一些变量。四、检验异方差性及自相关Model SummaryhModel R R SquareAdjusted R SquareStd. Error of the Estimate Durbin-Watson1 1.000a 1.000 1.00

14、0 .000000022 1.000b 1.000 1.000 .000000023 1.000c 1.000 1.000 .000000024 1.000d 1.000 1.000 .000000025 1.000e 1.000 1.000 .000000026 1.000f 1.000 1.000 .000000027 1.000g 1.000 1.000 .00000002 .408h. Dependent Variable: Zscore: GDP(亿元）表(4)从表（4）中我们可以知道 DW 值=0.408,根据书中表 4.4 可以知道，误差项之间存在正自相关。我们再根据 DW 分布

15、表，查得临界值 dl=1.16，du=1.74，再根据书中表 4.5 可知，DW=0.4081.16，故可知误差项之间存在正相关。CoefficientsaUnstandardized CoefficientsStandardized Coefficients Collinearity StatisticsModel B Std. Error Beta t Sig. Tolerance VIF(Constant) -1.169 .000 -9.014E7 .000Zscore: 居民消费水平（元）-3.211E-16 .000 .000 .000 1.000 .070 14.214Zscore

16、: 固定资产投资（亿元）2.041E-15 .000 .000 .000 1.000 .081 12.381Zscore: 职工平均工资（元）2.225E-16 .000 .000 .000 1.000 .188 5.318Zscore: 居民消费价格指数9.384E-17 .000 .000 .000 1.000 .700 1.429Zscore: 工业增加值率（%）1.896E-17 .000 .000 .000 1.000 .401 2.497Zscore: 农村居民家庭人均纯收入（元）5.034E-16 .000 .000 .000 1.000 .068 14.6781GDP(亿元）

17、.000 .000 1.000 9.276E7 .000 .083 12.039a. Dependent Variable: Zscore: GDP(亿元）表(5)从输出结果表（5）看到，自变量的方差扩大因子不是很大。但有几个变量的方差因子大于10，故变量间可能存在共线性的关系。我们进一笔采用后退法来剔除共线性变量及自相关的变量。五、自变量的选择与模型最终建立Model SummaryfModel R R SquareAdjusted R SquareStd. Error of the Estimate Durbin-Watson1 .958a .917 .896 .322223652 .9

18、57b .915 .898 .318925183 .956c .914 .901 .314102944 .954d .911 .901 .314914025 .951e .904 .897 .32138808 1.577表(6)CoefficientsaModel Unstandardized CoefficientsStandardized Coefficients t Sig. Collinearity StatisticsB Std. Error Beta Tolerance VIF(Constant) 2.377E-15 .058 .000 1.000Zscore: 居民消费水平（元）

19、 .317 .212 .317 1.493 .148 .077 13.006Zscore: 固定资产投资（亿元）.946 .075 .946 12.666 .000 .621 1.611Zscore: 职工平均工资（元） .094 .134 .094 .701 .490 .192 5.211Zscore: 居民消费价格指数 .069 .069 .069 1.003 .326 .729 1.371Zscore: 工业增加值率（%） -.067 .092 -.067 -.732 .471 .409 2.4421Zscore: 农村居民家庭人均纯收入（元）-.288 .218 -.288 -1.32

20、1 .199 .073 13.683(Constant) 2.647E-15 .057 .000 1.000Zscore: 居民消费水平（元） .380 .190 .380 1.994 .057 .094 10.685Zscore: 固定资产投资（亿元）.931 .071 .931 13.136 .000 .675 1.481Zscore: 居民消费价格指数 .076 .067 .076 1.129 .270 .745 1.342Zscore: 工业增加值率（%） -.038 .081 -.038 -.469 .643 .516 1.9372Zscore: 农村居民家庭人均纯收入（元）-.24

21、5 .207 -.245 -1.185 .247 .079 12.632(Constant) 2.385E-15 .056 .000 1.000Zscore: 居民消费水平（元） .383 .187 .383 2.047 .051 .094 10.666Zscore: 固定资产投资（亿元）.940 .067 .940 14.062 .000 .735 1.360Zscore: 居民消费价格指数 .069 .065 .069 1.068 .296 .783 1.2773Zscore: 农村居民家庭人均纯收入（元）-.232 .202 -.232 -1.148 .261 .081 12.384(C

22、onstant) 1.447E-17 .057 .000 1.000Zscore: 居民消费水平（元） .411 .186 .411 2.210 .036 .096 10.462Zscore: 固定资产投资（亿元）.938 .067 .938 13.997 .000 .736 1.3584Zscore: 农村居民家庭人均纯收入（元）-.287 .195 -.287 -1.471 .153 .087 11.555(Constant) -1.872E-16 .058 .000 1.0005Zscore: 居民消费水平（元） .152 .061 .152 2.479 .019 .913 1.095Z

23、score: 固定资产投资（亿元）.895 .061 .895 14.570 .000 .913 1.095a. Dependent Variable: Zscore: GDP(亿元）表（7）ANOVAfModel Sum of Squares df Mean Square F Sig.Regression 27.508 6 4.585 44.157 .000aResidual 2.492 24 .1041Total 30.000 30Regression 27.457 5 5.491 53.989 .000bResidual 2.543 25 .1022Total 30.000 30Reg

24、ression 27.435 4 6.859 69.518 .000cResidual 2.565 26 .0993Total 30.000 30Regression 27.322 3 9.107 91.836 .000dResidual 2.678 27 .0994Total 30.000 30Regression 27.108 2 13.554 131.222 .000eResidual 2.892 28 .1035Total 30.000 30表(8)从表（5）中我们知道，复决定系数R 2=0.904，R 2a=0.897，而全模型的复决定系数R2=0.917，R 2a=0.896。而由

25、表（7）可知，最优子集的回归方程为:y=-1.872E-16+0.152x2+0.895x3。六、最终方程的检验及假设检验ANOVAfModel Sum of Squares df Mean Square F Sig.Regression 27.508 6 4.585 44.157 .000aResidual 2.492 24 .1041Total 30.000 30Regression 27.457 5 5.491 53.989 .000b2Residual 2.543 25 .102Total 30.000 30Regression 27.435 4 6.859 69.518 .000cR

26、esidual 2.565 26 .0993Total 30.000 30Regression 27.322 3 9.107 91.836 .000dResidual 2.678 27 .0994Total 30.000 30Regression 27.108 2 13.554 131.222 .000eResidual 2.892 28 .1035Total 30.000 30f. Dependent Variable: Zscore: GDP(亿元）从上表可以知道，显著性p近似值为0，说明回归方程高度显著。亦可从表（7）中得到扩大方程因子全都小于10，p值近似为0，也可知道回归系数显著。由

27、直方图知随机误差项基本服从正态分布，可知假设满足条件。数据点围绕基准线还存在一定得规律性，但标准化残差与标准正态分布不存在显著差异，所以认为残差满足了模型的基本要求。残差在0的周围随机分布，方差没有太大的变化趋势，方差的异方差性并不明显，原模型满足要求，符合建模的条件。七、模型的最终解释（结论）最终的回归方程为：y=-1.872E -16+0.152x2+0.895x3；从方程中可以看到居民消费水平与固定资产投资对 GDP 的影响最大，而其中的固定资产投资的系数远大于居民消费水平的系数，由此可知固定资产投资对国民生产总值的贡献大于居民消费水平对 GDP 的贡献。虽然该模型建立了GDP 的回归方程，但我们需要注意的是，影响 GDP 的因素很多，且影响程度不同，它涵盖的具体范围很广，我们只能从有限的数据中选取一些合适的变量，再对其研究分析。并不是模型中没有的便量就对 y 没有影响。

展开阅读全文