1、应用回归分析结课论文影响财政收入的相关因素的分析班级: 姓名: 学号:目 录1.问题的提出 42.数据来源 43.回归分析的模型方法介绍和总结 53.1 多元线性回归模型 .53.1.1 多元线性回归模型的一般形式53.1.2 多元线性回归模型的基本假定63.2.多元线性回归参数的最小二乘估计.74.SAS 程序及结果输出.84.1.建立数据集,进行相关分析.84.2.将数据做标准化处理,建立回归方程104.3.异方差检验114.4 自相关检验 134.5. 多重共线性检验.144.5.1 方差扩大因子法.144.5.2 特征根判定法.144.6 消除多重共线性 154.6.1 后退法.154
2、.6.2.逐步回归 194.7 最佳子集回归 224.8 岭回归 224.9 主成分回归 254.10 偏最小二乘回归 .265.结论 .27参考文献 .28摘要本 文 选 1985-2003 年 的 农 业 增 加 值 , 工 业 增 加 值 , 建 筑 业 增 加 值 , 社 会 消 费 总 额 , 人口 数 , 受 灾 面 积 六个因素通过多元线性回归分析和岭回归对国家财政收入行分析,主要分析分析影响财政收入的主要原因,并联系实际进行分析,以供参 考 。关键词:财政收入 多元线性回归 多重共线性 岭回归1.问题的提出财政参与分配社会产品,在一国经济发展和分配体系中占有重要地位和作用。可以
3、有力地促进经济的发展促进科学、教育、文化、卫生事业的发展,促进人民生活水平的提高,为巩固国防提供可靠的物质保障。且可调节资源配置,促进社会公平,改善人民生活。促进经济机构的优化和经济发展方式的转变。在我国,财政收入的主体是税收收入,因此在税收体制及政策不变的条件下,财政收入会随着经济繁荣而增加,随着经济衰退而下降。本文利用回归分析,确定影响我国财政收入主要因素。2.数据来源在研究国家收入时,我们把财政收入按形式分为:各项税收收入,企业收入,债务收入,国家能源交通重点建设基金收入,基本建设贷款归还收入,国家调节基金收入,其他收入等。为了建立国家财政收入回归模型,我们以财政收入 y(亿元)为因变量
4、,自变量如下:x1 为农业增加值(亿元);x2 为工业增加值(亿元);x3 为建筑业增加值(亿元);x4 为人口数(万人);X5 为社会消费总额(亿元);x6 为 受灾面积(万公顷)。根据中国统计年鉴,得到 1985-2003 年数据,如图:3.回归分析的模型方法介绍和总结3.1 多元线性回归模型3.1.1 多元线性回归模型的一般形式设随机变量 与一般变量 , , , 的线性回归模型为:y1x2px(3.1) px21式中, , , 是 个未知参数, 称为回归常数, , 称为回归0 01p系数。 称为被解释变量(因变量) , 是 个可以精确测量并控制的一般变y px,21量。称为解释变量(自变
5、量) 。 时,式(3.1)为一元线性回归模型; 时,我p 2们就称式(3.1)为多元线性回归模型。 是随机误差,与一元线性回归一样,对随机误差项我们常假定(3.2)0)( 2var)(称(3.3)pxxy210为理论回归方程。对一个实际问题,如果我们获得 组观测数 ,则线性nniyxipi ,21;,21 回归模型式(3.1)可表示为:112101 pxxy(3.4)22npnn xxy 210写成矩阵形式为:(3.5)Xy是一个 阶矩阵,称为回归设计矩阵或资料矩阵。在实验设计中,1pn的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称 为设计矩X阵。3.1.2 多元线性回归模型的基
6、本假定为了方便地进行模型的参数估计,对回归方程式(3.4)有如下一些基本假定(1)解释变量 , , , 是确定性变量,不是随机变量,且要求1x2px。这里的 ,表明设计矩阵 中的自变量列之间不npXranknX1rankX相关,样本量的个数应大于解释变量的个数, 是一满秩矩阵。(2)随机误差性具有零均值和等方差,即0i,2jiji,cov nji,21,,0ji这个假定通常称为高斯马尔柯夫条件。 ,即假设观测值没有系统误差,0i随机误差项 的平均值为零,随机误差项 的协方差为零,表明随机误差项在不同的ii样本点之间是不相关的(在正态假定下即为独立的) ,不存在序列相关,并且有相同的精度。(3)
7、正态分布的假定条件为:2,0Ni相互独立n,21对于多元线性回归的矩阵模型式(3.5) ,这个条件便可表示为:nN2,0由上述假定和多元正态分布的性质可知,随机变量 服从 维正态分布,回归模yn型式(3.5)的期望向量XyEn2var因此),(2nXNy3.2.多元线性回归参数的最小二乘估计多元线性回归模型未知参数 , , ,的估计与一元线性回归方程的参数估计原01p理一样,仍可采用最小二乘估计。对于 ,所谓最小二乘法,就是寻找参数Xy, , , 的估计值,使离差平方和 Q( , , )极小,即:01p 01p4.SAS 程序及结果输出4.1.建立数据集,进行相关分析程序 1data a;in
8、put year y x1-x6;cards;1985 2004.82 3619.5 9716 675.1 1058.51 3801.4 443.651986 2122.01 4013 11194 808.07 1075.07 4374 471.41987 2199.35 4675.7 13813 954.65 1093 5115 420.91988 2357.24 5865.3 18225 1131.65 1110.26 6534.6 508.71989 2664.9 6534.7 22017 1282.98 1127.04 7074.2 469.911990 2937.1 7662.1 2
9、3924 1345.01 1143.33 7250.3 384.741991 3149.48 8157 26625 1564.33 1158.23 8245.7 554.721992 3483.37 9084.7 34599 2174.44 1171.71 9704.8 513.331993 4348.95 10995.5 48402 3253.5 1185.17 12462.1 488.291994 5218.1 15750.5 70176 4653.32 1198.5 16264.7 550.431995 6242.2 20340.9 91894 5793.75 1267.43 20620
10、 546.881996 7407.99 22353.7 99595 8282.25 1211.21 24774.1 458.211997 8651.14 23788.4 113733 9126.48 1223.89 27298.9 469.891998 9875.95 24542.9 119048 10061.99 1276.27 29152.5 521.551999 11444.08 24519.1 126111 11152.86 1236.26 31134.7 534.292000 13395.23 24915.8 85673.7 12497.6 1284.53 334152.6471.1
11、92001 16386.04 26179.6 9548.98 15361.56 1247.61 37595.2501.452002 18903.64 27390.8 11076.5 18527.18 1257.86 42027.1499.812003 21715.25 29691.8 14771.2 23083.87 1292.27 45842 545.06;run;proc print;run;proc corr data=a noprob;var y x1-x6;run;结果一一一分析:从相关阵看出,y 与 x2 的相关系数偏小,x2 是工业增加值,这说明工业增加值对财政收入无显著影响。4
12、.2.将数据做标准化处理,建立回归方程程序 2:proc standard data=a mean=0 std=1 out=out1;var y x1-x6;run;proc print data=out1;run;proc reg data=out1;model y=x1-x6;run;结果:一一因为数据为标准化数据,所以方程中不含有常数项。所以有回归方程为一Y=0.117.8x1-0.11696x2+0.87288x3+0.01659x+0.04690x5+0.01022x6由决定系数 R 方=0.9957,调整 R 方=0.9936,得回归方程高度显著。又有 F=463.63,P F模型
13、 6 674884516 112480753 463.63 FIntercept -733.03047 5750.12654 3942.67758 0.02 0.9007x1 0.07653 0.10154 137805 0.57 0.4656x2 -0.01686 0.00702 1401078 5.78 0.0333x3 0.79738 0.10078 15185876 62.59 Fx5 0.00391 0.00198 944961 3.90 0.0719x6 1.35371 3.25216 42035 0.17 0.6846条件数字的边界: 67.419, 755.1向后消除: 第 1
14、 步变量 x4 已删除: R 方 = 0.9957 和 C(p) = 5.0529方差分析源 自由度 平方和均方 F 值 Pr F模型 5 674871688 134974338 600.07 FIntercept 553.06322 1285.69944 41622 0.19 0.6741x1 0.09175 0.07412 344724 1.53 0.2376x2 -0.01724 0.00657 1551638 6.90 0.0209x3 0.78904 0.09055 17079718 75.93 F模型 4 674780920 168695230 783.36 FIntercept
15、1343.77319 315.04852 3917760 18.19 0.0008x1 0.09549 0.07229 375734 1.74 0.2077x2 -0.01710 0.00642 1526965 7.09 0.0186x3 0.78928 0.08860 17090279 79.36 F模型 3 674405186 224801729 994.52 FIntercept 1674.73790 195.66876 16559100 73.26 F1 x4 5 0.0000 0.9957 5.0529 0.05 0.8220“向后消除”的汇总步 删除的变量引入变量数偏R 方模型R
16、方C(p) F 值 Pr F2 x6 4 0.0001 0.9956 3.4270 0.40 0.53633 x1 3 0.0006 0.9950 2.9758 1.74 0.2077表 8 参数都具有显著性意义,最优回归子集模型的回归模型为:Y=2.1435.4E-16-0.06508x2+0.98957x3+0.4486x54.6.2.逐步回归程序 9:proc reg data=out1;model y=x1-x6/selection=stepwise vif;run;结果:表 9参数都具有显著性意义,最优回归子集模型的回归模型为:Y=2.1435.4E-16-0.06508x2+0.9
17、8957x3+0.4486x54.7 最佳子集回归程序 10proc reg data=out1;model y=x1-x6/selection=cp aic adjrsq;run;结果:表 10基于 统计量 x2 x3 x5 是最优子集,与逐步回归选元结果相同。pC4.8 岭回归程序 11 :proc reg data=out1 outest=z4 outvif;model y=x1-x6/ridge=0 to 1 by 0.1;plot/ridgeplot;run;proc print data=z4;run;结果:Obs_MODEL_TYPE_DEPVAR_RIDGE_PCOMIT_RM
18、SE_Interceptx1 x2 x3 x4 x5 x6 y1 MODEL1PARMSy . . 0.080272.5314E-160.1171-0.116960.87290.01660.046900.01022-12 MODEL1RIDGEVIFy 0.0 . . . 67.41896.6176134.007014.54581.577741.68305-13 MODEL1RIDGEy 0.0 . 0.080272.5314E-160.1171-0.116960.87290.01660.046900.01022-14 MODEL1RIDGEVIFy 0.1 . . . 0.71850.985
19、051.08671.77061.002331.01258-15 MODEL1RIDGEy 0.1 . 0.136524.4927E-160.3201-0.200940.56310.11370.051920.00836-16 MODEL1RIDGEVIFy 0.2 . . . 0.30930.720400.55920.75250.781260.77951-17 MODEL1RIDGEy 0.2 . 0.186665.1918E-160.3065-0.187670.49610.15130.056040.01346-18 MOD RIDG y 0.3 . . . 0.2 0.57 0.3 0.4 0
20、.6 0.6 -Obs_MODEL_TYPE_DEPVAR_RIDGE_PCOMIT_RMSE_Interceptx1 x2 x3 x4 x5 x6 yEL1 EVIF 062 822 852 329 3276289019 MODEL1RIDGEy 0.3 . 0.230945.4633E-160.29250.016990.45360.16580.059910.01932-110MODEL1RIDGEVIFy 0.4 . . . 0.15940.481310.29680.29140.525590.52161-111MODEL1RIDGEy 0.4 . 0.270395.5797E-160.28
21、00-0.153130.42180.17180.062850.02439-112MODEL1RIDGEVIFy 0.5 . . . 0.13190.409380.24220.21570.444950.44131-113MODEL1RIDGEy 0.5 . 0.305755.625E-160.2688-0.138000.39600.17400.064940.02853-114MODEL1RIDGEVIFy 0.6 . . . 0.11350.353580.20460.17010.382410.37921-115MODEL1RIDGEy 0.6 . 0.337675.6332E-160.2589-
22、0.124660.37440.17420.066360.03187-116MODEL1RIDGEVIFy 0.7 . . . 0.10010.309080.17680.14010.332750.32996-117MODEL1RIDGEy 0.7 . 0.366675.6204E-160.2499-0.112930.35580.17320.067270.03453-118MODEL1RIDGEVIFy 0.8 . . . 0.08990.272860.15540.11910.292560.29014-119MODEL1RIDGEy 0.8 . 0.393215.5953E-160.2417-0.
23、102620.33950.17150.067780.03665-1Obs_MODEL_TYPE_DEPVAR_RIDGE_PCOMIT_RMSE_Interceptx1 x2 x3 x4 x5 x6 y20MODEL1RIDGEVIFy 0.9 . . . 0.08160.242890.13840.10360.259520.25741-121MODEL1RIDGEy 0.9 . 0.417635.5626E-160.2342-0.093530.32500.16940.067990.03833-122MODEL1RIDGEVIFy 1.0 . . . 0.07490.217780.12450.0
24、9180.231970.23013-123MODEL1RIDGEy 1.0 . 0.440245.5253E-160.2272-0.085480.31200.16710.067970.03966-1表 11图 2由岭迹图,当 K=0.3,岭迹曲线趋于稳定,说明 K=0.3 即可以满足岭回归参数估计的均方误差较小的要求,对应的岭回归估计的回归方程:Y=0.2925x1+0.01699x2+0.4536x3+0.1658x4+0.05991x5+0.01932x64.9 主成分回归程序 12:proc reg data=out1 outest=z5 outvif;model y=x1-x6/pco
25、mit=1;run;proc print data=z5;run;结果:一 12Y=1.1814E-16+0.39282x1-0.19039x2+0.68593x3-0.06196x4+0.06018x5+0.02238x6由方差扩大因子可知,模型不存在多重共线性。4.10 偏最小二乘回归程序 13proc standard data=a out=out1 mean=0 std=1;var y x1-x6;run;proc pls data=out1 nfac=3 details ;model y=x1-x6/solution;run;结果:图 13 602.-73.164.0578.2.0-
26、35. 531 xxxy 5.结论标准化处理后方程为y=0.117.8x1-0.11696x2+0.87288x3+0.01659x+0.04690x5+0.01022x6最优回归子集模型的回归模型为:y=2.1435.4E-16-0.06508x2+0.98957x3+0.4486x5岭回归估计的回归方程:Y=0.2925x1+0.01699x2+0.4536x3+0.1658x4+0.05991x5+0.01932x6主成分方程Y=1.1814E-16+0.39282x1-0.19039x2+0.68593x3-0.06196x4+0.06018x5+0.02238x6偏最小二乘方程 60
27、2.-73.164.0578.2.0-35. 531 xxxy 可看出 X3 建筑业对财政收入影响最大,x2 工业和 x6 受灾面积对财政收入产生影响较小 。且 x1 农业和 x3 建筑业对我国财政收入有显著性促进作用。X4 人口数对财政收入也是有促进作用,但促进作用不是很大。得到的结果表明,对于国家财政收入来说,农业,建筑业对其影响显著,与实际相符。从实际来考虑,在科技日益发展的经济体制中,工业对财政收入的影响远远没有原来那么有力了,其影响越来越弱,由于我们国家经济政策市场状况等限制,传统的产业已经趋近于饱和,想要有所突破越来越难,发展空间有限,虽然它的重要性在减弱,但是它所处的地位是不可动
28、摇的。政府为了满足社会公共需要及其行政经济职能,需要消耗大量的商品劳务,为获取必须的商品劳务,需政府财政支出,而财政收入是政府筹集财政经费的基本手段。首先,财政收入是一个过程,它是财政分配活动的第一阶段;其次,财政收入是一定量的货币收入,是国家可支配的财力。因此,我们努力提高财政收入具有 重大意义。为了有效提高财政收入,我们应该加权基础设施建设,增强重点地区,重点流域的防灾抗旱能力,减少损失,增添收入。发挥商业的积极作用,促进消费也很重要。参考文献【1】何晓群.回归分析与经济数据建模.北京:中国人民大学出版社,1997【2】何晓群 刘文卿.应用回归分析(第四版).北京:中国人民大学出版社,2015