1、1最小二乘法对随机误差项u作了哪些假定?说明这些假定条件的意义。答:假定条件:(1)均值假设:E(u i)=0,i=1,2,;(2)同方差假设:Var(u i)=Eui-E(ui)2=E(ui2)=u2 ,i=1,2,;(3)序列不相关假设:Cov(u i,uj)=Eui-E(ui)uj-E(uj)=E(uiuj)=0,ij,i,j=1,2,;(4)Cov(ui,Xi)=Eui-E(ui)Xi-E(Xi)=E(uiXi)=0;(5)ui服从正态分布, uiN(0, u2)。意义:有了这些假定条件,就可以用普通最小二乘法估计回归模型的参数。2阐述对样本回归模型拟合优度的检验及回归系数估计值显著性
2、检验的步骤。答:样本回归模型拟合优度的检验:可通过总离差平方和的分解、样本可决系数、样本相关系数来检验。回归系数估计值显著性检验的步骤:(1)提出原假设H 0 : 1=0; (2)备择假设H 1 : 10;(3)计算 t=1/S1;(4)给出显著性水平,查自由度v=n-2的t分布表,得临界值t /2(n-2);(5)作出判断。如果|t|t /2(n-2),拒绝H 0 ,接受H 1:10 ,表明X对Y有显著影响。4.试说明为什么e i2的自由度等于n-2。答:在模型中,自由度指样本中可以自由变动的独立不相关的变量个数。当有约束条件时,自由度减少,其计算公式:自由度=样本个数-受约束条件的个数,即
3、df=n-k。一元线性回归中SSE 残差的平方和,其自由度为n-2,因为计算残差时用到回归方程,回归方程中有两个未知参数 0和 1,而这两个参数需要两个约束条件予以确定,由此减去2,也即其自由度为n-2 。5.试说明样本可决系数与样本相关系数的关系及区别,以及样本相关系数与 1的关系。答:样本相关系数r的数值等于样本可决系数的平方根,符号与 1相同。但样本相关系数与样本可决系数在概念上有明显的区别,r建立在相关分析的理论基础之上,研究两个随机变量X与Y之间的线性相关关系;样本可决系数r 建立在回归分析的理论基础之上,研究非随机变量X对随机变量Y的解释程度。6.已知某市的货物运输量Y(万吨),国
4、内生产总值GDP(亿元,1980年不变价)19851998年的样本观测值见下表(略)。Dependent Variable: YMethod: Least SquaresDate: 10/07/16 Time: 00:47Sample: 1985 1998Included observations: 14Variable Coefficient Std. Error t-Statistic Prob. C 12596.27 1244.567 10.12101 0.0000GDP 26.95415 4.120300 6.541792 0.0000R-squared 0.781002 Mean d
5、ependent var 20168.57Adjusted R-squared 0.762752 S.D. dependent var 3512.487S.E. of regression 1710.865 Akaike info criterion 17.85895Sum squared resid 35124719 Schwarz criterion 17.95024Log likelihood -123.0126 Hannan-Quinn criter. 17.85050F-statistic 42.79505 Durbin-Watson stat 0.859998Prob(F-stat
6、istic) 0.000028(1) 一元线性回归方程 Yt=12596.27+26.95415GDP(2) 对回归方程的结构分析 是样本回归方程的斜率,它表示某市的边际货运运输倾向,说明年 GDP 每126.95增加一亿元就增加 26.95 万吨的货物运输量; 是样本回归方程的截距,它012596.7表示不受 GDP 影响的货物运输量; 的符号和大小均符合经济理论和目前某市的实际01情况。(3)统计检验 检验: ,说明总离差平方和的 78%被样本回归直线解释了,有 22%未被解释,2r20.78样本回归直线对样本点到拟合优度比较好。显著性水平 ,查自由度 v=14-2=12 的 t 分布表,
7、得临界值 t0.025(12)=2.18.5t0=10.1t0.025(12),t 1=6.5t0.025(12),回归系数显著不为零,回归模型中应包含常数项,GDP 对 Y 有显著影响。(4)预测区间 19802000当 2000 年的时候 GDP 为 620 亿元时,运输量预测值为 =29307.84 万吨OY计算得到: 280.93X217340ix2136.es则: =15403.69220einx0022,OYtYt即 937.8,5.47. 我国粮食产量 Q(万吨)、农业机械总动力 X1(万瓦时)、化肥施用量X2(万吨)、土地灌溉面积 X3(千公顷)19781998 年样本观测值见
8、下表。(略)(1)我国粮食产量 Q(万吨)和农业机械总动力 X1(万瓦时)1) 估计模型Dependent Variable: QMethod: Least SquaresDate: 10/07/16 Time: 01:42Sample: 1978 1998Included observations: 21Variable Coefficient Std. Error t-Statistic Prob. C 40772.47 1389.795 29.33704 0.0000X1 0.001220 0.001909 0.639194 0.5303R-squared 0.021051 Mean d
9、ependent var 40996.12Adjusted R-squared -0.030473 S.D. dependent var 6071.868S.E. of regression 6163.687 Akaike info criterion 20.38113Sum squared resid 7.22E+08 Schwarz criterion 20.48061Log likelihood -212.0019 Hannan-Quinn criter. 20.40272F-statistic 0.408568 Durbin-Watson stat 0.206201Prob(F-sta
10、tistic) 0.530328估计一元回归模型: 01t ttQXe即样本回归模型为: 14702tt2)对估计结果作结构分析是样本回归方程的斜率,说明农业机械总动力每增加 1 万瓦时我国粮食10.2产量就增加 0.00122 万吨; 是样本回归方程的截距,它表示不受农业机械0472.总动力影响的粮食总量; 的符号和大小均符合经济理论和我国的实际情况。13)对估计结果进行统计检验检验: ,说明总离差平方和的 2%被样本回归直线解释了,有 98%未被解2r20.释,样本回归直线对样本点到拟合优度很差。T 检验:给出显著水平 ,查自由度 v=19 的 t 分布表,得 ,.050.2519.t,故
11、回归系数均显著为零,回归模型中应包含常数项,X1 对 Q 无显著影023.4.09t响.(2) 我国粮食产量 Q(万吨)和化肥施用量 X2(万吨)1)作散点图并估计模型估计一元回归模型: 012t ttXeDependent Variable: QMethod: Least SquaresDate: 10/07/16 Time: 01:51Sample: 1978 1998Included observations: 21Variable Coefficient Std. Error t-Statistic Prob. C 26925.65 915.8657 29.39912 0.0000X2
12、 5.912534 0.356423 16.58851 0.0000R-squared 0.935413 Mean dependent var 40996.12Adjusted R-squared 0.932014 S.D. dependent var 6071.868S.E. of regression 1583.185 Akaike info criterion 17.66266Sum squared resid 47623035 Schwarz criterion 17.76214Log likelihood -183.4579 Hannan-Quinn criter. 17.68425
13、F-statistic 275.1787 Durbin-Watson stat 1.264400Prob(F-statistic) 0.000000即样本回归模型为: 2269591ttQX2)对估计结果作结构分析是样本回归方程的斜率,说明化肥施用量每增加 1 万吨我国粮食产量就增加15.95.91 万吨; 是样本回归方程的截距,它表示不受化肥施用量影响的粮食总026.5量; 的符号和大小均符合经济理论和我国的实际情况。13)对估计结果进行统计检验检验: ,说明总离差平方和的 94%被样本回归直线解释了,有 6%未被解2r20.94释,样本回归直线对样本点到拟合优度很高。T 检验:给出显著水平
14、 ,查自由度 v=19 的 t 分布表,得 ,.050.2519.t, ,故回归系数均显著不为零,回归模型中应包含常数029.4.0t192t项,X2 对 Q 有显著影响.(3) 我国粮食产量 Q(万吨)和土地灌溉面积 X3(千公顷)1)作散点图并估计模型估计一元回归模型: 013t ttQXeDependent Variable: QMethod: Least SquaresDate: 10/07/16 Time: 01:55Sample: 1978 1998Included observations: 21Variable Coefficient Std. Error t-Statisti
15、c Prob. C -49865.39 12638.40 -3.945545 0.0009X3 1.948700 0.270634 7.200498 0.0000R-squared 0.731817 Mean dependent var 40996.12Adjusted R-squared 0.717702 S.D. dependent var 6071.868S.E. of regression 3226.087 Akaike info criterion 19.08632Sum squared resid 1.98E+08 Schwarz criterion 19.18580Log lik
16、elihood -198.4064 Hannan-Quinn criter. 19.10791F-statistic 51.84718 Durbin-Watson stat 0.304603Prob(F-statistic) 0.000001即样本回归模型为: 349865.3147ttQX2)对估计结果作结构分析是样本回归方程的斜率,说明土地灌溉面积每增加 1 千公顷我国粮食产量就1.95增加 1.95 万吨; 是样本回归方程的截距,它表示不受化肥施用量影响的04865.39粮食总量;3)对估计结果进行统计检验检验: ,说明总离差平方和的 73%被样本回归直线解释了,有 27%未被解2r20
17、.73释,样本回归直线对样本点到拟合优度较好。T 检验:给出显著水平 ,查自由度 v=19 的 t 分布表,得 ,.050.2519.t, 。故 显著为 0,则常数项 不应该出现在模型中;03.952.0t1729t0显著不为零,表明 对 Q 有显著影响。13X最好的模型是第二个模型。即 2269591tt X2000 年的预测值为: 计算得到: 5140.8OY2673.520978ix则: =1360574 219536es22eiXsnx022,OYtt给出显著水平 即0.0.25(3).7t 496.8,53.O8.查中国统计年鉴,利用 19782000 的财政收入和 GDP 的统计资
18、料,要求以手工和EViews 软件。(1)散点图020,040,060,080,010,010,030,050,070,090,0YGDPDependent Variable: YMethod: Least SquaresDate: 10/07/16 Time: 02:40Sample: 1978 2000Included observations: 23Variable Coefficient Std. Error t-Statistic Prob. GDP 0.986097 0.001548 637.0383 0.0000C 174.4171 50.39589 3.460939 0.002
19、3R-squared 0.999948 Mean dependent var 22634.30Adjusted R-squared 0.999946 S.D. dependent var 23455.82S.E. of regression 172.6972 Akaike info criterion 13.22390Sum squared resid 626310.6 Schwarz criterion 13.32264Log likelihood -150.0748 Hannan-Quinn criter. 13.24873F-statistic 405817.8 Durbin-Watso
20、n stat 0.984085Prob(F-statistic) 0.000000一元线性回归方程 Y=174.4174+0.98GDPt经济意义 国名收入每增加 1 亿元,将有 0.98 亿元用于国内生产总值。(2)检验 r=99,说明总离查平方和的 99被样本回归直线解释,仅有 1未被解释,所以说样本回归直线对样本点的拟合优度很高。显著性水平 =0.05,查自由度 v=23-2=21 的 t 分布表,得临界值 t0.025(21)=2.08。(3)预测值及预测区间obs Y YF YFSE GDP1978 3645.23768.939527560003178.8799078873616 3
21、645.21979 4062.64180.536602486764178.7740777289417 4062.619804545.6000000000014656.821670023003178.65445312373664545.6000000000011981 4889.54998.011387140059178.57063446903184891.6000000000011982 4889.54998.011387140059178.57063446903184891.6000000000011983 5330.55423.808265322558178.468230113880353
22、23.3999999999991984 5985.66054.220364030461178.3211083266242 5962.71985 7243.87282.306126162203178.0499504848901 7208.11986 9040.70000000 9065.07170297 177.692806300 90160001 124 99311987 12050.612065.37179921504177.1899398638916 12058.61988 10274.410306.76560988973177.4697052274058 10275.21989 1205
23、0.612065.37179921504177.1899398638916 12058.61990 15036.815008.08380447724176.8172394391318 15042.81991 17000.916930.48077996771176.6385874540277 16992.31992 18718.318582.68705461982176.5261264423878 18667.81993 3526035017.08573798564177.4791848854038 35333.91994 21826.221653.09867943883176.41823937
24、24463 21781.51995 26937.326723.61175867555176.5282689819769 26923.51996 3526035017.08573798564177.4791848854038 35333.91997 48108.547702.24331311228180.7470770711596 48197.91998 59810.560122.92955260078185.9681357044579 60793.71999 88479.288604.77659126783204.5612478858191 89677.12000 70142.570361.48074871261191.6614042102092 71176.62001104413.7922729122218.1766346781298 105709单个值的预测区间 Y2000104413.8-2.07 218.2,104413.8+2.07218.2均值预测区间 E(Y2000)104413.8-2.07 218.2,104413.8+2.07218.2