1、1第 4 章 违背基本假设的情况4.1 答:例 4.1:截面资料下研究居民家庭的储蓄行为i01iY=+X其中:Y i 表示第 i 个家庭的储蓄额, Xi 表示第 i 个家庭的可支配收入。由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以 i 的方差呈现单调递增型变化。例 4.2:以某一行业的企业为样本建立企业生产函数模型123iiiY=A KLe被解释变量:产出量 Y, 解释变量:资本 K、劳动 L、技术 A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项
2、的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。4.2 答:回归模型一旦出现异方差性,如果仍采用 OLS 估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数 OLS 估计值的变异程度增大,从而造成对 Y 的预测误差变大,降低预测精度,预测功能失效。4.3 答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中
3、的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就2被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由 OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。加权最小二乘法的方法: 2011110222()()=1( )Ni iiwiwNiiwiiiiiQyxyxykkxi( ) 因 为 比 例 系 数 在 参 数 估 计 中 可 以 消 去 4.4答:运用加权最
4、小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:iw(2)ni ipiip xxywQ1 21010 )( ),( 加权最小二乘估计就是寻找参数 的估计值 使式p,10 pww,10(2)的离差平方和 达极小。所得加权最小二乘经验回归方程记做w(3)pwwxxy10多元回归模型加权最小二乘法的方法:首先找到权数 ,理论上最优的权数 为误差项方差 的倒数,即i i 2i3(4)21iiw误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接
5、受大的权数,以提高其在平方和中的作用。由(2)式求出的加权最小二乘估计 就是参数 的最小方差线性无偏估pww,10 p,10计。一个需要解决的问题是误差项的方差 是未知的,因此无法真正按照式2i(4)选取权数。在实际问题中误差项方差 通常与自变量的水平有关(如误差i项方差 随着自变量的增大而增大),可以利用这种关系确定权数。例如 与2i 2i第 j 个自变量取值的平方成比例时, 即 =k 时,这时取权数为2iijx (5)21ijixw更一般的情况是误差项方差 与某个自变量 (与|e i|的等级相关系数最ijx大的自变量)取值的幂函数 成比例,即 =k ,其中 m 是待定的未知参数。mijx2
6、iij此时权数为(6)mijixw1这时确定权数 的问题转化为确定幂参数 m 的问题,可以借助 SPSS 软件解i决。4.5证明:由得:220111()()NNwiiiiQyyx010Q4wini wiiixyyx10 21)(4.6证明:对于多元线性回归模型 (1) ,y=X+,即存在异方差。设2()0,cov()EW,1,0nwD 用 左乘( 1)式两边,得到一个新的的模型:1D,即 。11Dy=X+y=X+因为 ,22()()EE- -1DWI故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得 11 1()()()11wXyyy原式得证。4.7 答:不同意。当回归模型存在异方差
7、时,加权最小二乘估计(WLS)只是普通最小二乘估计(OLS)的改进,这种改进可能是细微的,不能理解为 WLS 一定会得到与 OLS 截然不同的方程来,或者大幅度的改进。实际上可以构造这样的数据,回归模型存在很强的异方差,但 WLS 与 OLS 的结果一样。加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。4.8 解:用公式 计算出加权变换残差 ,分别绘制加权最小二乘估计后iwie iwe的残差图和加权变换残差图(见下图) 。56根据绘制出的两个图形可以发现加权最小二乘估计没有消除异方差,只是对原OLS 的残差有所改善,而经过加权变换后的残差不存在异方差。4.9 解
8、(1)SPSS 输出结果如下:Coefficientsa-.831 .442 -1.882 .065.004 .000 .839 11.030 .000(Constant)xModel1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.Dependent Variable: ya. 由上表可得回归方程为: 0.831.4x残差图为:7(2)a 由残差散点图可以明显看出存在异方差,误差的方差随着 的增加而增x大。b 用 SPSS 做等级相关系数的检验,结果如下表所示:相关系数x absei相关系数 1
9、.000 .318*Sig.(双侧) . .021xN 53 53相关系数 .318* 1.000Sig.(双侧) .021 .Spearman 的 rhoabseiN 53 53*. 在置信度(双测)为 0.05 时,相关性是显著的。得到等级相关系数 ,P值=0.021,认为残差绝对值 与自变量 显0.318sr ieix著相关,存在异方差。(3)SPSS 输出结果如图:8系数 a非标准化系数 标准系数模型B 标准 误差 试用版t Sig.(常量) -.683 .298 -2.296 .0261x .004 .000 .821 9.930 .000a. 因变量: y由上述表可得,在 时对数似
10、然函数达到最大,则幂指数的最优取值为1.5m。加权后的回归方程为: 。1.5m0.683.4wyx计算加权后的残差,并对残差绝对值和自变量做等级相关系数分析,结果如下表所示:,P 值为0.0190.05,说明异方差已经消除。0.16sr4.10 答:例如,居民总消费函数模型:t=1,2,n01ttCY由于居民收入对消费影响有滞后性,而且今年消费水平受上年消费水平影响,则可能出现序列相关性。另外由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关 ) 。4.11答:直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产生下列一些问题:1. 参数估计量
11、仍然是无偏的,但不具有有效性,因为有自相关性时参数估计值的方差大于无自相关性时的方差。2. 均方误差 MSE 可能严重低估误差项的方差3. 变量的显著性检验失去意义:在变量的显著性检验中,统计量是建立在参数方差正确估计基础之上的,当参数方差严重低估时,容易导致 t 值和 F 值偏大,即可能导致得出回归参数统计检验和回归方程检验显著,但实际并不显著的严重错误结论。4. 当存在序列相关时, 仍然是 的无偏估计,但在任一特定的样本中,可能严重歪曲 的真实情况,即最小二乘法对抽样波动变得非常敏感5. 模型的预测和结构分析失效。104.12答:优点:1.应用广泛,一般的计算机软件都可以计算出 DW 值;
12、2.适用于小样本;3.可用于检验随机扰动项具有一阶自回归形式的序列相关问题。缺点:1. DW 检验有两个不能确定的区域,一旦 DW 值落入该区域,就无法判断。此时,只有增大样本容量或选取其他方法;2.DW 统计量的上、下界表要求 n15,这是由于样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断;3.DW 检验不适应随机项具有高阶序列相关性的检验。4.13 解:(1)模型汇总模型 R R 方 调整 R 方 标准 估计的误差1 .999a .998 .998 .663a. 预测变量: (常量),某分公司的月销售额 y。系数 a非标准化系数 标准系数模型B 标准 误差 试用版t Sig
13、.(常量) -1.435 .242 -5.930 .0001总公司的月销售额 x.176 .002 .999 107.928 .000a. 因变量:总公司的月销售额 x由上表可知:用普通二乘法建立的回归方程为 xy176.0435.(2) 以自变量总公司的月销售额 x 为横轴,普通残差为纵轴画残差图如下:11180.170.160.150.140.130.120. 公公x0.20.10.-0.1-0.公从图中可以看到,残差有规律的变化,呈现大致反 W 形状,说明随机误差项存在自相关性。以 (残差 1)为横坐标, (残差)为纵坐标,绘制散点图如下:1ieie0.20.10.-0.1-0.2 公1
14、0.20.10.-0.1-.公12由残差图可见大部分的点落在第一、三象限内,表明随机扰动项 存在着正的i序列相关;从下表Model Summaryb.999a .998 .998 .09744 .663Model1 R R Square AdjustedR Square Std. Error ofthe Estimate Durbin-WatsonPredictors: (Constant), xa. Dependent Variable: yb. 可知DW值为0.663,查DW表,n=20,k=2,显著性水平 =0.05,得=1.20, =1.41,由于0.6631.40= ,即DW落入不相
15、关区域,可知残差序列Ud不存在自相关,一阶差分法成功地消除了序列自相关。同时得到回归方程为te=0.169 ,tytx将 = - , = - ,代人,还原原始变量的方程ty1tt1t= +0.169( - )tytx115(5)答:本题中自相关系数 0.6685,不接近于 1,不适宜用差分法,另外由迭代法的 F 值及 都大于差分法的值,故差分法的效果低于迭代法的效果;而普通2r最小二乘法的随机误差项标准差为 0.09744,大于迭代的随机误差项标准差0.07296,所以迭代的效果要优于普通最小二乘法,所以本题中一次迭代法最好。4.14 解:将数据输入 SPSS,经过线性回归得到结果如下:Mod
16、el Summary(b)Model R R SquareAdjusted R SquareStd. Error of the Estimate Durbin-Watson1 .541(a) .293 .264 329.69302 .745a Predictors: (Constant), x2, x1b Dependent Variable: yANOVA(b)Model Sum of Squares df Mean Square F Sig.1 Regression 2205551.678 2 1102775.839 10.145 .000(a)Residual 5326177.036 4
17、9 108697.491 Total 7531728.714 51 a Predictors: (Constant), x2, x1b Dependent Variable: yCoefficientsa-574.062 349.271 -1.644 .107191.098 73.309 .345 2.607 .0122.045 .911 .297 2.246 .029(Constant)x1x2Model1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.Dependent Variable: y
18、a. 由以上3个表可知普通最小二乘法建立y与x1、x2的回归方程,通过了r、F、t检验,说明回归方程显著。y与x1、x2的回归方程为:y=-574.062+191.098x1+2.045x216残差图ei(e t)ei1(et-1)为:60.40.20.0.-20.-40.-60.-80. Unstadrize Rsidual60.40.20.0.-20.-40.-60.-80.ei1从残差图可以看出残差集中在1、3象限,说明随机误差项存在一阶正自相关。DW=0.745查表得 dl=1.46 du=1.63, 0du 所以误差项间无自相关性。 =257.86Coefficientsa-178.
19、775 90.338 -1.979 .054211.110 47.747 .521 4.421 .0001.436 .629 .269 2.285 .027(Constant)x1ttx2ttModel1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.Dependent Variable: ytta. 回归方程为:yt=-178.775+211.11x1t+1.436x2t还原为:yt-0.627y(t-1)= -178.775+211.11*(x1t-0.627x1(t-1) +1.436*(
20、x2t- 0.627x2(t-1)(3)Model Summary(c,d)Model R R Square(a)Adjusted R SquareStd. Error of the Estimate Durbin-Watson1 .715(b) .511 .491 280.98995 2.040a For regression through the origin (the no-intercept model), R Square measures the proportion of the variability in the dependent variable about the o
21、rigin explained by regression. This CANNOT be compared to R Square for models which include an intercept.b Predictors: DIFF(x2,1), DIFF(x1,1)c Dependent Variable: DIFF(y,1)d Linear Regression through the OriginDW=2.040du,所以消除了自相关性, =280.99Coefficientsa,b210.117 43.692 .544 4.809 .0001.397 .577 .274
22、2.421 .019DIFF(x1,1)DIFF(x2,1)Model1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.Dependent Variable: DIFF(y,1)a. Linear Regression through the Originb. 18差分法回归方程为: y ty t-1=210.117(x1t-x1(t-1)1.397(x 2t-x2(t-1).(4)用 SPSS 软件的自回归功能,analyze time seriesautoregression:Iteratio
23、n History.000 191.098 2.045 -574.062 5326177.036 .001.610 210.870 1.443 -489.203 3230345.621 .001.631 211.025 1.435 -487.097 3228075.980a .000012Rho (AR1) x1 x2Regression CoefficientsConstant Adjusted Sumof Squares MarquardtConstantMelards algorithm was used for estimation.The estimation terminated
24、at this iteration, because the sum of squares decreased byless than .001%.a. Residual Diagnostics521483228075532617766599.102258.068-360.788729.575737.380Number of ResidualsNumber of ParametersResidual dfAdjusted Residual Sum ofSquaresResidual Sum of SquaresResidual VarianceModel Std. ErrorLog-Likel
25、ihoodAkaikes InformationCriterion (AIC)Schwarzs BayesianCriterion (BIC)Parameter Estimates.631 .111 5.677 .000211.022 47.720 4.422 .0001.436 .628 2.285 .027-487.145 241.355 -2.018 .049Rho (AR1)x1x2RegressionCoefficientsConstantEstimates Std Error t Approx SigMelards algorithm was used for estimation
26、.=0.631, =258.068, (5)19Autocorrelation Coefficient.632 .112Rho (AR1) Std. ErrorThe Cochrane-Orcutt estimation method is used.Model Fit Summary.689 .474 .441 260.560 1.748R R Square AdjustedR Square Std. Error ofthe Estimate Durbin-WatsonThe Cochrane-Orcutt estimation method is used.Regression Coeff
27、icients211.139 48.152 .522 4.385 .0001.435 .634 .269 2.263 .028-479.341 245.124 -1.956 .056x1x2(Constant)B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst SigThe Cochrane-Orcutt estimation method is used.=0.632, =260.560 , DW1.748。(6)Autocorrelation Coefficient.631 .112Rho (AR1) St
28、d. ErrorThe Prais-Winsten estimation method is used.Model Fit Summary.688 .473 .440 258.066 1.746R R Square AdjustedR Square Std. Error ofthe Estimate Durbin-WatsonThe Prais-Winsten estimation method is used.=0.632, =258.066 , DW1.746。Regression Coefficients211.025 47.710 .521 4.423 .0001.435 .628 .
29、269 2.285 .027-487.100 241.353 -2.018 .049x1x2(Constant)B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst SigThe Prais-Winsten estimation method is used.20(7)综合以上各方法的模型拟合结果如下表所示:自回归方法 0012DW 迭代法 0.6275 -179.0 211.1 1.437 1.716 257.86差分法 0 210.1 1.397 2.040 280.99精确最大似然 0.631 -481.7
30、 211.0 1.436 258.07科克伦-奥克特 0.632 -479.3 211.1 1.435 1.748 260.560普莱斯-温斯登 0.631 -487.1 211.0 1.435 1.746 258.066由上表可看出:DW 值都落在了随机误差项无自相关性的区间上,一阶差分法消除自相关最彻底,但因为 =0.627,并不接近于 1,故得到的方差较大,拟合效果不理想。将几种方法所得到的 值进行比较,就可知迭代法的拟合效果最好,以普莱斯- 温斯登法次之,差分法最差。4.15 答:通常引起异常值的原因和消除异常值的方法有以下几条,见表4.10:异常值原因 异常值消出方法1.数据登记误差
31、,存在抄写或录入错误 重新核实数据2.数据测量误差 重新测量数据3.数据随机误差 删除或重新观测异常值数据4.缺少重要自变量 增加必要自变量5.缺少观测数据 增加观测数据,适当扩大自变量取值范围6.存在异方差 采用加权线性回归7.模型选用错误,线性模型不适用 改用非线性回归模型4.16 解:(1)利用SPSS建立y与x1,x2,x3的三元回归方程,分别计算普通残差,学生化残差,删除残差,删除学生化残差,中心化杠杆值 ,库克距离 ,ichiD21见下表:从表中看到绝对值最大的学生化残差为SRE=2.11556,小于3,但有超过3的个别值,因而根据学生化残差诊断认为存在异常值。绝对值最大的删除学生
32、化残差为3.832,对应为第6个数据,因此判断它为为异常值。第6个数据的中心化杠杆值为0.64,位于第一大,大于2 =2 =0.6,且库克距离为 3.21位于第一大,hc103因而从杠杆值看是第6个数据是自变量的异常值,同时库克距离大于1,故第6个数据为异常值的原因是由自变量异常与因变量异常两个共同原因引起的。编号 y X1 X2 X3 残差 学生化残差删除残差 删除学生化残差iDich12345678910160 260 210 265 240 220 275 160 275 25070 75 65 74 72 68 78 66 70 6535 40 40 42 38 45 42 36 44
33、 421.0 2.4 2.0 3.0 1.2 1.5 4.0 2.0 3.2 3.0-15.47481 12.82499 5.34434 -0.09088 33.22549 -25.19759 -17.55450 -20.00684 8.23435 18.69545-.893530.627670.26517-.004331.75400-2.11566-1.17348-1.162810.409351.06462-28.3515016.880527.22979-0.1135150.88273-97.61523-43.10665-37.1386811.1828733.31486-0.876040.5
34、92770.24349-0.003962.29383 -3.83214 -1.22039-1.206060.379021.079110.166090.031150.006200.000000.408743.216010.501100.289460.015000.221580.354180.140250.160790.099350.240.641870.492770.361290.163660.33883(2) 删除第 6 组数据,然后做回归分析,编号y X1 X2 X3 残差 删除学生化残差学生化残差删除学生化残差 iDich1234578910160260210265240275160275
35、2507075657472786670653540404238.423644421.02.42.03.01.24.02.03.23.0-12.507827.03274-8.01315-7.3673614.09650.0.712582.08767-10.3017614.26060-23.066919.42586-12.01962-9.4559227.957362.623936.13591-17.2660725.77938-1.312470.62911-0.75831-.644931.533930.105660.27655-1.030521.48152-1.449940.58638-0.72098-0.602441.885620.094610.24927-1.038591.769150.363550.033670.071880.029480.578400.007490.037080.179480.443220.346650.142780.222220.109760.384670.617320.548650.292240.33571.由上表可知:删除第六组数据后,发现学生化残差的绝对值和删除化学生残差绝对值均小于 3,库克距离均小于 1,中心化杠杆值的最大值为 0.617322 =hc,说明数据不再有异常值。67.092所以可判断异常值的原因是由于数据登记或实际问题有突变引起的。22