1、经济计量学的几种检验,王志刚 2003.6,多重共线性,.Multicollinearity arises because we have put in too many variables that measure the same thing. As the degree of multicollinearity increases, the regression model estimates of the coefficients become unstable and the standard errors for the coefficients can get wildly in
2、flated. Measure :vif, tol=1/vif,condition index;etc.,多重共线性的后果,1.存在完全多重共线性时,参数的估计值无法确定,而且估计值的方差变为无穷大. 2.存在不完全多重共线性时,可以估计参数值,但是数值不稳定,而且方差很大. 3.多重共线性会降低预测的精度,甚至失效,增大零假设接受的可能性(t值变小).,多重共线性的检测方法 (1)样本可决系数法,如果样本的可决系数R-square 比较大,且回归系数几乎没有统计上的显著性,则可认为存在多重共线性。 Theil 提出了一个指标:多重共线性效应系数,Theil test results,Sas
3、结果:结果表明有多重共线性。,多重共线性检测方法 (2)辅助回归检验法,若存在多重共线性,则至少有一个解释变量可精确或近似地表示为其余皆是变量的线性组合。 相应的检验统计量为:,辅助回归检验结果,Sas 结果:Klein经验法则:若存在一个i,使得 R(i)-squareR-square,则认为多重共线性严重;本例中x1,x3有多重共线性。,多重共线性检验方法 (3)样本相关系数检验法,FG test results,fg=20.488013401 p=0.0001344625; 拒绝零假设,认为存在多重共线性。 具体那些变量之间存在多重共线性,除了上面提到的辅助回归的方法外,还有以下提到的条
4、件数检验和方差膨胀因子法。,多重共线性检验方法: (4)特征值分析法所用的检验统计指标,; 为第k各自变量和其余自变量回归的可决系数. VIF10,有多重共线性;TOL=1/VIF; 条件指数: 条件数: ;C20,共线性严重.,多重共线性的检验和补救,例一:进口总额和三个自变量之间回归; Sas 结果如下:Pearson Correlation Coefficients, N = 11 Prob |r| under H0: Rho=0x1 x2 x3 x1 1.00000 0.02585 0.99726 GDP 0.9399 .0001 x2 0.02585 1.00000 0.03567
5、存蓄量 0.9399 0.9171 x3 0.99726 0.03567 1.00000 总消费 .0001 0.9171 从上面可以看出x1和x3线性相关严重.,多重共线性的检验和补救,(2)回归结果: Parameter EstimatesParameter Standard Variance Variable DF Estimate Error t Value Pr |t| Inflation Intercept 1 -10.12799 1.21216 -8.36 .0001 0 x1 1 -0.05140 0.07028 -0.73 0.4883 185.99747 x2 1 0.58
6、695 0.09462 6.20 0.0004 1.01891 x3 1 0.28685 0.10221 2.81 0.0263 186.11002 发现x1的系数为负,和现实经济意义不符,出现原因就是x1 和x3之间的线性相关.,补救措施,增加样本;岭回归或主分量回归; 至少去掉一个具有多重共线性的变量;对具有多重共线性的变量进行变换. 对所有变量做滞后差分变换(一般是一阶差分),问题是损失观测值,可能有自相关. 采用人均形式的变量(例如在生产函数估计中) 在缺乏有效信息时,对系数关系进行限制,变为有约束回归(Klein,Goldberger,1955),可以降低样本方差和估计系数的标准差,
7、但不一定是无偏的(除非这种限制是正确的). 对具有多重共线性的变量,设法找出其因果关系,并建立模型和原方程构成联立方程组.,岭回归,岭回归估计: K=0, b(k)=b即为OLSE; K的选取: 即使b(k)的均方误差比b的均方误差小.,岭迹图,岭回归结果,Obs _MODEL_ _TYPE_ _DEPVAR_ _RIDGE_k _PCOMIT_ _RMSE_ Intercept x1 x2 x3 y1 MODEL1 PARMS y 0.48887 -10.1280 -0.051 0.58695 0.287 -12 MODEL1 RIDGEVIF y 0.00 方差膨胀因子 185.997 1
8、.01891 186.110 1 3 MODEL1 RIDGE y 0.00 0.48887 -10.1280 -0.051 0.58695 0.287 1 4 MODEL1 RIDGEVIF y 0.01 8.599 0.98192 8.604 -15 MODEL1 RIDGE y 0.01 0.55323 -9.1805 0.046 0.59886 0.144 1 6 MODEL1 RIDGEVIF y 0.02 2.858 0.96219 2.859 -17 MODEL1 RIDGE y 0.02 0.57016 -8.9277 0.057 0.59542 0.127 -18 MODEL
9、1 RIDGEVIF y 0.03 1.502 0.94345 1.502 -19 MODEL1 RIDGE y 0.03 0.57959 -8.7337 0.061 0.59080 0.120 -110 MODEL1 RIDGEVIF y 0.04 0.979 0.92532 0.979 -111 MODEL1 RIDGE y 0.04 0.58745 -8.5583 0.064 0.58591 0.116 -1,主分量回归,主分量回归是将具有多重相关的变量集综合得出少数几个互不相关的主分量. 两步:(1)找出自变量集的主分量,建立y与互不相关的前几个主分量的回归式.(2)将回归式还原为原自
10、变量结果. 详见,方开泰;,主分量回归结果,Obs _MODEL_ _TYPE_ _DEPVAR_ _PCOMIT_ _RMSE_ Intercept x1 x2 x3 y1 MODEL1 PARMS y 0.48887 -10.1280 -0.05140 0.58695 0.28685 12 MODEL1 IPCVIF y 1 0.25083 1.00085 0.25038 13 MODEL1 IPC y 1 0.55001 -9.1301 0.07278 0.60922 0.10626 1 4 MODEL1 IPCVIF y 2 0.24956 0.00095 0.24971 -1 5 M
11、ODEL1 IPC y 2 1.05206 -7.7458 0.07381 0.08269 0.10735 -1,主分量回归结果,由输出结果看到在删去第三个主分量(pcomit=1)后的主分量回归方程: Y=-9.1301+0.07278x1+0.60922x2+0.10626x3; 该方程的系数都有意义,且回归系数的方差膨胀因子均小于1.1;主分量回归方程的均方根误差(_RMSE=0.55) 比普通OLS方程的均方根误差(_RMSE=0.48887) 有所增大但不多。,Sas 程序,data ex01; input x1 x2 x3 y; label x1=“国内生产总值“; label x
12、2=“存储量“; label x3=“消费量“; label y=“进口总额“; cards; 149.3 4.2 108.1 15.9 161.2 4.1 114.8 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4 202.1 2.1 146 22.7 212.4 5.6 154.1 26.5 226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6 239.0 0.7 167.6 26.3 ; run;,proc corr data=e
13、x01; var x1-x3; run; *岭回归*; proc reg data=ex01 outest=ex012 graphics outvif; model y=x1-x3/ridge=0.0 to 0.1 by 0.01; plot/ridgeplot; run; proc print data=ex012;run; *主分量回归法*; proc reg data=ex01 outest=ex103; model y=x1-x3/pcomit=1,2 outvif;*pcomit表示删去最后面的1或2个主分量,用前面m-1或 m-2各主分量进行回归*; run; proc print
14、 data=ex103;run;,Sas 程序,/*theil test*/; proc reg data=ex01; equation3:model y=x1 x2; equation2:model y=x1 x3; equation1:model y=x2 x3; run;/*r-.9473;r3s=0.9828*/; data theil; rsq=0.9919;r1s=0.9913;r2s=0.9473;r3s=0.9828; theil=rsq-(3*rsq-(r1s+r2s+r3s);put theil=; run; /*辅助回归检验法*/; proc reg data=ex01;
15、 equation3:model x3=x1 x2; equation2:model x2=x1 x3; equation1:model x1=x2 x3; run;,/*FG test*/; proc corr data=ex01 outp=corr nosimple;var x1-x3;run; proc print data=corr;run; title “ 计算相关矩阵的行列式“; proc iml; R=1.000 0.026 0.997,0.026 1 0.036,0.9152 0.6306 1; d=det(R); print d; run;/*d=0.081371*/; ti
16、tle “计算检验统计量及其p值“; data fg; n=11;p=3;d=0.081371; fg=-(n-1-1/6*(2*p+5)*log(d);df=p(p-1)/2; p=1-probchi(fg,df); put fg= p=; run;/*fg=20.488013401 p=0.0001344625,拒绝零假设*/;,异方差的检验和补救,OLSE unbiased,inefficient;t, F test invalid; forecast accuracy decreased. If the model is well-fitted, there should be no
17、pattern to the residuals plotted against the fitted values. If the variance of the residuals is non-constant, then the residual variance is said to be “heteroscedastic.“,异方差的检测,There are graphical and non-graphical methods for detecting heteroscedasticity. A commonly used graphical method is to plot
18、 the residuals versus fitted (predicted) values. Example :grade:educated years;potexp:working years;exp2=potexp2;union:dummy variable.,收入方程回归的结果,Dependent Variable: LNWAGE Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 4 12.42236 3.10559 14.06 |t|Intercept 1 0.59511 0.2834
19、9 2.10 0.0384GRADE 1 0.08354 0.02009 4.16 .0001POTEXP 1 0.05027 0.01414 3.56 0.0006EXP2 1 -0.00056172 0.00028785 -1.95 0.0540UNION 1 0.16593 0.12445 1.33 0.1856,图示法检测,利用残差平和对因变量的预测值做散点图 如右图所示:残差变化不大,因此认为没有异方差存在.,怀特检验,Sas程序结果: Analysis of VariancSum of MeanSource DF Squares Square F Value Pr FModel 1
20、2 1.18881 0.09907 0.88 0.5731Error 87 9.83078 0.11300 Corrected Total 99 11.01958Root MSE 0.33615 R-Square 0.1079Dependent Mean 0.20989 Adj R-Sq -0.0152Coeff Var 160.15281Parameter StandardVariable DF Estimate Error t Value Pr |t|Intercept 1 -0.07767 0.98580 -0.08 0.9374GRADE 1 -0.01220 0.12502 -0.1
21、0 0.9225POTEXP 1 0.07784 0.07188 1.08 0.2819EXP2 1 -0.00399 0.00409 -0.97 0.3325UNION 1 0.64879 0.86160 0.75 0.4535grade2 1 0.00220 0.00425 0.52 0.6065exp4 1 -3.34378E-7 0.00000151 -0.22 0.8256exp3 1 0.00006170 0.00014192 0.43 0.6648gx2 1 0.00011683 0.00011102 1.05 0.2955gp 1 -0.00375 0.00494 -0.76
22、0.4498gu 1 -0.05137 0.04430 -1.16 0.2494pu 1 0.00193 0.06061 0.03 0.9746eu 1 -0.00022185 0.00126 -0.18 0.8605,残差项平方对所有一阶,二阶及交叉项回归. 1.由左边的结果可知:故同方差的假设未被拒绝. 2.Proc reg data=aa; Model y=x/spec; Run; 可得到相同的结果。,布罗施-帕甘/戈弗雷检验 怀特检验的特例,(1)OLS残差额et和一个估计的干扰误差 (2)用OLS将 对选中的解释变量进行回归,并计算解释平方和(ESS); (3)在零假设下,有 (4)
23、一个更简单且渐进等价的做法是直接利用残差平方对选中的解释变量进行回归.在零假设(同方差)下,Dependent Variable: rsqSum of Mean Source DF Squares Square F Value PrF Model 12 1.18881 0.09907 0.88 0.5731 Error 87 9.83078 0.11300 Corrected Total 99 11.01958 Root MSE 0.33615 R-Square 0.1079 Dependent Mean 0.20989 Adj R-Sq -0.0152,BPG test results(1)
24、,BPG test results(2),Dependent Variable: rsqadjust Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr F Model 3 10.70415 3.56805 1.43 0.2386 Error 96 239.41116 2.49387Corrected Total 99 250.11531Root MSE 1.57920 R-Square 0.0428Dependent Mean 0.99997 Adj R-Sq 0.0129 Coeff Var 157.9244
25、3 ESS=10.70415,BPG test results(3),*ESS=5.35 F Model 3 0.47160 0.15720 1.43 0.2386 Error 96 10.54798 0.10987 Root MSE 0.33147 R-Square 0.0428,戈德菲尔德-匡特(Goldfeld-Quandt)检验,按potexp的值将数据从小到大进行排列. 取前后个35个观测值分别回归.c=30; 回归的主要结果: RSS1=6.39573;RSS2=7.2517;RSS2/RSS1=1.13; 而 ;该比值不显著,不能拒绝同方差的原假设; 去掉的中间观测值的个数要适中,否则会降低功效,一般取观测值个数的1/3.,补救措施-已知方差的形式,1.广义最小二乘法(GLS); 请参考讲义中的例子; 2.模型变换法,适用于函数型异方差;已知方差的函数形式; 3.加权最小二乘法(WLS);实质上是一种模型变换法;具体参见讲义中的例子;采用面板数据,增加信息量.,未知方差的形式,Furnival(1961)提出了一种拟合指数进行不断的修正,最后找出最佳的权重(使得该指数值最小).,