1、4.3 多重共线性,Multi-Collinearity,一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例 *七、分部回归与多重共线性,4.3 多重共线性,一、多重共线性的概念,对于模型Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。,如果存在c1X1i+c2X2i+ckXki=0 i=1,2,n 其中: ci不全为0,则称为解释变量间存在完全共线性(perfec
2、t multicollinearity)。,如果存在c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0,vi为随机误差项,则称为 近似共线性(approximate multicollinearity)或交互相关(intercorrelated)。,注意多重共线性不是指因变量与解释变量之间存在线性关系。,在矩阵表示的线性回归模型 Y=X+ 中,完全共线性指:秩(X)k+1,即,中,至少有一列向量可由其他列向量(不包括第一列)线性表出。,如:X2= X1,则X2对Y的作用可由X1代替。,完全多重共线性的情况不多,一般出现不同程度的多重共线性。 多重共线性:XX0,(X
3、X)-1存在,但(XX)-1主对角线上的元素很大。,注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。,二、实际经济问题中的多重共线性,一般地,产生多重共线性的主要原因有以下三个方面:(1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,如粮食产量Y=0+1X1+2X2+3X3+4X4+u 其中Y为粮食产量,X1为肥料,X2为种植面积,X3为劳动力,X4为水利浇灌。种植面积越多则投入的肥料
4、和劳动力就越多,故肥料、种植面积和劳动力三者之间存在相关关系。又如:Y=0+1P+2Q+3I+u 其中Y为某种商品需求量,P为商品价格、Q为商品质量、I为居民收入。一般地质量较高的商品其价格也高,故P和Q存在线性关系。一般地时间序列往往导致多重共线性。 但单独用截面数据,或用时间序列和截面数据相结合可减少多重共线性的发生。,(2)滞后变量的引入,在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入, 前期收入)显然,两期收入间有较强的线性相关性。,例如,投资模型It=1+2rt+3Yt+4Yt-1+tIt=投资,rt=利率,Yt=当期GDP,Yt-1=上期G
5、DP,,(3)样本资料的限制,由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。一般经验:时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据样本:问题不那么严重,但多重共线性仍然是存在的。,二、多重共线性的后果,1、完全共线性下参数估计量不存在,如果存在完全共线性,则(XX)-1不存在,无法得到参数的估计量。,的OLS估计量为:,例:对离差形式的二元回归模型,如果两个解释变量完全相关,如x2= x1,则,这时,只能确定综合参数1+2的估计值:,2、近似共线性下OLS估计量非有效,近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为,由于
6、|XX|0,引起(XX) -1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。,仍以二元线性模型 y=1x1+2x2+ 为例:,恰为X1与X2的线性相关系数的平方r2,由于 r2 1,故 1/(1- r2 )1,多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF),当完全不共线时, r2 =0,当近似共线时, 0 r2 1,当完全共线时, r2=1,,3、参数估计量经济含义不合理,如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结
7、构关系,而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。,4、变量的显著性检验失去意义,存在多重共线性时,参数估计值的方差与标准差变大,容易使通过样本计算的t值小于临界值,误导作出参数为0的推断,可能将重要的解释变量排除在模型之外,5、模型的预测功能失效,变大的方差容易使区间预测的“区间”变大,使预测失去意义。,注意:,除非是完全共线性,多重共线性并不意味着任何基本假设的违背;因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。问题在于,即使OLS法仍是最好的估计方法,它却不是“完美
8、的”,尤其是在统计推断上无法给出真正有用的信息。,多重共线性检验的任务是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。,多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等。,三、多重共线性的检验,1、检验多重共线性是否存在,(1)对两个解释变量的模型,采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。,(2)对多个解释变量的模型,采用综合统计检验法,若 在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显
9、著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。,缺点:此法无法分辩出共线性由哪些解释变量引起,在此基础上须进行下面进一步检验:,2、判明存在多重共线性的范围,如果存在多重共线性,需进一步确定究竟由哪些变量引起。(1) 判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。如果某一种回归Xji=1X1i+2X2i+LXLi 的判定系数较大,说明Xj与其他X间存在共线性。,具体可进一步对上述回归方程作F检验:,式中:Rj2为第j个解释变量对其他解释变量的回归方程的决定系数,若存在较强的共线性,则Rj2较大且接近于1,这时(1
10、- Rj2 )较小,从而Fj的值较大。因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。,构造如下F统计量,),1,(,),/(,),1,(,),1,/(,2,.,2,.,-,-,-,-,-,=,k,n,k,F,k,n,R,k,R,F,j,j,j,在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。,另一等价的检验是:,(2)逐步回归法,以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如
11、果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。,找出引起多重共线性的解释变量,将它排除出去。以逐步回归法得到最广泛的应用。注意:这时,剩余解释变量参数的经济含义和数值都发生了变化。,如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。,四、克服多重共线性的方法,1、第一类方法:排除引起共线性的变量,2、第二类方法:差分法,时间序列数据、线性模型:将原模型变换为差分模型:Yi=1 X1i+2 X2i+k Xki+ i 可以有效地消除原模型中的多重共线性。,一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。,例 如:,由表中的比值可以直
12、观地看到,增量的线性关系弱于总量之间的线性关系。,进一步分析:CONS与GDP之间的相关系数为0.9989, CONS与GDP之间的相关系数为0.9451 如果作 CONS关于GDP的线性回归,可决系数为0.9978;作 CONS关于 GDP的线性回归,可决系数为0.8932,3、第三类方法:减小参数估计量的方差,多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。例如:增加样本容量,可使参数估计量的方差减小。,*岭回归法(Ridge Regression),70年代发展的岭回归法,以引入偏误为代
13、价减小参数估计量的方差,受到人们的重视。具体方法是:引入矩阵D,使参数估计量为,其中矩阵D一般选择为主对角阵,即D=aI a为大于0的常数。,(*),显然,与未含D的参数B的估计量相比,(*)式的估计量有较小的方差。,五、案例中国粮食生产函数 (自学),步骤 以粮食产量作为被解释变量,以影响粮食产量的主要因素农业化肥施用量、粮食播种面积、成灾面积、农业机械总动力、农业劳动力为解释变量,建立中国粮食生产函数模型; 用OLS法估计模型; 检验简单相关系数; 找出最简单的回归形式; 采用逐步回归方法得到最终模型。,案例中国粮食生产函数,根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用
14、量(X1);粮食播种面积(X2)成灾面积(X3); 农业机械总动力(X4);农业劳动力(X5),已知中国粮食生产的相关数据,建立中国粮食生产函数:lnY=0+1 lnX1 +2 lnX2 +3 lnX3 +4 ln X4 +5ln X5 + 经验方法:可以通过每个解释变量与Y之间的散点图来判断是否为直线关系,然后假定合一起也是直线关系,最后由估计出来的结果再整体检验所有解释变量是否与Y线相关。 数据见P141, d3p141.dta。,R2接近于1; 给定=5%,得F临界值 F0.05(5,12)=3.11 F=208.2862 3.11,(或F统计量的P值接近0 ) 故认上述粮食生产的总体线
15、性关系显著成立。但X4 、X5 的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。,Stata命令方式:,pwcorr lnx1 lnx2 lnx3 lnx4 lnx5,star(0.05),2、检验简单相关系数,列出lnX1,lnX2,lnX3,lnX4,lnX5的相关系数矩阵:,发现: lnX1与lnX4间存在高度相关性。,但如果有三个以上的解释变量,则不能用求两两相关系数来判断它们是否存在共线性。这是因为它们若存在共线性,并不能由相关系数看出,即尽管共线性程度很高,但它们的相关系数绝对值未必大。,此法与判定系数法原理一样。 将某个解释变量Xj与其余的解释变量进行回归:,V
16、IF检验的经验准则:(1) VIF 的均值 2(2) VIF 的最大值 10 满足上述2个条件之一就表明存在多重共线性,实例(P141):中国粮食生产函数,数据见P141, d3p141.dta。 命令方式: reg lny lnx1 lnx2 lnx3 lnx4 lnx5estat vif,VIF检验的经验准则:(1) VIF 的均值 2(2) VIF 的最大值 10 满足上述2个条件之一就表明存在多重共线性。 表明lnx1 ,lnx4与其它解释变量存在多重共线性。,单独计算lnx1的VIF: qui reg lnx1 lnx2 lnx3 lnx4 lnx5 dis 1/(1-e(r2) l
17、nx1的VIF值和上面结果一样的,3、秩条件的检验方式。 原理:如果解释变量样本所构成矩阵 X 是满秩的,则其秩rank(X) = k,则XX 是满秩的,则不存在多重共线性问题。 如果XX 非满秩的,则INV(XX)的秩较大,则存在多重共线性。 计算过程:对XX 进行分解后得到矩阵的条件指数( CN(XX)=cond Index),此条件指数值为矩阵XX的最大特征根和最小特征根之比的平方根。stata有两种方式( coldiag2和collin)可以实现此检验。如果CN(XX)=cond Index20 共线性问题比较严重 。 例如:coldiag2 lnx1 lnx2 lnx3 lnx4 l
18、nx5collin lnx1 lnx2 lnx3 lnx4 lnx5 两种方式的结果如下:,方法一: coldiag2 这里cond Index=2165.3217,即 CN(XX) =Collin 20,表明存在严重的多重共线性。,方法二: collin 此法还给出了每个解释变量的VIF值和每一个解释变量对其它解释变量回归时的R2, 这里cond Index=2165.3217,同时还给出了XX的行列式的值del(correlation matrix)=0.0085,如果矩阵(XX)非满秩,应行列式接近于0。这两种方法是一个整体判断方法。,4、图形法,graph matrix lny lnx
19、1 lnx2 lnx3 lnx4 lnx5,half 。 可以看出化肥施用量x1与农业机械总动力x4存在较强的线性相关,农业机械总动力与粮食种植面积x2也存在近似相关性.,一般来说,模型的多重共线性程度多少都会有一些,如果是轻微的则不必处理;如果是严重,导致参数的符号及大小不符合经济理论时才进行处理。 1、逐步回归法 2、差分法(包括高阶的广义差分) 3、改用相对变量的形式,逐步回归法分为逐个剔除法与逐个引入法 逐步指的是在使用回归分析方法建立模型时,一次只能剔除(减少)一个解释变量或者一次只能引入(增加)一个解释变量。进行一次剔除或引入称为“一步”,这样逐步的进行下去,直到最后得到模型达到最
20、优。 下面详细说明:,剔除解释变量后不会使模型的拟合优度R2(及F)显著地减少,并且没有改变模型中的其它自变量的原来t 统计量性质(即原来显著的仍然显著,未显著的仍未显著) ,则应当剔除该变量;否则不剔除。如果剔除一个解释变量,使模型拟合优度R2(及F)显著地减少,那么这个剔除是不应当的。说明该被剔除变量与留在模型中的解释变量不构成多重共线性。它对被解释变量Y的贡献不能由已在模型中的解释变量代替(线性表出)。具体做法: 先将一切可能的解释变量全部引入模型,再依据各个解释变量的显著性和经济意义,每次从模型中剔除一个不显著的解释变量,即从不显著的解释变量中,剔除t 最小(或对应的概率Prob最大)
21、和从经济意义上看最不重要的解释变量,再根据上面所讲的剔除的准则进行判断是否能剔除该解释变量。直至留在模型中的全部解释变量显著,得到最简洁的模型。,引入解释变量后使模型的拟合优度R2(及F)显著增加的,并且没有改变模型中的自变量的原来t 统计量(原来显著的仍然显著,未显著的仍未显著),则应当引入,否则不引入。如果引入解释变量,使模型拟合优度不显著地增加,那么这个引入是不应当的,说明它与已在模型中的解释变量构成多重共线性,它可由这些解释变量线性表出。也就是说,它对被解释变量的贡献已由这些共线变量代替。所以,引入它并不能提高拟合优度。具体做法:首先根据经济理论引入一个最重要的解释变量,然后根据上面的
22、引入准则进行引入其它解释变量。,逐步回归法在stata中有两种处理方式:逐个剔除和逐个加入。1. 逐个剔除(Backward selection),用pr()。 例如:stepwise, pr(0.05):reg lny lnx1 lnx2 lnx3 lnx4 lnx5 如果想保留一些重要的变量,则可以人工计算方式进行筛选,或者用逐个分层剔除。逐个分层剔除(Backward hierarchical selection),多加一个:hier。 例如: stepwise, pr(0.05) hier: reg lny lnx1 lnx5 lnx2 lnx3 lnx42. 逐个引入(Forward
23、 selection),用pe(),此法少用,因为不好掌握先引入哪些变量。例如:stepwise, pe(0.05):reg lny lnx1 lnx2 lnx3 lnx5看stata操作过程: 方法1:逐步回归法(第4,5章.do),差分能消除多重共线性的机理差分减弱了比例关系。 一般说来,增量间的线性关系弱于总量间的线性关系(详见下页)。所以,对于时间序列数据,通常将直接的线性模型转换为差分形式进行估计。此法可同时消除多重共线性与序列相关,是一种较好方法。方法一(一阶差分):,方法二:广义差分,例如对于一元线性模型其广义差分模型为:Yi-Yi-1=a0+a1(Xi-Xi-1)+i,中国实际
24、可支配收入X与居民实际消费支出Y的数据(P56)。可以算出明显看出差分后序列(D.y和D.x)相关性减弱。,、采用相对数变量: 通过采用相对数变量、人均指标、加权平均或作变换等方法把具有共线性的解释变量合并为一个新的解释变量。 但要注意新的解释变量应有明确的经济意义。 例: 猪肉消费额Q:Q=1+2Y+3P0+4P1+居民收入Y,猪肉平均价P0,替代品价格P1。改用:Q=1+2Y+3(P0/P1)+猪肉的价格除以替代品的价格P0/P1。或如果Q为猪肉的消费支出则可用Q/食品类价格指数、Y/消费物价指数、P0/食品类价格指数、P1/食品类价格指数来分别代替Q、Y、P0、P1。或采用人均指标。,、
25、采用增量型(或增长率)变量,例:Ct=1+2Yt+3Yt-1+t 改用:Ct=1+2Yt+3(Yt)+t Yt = Yt-Yt-1 或改用增长率模型:,作业: 多重共线性作业数据文件:中国民航客运量相关数据.dta, 变量说明: y :民航客运量(万人),x1:国民收入(亿元)。 x2:消费总额(亿元)。X3:铁路客运量(万人)。 X4:民航航线里程(万公里)。 X5:来华旅游入境人数(万人)。 year :年份。 要求: 1、用VIF法、秩条件方法和图形法检验是否存在多重共线性。并写出理由(包括写出关键的检验指标值)。 2、用逐步回归法求出合理的模型。 数据如下:,list+-+| x1 x
26、2 x3 x4 x5 y year |-|1. | 3688 2531 92204 19.53 570.25 343 1980 |2. | 3941 2799 95300 21.82 776.71 401 1981 |3. | 4258 3054 99922 23.27 792.43 445 1982 |4. | 4736 3358 106044 22.91 947.7 391 1983 |5. | 5652 3905 110353 26.02 1285.22 554 1984 |-|6. | 7020 4879 112110 27.72 1783.3 744 1985 |7. | 7859
27、5552 108579 32.43 2281.95 997 1986 |8. | 9313 6383 112429 38.91 2690.23 1310 1987 |9. | 11738 8038 122645 37.38 3169.48 1442 1988 |10. | 13176 9005 113807 47.19 2450.14 1283 1989 |-|11. | 14384 9663 95712 50.68 2746.2 1660 1990 |12. | 16557 10969 95081 55.91 3335.65 2178 1991 |13. | 20223 12985 9969
28、3 83.66 3311.5 2886 1992 |14. | 24882 15949 105458 96.08 4152.7 3383 1993 |+-+,*七、分部回归与多重共线性,1、分部回归法(Partitioned Regression),对于模型,在满足解释变量与随机误差项不相关的情况下,可以写出关于参数估计量的方程组:,将解释变量分为两部分,对应的参数也分为两部分:,如果存在,则有,同样有,这就是仅以X2作为解释变量时的参数估计量。,这就是仅以X1作为解释变量时的参数估计量,2、由分部回归法导出,如果一个多元线性模型的解释变量之间完全正交,可以将该多元模型分为多个一元模型、二元模型、进行估计,参数估计结果不变;实际模型由于存在或轻或重的共线性,如果将它们分为多个一元模型、二元模型、进行估计,参数估计结果将发生变化;,严格地说,实际模型由于总存在一定程度的共线性,所以每个参数估计量并不 真正反映对应变量与被解释变量之间的结构关系。,当模型存在共线性,将某个共线性变量去掉,剩余变量的参数估计结果将发生变化,而且经济含义有发生变化;,