1、第七章 多重共线性及其处理本章主要介绍计量经济模型的计量经济检验。即多重共线性问题。多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。模型的多个解释变量间出现完全共线性时,模型的参数无法估计。更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得 t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。第一节 多重共线性及其产生的原因当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。举例说明。一、多重共线性的基本概念多
2、重共线性( )一词由弗里希( )于 1934 年在其撰写的借助于MulticonearityFrish完全回归系统的统计合流分析中首次提出。它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。如果在经典回归模型 中,经典假定(5)遭到破坏,则有 ,此YX ()1RXk时称解释变量 间存在完全多重共线性。解释变量的完全多重共线性,也k,21就是解释变量之间存在严格的线性关系,即数据矩阵 的列向量线性相关。因此,必有一X个列向量可由其余列向量线性表示。同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。二、
3、多重共线性产生的原因多元线性回归模型产生多重共线性的原因很多,主要有:(1)经济变量的内在联系这是产生多重共线性的根本原因。(2)解释变量中含有滞后变量(3)经济变量变化趋势的“共向性”必须指出,多重共线性基本上是一种样本现象。因为人们在设定模型时,总是尽量避免将理论上具有严格线性关系的变量作为解释变量收集在一起,因此,实际问题中的多重共线性并不是解释变量之间存在理论上或实际上的线性关系造成的,而是由所收集的数据(解释变量观察值)之间存在近似的线性关系所致。第二节 多重共线性的影响多重共线性会产生以下问题:1、 增大了 OLS 估计量的方差方差膨胀因子即:21VIFrVIF 表明,OLS 估计
4、量的方差随着多重共线性的出现而“膨胀”起来。当 高度21,X相关,即 趋于 1 时,方差膨胀因子 VIF 趋于无穷大,即随着多重共线性程度的增2r强,OLS 估计量的方差也将成倍增长,直至变到无穷大。2、难以区分每个解释变量的单独影响3、回归模型缺乏稳定性4、 检验的可靠性降低t第三节 多重共线性的判别在应用多元回归模型中,人们总结了许多检验多重共线性的方法。一、系数判定法(1)如果决定系数 很大(一般大于 0.8) ,但模型中全部或部分参数却不显著,那2R么,此时解释变量之间往往存在多重共线性。(2)从经济理论知某些解释变量对因变量有重要影响,或经检验变量之间线性关系显著,但其参数的 检验均
5、不显著,一般就应怀疑是多重共线性所致。t(3)如果对模型增添一个新的解释变量之后,发现模型中原有参数估计值的方差明显增大,则表明在解释变量之间(包括新添解释变量在内)可能存在多重共线性。二、解释变量之间所构成的回归方程的决定系数 进行判别2R三、逐步回归判别法以 为被解释变量逐个引入解释变量,构成回归模型,进行参数估计,根据决定系数Y的变化决定新引入的变量是否能够加入模型之中。首先将 对所有的解释变量分别作回归,Y得到所有的模型,取决定系数最大的模型中的解释变量加入模型,作为第一个引入模型的变量;其次,将 再对剩余的解释变量分别加入模型,进行二元回归,再次,取决定系数最大的解释变量加入模型;依
6、次做下去,直到模型的决定系数不再改善为止。四、方差膨胀因子 VIF 判别法对于多元线性回归模型, 的方差可以表示成iVIFXrXVar iiiii i .11. 222一般当 VIF10 时(此时 0.9),认为模型存在较严重的多重共2i线性。五、修正的 Frish 判别法该方法不仅可以对多重共线性进行判别,同时也是处理多重共线性问题的一种有效方法。其步骤为:(1)用被解释变量分别对每个解释变量进行线性回归,根据经济理论和统计检验从中选择一个最合适的回归模型作为基本回归模型,通常选取决定系数 最大的回归模型。2R(2)在基本回归模型中逐个增加其他解释变量,重新进行线性回归,如果新增加的这个解释
7、变量提高了回归模型的决定系数 ,并且回归模型中的其他参数统计上仍然显著,2R就在模型中保留该解释变量;如果新增加的解释变量没有显著提高回归模型的拟合优度,则不在模型中保留该解释变量;如果新增加的解释变量提高了回归模型的决定系数,并且回归模型中某些参数的数值或符号等受到显著的影响,说明模型中存在多重共线性,对该解释变量同与之相关的其他解释变量进行比较,在模型中保留对被解释变量影响较大的,剔除影响较小的。第四节 多重共线性的解决方法设定计量经济模型的时候,为了全面反映各方面因素的影响,总是在理论和实践认识的基础上,尽量选取被解释变量的所有影响因素。这样在同时考虑多个影响因素的情况下,很可能产生多重
8、共线性问题。因此,为了解决这一矛盾,剔除变量时应该全面、慎重考虑,根据解释变量的特点采用较为合适的方式。一、剔除引起共线性的变量根据经济理论和实际经验设定计量经济模型时,容易考虑过多的解释变量,其中,有些可能是无显著影响的次要变量,还有一些变量的影响可以用模型中的其他变量来代替。所以在估计模型之前,找出引起多重共线性的变量,将它剔除出去,是最有效的克服多重共线性问题的方法。二、变换模型的形式对原模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。具体有三种变换方式:一是变换模型的函数形式;二是变换模型的变量形式;三是改变变量的统计指标。三、综合使用时序数据与横截面数据如果能同时
9、获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。四、逐步回归分析法建立计量经济模型的时候,一般是将解释变量全部引入模型,然后再根据统计检验和定性分析从中逐个剔除次要的或产生多重共线性的变量,选择变量是一个“由多到少”的过程。而逐步回归选取变量时,是一个“由少到多”的过程,即从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量;逐步引入剔除引入,直到模型之外所有变量均不显著时为止。许多统计分析软件都有逐步回归程序,但根据计算
10、机软件自动挑选的模型往往统计检验合理,经济意义并不理想。因此,实际应用中一般是依据逐步回归的原理,结合主观分析来筛选变量。五、增加样本容量由于多重共线性是一个样本特性,如果理论上解释变量之间不存在多重共线性,则可以通过收集更多的观测值增加样本容量,来避免或减弱多重共线性。如将时间序列和截面数据合并成平行数据。但当解释变量的总体存在多重共线性时,理论上说增加再多的样本容量也不能降低解释变量之间的线性关系。六、不作任何处理当模型出现下列情况时,对多重共线性可不做处理。(1)当所有参数估计量皆显著或者 值皆大于 2 时,对多重共线性可不做处理。t(2)当被解释变量对所有解释变量回归的决定系数 值大于任何一个解释变量对其R余解释变量回归的决定系数 值时,对多重共线性可不做处理。2iR(3)如果多重共线性并不严重影响参数估计值,以至我们感到不需要改进它时,多重共线性可不做处理。(4)如果样本回归方程仅用于预测的目的,那么只要存在于给定样本中的共线性现象在预测期保持不变,多重共线性就不会影响预测结果,因此多重共线性可不做处理。