1、1,计量经济学,北京交通大学经济管理学院,2,4 多重共线性,4.1 多重共线性及其产生的原因 4.2 多重共线性造成的影响 4.3 多重共线性的检验 4.4 多重共线性的解决方法 4.5 案例分析,3,要求,1.理解多重共线性的含义。 2.多重共线性的产生原因; 3.理解多重共线性对回归模型的影响; 4.掌握多重共线性的检验方法; 5.掌握多重共线性的处理方法。,4.1 多重共线性及产生的原因,由于数据本身的特征,回归模型中的解释变量之间或多或少存在一些相关性,这种情况违反了解释变量相互独立的假设,我们称之为多重共线性。 多重共线性区分为两类。一类是严重的多重共线性,即解释变量之间存在着较高
2、甚至完全的线性相关关系,此时设计矩阵的列向量存在近似线性相关(称为多重共线性(multi-collinearity),|XX|0。此时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差,严重时估计量可能变得面目全非。但上述情况并不多见。另一类是解释变量之间存在着某种相关关系。在这种情况的多重共线性下,最小二乘估计量仍能估计,且为最优线性无偏估计量,但估计量的方差较大。同时使得估计精度下降,无法判断解释变量对被解释变量的影响程度。,4.1 多重共线性及产生的原因,产生多重共线性的主要原因有以下三个方面: 1、经济变量相关的共同趋势 2、滞后变量的引入 3、样本资料的限制
3、,一般经验对于采用时间序列数据作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性。以截面数据作样本时,问题不那么严重,但多重共线性仍然是存在的。,7,4.2 多重共线性的影响,如果存在完全共线性,则(XX) -1不存在,无法得到参数的估计量。,2、近似共线性下普通最小二乘法参数估计量非有效,在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式为,可见,由于此时|XX|0,引起(XX) -1主对角线元素较大,从而使参数估计值的方差增大,OLS参数估计量非有效。,即:多重共线性使参数估计值的方差增大,方差扩大因子(Variance Inflat
4、ion Factor)为1/(1-r2),其增大趋势见下表:,3、参数估计量经济含义不合理,如果模型中两个解释变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量表征。这时,X1和X2前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。所以各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如本来应该是正的,结果恰是负的。,4、变量的显著性检验失去意义 存在多重共线性时,参数估计值的方差与标准差变大,从而使t统计量变小(临界值增大),从而容易使通过样本计算的t值小于临界值,误导作出参数为0的推断,可能将重要的解释变量排除在模型
5、之外。5、模型的预测功能失效 变大的方差容易使区间预测的“区间”变大,使预测失去意义。,16,4.3 多重共线性的检验,多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围。,17,4.3 多重共线性的检验,(1)检验多重共线性是否存在; (a)对两个解释变量的模型,采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。(b)对多个解释变量的模型,采用综合统计检验法若 在OLS法下,模型的R2与F值较大,但各参数估计值的t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作
6、用不能分辨,故t检验不显著,18,4.3 多重共线性的检验,(2)估计多重共线性的范围。 如果存在多重共线性,需进一步确定究竟由哪些变量引起。判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归计算,并计算相应的拟合优度,也称为判定系数. 等价的检验是对上述回归方程作F检验,19,4.3 多重共线性的检验,(3) 逐步回归法 以 Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释变量。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说
7、明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变量之间存在共线性关系。,20,4.3 多重共线性的检验,对多重共线性的判断方法有多种方法。其一,可计算解释变量之间的相关系数,若相关系数的值都较高,说明存在较严重的多重共线性。其二,可通过考察决定系数和t检验的数值。若某一方程存在较高的决定系数,而各个回归系数的t检验大都在统计上不显著,就可能存在严重的多重共线性问题。其三,使用方差膨胀因子VIF。自变量 的方差膨胀因子记为VIFj。,21,4.4 多重共线性的解决方法,对多重共线性的处理方法可分为两种。 一种是设法找出引起多重共线性的解释变量,将其剔除以消除
8、多重共线性。 另一种方法是通过变量定义形式或参数估计方法的选取来克服。如采用差分法改变原来方法的设定,以减弱多重共线性。 亦可通过样本容量的增加,以减少估计量的方差,提高估计精度,利用已知信息等,均可一定程度克服多重共线性。 当然也可采用有偏回归方法来克服多重共线性,如下面的岭回归方法。,岭回归,岭回归方法主要就是在病态的(XX)中沿主对角线人为地加入正数,从而使p稍大一些。我们知道多元线性回归模型中的最小二乘估计为则的岭估计定义为从式子直觉看出,当k=0时,它就是最小二乘估计;当k+, 。于是就要问k究竟取多大值为好?同时我们也要知道 的统计性质究竟如何。,性质1. 岭估计不再是无偏估计,即
9、,因为无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场合,我们只好牺牲无偏性,以改善估计的稳定性。 性质2. 岭估计是线性函数。可见 不仅是Y的线性函数,而且是原来最小二乘估计 的线性函数。,性质3. Zk的特征根都在(0,1)内。 设有正交阵P与P使,则故知Zk的特征根分别为 ,都在(0,1)内。,性质4. 岭估计是压缩估计,即,这是因为由性质2、性质3,有当然,由于 并不一定互相相等,这种压缩一般不是各方向上的均匀压缩。性质5. 岭估计的均方误差较小,即,岭迹分析与岭参数选择,因为岭估计 是k的函数,所以在二维坐标平面上若以横轴为k,纵轴为 ,它将画出一条曲线
10、。这条曲线我们称之为岭迹。 前已指出,当k0时,岭迹反映了最小二乘估计 的不稳定性。当k+时,岭迹将趋于0。在k从0到+的变化过程中, 的变化可能比较复杂。,岭参数选择 方法和原则,1. 岭迹稳定观察岭迹曲线,原则上应该选取 使稳定的最小k值,同时残差平方和也不增加太多。2. 均方误差小岭估计的均方误差 还是k的函数,可以证明它能在某处取得最小值。计算并观察 ,开始它将下降,到达最小值后开始上升。取它最小处的k作为岭参数。,3. 4. 5.,,,广义岭回归,其中=P称为典则参数,Z=XP称为典则变量,P为正交方阵使P(XX)P=。此时的岭估计为这里主对角线上是统一地加上相同的k。如果灵活一些,
11、使主对角线上可以加上不同的ki, i=1,p, 显然有可能使均方误差进一步下降。而且,原来狭义岭估计是广义岭估计的特例。将这个思想写成式子就是回到原来参数,就是 广义岭回归确实能使估计的均方误差进一步下降,但岭参数的选择更为复杂一些。,线性回归模型的典则形式,30,4.5 案例分析,影响国内旅游市场收入的因素很多,其中主要的因素有国内旅游人数和旅游支出和相关基础设施。为此,本案例选取的影响因素主要有国内旅游人数 (万人/次)、城镇居民人均旅游支出 (元)、农村居民人均旅游支出 (元),并以公路里程 (万千米)和铁路里程 (万千米)作为相关基础设施的代表, 为全国旅游收入(亿元),统计数据如表4-1所示。,31,4.5 案例分析,表4-1 19942009年中国旅游收入及相关数据,32,思考与练习,试述多重共线性的含义及产生的原因。 试述多重共线性的影响。 试述多重共线性的检验方法。 试述多重共线性的处理方法。 试述逐步回归的思想。 试结合某一实际问题进行岭回归分析。,