收藏 分享(赏)

4.3多重共线性.ppt

上传人:gsy285395 文档编号:4875397 上传时间:2019-01-18 格式:PPT 页数:44 大小:586.50KB
下载 相关 举报
4.3多重共线性.ppt_第1页
第1页 / 共44页
4.3多重共线性.ppt_第2页
第2页 / 共44页
4.3多重共线性.ppt_第3页
第3页 / 共44页
4.3多重共线性.ppt_第4页
第4页 / 共44页
4.3多重共线性.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

1、4.3 多重共线性,Multi-Collinearity,一、多重共线性的概念二、实际经济问题中的多重共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的方法六、案例,4.3,多重共线性,在讨论了回归模型随机干扰项违背同方,差和相互独立性假设时的检验方法和修正法后,在本节和下节将讨论模型的解释变量违背基本假设的问题。,一、多重共线性的概念,对于模型Yi=0+1X1i+2X2i+kXki+i,i=1,2,n,(4.3.1),其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。,如果存在,c1X1i+

2、c2X2i+ckXki=0,i=1,2,n,(4.3.2),其中: ci不全为0,即某一个解释变量可以用其他解释变,量的线性组合表示则称为解释变量间存在完全共线性,(perfect multicollinearity)。,如果存在,c1X1i+c2X2i+ckXki+vi=0,i=1,2,n (4.3.3),其中ci 不全为0,vi 为随机误差项,则称为 近似共线性,( approximate,multicollinearity ) 或 交 互 相 关,(intercorrelated)。,X = , 1,X k1 ,X kn ,在矩阵表示的线性回归模型Y=X+ 中,完全共线性指:秩(X)k+

3、1,即, X k 2 ,X 21X 22X 2 n,X 11X 12X 1n, 1 1 ,中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。如:X2= X1,则X2对Y的作用可由X1代替。,注意:,完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。,二、实际经济问题中的多重共线性,一般地,产生多重共线性的主要原因有以下三个方面:(1)经济变量相关的共同趋势时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时 期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业 都小。,(

4、2)滞后变量的引入,在经济计量模型中,往往需要引入滞后,经济变量来反映真实的经济关系。例如,消费=f(当期收入, 前期收入),显然,两期收入间有较强的线性相关性。,(3)样本资料的限制,由于完全符合理论模型所要求的样本数据较,难收集 ,特定样本可能存在某种程度的多重共线性。,一般经验:,时间序列数据样本:简单线性模型,往往存,在多重共线性。,截面数据样本:问题不那么严重,但多重共,线性仍然是存在的。,三、多重共线性的后果,1、完全共线性下参数估计量不存在,Y = X+ 的OLS估计量为:= ( X X ) 1 X Y如果存在完全共线性,则(XX)-1不存在,无法得到参数的估计量。,计量经济学模

5、型一旦出现多重共线性,如果仍采,取普通最小二乘法估计模型参数,会产生以下一些不,良后果:, x,例:对离差形式的二元回归模型,Y = 0 + 1 X 1 + 2 X 2 + ,(4.3.4),如果两个解释变量完全相关,如 x2= x1,则Y = 0 + (1 + 2 ) X 1 + 这时,只能确定综合参数1+2的估计值:,1 + 2,=, x1i yi21i,无法确定1,2各自的估计值。,2、近似共线性下OLS估计量非有效,在一般共线性(或称近似共线性)下,虽然可以得,到OLS参数估计量,但参数估计量方差的表达式为, ),Cov( = 2 (XX) 1由于|XX|0 ,引起(XX)-1 主对角

6、线元素较大,使参数估计值的方差增大,从而不能对总体参数作出准确推断,即OLS参数估计量非有效。, x ( x1i x2i ),x, x1i 2 1,( x1i x2i ),x12i 1 r 2,x12i x22i,( x1i x2i ), x,x,仍以二元线性模型(4.3.4)式为例:,2,2 2 1i 2i,恰为X1与X2的线性相关系数的平方r2,由于 r2 1,故 1/(1- r2 )1,2,2 2 1i 2i,Var ( 1 ) = 2 ( X X )111 =, 2= = 21 , 2 x22i,(4.3.5), x1i,子(Variance Inflation Factor, VIF

7、),2,当完全不共线时, r2 =0var(1 ) = 2 /,当近似共线时, 02 2多重共线性使参数估计值的方差增大,方差膨胀因,表 4.3.1,方差膨胀因子表,相关系数平方,0,0.5,0.8,0.9 0.95 0.96 0.97,0.98,0.99,0.999,方差膨胀因子,1,2,5,10 20 25 33,50,100,1000,当完全共线时, r2=1, var(1 ) = ,2,Var ( 1 ) =,1 1 r,(4.3.6),3、参数估计量经济含义不合理,如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和X2前的参数1、2并不反映各自与被 解释变量之间

8、的结构关系,而是反映它们对被解释变量的共同影响。1 、2 已经失去了应有的经济含义,于是经常 表现出似乎反常的现象:例如1 本来应该是正的, 结果恰是负的。,4、变量的显著性检验失去意义,存在多重共线性时,参数估计值的方差与标准差变大,容易使通过样本计算的t值小于临界值,,误导作出参数为0的推断,可能将重要的解释变量排除在模型之外,5、模型的预测功能失效,变大的方差容易使区间预测的“区间”变大,使预,测失去意义。,【注意】除非是完全共线性,多重共线性并不意味着,任何基本假设的违背;因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。问题在于,即使OLS法仍是最好的估计

9、方法,它,却不是“完美的”,尤其是在统计推断上无法给出真正,有用的信息。,多重共线性检验的任务是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。,多重共线性表现为解释变量之间具有相关关系,所,以用于多重共线性的检验方法主要是统计方法:如判定,系数检验法、逐步回归检验法等。,四、多重共线性的检验,1、检验多重共线性是否存在,(1)对两个解释变量的模型,采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说,明两变量存在较强的多重共线性。,(2)对多个解释变量的模型,采用综合统计检验法,若 在OLS法下:R2与F值较大,但t检验值较小,说明

10、各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。,2、判别存在多重共线性的范围,如果存在多重共线性,需进一步确定究竟由哪些,变量引起。,(1) 判定系数检验法,使模型中每一个解释变量分别以其余解释变量为,解释变量进行回归,并计算相应的拟合优度。,如果某一种回归Xji=1X1i+2X2i+LXLi,的判定系数较大,说明在该模型中作为解释变量的Xj,其它解释变量的线性组合代替,即Xj与其他解释变量,之间存在共线性。,(1 R ) /(n k + 1),其中Rj2为第j个解释变量对其他解释变量的回归 方程的决定系数;n为样本容量;k为解释变

11、量的个数(包括常数)若存在较强的共线性,则Rj2较大且接近于1,这 时(1- Rj2 )较小,从而Fj的值较大。因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。,具体可进一步对上述回归方程作F检验:构造如下F统计量,R 2j . /(k 2)2j .,F j =, F (k 2, n k + 1) (4.3.7),在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj 时十分接近,则说明Xj与,其它解释变量之间存在共线性。,另一等价的检验是:,(2)逐步回归法以Y为被解释变量,逐个引入解释变量,构成回归,模型,进行模型估计。,根据拟合优度的变化决定新引入的

12、变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一,个独立解释变量;,如果拟合优度变化很不显著,则说明新引入的变量,与其它变量之间存在共线性关系。,找出引起多重共线性的解释变量,将它排除出去,是最有效的克服多重共线性问题的方法。以逐步回归法得到最广泛的应用。,注意:,这时,剩余解释变量参数的经济含义和数值都发生了变化。,如果模型被检验证明存在多重共线性,则需 要发展新的方法估计模型,最常用的方法有三 类。,五、克服多重共线性的方法,1、第一类方法:排除引起共线性的变量,2、第二类方法:差分法,时间序列数据、线性模型:将原模型变换为差分,模型:,Yi=1 X1i+2 X2i+k Xki+

13、 i,可以有效地消除原模型中的多重共线性。,这是由经济时间序列数据的内在性质决定的。一般讲,增量之间的线性关系远比总量之间,的线性关系弱得多。,例如:,表 4.3.2,中国 GDP 与居民消费 C 的总量与增量数据(亿元),年份,C,Y,C/Y,C,Y,C/Y,1978,1759.1,3605.6,0.488,1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000,2005.42317.12604.12867.93182.53674

14、.54589.05175.05961.27633.18523.59113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9,4074.04551.34901.45489.26076.37164.48792.1 10132.8 11784.7 14704.0 16466.0 18319.5 21280.4 25863.7 34500.7 46690.7 58510.5 68330.4 74894.2 79003.3 82673.1 89112.5,0.492 0.509 0.531

15、0.522 0.524 0.513 0.522 0.511 0.506 0.519 0.518 0.497 0.485 0.482 0.455 0.446 0.461 0.471 0.465 0.467 0.476 0.482,246.3311.7287.0263.8314.6492.0914.5586.0786.2 1671.9890.4589.7 1202.7 2143.9 3222.6 5127.4 6134.7 5207.8 2702.3 2066.5 2413.3 3577.5,468.4477.3350.1587.8587.11088.11627.71340.71651.92919

16、.31762.01853.52960.94583.38637.0 12190.0 11819.89819.96563.84109.13669.86439.4,0.526 0.653 0.820 0.449 0.536 0.452 0.562 0.437 0.476 0.573 0.505 0.318 0.406 0.468 0.373 0.421 0.519 0.530 0.412 0.503 0.658 0.556,由表中的比值可以直观地看到,增量的线性关系,弱于总量之间的线性关系。,进一步分析:,Y与C之间的判定系数为0.9988, 与YC之间的判定系数为0.9567,一 般 认 为 :

17、两 个 变 量 之 间 的 判 定 系 数 大 于 0.8时,二者之间存在线性关系。所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。,3、第三类方法:减小参数估计量的方差,多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。例如:增加样本容量,可使参数估计量的方差减小。,模型的预测功能失效,六、案例中国粮食生产函数,根据理论和经验分析,影响粮食生产 (Y)的主要因素有:农业化肥施用量(X1);粮食播种面积(X2),成灾面积(X3);,农业机械总动力(X4);,农业劳动

18、力(X5)已知中国粮食生产的相关数据,建立中 国粮食生产函数:Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +,表 4.3.3 中国粮食生产与相关投入资料,1、用OLS法估计上述模型:,Dependent Variable: Y,Method: Least Squares,Date: 02/06/08 Time: 09:36,Sample: 1983 2000,Included observations: 18,VariableX1X2X3X4X5C,t-Statistic8.3851673.319916-2.806974-1.445298-0.140484-0.91027

19、3,R-squared,Coefficient6.2125960.421380-0.166256-0.097773-0.028428-12815.650.982798,Std. Error0.7409030.1269250.0592300.0676490.20235714078.91Mean dependent var,Prob.0.00000.00610.01580.17400.89060.380644127.11,Adjusted R-squared,0.975630,S.D. dependent var,4409.100,S.E. of regression,688.2985,Akaik

20、e info criterion,16.16752,Sum squared resid,5685057.,Schwarz criterion,16.46431,Log likelihood,-139.5077,F-statistic,137.1164,Durbin-Watson stat,1.810560,Prob(F-statistic),0.000000,故认上述粮食生产的总体线性关系显著成立。,但X4 、X5 的参数未通过t检验,且符号不正,确,故解释变量间可能存在多重共线性。,Y=12815.65+6.213X1 +0.421X20.166X3 0.098X40.028 X5,(-0.

21、91) (8.39) (3.32) (-2.81) (-1.45) (-0.14)R2接近于1; 给定=5%,得F临界值 F0.05(5,12)=3.11F=638.4 15.19,,2、检验简单相关系数,利用命令scat y x1 x2 x3 x4 x5 可以得到Y与X1,X2,X3,X4,X5的散点图, 发现: X1与X4间存在高度相关性。,在用cor得到X1,X2,X3,X4,X5的相关系数矩,阵:,3、找出最简单的回归形式, 可见,应选第1个式子为初始的回归模型。,分别作Y与X1,X2,X4,X5间的回归:,Y = 30867.64 + 4.576 X 1(25.58) (11.49)

22、 R2=0.8919 F=132.1 DW=1.56Y = 31919.0 + 0.380 X 4(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,Y = 33821.18 + 0.699 X 2(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12Y = 28259.19 + 2.240 X 5(-1.04) (2.66)R2=0.3064 F=7.07 DW=0.36,4、逐步回归,将其他解释变量分别导入上述初始回归模型,,寻找最佳回归方程。,(1)在初始模型中引入X2,模型拟合优度提高,且参数,符号合理,变量也通过了t检验;,(2)引入

23、X3,拟合优度再次提高,且参数符号合理,变,量也通过了t检验,只是D.W.值落入了无法判断的区 域,但由LM检验可知仍不存在一阶自相关性;,(3)引入X4,尽管拟合优度仍略有提高,但是X4的参数,未通过t检验,且符号不合理;,(4)去掉X4,引入X5,拟合优度仍略有提高,但是X5,的参数未通过t检验;第(3)和(4)步表明,X4和X5是多余的。同样 还可以继续验证,如果用与X1高度相关的X4代替X1, 则X4与X2,X3,X5间的任意线性组合,均达不到以 X1,X2,X3为解释变量的回归效果。,讨,论,5、结论,回归方程以Y=f(X1,X2,X3)为最优:Y = 11978 + 5.26 X

24、1 + 0.41X 2 0.19 X 3,R = 0.93,某地区供水部门利用最近15年的用水年度数据得出如,下估计模型:,water=326.90.305house0.363pop0.005pcy(1.7) (0.9) (1.4) (0.6)17.87price1.123rain(1.2) (0.8),其中water为用水总量(单位:百万立方米),house为住,户总数(单位:千户),pop为总人口(单位:千人),,pcy为人均收入(单位:元),price为价格(单位:,元/100立方米),rain为降雨量(单位:毫米)。,(1)根据经济理论和直觉,请估计回归符号是什么(不,包括常数)?为什

25、么?观察符号与你的直觉符号吗?,例,题,2,F = 38.9,R = 0.93,某地区供水部门利用最近15年的用水年度数据得出如,下估计模型:,water=326.90.305house0.363pop0.005pcy(1.7) (0.9) (1.4) (0.6)17.87price1.123rain(1.2) (0.8),其中water为用水总量(单位:百万立方米),house为住,户总数(单位:千户),pop为总人口(单位:千人),,pcy为人均收入(单位:元),price为价格(单位:,元/100立方米),rain为降雨量(单位:毫米)。,(2)在10%的显著性水平下,请进行变量的t检验与方程,的F检验;t检验与F检验结果有相互矛盾现象吗?,(3)你认为估计值是有偏的或无效的或不一致的吗?,详细阐述理由?,2,F = 38.9,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 理学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报