1、第七章 多重共线性,一、多重共线性的概念 二、产生多重共线性的原因 三、多重共线性的结果 四、多重共线性的检验 五、多重共线性的修正方法,引例1,设因变量y(消费) 与自变量x1(月收入+奖金)与x2(月收入)具有表所示的观察值.以模型拟合表中数据。,解(1) 用ols法得回归方程 =10.9437-2.0151x1+3.6482x2 t (-0.759) (1.379) P (0.472) (0.21) R2=0.9878 X1与x2的相关系数 r1.2=0.9997,结果不合理的地方在哪里?,上述结果表明,在整体上方程显著,拟合度很高,方程能很好地拟合数据,说明至少有一个变量对Y的影响是显
2、著的; 但从系数的检验看,两个系数都不显著,这又说明x1与x2的影响似乎都很小,均不显著。 从经典回归的观点看,这两个结论是相互矛盾的,2)分别做y 对x1 与x2 的回归,=9.40921.6449x1 R20.9845 =10. 05691.6409x2 R20.9868 方程(2)与(3)的拟合优度都很大,回归系数不但都非常显著,而且x1的系数在(2)中与在(1)中的正负号相反。这说明x1与x2对y 都有重要的影响。,为何出现模型(1)中分析结果?,x1与x2的间的相关系数高达r=0.99966。x1与x2之间高度相关性-多重共线性不满足线性回归模型的经典假设假设-自变量之间没有相关性,
3、引例2,三次产业对财政收入的影响研究因变量:y 某地财政收入自变量:该地第一、二、三产业增加值(x1、X2、x3),P22,方程整体非常显著,表明三次产业至少有一个对财政收入的解释能力非常强,但系数检验每个解释变量均不显著,且第一产业的影响是负数,与理论矛盾原因可能存在严重共线性。,转P21,一、多重共线性的概念,多重共线性:在多元线性回归模型中,解释变量之间存在着完全的线性关系或接近的线性关系,完全多重共线性,近似多重共线性,注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。,例如:,很明显, 即它们两者有完全的线性关系,我们称解释变量x2和x3之间存在完全多重
4、共线性,实例: 以某一行业的企业为样本建立企业生产函数模型,以产出量为被解释变量,选择资本、劳动、技术等投入要素为解释变量。这些投入要素的数量往往与产出量成正比,产出量高的企业,投入的各种因素比较多,这就使得投入要素之间出现线性相关性。,一般来说,由于经济数据的限制使得模型设计不当,导致模型设计中解释变量间存在普遍的相关关系。,问题,请问: 产生多重共线性的原因是什么? 如果模型存在多重共线性,会有哪些后果?,多元回归分析中,多种共线性检验的实质是什么? 如何实施检验? 模型存在多重共线性,是否一定要矫正?矫正的方法有哪些?,自学完成,二. 产生多重共线性的原因,1.经济变量在时间上有共同变动
5、的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题. 2.某一变量及其滞后变量同时作为解释变量。例如,消费=f(当期收入, 前期收入). 显然,两期收入间有较强的线性相关性。3. 样本资料的限制.由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。多重共线性最常出现在时间序列数据模型中,但也经常出现在截面数据模型中。,下页,例如考察上述这几个自变量对因变量(如GDP)的影响,建立如下回归方程:,那么,多重共线性就很有可能出现,因为这些变量的样本数据往往呈现出近似的比例关
6、系,三. 多重共线性的结果,1.完全多重共线性:普通最小二乘法失效,估计量的方差无限大 2.近似多重共线性:估计量的方差很大,OLS参数估计量非有效。 3.参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。,如:对二元线性回归模型,则该二元线性回归模型就会退化为一元线性回归模型,这时,我们只能确定,的估计值,但却无法,分别确定,的估计值,4.变量的显著性检验失
7、去意义。估计量的方差很大,相应标准差增大,进行t检验时,接受零假设的可能性增大。 5、模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。,四、 多重共线性的检验,1.不显著系数法 2. 参数估计值符号判断法 3.自变量的相关系数矩阵法 4.多元决定系数值诊断法,.此外,还有方差膨胀因子、容忍值法以及 条件数与特征分析法等,四、 多重共线性的检验,1.不显著系数法 (1) 如果拟合度R2很大(0.8),但模型中全部或大多数参数估计值却不显著,此时自变量之间可能存在较严重多重共线性.,P8,(2)从理论得知某个自变量对因变量有显著影响,但ols估计量不显著.此时可怀疑是多
8、重共线性所致。(P23),【例题7.3】 城市的死亡率受到诸多社会经济变量的影响,现选择如下几个变量进行研究, MORT:每100000人口的死亡率, INCC:人均收入, POV:贫困家庭比例, EDU1:完成中学教育的人口比例, EDU2:受过大学教育的人口比例, ALCC:人均酒精消费, TOBC:人均香烟消费, HEXC:人均医疗支出, PHYS:每10万人口拥有的内科医生数量, URB:城市人口比例, AGED:65岁以上人口的比例,调查数据见附录A,从理论上: INCC:人均收入影响很大,反比 EDU1:完成中学教育的人口比例,较为显著,调整拟合优度为93.57%,Pf=0.000
9、,方程显著,解释变量整体说服力很强。 但是EDU1,INCC系数的p值分别为0.7286,0.4426 ,远大于0.05的显著性水平,不显著。 在这种情况下,基本可判定该模型可能存在比较严重的多重共线性,返P21,根据经济意义,对参数估计值的符号进行判断, 如果不符合经济理论或实际情况,可能存在多重共线性(见引例2 ),2.参数估计值符号判断法,P10,3.相关矩阵法,(1) 相关系数矩阵(对称矩阵),(2)判别规则 如果主对角线上方(或下方)某个元素绝对值很大(0.8以上),则认为变量之间具有较严重的多重共线性.,上述条件是充分条件不是必要条件,因此如果两个变量之间的相关系数较小,不能说明他
10、们之间没有严重的共线性现象,问题: 如果所有元素的绝对值都很小,是否意味着变量之间无严重多重共线性?,【例题7.4】考察美国加州58个县的贫困率的决定因素,建立如下模型:,POVRATE:贫困家庭比例 URB:城市人口比例 FAMSIZE:每家人数 UNEMP:百分比失业率 HIGHSCHL:受过中学教育的人口比例 COLLEGE:受过高等教育的人口比例 MEDINC:中等家庭收入 相关调查数据见附录B。6个解释变量的相关系数矩阵由Eviews输出,结果如下,由上表,MEDINC与COLLEGE的相关系数为0.847734, 判断变量之间有明显的线性关系,模型存在比较严重。多重共线性,返P21
11、,对k个解释变量,分别以其中一个对其他所有解释变量进行回归,并求出决定系数,找出决定系数中最大的一个,如果它接近于1,且显著大于临界值,则认为xi与其他x 之间存在较严重共线性,4.多元决定系数值诊断法,【例题7.5】某地10年中有关服装消费、可支配收入、流动资产、衣服类物价指数总物价指数的调查数据如表8.5所示。试建立需求函数模型。,解:利用Eviews软件,分别建立各个自变量对其余自变量的回归方程,结果如下:,1,2,3,4,(1)式的R2最大,接近1,且F显著大于临界值,模型存在严重多重共线性,五、多重共线性的解决方法,1frisch综合分析法逐步回归法 增加样本容量 除去不重要的解释变
12、量 对所有变量做滞后差分变换,P55,1.frisch综合分析法逐步回归法,基本思路: 以Y为因变量,选择与Y相关性最强的一个解释变量为基本解释变量,构建回归方程,然后逐个引入其他解释变量.在这个过程中,根据拟合优度的变化和变量系数的符号等重要信息来判断是否保留每一步引入的自变量。,具体 第一步:建立基本回归方程将Y分别对x1,x2xk作一元回归, 选出最优方程-可决系数最大的方程,第二步:最优方程中逐步引入新自变量将其余变量依次加入,建立一系列回归方程.然后按照如下标准对新加入的自变量进行取舍抉择;,(1)如果加入新的变量使 提高,所有统计检验合理,可认为该新变量是有利变量,保留。 (2)若
13、新加入的变量不能提高 ,且对其他系数也无影响,可认为该变量是多余变量,不保留。 (3)如果新加入变量严重影响其他变量的系数,或符号,则认为是不利变量(是多重共线性的一个重要信号)。,【例题7.6】,考察城市公交需求(BUSTRAVL)的决定因素,所考虑的因素主要有:公交车费(FARE),汽油价格(GASPRICE),人均收入(INCOME),城市人口规模(POP),城市人口密度(DENSITY),城市面积(LANDAREA),数据见附录C。将以上这些变量全部加入到我们的模型中,建立如下回归方程,1.建立基本回归方程,通过相关矩阵确定最优方程 把因变量BUSTRAVL与自变量一起考虑Eviews
14、的输出结果如下:,BUSTRAVL与POP的相关程度0.9312,最高,建立一元最优回归方程:,eviews回归结果为:,BUSTRAVL=259.57+1.8206POP ( 1.1) R2=0.8673,2、将其余变量逐个加入(1.1),构建二元最优回归方程,-加入DENSITY(人口密度),Eviews输出结果如下,相关系数 大小依次加入,二元回归方程估为: BUSTRAVL=275.39+1.5520POP0.1152DENSITY,(1.2) =0.8893,两个解释变量的参数都十分显著,保留DENSITY在原模型中。,3. 将其余变量逐个加入(1.2),构建三元最优回归方程-(1)
15、加入GASPRICE(汽油价格) Eviews输出结果,且汽油价格GASPRICE的p值=0.66240.05,不显著,因此, GASPRICE不应保留在方程(1.2)中,-(2)加入LANDAREA变量,但在加入LANDAREA 后,方程中原有自变量DENSITY和LANDAREA参数显著性发生变化,由显著变为不显著 ,所以LANDAREA不能保留在方程(1.2)中。,-(4)加入Income变量,三个变量的系数均可通过至少1的显著性检验,所以INCOME可保留在方程(1.2)中。 三元最优回归方程为:,INCOME的符号为负,即随着收入增加,人们对公交的需求是降低的,可理解成随着收入的增加
16、,人们购买私人汽车的可能性会逐渐增大,因此自然对公共交通的需求会减少。,BUSTRAVL=2815.7+1.5766POP0.1534DENSITY-0.2013 INCOME (1.3),3. 将其余变量加入(1. 3),构建三元最优回归方程,-(1)加入FARE(公交车费)变量,,同时t FARE值的p值为0.49100.05, 无法通过显著性检验,因此不能将其留在方程中,综上分析,合理的模型应为:,(2) 增加样本容量 适用于:样本引起的多重共线性测量误差、偶然因素,解释变量总体不存在多重共线性,3. 除去不重要的解释变量,如果多重共线性由不重要的解释变量引起,可以从模型中除去该解释变量
17、,减弱多重共线性 该解释变量被纳入随机误差项中,可能使随机误差项不能满足零均值假设,4. 对所有变量做滞后差分变换,假定x1与x2之间存在共线性,其一阶差分形式为:,即:,一般一阶差分后模型几乎无多重共线性,但容易产生自相关性.,其他矫正方法 5. 利用已知信息。 6. 变换模型形式。 7. 把时间序列数据和截面数据合并使用 8. 岭回归。 9 主成分分析。 10.引入附加方程,六、 应用举例,案例1 克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和工资收入X1、非工资非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出了下列回归方程(括
18、号中的数据为相应参数估计量的标准误):,试对上述模型进行评析,指出其中存在的问题。,SE,答:从模型拟合结果可知,n=27,k=3 (1) R2=0.95,模型整体拟合程度较高 (2) a=0.05 , F (K ,n-k-1)=F(3,23)= 3.03F=107.37 F(3,23) ,表明回归方程是显著的。 (3) 依据参数估计量及其标准误,计算各回归系数估计量的t统计量值:,除t1外,其余t的值都很小。 工资收入X1的系数t检验值虽然显著,但该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常
19、识不符。 另外,理论上非工资非农业收入与农业收入也是消费行为的重要解释变量,但两者的t检验都没有通过。 这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为的单独影响,案例2中国粮食生产函数,根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1);粮食播种面积(X2)成灾面积(X3); 农业机械总动力(X4);农业劳动力(X5),已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +,1、用OLS法估计上述模型:,R2接近于1; 给定=5%,F=137.1164 P
20、f=0.0000 ,故认上述粮食生产的总体线性关系显著成立。但X4 、X5 的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),2、多重共线性检验,发现: X1与X4间存在高度相关性。,求出X1,X2,X3,X4,X5的相关系数矩阵:,3、消除多重共线性Frisch综合法 (1)建立基本回归方程,可见,应选第1个式子为基本回归模型。,分别作Y与X1,X2,x3,X4,X5间的回归:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.
21、14) R2=0.075 F=1.30 DW=0.12,(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36,(7.24) (1.74) R2=0.1595 F=3.04 DW=0.9356,(2)逐步回归,将其他解释变量分别加入上述基本回归模型,寻找最佳回归方程。,回归方程以Y=f(X1,X2,X3)为最优:,4、结论,案例3:关于中国电信业务总量的计量经济模型,经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均
22、消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型,建立中国电信业务总量计量经济模型,Ln y = 24.94 + 2.16 x1 3.03 x2 + 33.7 x3+ 1.29 x4- 2.03 x5(0.7) (1.6) (-0.8) (1.0) (1.5) (-1.2), F = 106.3,,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。,1、共线性检验- 相关矩阵,因为x4与x5de 相关系数R 2 = 0.99860.8,所以模型中存在严重的多重共线性。,2、模型修正 (1)找出基本回归方程,分别作LnY与X1,x3,X2,X4,X5的
23、回归 以可决系数R2为标准确定解释变量的重要程度,为解释变量排序。Ln y = - 0.34 + 206 x1 (- 2.1) (14.3) R2 = 0.9668, F = 204, n=9Ln y = - 33.26 - 291 x2 (- 22.2) (23.6) R2 = 0.9875, F = 555, n = 9Ln y = - 18.46 + 7075 x3 (- 14.9) (16.6) R2 = 0.9752, F = 275.5, n = 9Ln y = - 0.49 + 0.56 x4 (- 2.5) (13.8) R2 = 0.9644, F = 189.7, n =
24、9Ln y = - 0.42 + 1.16 x5 (- 2.1) (14.3) R2 = 0.9633, F = 183.5, n = 9,(2)逐步回归,寻找最佳回归方程。首先把x3引入模型: Ln y = - 29.9 - 2024 x2 + 16.76 x3(- 6.9) (2.7) (0.8) 调整的R2 = 0.988, F = 265.5, R2 未提高,同时x3的系数也未通过t检验,不保留x3。接着把x1引入模型: Ln y = - 33.37 2.92 x2 0.007 x1(- 3.2) (3.2) (-0.01) 调整的R2 = 0.9875, F = 237.9 ,不保留
25、 引入x4: Ln y = - 31.94 2.79 x2 + 0.022 x4(- 3.4) (3.3) (0.14) 调整的R2 = 0.9876, F = 238.7,不保留,以Ln y = - 33.26 - 291 x2为基础,依次引入x3, x1, x4, x5 。,R2 = 0.9875,案例4:对影响股票价格指数宏观经济因素的实证分析,居民消费物价指数、商品零售物价指数、企业商品价格指数、工业增加值、固定资产投资、社会消费品零售总额、股市成交量、外汇市场交易量、汇率、货币供应量m1、进出口额。分别以 至 代表。 其中前三个价格指数从不同侧面反映了我国的市场环境,其他从不同侧面反
26、映了整体经济状况,反映了我国金融环境的影响,股市成交量从一个侧面反映了股市状况。,选择上证综指(以Y表示)作为股票价格指数的代表。对影响股票价格指数的宏观经济因素,初步选定如下十个宏观变量:,采用的数据是从1995.012004.9月的月度数据,对于价格指数变量以及汇率,以原变量形式进入模型,而对于其它变量,取其对数形式进入模型。,在对数据调整后,建立如下的模型: 利用普通最小二乘法回归方程,得到:,去掉不显著的变量,对模型重新回归得到(x2,x4,x5,x8,x11),各变量显著,方程效果显著,检验该模型解释变量之间是否存在多重共线性 相关系数矩阵:存在较严重的多重共线性(x1与x3;x6与
27、x10) Eviews 软件得,图1 相关系数矩阵,分别删除 、 再进行回归得到的结果如下:图2 删除 后的回归结果,图3 删除 后的回归结果,分别删除X6 、 X10后得到的结果如下:图 4 删除X6 后的回归结果,图5 删除X10后的回归结果,最后得到的模型是:(删除X6 后的回归结果)之所以在原回归方程系数估计值都显著的情况下仍进行多重共线性检验,并删除一些变量,是因为在金融计量学中,在保证模型一定解释能力的情况下,尽可能的使模型简洁,是我们应该始终坚持的一个原则。,问题:研究股权转让(发生,不发生)、股东的身份(最大股东为国有,其他)、上市时间、政策因素等对Y的影响,这些变量如何引入?
28、,在计量经济学分析中,所考虑的变量除了可以直接度量的数量变量(如价格、收益、收入等)之外,还有实质上是定性性质的变量,如性别、国家、战争及政府经济政策的变动等。这类定性变量常指某一性质、属性出现或不出现,例如男性或女性,中国人或外国人,战争期间或非战争期间等。由于其不能直接度量,为研究方便,可构造一个变量,令其取值为1或为0,取值为0时表示某一性质出现(不出现),取值为1时表示某性质不出现(出现),该变量即为虚拟变量(dummy variables)。,一、单项选择题,1如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量( ) A.不确定,方差无限大 B.确定,方差无限大C.不确
29、定,方差最小 D.确定,方差最小 2多元线性回归模型中,发现各参数估计量的t值都不显著,但模型的F值确很显著,这说明模型存在( ) A多重共线性 B异方差 C自相关 D设定偏误 3逐步回归法既检验又修正了( ) A异方差性 B.自相关性 C随机解释变量 D.多重共线性,4如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( ) A无偏的 B. 有偏的 C. 不确定 D. 确定的 5设线性回归模型为, 下列表明变量之间具有完全多重共线性的是( ) A B C D6简单相关系数矩阵方法主要用于检验( ) A异方差性 B.自相关性 C随机解释变量 D.多重共线性,7设为解释变量,则完全多重共线性是( ) 8下列说法不正确的是( ) A. 多重共线性产生的原因有模型中大量采用滞后变量 B. 多重共线性是样本现象 C. 检验多重共线性的方法有DW检验法 D. 修正多重共线性的方法有增加样本容量,二、多项选择题 1能够检验多重共线性的方法有( ) A. 简单相关系数矩阵法 B. t检验与F检验综合判断法 C. DW检验法 D. White 检验 2如果模型中解释变量之间存在共线性,则会引起如下后果( ) A. 参数估计值确定 B. 参数估计值不确定 C. 参数估计值的方差趋于无限大 D. 参数的经济意义不正确 E. DW统计量落在了不能判定的区域,