1、第三章 现代多元回归模型1Chapter3 现代多元线性回归模型有了条件期望的知识,我们重新对第一章多元线性回归模型进行阐释。本章是伍书第46 章内容的缩写。3.1 正确设定下的多元回归一、关于模型仍设模型基本形式(结构式)为: ,其中 Y,X 1X 01YXkU+k 为可观测或受到限制或不可观测的随机变量, Y 与 X1X k 存在因果关系,且(Y,X 1X k )的联合分布存在, 是不可观测的随机误差,模型中等式是严格成立U的,且它是条件期望 的正确设定,则 。()EY()E模型中设定有截距项(Unit) ,可认为 中不再含有 X1X k 的影响(但 中可能含有影响 Y 的其他因素) 。当
2、把 Y 投影到 X=(1,X 1X k )空间上时,为避免条件期望的麻烦,我们可以减弱 的条件,假定模型 和, ()0X(0cov(,)0jXU。1jK注:如果某一 , ,即 与 相关。则称解释变量有内生性。内jcov(,)jUjX生性产生的原因是多方面的,在应用中,一般归结为三种方式:(1)隐性解释变量(omitted) 。不是有意遗漏的,客观实际存在的某些因素,但数据不可观测,如果不对模型加以处理,它们只能包含在随机误差项中。(2)测量误差。数据获取有明显失误,数据不能做到准确测量,如自报数据,传递失误等。(3)同时同步性。结果和原因的数据同时获取时,由 Y 与 的相关性,导致某一 Xj
3、与U的相关性,即存在某一随机因素既影响也影响原因。如 Y 是犯罪率,而 是警力。又U k如产出 Y 与投资 I,等等。内生性问题是我们在后面主要讨论的问题。为了保证传统模型与基本模型的一致性,将其改写成向量形式: ,记u,且 , 。又假定我们可以获得 N 个随机样本:1()kX1X1()k,于是,对每一次观测,有 , 。括号表():iYN ()()()iiiYXu1示第几次观测,不产生混淆时省略括号,按行排列,则 也可认为是矩阵形式。二、关于一致估计因为模型正确设定,现在对随机向量 和随机误差 给出假定:1()kX U假定 OLS1: , 。cov(,)0jjUEjK第三章 现代多元回归模型2
4、假定 OLS2: ,即随机矩阵列满秩。()rankEXK于是,由 ,得 ,两边取期望,根据假定 、YuYXu1OLS,求得真值: 。2OLS1()()如果 和 可观测,则称未知参数 是可识别的。由大数定律,利用样本矩估计代替X期望值 和 ,可得到 的 估计:()E()YOLS111() ()() ()1111() () () ()NNi ii iNi iiii iNNNi i i ii i i iXXYXuXu 11() (1)Nii iXu由 WLLN 和连续映射定理及 非奇异,得:E,和 ,11()1()NpiiX ()1()0NpiiuEXu 所以 ,即 是 的一致估计。p OLS注:(
5、1)现代回归模型的实质就是把结果 投影到原因 上,只要能随机从Y1(,)k和 中抽样,且满足假定 、 ,得到的 就是 的一致估计。模YkX12OLSLS型的背景, 的含义无关紧要。只有当模型是正确设定时, 的含义才是边际效果。(2)如果 不成立,即 ,一致性就不成立。且条件 OLS1 比正确设定条1OLS()0EXU件 要弱。即 ,则 OLS1 成立。()0EUX如果 不成立, 不可识别。于是解释变量线性相关,传统观点是存在多重共线2性,则模型就不是正确设定的,因为有某一解释变量是完全多余的。进一步,如果 成立,那么 。故 OLS 也是条件无偏的,又()0EX()EX当认为 是确定性的,不是随
6、机的,这又回到了传统观点。1k第三章 现代多元回归模型3(3)现代回归模型没有限制 与 X 独立,允许 与 有联系,仅限制与 , 没有线UXUX性关系。因此,条件方差 可以是 的函数,但若限制 与 独立,则(|)Var= 即 就与 无关了,这也回到了传统观点。(|)VaruX(r|u三、关于渐近检验完成了估计,接着就是检验。要检验就要知道统计分布,现代回归模型对 的分布和UX 的分布没有任何规定。只有误差项的期望、方差存在有限和样本独立同分布的规定。所以现代回归模型采用大样本的渐近检验。我们要考虑渐近正态性。,12() ()1()(NNii ii iXXu由大数律, 。1()( ()Npiii
7、XAE 11()( ()Nii pi Ao又序列 是来自随机变量母体 的随机样本,故是 ,且有期望():1iuXuid0( 假定) ,进一步,假定 有有限方差,那么由中心极限定理(CLT) ,则:OLSu,其中, 是 kk 正定12()(0,)NdiiXormalB 2()()EVarXu阵。所以 (有界) ,从而12()iipiuO 12()()(1)ipNAo假定 OLS3: 。222),EXXEu注: ,即 与 可分别取期望,不一定 就与独立。2()(uuU U其含义是 与每一 不相关。一个充分条件是,条件方差 U2,(0,)jijijk与 无关。2(|)(|)EXVarX于是,由正态随
8、机向量的线性变换定理,我们有如下结果:,其中 。121()(0,)(0,)dNomlABNormalA ()EX按照渐近理论的说法,此意味着 具有渐近正态分布,且期望和方差分别为。 未知,用残差 ,211()EX和 22 21/(),NiiiSRKSuY容易证明 是 的一致估计,故我们可得到 的渐近方差估计 。2 21var()AX第三章 现代多元回归模型4假定 OLS3 不是本质的,不影响估计的一致性,只影响有效性,当 OLS3 不成立的时候,即传统观点下的异方差假定, ,那么 的渐近方差估计是2BA,但是 B 未知,由于 ,我们用1var()AN122()NpiiuXEuX OLS 残差
9、代替 ,可得到 B 的一致估计, 。 (习题)进iiiuYXU12Nii而得到 的渐近方差估计是:1 1211 1var()()()()NNNi iiii iABXuX 。此称为异方差下稳健协方差估计。12()() NiiXu矩阵 中对角线元素的平方根称为 的标准差,称为异方差稳健标准var(Ai1k差。 (也称 White 标准差)将异方差稳健标准差 同 OLS3 条件成立时的标准差 相比is iv较,常放在 的下方,可对异方差的严重性有一个初步认识。i有了一致估计和渐近分布,现代回归模型的假设检验问题同传统模型要检验的问题提法是一致的,在 OLS13 成立时,可直接用 t 和 F 检验。特
10、别,对有关 的部分参数为0 的检验,仍可采用残差形式的 F 检验。具体做法为:设 ,其中 为 列, 为 列。欲检验 ?12YXu1Xk2k02:H1 ,得残差 ; on,USR2 ,得残差 ;13 ;22()(,)RUSKFFNN:4。给出临界值 ,和给出 值: 。21,)kKP20,(1()KNHF拒 绝 真 )注:现代观点在假设检验中更强调 值的重要性,有了分布函数,计算 值就很方便了,P值既可以省掉查表找临界值,也可以自主地选择接受或者拒绝原假设,特别当值 拒绝P或接受比较敏感时, 值能揭示更多的信息,促使我们进一步考虑 V 值,检验的势,或者P用其他检验方法等,更全面的考察检验的效果。
11、又上述过程用 MATALAB 编程非常方便。但是当 OLS3 的条件不成立时,即传统观点下存在异方差或序列相关,则有关线性约束的检验问题 ,采用 F 检验就不适用了(why? ) ,转而采用一般的 Wald 统计0:HRr第三章 现代多元回归模型5量: , 。1()WRrVRr 121()()NiiVAarXuX。2Q:=ankK当按传统模型处理,采用 F 检验没有把握时,建议按现代回归模型的方式采用 W 检验相互比较,使检验更加可信。现代观点的原则是,估计可以粗糙一些,但是检验必须通过。最好通过多种方式的检验,检验通不过模型一定不可取。检验通过了,模型中的估计才能有统计意义。特别,当要检验有
12、关 的部分参数为零的检验时,这是一种常见的检验。采用基于 OLS 方法的拉格朗日得分(LM)检验更为方便。拉格朗日乘数(得分)检验的基本思想:假设约束为 ,其中 可以是 的非线性函数,设秩 ,()0Cq()C()Cr最大化对数似然函数: ,由一阶条件:,)Lq;()0L。Cq求得约束条件 下的对数似然函数估计 。()0R统计思想:若约束有效,加入约束将不会导致似然函数 最大值的显著不同,这意味()L着 将会是一个小量,特别,求得约束条件下 , 已知,则 将是一个小()CRC量,故 。但是 是一个向量,为便于检验,改成二次型的形式,0RL()C使其成为标量。只要 具有渐近正态性,可得拉格朗日检验
13、统计量。可以证明:()。1 1() )()()()RRRRRLLMI ovC 2dr 于是对假设检验问题 ,可做 LM 检验,大的 LM 值拒绝 。0:(0HCq 0H特别当 为线性约束 ,则 LM 统计量就有非常好的约化形式。()设约束条件为 ,且 ,得到对数似然函数是:R2(,)N, 。求得约束条件2 21ln(,)lnlLYX21()niiiYX第三章 现代多元回归模型6下的 。再由, ,令 ,R1ln()ln()RRLLMI ReYX,2en则 , 。 (习题)2l()1RRLXe 211121ln()()()()RRLICov 121 1222 ()()() RRRReXeMXeX
14、注意, 。 (习题)RReenn()0Re。称为非中心(不去均值)的 。202所以, ,欲检验 ?用拉格朗日得分检验十分方便。12YXu02:H因为如果命题真,则 就是 的 。从而 就是残差 。R1YX1OLSRReYX1U就是 对 做 的 , 就是回归拟合值。故在1()Re1U2, ()3 成立条件下 LM 检验的步骤为:OLS1 得残差 ,和残差平方和 ;1 YonX11() SRU2 得拟合值 ,和残差平方和 ; 2,X 1() SRU3 , ;0()LMRk:2011()()4临界值 , 值: 。21kinvP20kn但当 3 不成立, 统计量就没有这么简单的处理方式,但仍可采用基于O
15、SL的方法,分析处理如下:因为 独立,故对数似然函数是:2(0,)iiiiYXN:。2211()ln(,)lnlnniiiiiYXL 是 的一致估计,用残差平方 作为 的无偏估计,代入到似然函数中,得:OS2ii。2211() ln(,),ln2lnniiiiiYXLYX1ln()iifYX第三章 现代多元回归模型7称为条件似然函数。特别约束为 ,得似然函数是:20。1ln(,),LYX 2211 11()lnl ln()nniii iii iYXfYX求得约束极大似然解是 。R令 ,其中 。经过有点麻烦的运算,(Wooldrige 11knnkgG ln()iikfYXg1991a)可得 ,
16、 。1l()nRiLGJru(,1)nJ。其中, 是 的随机误差,112()()nRiI 1YXu是 中每个分量 ,21kr X2j1jjr的随机误差。于是,用残差代替随机误差,得 LM 统计量是:j。利用 LM 公式,可采用基于 的方法处理。具体2111()()nnniiiLMruruOLS做法: , ?2YX02:H1对 做 ,( ) 得残差 ;1uOLSYon1X1u2把 中每个分量 , 分别代替 ,对 做 ,(22j2k Y21jjXrOLS2Xon)并由此得残差, ;(即 中去掉与 相关的贡献) ;1X21kr13用 同 做内积 , 。并记1u2k11njijjiura2k;211(
17、,)karr: 4再用常数项 对 做 ,( )并得到残差平方和 :2(,J 1aurOLSona0SR;1 120)()(SRaJJ5可以证明, 。大的 LM 值拒绝 ,表示 显著。20kLMNSR:0H2X第三章 现代多元回归模型8举例略。3.2 内生性问题数据和模型不一定满足 OLS1 和 OLS2 的条件,从而估计 OLS 就不能保证是一致的。因为现实经济中存在大量解释变量与误差项相关的情况,如前所述,我们把它们归结为:隐形变量、测量误差、同时同步性,统称为内生性问题。这是现代观点要处理的重要问题,解决的办法是,引入工具变量和二阶段最小二乘。(一)建模遗漏或模型存在隐形的解释变量问题设影
18、响 Y 的原因有 和 ,其中 为建模中遗漏的或模型中潜在的未意识到的1kXq忽略因素,由于经济中影响结果的原因很复杂,这种现象是经常遇到的。为讨论简单,假设模型如果考虑了因素 ,则模型是正确设定的,那么有:101(|,)k kEXrq所以把 Y 投影到( )上,有 ,,kXq01kYXqv且 成立。不失一般性, (由于设定有常数项) ,设 ,但由1(|,)kVq ()0E于实际模型 被忽略,故投影为: ,且01,kXuv。但是 不相关。 若与某一 Xj 相关,则()0Eq(|)kuX与 q,所以将 对 1, 投影为 ,代入到|uq 01k正确设定的模型中得: 011()()()kkY v所以,
19、若 Y 仅对( )做投影,实际模型回归值有 ,,kXlimjjjp故只要 与 X 中某一因素相关, OLS 在忽略 下是有偏和不一致的。qq例:设模型为: ,可以认2013logexpWarerduabilv为,因素能力 abil 不可观测,且与 exper 和 不相关,仅与 有关,于是,2c,所以 ,而 和 是一致估计。所以当 ,那13abileduc331230么 。即忽略能力因素会造成教育对工资增长率贡献的高估。mp代理变量法:意识到忽略因素 产生的问题,如果能找到合适的代理变量 (proxy variables) ,则q Z可消除 OLS 的不一致性。代理变量是指,如果满足 , (|,
20、)(|,)EYXqYq第三章 现代多元回归模型9含义是已知和 的条件下,与是不相关的,换句话说,如果 可观测且不被忽略,q q那么相对于作为解释变量是多余的,例如,上例, 是能力,令是毕业成绩单() ,如果能力已知的话,则成绩单就无所谓了。IQ但是,代理变量的要求 ,这个条件过于苛刻,当我们(|,)(|,)EYXqZYq的命题对被忽略的变量 不关心,那么,我们可以将条件 减弱q(|,)(|,)EXZYq成: ,含义是 在 上投影等价于 在1(|,)(|1,)kLqXZL1,k和,上投影,即 与 不相关。那么 ,一般认为1k0,0q(即与 正相关) ,且 ,代入得,10cov(,),jXjk,
21、对 回归可得到011()kYZvY1,kXZ一致估计 。于是,用代理变量做 ,仍可得到 的一1,k, OLSk1致估计。但是当代理变量选择的不是很好, ,01()kq即 与 相关。那么 ,则 就回不到q1kXcov(,),j jXjklimjjp的一致估计。不过,只要 ,采用代理变量,由于 ,所以 1var()q。即使代理变量选择得不好,仍可以减少 的渐近方差var()ar()qv OLS和有偏性。注:有关代理变量,常选取因变量的时滞,如果效果变好,则说明有隐形变量存在。我们也可以用多个代理变量, 等来代替 ,要求是它们与 不相关,12,ZqX。12012(|,)(|)EqXEqZ更复杂的情况
22、是,忽略变量 既影响,又影响某一 ,如:k,不再深入讨论了。0112kkYXv(二)测量误差问题数据存在测量误差是不可避免的。尤其是宏观经济数据,是由多次传递、加总、平均、加工而得到的,有的甚至是自报的。我们把有问题的数据认为存在测量误差,问题的关键在于对测量误差怎么看?如果因变量 怀疑存在测量误差, , 。这里 是真实值,不可观Y*Ye()0E*Y测, 可观测,那么 本质上就是一个含有随机因素的数据,模型设定时,将随机因素放第三章 现代多元回归模型10在方程左边或右边没有关系。因此,OLS 和相应的 和 检验不受影响,只会影响估计tF的精度(方差增加) 。但当某个或某些解释变量存在测量误差,
23、则可能导致 OLS 的不一致和有偏的严重后果。设 , 是真值,不可观测,*kkXe*,从而*101(|)kEYX 是正确设定的。由于 不可观测,*0 ,cov(,)1kjjk *kX把 作为 的代理变量看,那么应有, ,此意味kX*k *1|,)(|)kEYXEY着一旦 能确定,那么 对 没有影响。由 ,又模型设有常数项,1kX*ke可以认为 ,又认为 是仅是 与 相关的内部误差,故假定()0kEeek*,即 。那么由 是,1jXjcov()0*01kYXv正确投影,得到 。从而由0()kkYXve()0Eve,且 。所以,测量误差 的存在同一 样,()kEve2ar()kkveekY增大随机
24、误差项的方差,但是不会影响 OLS 的其他性质。但是,如果假定 , (变量中的典型误差 ,真值与 不相关。含义*cov()0kXeCEVke是误差是其他因素造成的。 )那么, ,*2cov(,)()()(kkkkeeX对 回归,得 。因为 ,所以,YkX12, 0e1(),所以 ,而且 的表达式非常复杂。例如:()kvelimplip如果 不相关, ,则 不相关,于是将 投影到 上,*kjX和 jkjX和 *kX1kX1,令 ,那么可以推得:*011k kr*2*var()kkr, ,所以存在 CEV 的测量误差,*2,lim,kjjrepj|lim|kp第三章 现代多元回归模型11会造成 的
25、低估或高估,即估计值 的绝对值变小了,称为缩水偏差。并且如果OLSk k与其他解释变量有更多的共线性,即 越大,则缩水偏差越大, 的估计*kX*2*var()krk越糟。同时,假设检验 ,命题假却接受了,大大增加了第二类错误的概率,出0:kH现伪回归。注:如果有多于一个的解释变量存在测量误差,问题会变得更严重, 几乎不能用。OLS(三)工具变量法与二阶段最小二乘(2SLS)解释变量不论是隐形变量,还是测量误差,并由此导致的内生性问题是客观存在,其后果导致 一致性不成立,本节引入工具变量以消除或减轻内生性问题,达到一致性OLS效果。特别是二阶段最小二乘,它是 方法的直接推广,计算方便,同时回归模
26、型的适OLS用范围大大扩大了。先看一个简单情形:设模型: 满足 。01kYXu()0,cov(,)0,1jEXujk-怀疑 存在测量误差, 。我们希望选择一个可观测的变量 Z1 ,当它代替kXcov(,)0k时,应当满足条件:(1) ,即二者不相关,否则选择 Z1 也不满足条件1Z;(2)将 在所有 和 Z1 上投影,OLSkkX应当有 ,否则选择 Z1 代替 意义不011kXr10kX大。于是, 且 。通俗的理解为 Z1 与 不相关,cov(,)0,jkrjkcov(,)kU且与 高度相关。k将(2)代入(1)中,得: (3) ,这里0111kYXv, 且 。于是可得到 OLS ,但当,kv
27、ur,jjkj1和不可观测,或者 Z1 选择不好,使得 ,则无法得到 或偏差太大,我们仍然不X1:k能得到模型(1)中的估计 ,这样的问题我们称为可识别问题(identification problem) 。一个完全由可测量的外生变量表达的线性式,称为显式(reduced form) ;一个不能完全由可测量的外生变量表达的线性式称为结构式(structural form) 。显式前的回归系数称为显式参数,结构式前的回归系数称为结构参数。一般,结构参数是赋予经济意义的,但是我们只能对显式(3)进行回归,得到显式参数的估计,这就有一个如何从显式参数得到结构参数,并保证结构参数估计有良好的统计性质。
28、这个问题,称为系统可识别问题,我们将在联立性问题中统一加以讨论。基于上述讨论,将工具变量法叙述为:第三章 现代多元回归模型12设 ,怀疑 存在测量误差,选择工具变量21,(,)kYXuXkX代替 ,令 ,假定 1: ;(相当于 )2:秩1Zk1ZZ()0EZu1OLS。 (相当于 )那么, ,取期望、移项有:()EOLSY。根据大数定律,从母体 中抽取 次独立样本,可得到1()XY ,XN的一致估计, ,称为 的1 1() ()1 )(NNIVi ii iZXZYZY估计或记为 。IVI注:(1) 意味 成立, (2) ,意味秩 。故1cov()0u()0Eu10()EXk是 可识别的必要条件
29、。操作上只要对0回归,采用简单的 检验 即可。由111k kkXXZrt01:H于 条件没有规定,建议对(2)式采用异方差稳健标准差做 检验。3OLS(2)工具变量法的统计思想是,通过增加与解释变量相关和随机误差不相关的外生信息来取代有“问题”的解释变量,保证 成立。因此, ,没有问题,(,)0EU()EUX就选择 ,这就是 ;当已知 ,就选择 ,这就是 。ZXOLSVar1ZGLS设 ; ,所以1()pzxN 21()(0,)dzZN ()IVN。即 是渐近正态的。又令1 21()()(0,)dzxzZX IV为 估计的残差,那么,可以证明, 和 是 的一致IVeY 2esN2esK2估计。
30、 (习题)例:同上例,去除解释变量能力 abil,用教育 educ 代替,原模型改写成:,那么 中包含有 ,所以2013ln()expwagrerducUabil,即 有内生性。引入母亲的教育程度作为工具变量,则要求cov,eduduc, 毫无疑问能得到满足,但是1(),0mth且 1则难以满足。因为 和 是偏相关的。但是,如果换上c,eceducmothec某人的身份证号最后几位,作为工具变量,问题则正好相反,显然有保证第三章 现代多元回归模型13,但 则不能保证。cov(,)0number1上例说明,寻求一个好的工具变量代替一个有问题的内生性解释变量并不容易,因为工具变量的两个要求(1)
31、、 (2)在现实中往往是冲突的。这也是信息不完全要付出的代价。解决的办法自然想到用多个工具变量。产生的问题是 的逆不存在。()EZX多工具变量与二阶段最小二乘法:模型 , , ,01kYXucov(,)0j1jk有内生性。令 是 的工具变量,满足:cov(,)ku12,MZk,,hhZ那么,由工具变量的定义知, 的每一个且任何线性组合也是 的工具变量,12,MkX即 ,满足: 。它们构成*1MZ*cov(,)0,cov(,)0kZuZ且的工具变量线性类 。问题是选择哪一个工具变量代替 ?kX当然选择与 最相关的 。暂时把理论放后,先介绍具体做法如下:k*(1) on ;即 对 做 ,得到拟合值
32、k11,MXZkX11,kMZOLS, ;X0 1kM(2) on 。即再对 做 ,得到参数Y1,k01kYXu估计 ,称为 2SLS 。注:1) (1)称为第一阶段回归, (2)称为第二阶段回归。第一阶段一定要把其余无测量误差的解释变量放入回归中,否则,2SLS 可能是不一致的。2)为保证第二阶段 具有可识别性,在第一阶段中,对回归模型要做假设检验:OLS。这是模型部分系数为零的检验,可用 检验或者 和 检验,01:0MH FWLM一般而言, 值小于 10,则认为 Z 为弱工具变量。特别当 取离散值,建议采用FkX不成立的 检验方法。3OLS3) 实质是一种工具变量法,其核心是合适的选择工具
33、变量集,对测量误差变2量 选择工具变量实质是 。这与选择的 有关,多少增加了人为的因素,kX1kZX1MZ不同工具变量的选择得到的 不一定是一样的,但是 的一致性和渐近正态2SL2SL第三章 现代多元回归模型14性是有保证的。以下说明 方法其实就是工具变量法:2SL选择多工具变量向量 ,抽样 N 次,得多工具变量矩阵仍1(, )kMZXZ ,,记为 ,则第一阶段 得: ,ZO1()k kZkXZXP令 ,得第二阶段 的 为 。11(,)kXYOLS1()Y由工具变量法,把 作为 的新的工具变量, 。则 的 IV 估计kkXZXY为 。注意 对称幂等,且 是一个到 的投1()IVYZP11(,
34、)kMZ ,,影矩阵,即 , 。所以 , 。所以,,1ZiiPXkZk ZPX,所以, 。Z 112()()SLXYIVY对忽略(不可观测)变量的多指标处理:2SL对忽略变量模型: , 。由于 不01kYqv+(|,)0EXq可观测,将 放入误差项中, ,模型实质成为: quqv。不妨设导致 产生了内生性, 。考虑01kYX+kXco(,)ku选择既满足代理变量要求又满足工具变量要求的向量集 :1(MZ1 ; 满足代理性。(|,)(|,)EqZYqZ2 ; ; 满足工具性。cov0Ucov0kX那么,用 方法可得到 的 ,它是一致的和渐近正态的。SL2SL换一个思路。如果我们有反映 的两个以上
35、的指标, 和 可测,其中有一个满足代q1q2理条件:, 。这意味1(|,)(|,)EYXq0111,cov()0,cov(,)0X着 是一类典型测量误差 CEV。如果 ,将 直接代替 , ,代入1 qq到原模型,直接用 OLS, 是可识别的。一般情况下,假定 (否则 , 不相关,则选择 为代理变量没有意义) ,于101q1第三章 现代多元回归模型15是将 代入到原模型。代入后的模型中, 和 必相关,从而 与 011q 1q1q相关。所以用 代理变量法得到的估计不一致。为保证一致性,我们需要一个替代UOLS的工具变量,设对指标 有: ,且1 2q012q进一步, ( , 从不同角度反2 1cov
36、(,)0,cov(,),qX1cov(,)0,1q2映 的性质)从而, 作为原模型 的代理变量的模型为: 1010 111()(),kYqvXqv+因为, 与 , 不相关,且 和 不相关, 可作为 的工具变量。于是采用211q22q12SLS 方法,可得到一致的 2SLS ,不过由于 不可知, 不可识别,但 是有意11k义的。注:1)隐形变量 的系数 不可识别是可以理解的,这种对隐形变量问题采用的工具变量q法称为多指标的解,在实际中有广泛应用。2)多指标解同直接把 放入到误差项中的工具变量解的重要区别在于,当我们把 放q入到误差项中,我们必须在 中决定哪些解释变量同相 关,然后我们找相应工具1
37、kXq变量替代它们,这是件麻烦事。而多指标解过程,我们不需要在 中找到哪些变量与 相X关,只要把 作为的 代理变量, 作为 的工具变量即可。 (请自己写出 的步骤)1q2q2SL注: 方法与 方法的比较:OLS2由于 , (有偏)不一致,但它的标准差较小; 渐近无偏、()0EXuLS 一致,但它的标准差较大。这意味着 的有效性比 的有效性差,特别,当2OLS工具变量选择得不好,与内生性变量 只有很弱的相关性,即 很小,且工具kXcov(,)kZX集 与误差项 ,那么 IV 是不一致的,估计效果很差。因此,不论Zcov(,)0Zu是否有内生性,只要假设检验接受 的外生性,就用 ,而不用 ,1kX
38、1kLS2LS而一旦有内生性,则 不可取,我们只能损失估计的有效性,保证一致性,转向用OLS。2SL3.3 的理论第三章 现代多元回归模型16本节一般的对 理论做一个系统介绍。2SL模型:把 分块写成, ,01kYXu+12YXu, 两部分。其中 为外生性部分, 为有内生性部分。适当的12(,)X212选择工具变量集 ,是一个向量( ) ,且 中包含 , (常数项和1(,)LZLKZ1外生变量部分必须包括在工具集 中) ,除非 是空集,否则至少要从系统外部获取多于Z2X怀疑有内生性的变量的个数的可观测变量(系统可识别的阶条件) 。假定: 1: 垂直性条件;2SL()0Eu2:秩 列满秩条件;
39、秩 可识别条件;ZL()EZK3: , 同方差条件。2()()2u则 是一致的,渐近正态的,相对有效的估计。2SL证明:当 , 。则 1 就回到 1,且 2 回到 2。20X1Z2SLOSLOS当 且有 和 2 的列满秩条件,令 , 是 L KK 1()()EZX矩阵,由秩 ,所以秩 ,令 ,则秩 。注意 的每()EkkXk一列实质是把 相应的每一列投影到 上,此意味着每个 对 做 。即做第一阶段XZiOS的回归。所以, 对 做 ,得 就是做第二阶段的回归。YOLS1()()2EYL我们先说明 是一个 估计。1()()2EXYIV因为可 作为 的工具变量,对 ,得 。 Xu1()()EXY将
40、写成 ,则Xr()()ZrEZ。1()()0EZ()()0rrEZr。所以, 。因为,1()()IVXEY1()()2XEYSL,()ZZ,1()()()()EY第三章 现代多元回归模型17所以,取样 次,得随机样本 。从而有:N,iiXYZ2NSL11 11()()()()()()ii i ii iXZXZZYNN 。由大数定律、连续映射定理, 是 的一致估计。写成抽样poN 2SL后的矩阵形式就是 。 (不必记忆)112()()SLXZY又, ()sl IVNEXu1 211lim(lim)(0,)di iNNu (注意: , 。 习题。 )1)EZXZ所以在 2SLS3 假定之下, 是渐
41、近正态的。2SL又,已知 的工具是 , 。设 是任何其他以2SL212var()()slEX为线性组合的 估计, 的工具是 ,ZIVXZ。要证:211var()()()IVEXE是半正定的。由正定矩阵的性质: 正定,2varslANAN A正定,且 半正定,则 半正定。由列满秩条件, 和B1B ()EX是正定的,故要证,1()()EXEX半正定即可。 ,1()()0Zr。()()0rZr (EXv。所以,EX 1()EX半正定。这里 是1()()(e ()eXE对 做回归的残差。所以 在给定工具集 的线性 估计类中是渐近有效的。2SLZIV又, 是一特殊的 估计,所以,残差 ,且 是2SLIV
42、2sluY221NiuK的一致估计。将上述讨论总结为如下定理:第三章 现代多元回归模型18定理:在假定 13 之下, 是一致、渐近正态的,且有零均值,方2SL2()slN差矩阵 ,且在以 为线性工具的变量类中是有效的。又规定,1var()()slEXZ的残差 ( ) , (注意,不是 )则2SL2iiisluYin 2iiisluYX是 的一致估计。 第 个分量 的标准差就是矩阵 的21NiKSLii 2X第 个对角线元素的平方根。i注:如果 2SLS3 假设不成立,那么 异方差稳健协方差估计就是2。2121var()()(Nsl iiXuX下一个问题是工具变量法要求被怀疑的解释变量是可观测的
43、,对不可观测的忽略解释变量 ,如何运用工具变量法?我们有,q广义工具变量定理:模型 , 不可观测。如果 可写成01kYXquXqu q,其中变量 w 可以观测, 形式已知, 是未知参数(例如 是 的线性函(,)qffw数) 。如果我们能得到未知参数 的一致估计 ,那么用 可一致估计 ,即(,)iif用 做为 的广义工具变量,且当 0, 时,那么用 代替 对原模型的 (|,)0EuXwq估计是渐近一致的。 (详细的讨论参见伍德里奇中文版 P98101)OLS再一个问题是,尽管 或 方便自由,且有良好的统计性质。是不是选择工具变IV2SL量越多越好?这个问题有点微妙,多的工具变量当然能更好的保证估
44、计的一致性效果,但会增大估计的标准差。特别工具变量选择不好,标准差很大,有限样本下估计有偏,几乎没什么用。 因此,我们需要对工具变量进行筛选。 (详细的讨论参见伍德里奇中文版P8689)3.4 存在内生性的假设检验在有了 和有了 之后,究竟用 还是用 ?这需要通过假2SLOSOLS2LS设检验来判断。(1)内生性问题的检验设 是模型的不同估计, 是模型不同估计2olsls和 22olsolsslslVV=cv()和 cv()下的协差阵。理论上,豪斯曼(Hauseman 1978)证明了:(证明略)。有了这个分布,可做检验:12222()()()slolslsolslolskH:第三章 现代多元回归模型19。021