1、1第五章 多元线性回归模型在第四章中,我们讨论只有一个解释变量影响被解释变量的情况,但在实际生活中,往往是多个解释变量同时影响着被解释变量。需要我们建立多元线性回归模型。一、多元线性模型及其假定多元线性回归模型的一般形式是 iiKiii xxy21令列向量 x是变量 xk,k=1,2,的 n 个观测值,并用这些数据组成一个nK 数据矩阵 X,在多数情况 下,X 的第一列 假定为一列1,则 1 就是模型中的常数项。最后,令 y是 n 个观测值 y1, y2, , yn 组成的 列向量,现在可将模型写为: Kxy1构成多元线性回归模型的一组基本假设为假定 1. Xy我们主要兴趣在于对参数向量 进行
2、估计和推断。假定 2. ,021nE假定 3. I2假定 4. 0|X我们假定 X中不包含 的任何信息 ,由于(1)),|(,XECovv所以假定 4暗示着 。0,Co(1)式成立是因为,对于任何的双变量 X,Y,有 E(XY)=E(XE(Y|X),而且)|()()(),( EYEYEXYXov |,ov这也暗示 y|2假定 5 X 是秩为 K的 nK 随机矩阵这意味着 X列满秩,X 的各列是线性无关的。在需要作假设检验和统计推断时,我们总是假定:假定 6 ,02IN二、最小二乘回归1、最小二乘向量系数采用最小二乘法寻找未知参数 的估计量 ,它要求 的估计满足下 面的条件 (2)22min)(
3、XyXyS其中 ,min 是对所有的 m 维向量njKjjiixyXy1212 取极小值。也即 nimjjiiXyS112)()((3)nijijim112, )(1满足(2)式或(3)式的估计量 称为 的最小二乘估计,这种求估计量mL的方法称为最小二乘法(OLS ) 。展开上式得 XyXyS)(或 2)(最小值的必要条件是 02)(XyS设 b 是解,则 b 满足正则方程组 yb3这正是我们曾分析的最小二乘正则方程组。因为 X 是满秩的,所以的逆存 在,X从而得到解是 yb1)(为了证实这确实是最小值,我们需要二阶编分矩阵 XSb2)(2是一个正定矩阵。我们现在来证明这个结果。对任意一非零向
4、量 c,令 ,则cqXqi 其 中,2除非的每一 元素都为 0,否则 q 是正的。但若为零的 话,则 X 的各列的一个线性组合等于 0,这与 X 满秩的假定相矛 盾。三、最小二乘估计量的统计特性在本节中,我们对回归量的两种情况,即非随机回归量和随机回归量下分别作讨论。1、X 非随机回归量若回归量当作非随机来进行处理时,则将 X 当作常数矩阵处理就可导出最小二乘估计量的各种特性。可得(4)Xb 11 )()()(若 X 是非随机的,或 ,则(4)中第二项的期望值是 0。所以,最小二乘0E估计量是无偏的,它的协方差矩阵是 )(bbVar11XXE)()(121)(I2X在前面的内容中,对 K=2
5、的特殊 b是 的最小方差的线性无偏估计量。现在我们给4出这个基本结果的一个更一般的证明,令的另一个 不同于 b 的线性无偏估计量,是Cyb其中 C 是一个 Kn 矩阵。若是无偏的 , ,XECy这暗示着 CX=I,并且 。所以可以得到的协方差 矩阵是bbbVar2现在令 ,由假设知 D0。那么, XD1)( ,*Dyb于是是非负 定矩阵。,*)(2bVarY则 )()(112 XXbVarD)(12在展开这个四项和式之前,我们注意到 )(1XCXI 由于上面最后一项是 I,有 DX=0,所以 122)(DbVar的方差矩阵等于 b 的方差矩阵加上一个非负定矩阵。所以, 的每个二次型b bVar
6、都大于的 相应二次型。Var利用这个结果可以证明高斯-马尔科夫定理:高斯马尔科夫定理: 对任意常向量 w,古典线性模 型中的最小 方差线性无偏估计量是 ,其中 b 是w w最小二乘估计量。52、X 随机回归量在这样的情况下,为了得到最小二乘估计量特性更多的一般性,有必要将上面的结果推广解释变量X 是来自某种概率分布 的情况中去。获得 b 的统计特性的一个方便的方法是,首先,第一步求得对 X 的条件 期望结果,这等同于非 随机回归量 的情况,第二步,通过条件分布得到无条件结果。此论点的关键是,如果我们对任意 X 都可能得到条件无偏性,我们就可以得到一个无条件结果。因为 b1)(所以,以观测到的X
7、 为条件我 们得到 0)(|)(| 11 XXEXE一个有用的方法是利用重期望定律 |bx|)(1XEx因为由假定4 有 ,所以,b 也是无条件无偏的,这样,0|XE。|xxXE同样,以 X 为条件的 b 的方差 是 12)(|Var为了求得确切的方差,我们使用方差分解公式: | XbEVarXbrErxx由于对所有X, ,所以第二项为零,因此,|XbE)()( 1212 Var我们原来的结论要稍作改变,我们必须用其期望值 E(XX) -1来代替原来 以得到1)(X适当的协方差矩阵。从上一段的结果可以合乎逻辑地建立高斯马尔科夫定理,即对任何 ,在 X 给定的 条件下有b6|XVarbr但若这一
8、不等式对一特定 X 成立,则必须成立:|bVarErx即,若它对每一特定 X 成立 ,则它一定对X 的平均值也成立。这暗示, 。)(bVar)(所以,不论我们是否将 X 看作 是随机的,即无偏性和高斯马尔科夫定理都成立。四、最小二乘估计量的统计推断迄今为止,在我们任一结果还未用到 的正态性的假定 6,但这一假定对构造假设检验的统计量是有用的和必须的。1、回归系数的假设检验我们先讨论X 非随机变量时的情况 。在(4)中,b 是干扰向量 的一个线性函数,如果我们假定 服从多重正态分布。利用前面结果及前边推导的均值向量和协方差矩阵来表示即 )(,12XNb这是一个多重正态分布,所以 b 的每一元素的
9、边际分布都是正态分布的: )(,12kkk令是的第 k 个对角元素,则S1)(X(5)kkSbz2服从标准正态分布。若的统计推 断可以基于 。然而仍要估 计,关 于已 知 , kz2所以(5)式中 Zk 不是统计量。我们要得到 的无偏估计量,才能作进一步的推断。2按定义最小二乘残差向量是 Xbyey1)(7yXIn)(1MyM 是回归分析中一个基本的 nn 矩阵,你可以容易地验证 M 既是对称的(M=M)又是幂等的(M=M 2) 。性质 1:Xe=0 和 ie =0证明:由正则方程组,我们得到: )(bY0)()11 YXXYX所以, ie=0由性质 1 及证明过程我们得到两个推论:推论 1:
10、 和 MX=0。0M推论 2: 和 Mi=0。i推论 2 成立是因为 X的第一行是 (1,1,,1) 。性质 2:e 和 b 互不相关。 )(,cov)(),cov( 11 XYXIn02 从几何解释来看这一性质是显然的,e 表示 Y 到子样空间的 垂线估计量, 和 e 互相Y垂直。性质 3:残差 e 的均值向量和协方差阵分别是 MeVareE2)(0)(和证明: 0()() 1XXbEYXbE)MyeVary22()(1XInE(e)=0,暗示是 y 的 无偏估计量。Xb性质 4: 2)(KneE8证明:最小二乘残差是,MXye这是由于 MX=0, 的一个估计量将基于残差平方和:22这个二次
11、型的期望值是 Ee我们有 )()(etr )()(MtrEtr由于 M 是固定的,这就是 )()()( 2trItrMEtrM 的迹是 )()( 11 XtrItXItrnn Kn)所以,2)(KneE的一个无偏估计量是2(6)ns2回归的标准误差是 s2,其平方根为s。利用 s2,我们可以计算估计量 b的估计协方差矩阵:12)(.XbVarEst通过利用 s2 替代 ,我们导出替代(5)中 zk 的一个统计量。此量MeKn22)(是一个标准正态向量的 幂等二次型,所以,它服从自由度为秩(M)=迹(M))/(=nK 的 x2 分 布。 (6)中的 x2 分布变量独立于(4)中的标准正态变量,为
12、了证明这一点,只要证明(7a)Xb1)(9独立于就足 够了。我们知道标准正态向量x 的一个线性式 Lx 和一个幂/)(2sKn等二次型 xAx 独立的充分条件是 LA=0,令 等 x,我们发现这里所需求的是/。这确实成立,因为 。0)(1MX0MX在推导回归分析中许多检验统计量中起中心作用的一般性结果是:若 服从正态分布,最小二乘系数估计量 b统计独立于残差向量 e及包括 s2在内的 e的所有函数。所以,比率 2/12)/()(KnsnSbt kkk (7)kS2服从自由度为(nK)的 t 分布。这是我们作统计推断的 基础。线性约束检验我们通常对含有不只一个系数的假设检验感兴趣,我们可以利用一
13、个类似于(7)中的检验统计量。假定我们的假设是,qrrHK210:(通常某些 r将为零)左边的样本估计是 qbrbK21 若显著异于 q,则我们推断样本数据与假设不一致。与(7)一样,将假设基于下式是很自然的。(7a))(qset我们需要的 标准误差的一个估计。由于是 b 的 一个线性函数,且我们已估计出了 b 的q方差矩阵 ,我们可用下式估计的方 差。12)(Xs qrXsrVaEst )(. 12(7)中的分母是这个量的平方根。若假设是正确的,我们的估计应该反映这一事实,至少10在抽样变化性的范围内如此。这样,若前边的 t比率的绝对值大于适当的监界值,则应对假设产生怀疑。2、随机 X 及正
14、态 下的检验统计量现在,我们考虑当X 是随机的 ,样本检验统计量和推断方法考虑(7)中检验的 t统计量:00:kH(8)2/120)(|kXsbt以 X 为条件,t|X 服从自由度为(nK)的 t 分布。然而,我们感兴趣 的是 t 的边际(即无条件)分布。正如我们所见, (7a)仅仅在以 X为条件时 b才是正态分布的,我们还没有证明它的边际分布是正态分布的。类似地,当 X 是随机的情况下,在给定 X 的条件下,我们得到了(8)式的 t 统计量,我们还没有 证明 t 边际分布也是以 (nK)为自由度的t 分布。事实上,t 的边际分布仍是以( nK)为自由度的t 分布,不论 X 的分布是什么,甚至
15、不论X是随机的还是非随机的或者是混合 的。这个令人迷惑的结果来自 f(t|X)不是 X 的函数这一事实,同样的原因可以用来推演不论 X 是不是随机的,通常用以检 验线性约束的 F 比率都是有效的。结论:若干扰项是正态分布的,我们可以在我们的过程中不加变化地进行检验和构造参数的置信区间,而不去考虑回归量是随机的、非随机的,还是它们的混合。3、拟合优度和方差分析由方差分解公式,我们有: 。我们用幂等)|()|()( XYVarEXYVarx矩阵 M0 来表示:eMY )|()|(00YXbSERST所以, 和MYSE)(0进一步研究回归平方和SSR 与残差平方和 SSE,我们可以得到下面三个结论:
16、a)在 =0 的假设条 件下,回归平方和 服从自由度为 K1 的卡方分布 x2(K1);211b)残差平方和 服从自由度为 nK 的卡方分 布 x2(nK);2SEc)在 =0 的假设条 件下, 服从 F(k-1,nk)分布。)/(1SR证明:a)M 0M 是幂等矩阵。先证明 M0M+MM0=2M。M0M+MM0 )1()1(inIinI=2M从而 MM)()( 00002所以, 。1)(1)()()( 000 Kntrttrr在 =0 的假设条件下, 才服从自由度为 K1 的卡方分布 x2(K1)(为什么?)2SRb)因为 M 是幂等矩阵而且 nMtr)(c)只要验证即 可。0)(0事实上,
17、 )1(inI。012in和前一章的情况一样,我们要对回归模型的好坏,作出评价,决定系数就是对模型拟合的一个度量,计算 R2 有两个等价的方法。STR2决定系数 YMeYXbS002 1进一步推导和化解,我们可以得到 R2 另一个公式。,以及 M0e=e(表示残差已 经具有零均值)和eMYXb ,00Xe=0 。12_Y所以, YMeXbYeMY00000 R)(00202 Y)(02222)()( Yii ii ryy第一个方法度量了 y 的总变差中由回归变差所解释的部分,第二个是 y的观测值和由估计的回归方程所产生的预测值间的相关系数的平方。当利用 R2来比较不同的线性统计 模型的拟合度时
18、,存在一个严重的缺点,就是它的值随着解释变量的增多而增大。为了克服这个缺点,我们可以用调整的 R2来测度一个模型的解释能力,这个调整的R 2 被记 ,它的表达式为2R)1/(1)/(12 nSTKenSTKE2R这里的无偏 估计量, (思考:当 y 服从正态分布时,2是Kne的一个无偏估计量) 。 不同的是,随着解释变量的增多,它的22也1y 2R与值可能变小,甚至要能取负值。因为 YM0所以,SSR= YMXb002n我们得到了回归方差的另一个表达式,请见多元线性回归模型方差分析表。表 1 多元线性回归模型方差分析13来源 自由度 均方回归 2ynXb K1残差 enK s2总 2y n1
19、)1(nyS)/()/(,1 2RSERKnF4、回归的显著性检验一个通常要检验的假定是回归方程作为整体的显著性,这是对除了常数项外所有常数都为0 的假设的联合检验。若所有系数为 0,则多重相关系数为 0,所以我们可以将这一假定的一个检验基于 R2值上。统计量 )/(1(,2KnRKnF服从自由度为 K1 和 nK 的 F 分布 ,检验的逻辑是, F 统计量是 对我们强加所有斜率都是 0 的这一约束时的拟合损失的一个度量(R2 的全部 ) ,若 F 大,假设被拒绝。五、预测多元回归环境下的预测结果与前一章中讨论的那些本质是一样的。假定我们希望预测与回归向量 x0相应的 y0值。它将是 00xy
20、( ,且 i=1,n)),0(2N,0iE由高斯马尔科夫定理知 0xby是 y0 的最小方差线性无偏估计量。个体预测(Individual Predi ction)误差是 000)(xbye( ,且 i=1,n)),(2N,iE这个估计的预测方差是14)(020xbVarear120X若回归含有一个常数项,一个等价的表达式是 Kjk jkkjj MxxneVar2 00020 )()(其中 X 是 X的不包含全为 1 的列的最后 K1 列。这表明,和以前一样,区间的宽度依赖于 x0的元素与数据中心的距离。因此 ),0()(10102Nxy又因为 )(22KnSn由此得到 )()(10102tx
21、Xsy即 y0 的一个置信区间将用下式形成:预测区间 。)(02/0ysety均值预测(Mean Prediction)均值预测是预测值是 而不考虑随机干扰项 。0xy0误差是 000)(xbye这个估计的预测方差是 )(00xVare12X因此 )1,0()(0102NxXy又因为 ()22KnSn15由此得到 )()(0102 KntxXsy即 y0 的一个置信区间将用下式形成:预测区间 。)(02/0ysety六、分块回归和偏回归当兴趣实际上只集中于一个变量或变量全集的一个子集时,设定一个多元回归模型是很普遍的,但往往这个变量或变量全集的子集并不能很好地解释被解释变量,需要我们在原有的模
22、型中添加新的解释变量,才能进一步完善模型。例如考虑收入方程,虽然我们的主要兴趣在于收入和教育的联系上,将年龄包括进模型是必要的。我们已经证实从方程忽略年龄将是错误的,这里我们考虑的问题是,从一个多元回归模型中单独地获取一个子集变量的系数涉及什么样的计算,例如获取前边及回归中教育的系数。以一般术语,假定原有回归模型是 ,现在在原有的模型中添加新的解释2Xy变量集 X1,那么现在的回归方程包 括两组变量 和 ,转换为:121Xy的代数解是 什么?与原有的估计量有何关 系?*2bb新的模型的正则方程组是( 1a)( 2a) ./21*21/21/2 yXbX利用分块逆矩阵可以得到 *21/212/1
23、/2 by另外一个方法是可以直接处理(1a)和(2a)以求解 。我们首先从(1a)求得解 :1b*2/1/1/1/*1 )()( XyXb(9).*2/1/ b16(注意此解表明是对回归 的系数减去一个修正向量。 )然后,将其代入(2a)得到*1byX.)()( /2*2/*21/2/1/1/2 yXbX整理各项后, .)()( /1/1/2*2/1/1/2 yXIbI 解是 yXIXIb )()( /1/1/21/1/1/2* (10).)(/2/ yMX注意出现在每个中括号中的小括号里的矩阵都是讨论过的“残差制造者” ,这里是相应于对各列回 归的。这样, 是一个残差矩阵,其中每一列都是中相
24、应 列对中各121X2X变 量回归的残差向量。利用和一样 是幂等的这一事实,我们可将(10)重写为1X1(11),)(*21*/2*yb其中和 21*2XM.1*yM所以, 是为来自一个回归的系数集合,这个回归的被解释变量是单独对回 归的残2b y1X差,解释变量是 的每一列分别对回归所 得残差的集合。这个过程通常被称作排除或2 1X筛掉的 影响。正是部分地由于这个原因,一个多元回归中的系数通常被称作偏回归系数。1X我们可以用一个例子来说,通过首先用收入和教育对年龄(或年龄及年龄中平方)回归,然后在一个简单回归中使用这两个残差,我们能够得到教育在最小二乘回归中的系数。这一方法的一个经典的应用中
25、,费雪和沃(1933)注意到,在时间序列环境下,像刚才提到的那样首先通过筛掉时间的影响而消除数据趋势,然后用消除趋势的数据简单回归和直接带有一个时间趋势变量似合所得结果是一样的。1、偏回归和偏相关系数使用多元回归包含一个在实际中可能不能实施的概念性试验,即类似于经济学中的17“假设其余情况均同” 。继续考虑简介中的例子,将收入和年龄及教育相联系的回归方程使我们能够对两个同龄但教育程度不同的人的收入进行比较,即使样本中没有这样一对个人。术语偏回归系数所暗示的正是回归的这一特性。我们已经看到,获取这个结果的方法是首先用收入和教育对年龄进行回归,然后从回归方程中计算出残差,按其构造,年龄对解释这些残
26、差没有任何能力。所以,在这种“净化” (或筛掉年龄的影响后)后的收入和教育间的任何相关都与年龄无关。同一原理可应用于两个变量间的相关系数上。继续我们的例子,当我们在样本中得到收入和教育间的相关数为 0.7 时,那么,在何种程度上我们可以假定这一相关是由于某种直接关系,而非由于当人们变老时,收入和教育平均来说都趋于增长这一事实?为了找出答案,我们将使用偏相关系数,这与偏回归系数的计算方式一样,在我们的例子中,抑制年龄的影响,收入和教育间的偏相关系数可如下获取:1、 收入对年龄的回归中的残差*Y2、 教育对年龄的回归中的残差E3、偏相关系数 就是和间的 简单相关系数。*YEr*这似乎是一个可怕的计
27、算量,然而存在一个方便的简捷算法,一旦计算了一个多元回归, (7)中用于检验系数等于 0的 比率,可用于计算t(12) 自 由 度2*kytr2、对均值的离差对常数回归作为上一节结果的一个应用,考虑仅为中 由 1 组成的第一列的这种情况,此时X的解将 是带有常数项的回归中斜率。令为由 1 构 成的列,任何变量对 的回归的系数2b izi是 ,拟合值是 ,残差是 。所以,当我们将其应用于先前结果时,会zi/1/zizi发现:将数据转换成对其均值的离差,然后用离差形式的变量 对同样的离差形式的解释Y变量回归,可以得到含有常数项的多元回归中的斜率。18练习:若在计算斜率前忽略了将转换为对 的离差,在
28、前边的回归中将会发生什么情况?y得到了的系 数后,怎么才能取得 的系数?当然,一个方法是转换和的角 色重2X1X1X2复上一节中的练习,但有一个更容易的方法,对一般情形,两个正则方程组中的第一个是./2/1/ yb我们已经解出了 ,所以,在求解时可 以使用它:2b1).()()( 2/1/2/1/1/1 bXyXbyX(13)若仅为一列 , (13)中第一个将产生如下结果1X(14).2kbxyb这我们以前已经见到过。七、偏离正态性的检测(正态性的哈尔克-贝拉(Jarqu e-Bera)BJ 检验)本节考察的是利用最小二乘残差的矩来推断真正扰动项的分布的一般问题。 rrE的直观估计量是irre
29、nm.1然而,最小二乘残差只是真实扰动项的不完全估计:).(/bXeiii由于 ,样本越大,这个估计就越好。这有时被称为逐点一致性。可以看出最小bplim乘残差的样本收敛于真正扰动项的样本。这意味着19irrn1是的一致估 计量,rirrenm1也是的一致 估计量,r通常运用下列公式计算偏度(Skewn ess):(15)32():xEXuS三 阶 矩 的 平 方两 阶 矩 的 立 方因为,对于对称的概率密度函数,其三阶矩为零,因为这样的一个概率密度函数,其偏度为零 。一个最重要的例子就是正态分布。如果偏度的 值为正,则其概率密度为正S S偏或右偏;如果的值为 负,则其概率密度为负偏或左偏。通
30、常运用下列公式计算峰态(Kurtosis ):(16)42():xEXuK三 阶 矩 的 平 方两 阶 矩 的 立 方概率密度的峰度小于 3 时,成为低峰态的(胖的或短尾的) ,峰度大于 3 时,称为K尖峰态的(瘦的或长尾的) ,见图 1。正态分布的峰度 为 3,这样的概率密度函数称为常K峰态的。样本偏度与样本峰度根据式(15)和式(16) ,用样本三阶矩和四阶矩来计算样本偏度与峰度。样本三阶矩(与样本方差的计算公式相对照)为:(17)3()1Xn20样本四阶矩为:(18)4()1Xn前述内容可用于设计正态性的检验。正态分布是对称和常峰态的。对称意味着三阶矩为 0 。分布对称性的标准量是偏态(
31、Skewn ess)3E.)(2/31E峰态(Kurtosis )是分布尾部厚度的度量。此度量是 .)(242正态分布对于这个度量通常是评价标准;常峰态值是正态分布的峰度,等于 3。因此,我们可以通过比较偏度是否为 0 和峰度是否为3 来判断该分布是否为正态分布。在实际中,通常的度量是过量程度(degree of excess) 。我们将使用的工具是一个沃尔德统)3(2计量。在正态性的假设下,此检验统计量是 24)3(61bnW).(2x称为正态性的哈尔克-贝拉( Jarque-Bera)BJ 检验。这渐近地服从自由度为2 的 分布。这些参数的可行的估计量是利用最小二乘残差计算而2x得到的。统
32、计量可以参考标准表 。由贝拉和哈尔克(1980 ,1980 )推导的这个检验统计量的皮尔逊分布的内容中是ab作为拉格朗日乘数检验。应该注意这个检验本质上是无建设性的。非正态性的发现不一定给出下一步如何做的建议。同样,注意不能拒绝正态性并没有确认了正态性。这只是一个对称性和常峰态的检验。21图 1思考题1、对于线性统计模型 Xy假设 ,最小化误差平方和得到 如下3,1),0(2KnIN )()(Xy线性方程组 86952312b22(1)把这个方程组写成矩阵的形式,并利用矩阵方法求最小二乘估计量b 的值。(2)如果的无偏 估计量 s2的值。2,53求y(3)求 b 的协方差矩阵。(4) 分别写出能够检验的 t 统计量(k=1,2,3) 。00:kH(5)写出能够检验的 t 统计 量和 F 统计量。q12、假设 b 是 y关于 X 的回归的最小二 乘估计量,c 是另一 K1 向量,证明两个残差平方和之差是 )()()()()()( bcXbyc 并证明这个差值是正的。3、假设对于同一个参数 ,你有两个相互独立的无偏估计量 ,它们的方差分21和别为 。那么什么样的线性组合 的最小方差无偏2121,并 且和 是1c估计量?4、假设对于同一个参数 ,你有 n 个相互独立的无偏估计量 ,它们的方差1n分别为 。那么什么样的线性组合 是的最小方 差无偏估计量?1,nv 1nc