1、1第 3 章:多元线性回归方法3.1 模型的设定形式及经济含义多元线性回归模型的基本形式为(3-2-1)uXXYk210设置该类模型的目的在于,测度解释变量 对因变量 的影响,并假定这种影响是线性1Y的,即满足 的条件。模型中的变量 被称为控制变量,而且11/ k, 2,这些控制变量对因变量 的影响也假定是线性的。在测度解释变量 对因变量 的影响Y1XY时,如果模型中不引入比较充足的控制变量的话,我们很难正确估计 对因变量 的真实影响,而且模型也很难满足基本假定,且样本回归方程的拟合优度也会较低。所以,在实际应用研究中,一元线性回归模型很少用到。模型中每个回归系数 的经济含义可以解释为在其它因
2、素(变量)不变jjXY/的条件下,变量 没变动一个单位,因变量一定会变动 个单位。jXj在一个广义的多元线性回归模型中,比如(3-2-2)uXXY kkloglogllog210中,回归系数的经济含义就会不同。由(3-2-3)jjjj YY/l/l我们可以推之 的经济含义是弹性系数,可解释为在其它因素(变量)不变的条件下,变j量 每变动百分之一,因变量一定会变动百分之 。jXj3.2 模型的估计方法及前提假定在模型满足基本假定的条件下,用普通最小二乘法(OLS)可以得到多元线性回归模型的无偏、有效、一致性估计。估计公式用矩阵公式表达为:2(3-2-4)YX)(1T其中:(3-2-5) knkn
3、kn XY110221121 3.3 模型的拟合优度检验可以用定义样本决定系数 ,具体计算样本回归方程的拟合优度,其定义式为:2R(3-2-6)22 )(1YuTSi具体计算式为:(3-2-7)22YnRX且 。102但在用样本决定系数 衡量和比较不同的多元回归方程的拟合优度时,会面临两个问2题:一是,样本容量大的,TSS 会增加;二是,解释变量多的, RSS 会减小。所以,为使解释变量个数和样本容量不同的使用最小二乘法则估计的回归方程之间的 有可比性,最2R好使用校正决定系数 :2R)1/(1)(2nYkTSX(3-3-8))2R3.4 模型的统计 /显著性检验对单个总体参数的假设检验:t
4、检验在这种检验中,我们需要对模型中的某个(总体)参数是否满足虚拟假设 :0H3,做出具有统计意义(即带有一定的置信度)的检验,其中 为某个给定的已知jja ja数。特别是,当 =0 时,称为参数的显著性检验。如果拒绝 ,说明解释变量 对被j 0HjX解释变量 具有显著的线性影响,估计值 才敢使用;反之,说明解释变量 对被解释Yj j变量 不具有显著的线性影响,估计值 对我们就没有意义。具体检验方法如下:j(1) 给定虚拟假设 : ;0Hjja(2) 计算统计量 的数值;)()(jjSet(3) 在给定的显著水平 下( 不能大于 即 10%,也即我们不能在置信度小于1.090%以下的前提下做结论
5、) ,查出双尾 t( )分布的临界值 ;kn2/t(4) 如果出现 的情况,检验结论为拒绝 ;反之,无法拒绝 。2/t0H0H检验方法的关键是统计量 必须服从已知的 分布函数。什么情况或t )(jSett条件下才会这样呢?这需要我们建立的模型满足如下的条件(或假定):(1) 随机抽样性。我们有一个含 次观测的随机样本n。iYXikii ,21:,2 这保证了误差 自身的随机性,即无自相关性, 。u 0)()(jjii uEuCov(2) 条件期望值为 0。给定解释变量的任何值,误差 的期望值为零。即有0),(21kXE这也保证了误差 独立于解释变量 ,即模型中的解释变量是外生性的,也使u,21
6、得 。0)(E(3) 不存在完全共线性。在样本因而在总体中,没有一个解释变量是常数,解释变量之间也不存在严格的线性关系。(4) 同方差性。 。常 数221),(kXuVar(5) 正态性。误差 满足 。,0(Normal在以上 5 个前提下,才可以推导出:41)(/(),0(,knjjj jjj jjj tSeNdVar由此可见, 检验方法所要求的条件是极为苛刻的。t对参数的一个线性组合的假设的检验需要检验的虚拟假设为 : 。比如 。无法直接检验。设立新参0H21jj21数。原虚拟假设等价于 : 。将 代入原模型后得出新模型:210121(3-2-9)uXXYk)(21210在模型(3-2-9
7、)中再利用 检验方法检验虚拟假设 : 。t 0H1我们甚至还可以检验这样一个更一般的假设: CHk100:t 统计量为)1(2 kntSet TX)(1T对参数多个线性约束的假设检验:F 检验需要检验的虚拟假设为 : 。该假设对模型 (3-2-1)0H0,21kqkqk施加了 个排除性约束。模型 (3-2-1)在该约束下转变为如下的新模型:q(3-2-10)uXXYqk210模型(3-2-1)称为不受约束(ur)的模型,而模型(3-2-10)称为受约束(r )的模型。模型(3-2-10) )也称为模型(3-2-1)的嵌套模型,或子模型。分别用 OLS 方法估计模型后,可以计算出如下的统计量:
8、)1/(/knRSqFurur关键在于,不需要满足 t 检验所需要的假定( 3) ,统计量 F 就满足: 。利用1,knq5已知的 F 分布函数,我们就可以拒绝或接受虚拟假设 :0H了。所以,一般来讲,F 检验比 t 检验更先使用,用的更普0,021kqkqk遍,可信度更高。利用关系式 , ,F 统计量还)1(2rrRTS)1(2ururRTS可以写成: )1/()1(2knqFur对回归模型整体显著性的检验:F 检验需要检验的虚拟假设为 : 。相当于前一个检验问题的特例,0H0,21k。嵌套模型变为 。 , , 。F 统计量变为:kquYrRTSr 2Rur)1/(/2knRSEF检验一般的
9、线性约束需要检验的虚拟假设比如为 : 。受约束模型变为:0H0,21kuXY再变形为: 。F 统计量只可用:uXY01)1/(/knRSqurur其中, 。 212 )()(1 XYXYTRS iiiiXYr检验两个数据集的回归系数是否相等:皱(至庄)检验虚拟假定是回归系数的真值相等。步骤如下:(1) 基于两组样本数据,进行相同设定的回归,将二者的 RSS 分别记为 和1RS。2RS(2) 将两组样本数据合并,基于合并的样本数据,进行相同设定的回归,将回归的6RSS 记为 。TRS(3) 计算下面的 F 统计量:)2/()( 1/(2121 knRST(4) 如果 ,拒绝原假定。非正态假定下多
10、个线性约束的大样本假设检验:LM(拉格郎日乘数)检验F 检验方法需要模型(1)中的 满足正态性假定。在不满足正态性假定时,u在大样本条件下,可以使用 LM 统计量。虚拟假设依然是 :0H。LM 统计量仅要求对受约束模型的估计。具体步骤如下:0,021kqkqk()将 对施加限制后的解释变量进行回归,并保留残差 。即我们要进行了如下Y u的回归估计XXqk210 ()将 对所有解释变量进行辅助回归,即进行如下回归估计u210 k并得到 R-平方,记为 。2uR()计算统计量 。2unLM()将 与 分布中适当的临界值 比较。如果 ,就拒绝虚拟假设2qccLM;否则,就不能拒绝虚拟假设 。0H0H
11、模型函数形式误设问题的一般检验:RESET如果一个多元回归模型没有正确地解释被解释变量与所观察到的解释变量之间的关系,那它就存在函数形式误设的问题。误设可以表现为两种形式:模型中遗漏了对被解释变量有系统性影响的解释变量;错误地设定了一个模型的函数形式。在侦察一般的函数形式误设方面,拉姆齐(Ramsey,1969)的回归设定误差检验(regression specilfication error test , RESET)是一种常用的方法。RESET 背后的思想相当简单。如果原模型(1)满足经典假定(3) ,那么在模型(1)中添加解释变量的非线性关系应该是不显著的。尽管这样做通常能侦察出函数形式
12、误设,但如果原模型中有许多解释变量,它又有7使用掉大量自由度的缺陷。另外,非线性关系的形式也是多种多样的。RESET 则是在模型(1)中添加模型(1)的 OLS 拟合值的多项式,以侦察函数形式误设的一般形式。为了实施 RESET,我们必须决定在一个扩大的回归模型中包括多少个拟合值的函数。虽然对这个问题没有正确的答案,但在大多数应用研究中,都表明平方项和三次项很有用。令 表示从模型(1)所得到的 OLS 估计值。考虑扩大的模型Y(4) 321210 YXXk这个模型看起来有些奇怪,因为原估计的拟合值的函数现在却出作为解释变量出现。实际上,我们对模型(4)的参数估计并不感兴趣,我们只是利用这个模型
13、来检验模型(1)是否遗漏掉了重要的非线性关系。记住, 和 都只是 的非线性函数。2Y3j对模型(4) ,我们检验虚拟假设 。这时,模型(4)是无约束模0,:210H型,模型(1)是受约束模型。计算 F 统计量。需要查 分布表。拒绝 ,模3,knF0H型(1)存在误设,否则,不存在误设。利用非嵌套模型检验函数形式误设寻求对函数形式误设的其他类型(比如,试图决定某一解释变量究竟应以水平值形式还是对数形式出现)作出检验,需要离开经典假设检验的辖域。有可能要相对模型(5) )log()log()log(210 kkXXY检验模型(1) ,或者把两个模型反过来。然而,它们是非嵌套的,所以我们不能仅使用标
14、准的 F 检验。有两种不同的方法。一种方法由 Mizon and Richard (1986)提出,构造一个综合模型,将每个模型作为一个特殊情形而包含其中,然后检验导致每个模型的约束。对于模型(1)和模型(5)而言,综合模型就是(6)kXY10 )log()log(1kkk X可以先检验 ,作为对模型(1)的检验。也可以通过对检验0,0:kH,作为对模型(5)的检验。,:10另一种方法由 Davison and MacKinnon (1981)提出。认为,如果模型(1)是正确的,那么从模型(5)得到的拟合值在模型(1)中应该是不显著的。因此,为了检验模型(1)8的正确性,首先用 OLS 估计模
15、型(5)以得到拟合值,并记为 。在新模型Y(7)XXYk1210中计算 的 t 统计量,利用 t 检验拒绝或接受假定 。显著的 t 统计量就是拒绝 0:H模型(1)的证据。类似的,为了检验模型(5)的正确性,首先用 OLS 估计模型(1)以得到拟合值,并记为 。在新模型Y(8) YXXkk)log()log()log( 1210 中计算 的 t 统计量,利用 t 检验拒绝或接受假定 。 0:1H以上两种检验方法可以用于检验任意两个具有相同的被解释变量的非嵌套模型。非嵌套检验存在一些问题。首先,不一定会出现一个明显好的模型。两个模型可能都被拒绝,也可能没有一个被拒绝。在后一种情形中,我们可以使用
16、调整的 R-平方进行选择。如果两个模型都被拒绝,则有更多的工作要做。不过,重要的是知道使用这种或那种函数形式的后果,如果关键性解释变量对被解释变量的影响没有多大差异,那么使用那个模型实际上并不要紧。第二个问题是,比如说使用 Davison and MacKinnon 检验拒绝了模型(5) ,这并不意味着模型(1)就是正确的模型。模型(5)可能会因为多种误设的函数形式而被拒绝。一个更为可能的问题是,在解释变量不同的模型之间进行比较时,如何实施非嵌套检验。一个典型的情况是,一个解释变量是 ,一个解释变量是 。使用调整的 R-平Y)log(Y方进行比较,需要小心从事。3.5 案例分析【案例 5-1】
17、现代投资分析的特征线涉及如下回归方程:;其中:r 表示股票或债券的收益率; 表示有价证券的收益tmtt ur10 mr率(用市场指数表示,如标准普尔 500 指数) ;t 表示时间。在投资分析中, 1被称为债券的安全系数 ,是用来度量市场的风险程度的,即市场的发展对公司的财产有何影响。依据 19561976 年间 240 个月的数据,Fogler 和 Ganpathy 得到 IBM 股票的回归方程;市场指数是在芝加哥大学建立的市场有价证券指数,括号内为标准差:mtt rr059.17264.0 20.471R(0.3001) (0.0728) 9请问:(1)解释回归参数的意义;(2)如何解释
18、R2值?(3)安全系数 1 的证券称为不稳定证券,建立适当的零假设及备选假设,并用 t 检验进行检验(=5%) 。【案例 5-2】现有工资和教育的回归方程 0.9.54wageeduc其中 wage 以小时计的工资,单位为元,educ 表示受教育的年限,单位为年。请问:(1)解释各参数值的经济学意义。(2)如果被解释变量,小时工资的计量单位由元改为百元,估计的截距项和斜率项有无变化?(3)如果(只是)解释变量,教育水平的计量改为月,估计的截距项和斜率项有无变化?【案例 5-3】考虑一个工资模型: 。我们关心的是,工012wageunivexu作一年是否比的上在大学的一年?问题:如何检验该假设?
19、【案例 5-4】考虑一个选举模型: 。其0123ABAvot prtysu中,voteA 是 A 得到的选票,exA,exB 分别是两个不同党派的候选人的竞选支出。我们关心的是,A 的竞选支出是否会被 B 的竞选支出所抵消?请问如何检验该假设?【案例 5-5】某地区通过一个样本容量为 722 的调查数据得到劳动力受教育的一个回归方程为: 210.369410.32.103YXXR其中,Y 为劳动者受教育年数,X1 为该劳动者家庭中兄弟姐妹的人数,X2 与 X3 分别为母亲与父亲受教育的年数。请问:(1)X1 与 X2 和 X3 是否存在相关性?为什么?(2)X2 与 X3 保持不变,为使预测的
20、受教育水平减少一年,需要 X1 增加多少?请对 X2 和 X3 的系数给予适当的解释。(3)如果两个劳动者都没有兄弟姐妹,但其中一个人的父母受教育年数为 12 和 12,另一个父母受教育年数为 16 和 16。则两人受教育的年数预期相差多少?【案例 5-6】设咖啡的需求函数为 XPPYlnllnlln 43210其中 Y 为咖啡的需求量,P1 为咖啡的价格,P2 为茶叶的价格,P3 为白糖的价格, 为消X费者收入。请问:(1)模型中那些参数表示自价格弹性?那些表示交叉价格弹性?那些表示收入弹性?(2)试对参数 的正负符号作出判断,并说明理由。4321,【案例 5-7】假设要求你建立一个计量经济
21、模型来说明学校跑道上慢跑一英里或以上的人数,以便决定是否修建第二条跑道以满足所有锻炼者。你通过整个学年收集数据,得到两个可能的解释性方程:方程 A: 2125.021.53 0.75YXXR方程 B: 3443其中,Y每天慢跑者的人数,X1该天降雨的英寸数,X2=该天日照的小时数,X3该天的最高温度;X4=第二天需交学期论文的班级数。这两个方程你认为那个更合理些,为什么?10【案例 5-8】考虑一个俱乐部棒球运动员的薪水模型: 012345log()saryearsgmeyrbavghrunsybiru其中:salary年薪水,year加入俱乐部的年资,gamesyr平均每年比赛次数,bavg
22、为平均职业击球次数,hrunsyr为平均每年本垒打次数,rbisyr每年击球跑垒得分。(1)解释模型中各个参数的经济含义。(2)假设我们想检验的虚拟假设是,一旦控制了俱乐部的年资和每年的比赛次数,度量球员表现的统计指标(bavg, hrunsyr 和 rbisyr)对薪水没有影响。请写出虚拟假设和备择假设。(3)如果原模型(不受约束模型)的回归结果是: 6278.0,18.3,35)1()06.(.4 )01.(2.9. 98026.81)log( RRSnrbisyhnusybavggamereaarys原假设成立时的(受约束模型,不含上述三个变量)的回归结果是: 2log()3.0 (0
23、5) (13) 35,198.,.97saryyearsgamesyrnS请给出检验上述虚拟假设的具体过程和结论(已知 ,64.2)7,(05.F) 。6.)247,(01.F(4)请说明上述两个回归方程的拟合优度谁高?(5)根据已有的估计结果,你认为什么样的模型设定比较合理?【案例 5-9】考虑一个住房价格定价理性的例子。在回归模型中。如果 ,则评价是合理的。所估计的方程是01priceasetu01, 24.796 () (.)R0.8,154.pricasetnRS(1)首先检验双测对立假设 ,然后检验:H0:H(2))检验联合假设 , (受约束模型的 RSS209488.99) 。对这个联合假设01, 进行 F 检验。(3)现在检验模型 的假设01233priceasetqrftlosizebdrmsu。利用同样的 88 个住房数据估计这个模型所得到的0234:, ,H11。20.89R