1、1第四章 经典单方程计量经济学模型:放宽基本假定的模型一、内容提要本章主要介绍计量经济模型的二级检检验问题,即计量经济检验。主要讨论对回归模型的若干基本经典假定是否成立进行检验、当检验发现不成立时继续采用 OLS 估计模型所带来的不良后果以及如何修正等问题。具体包括异方差性问题、序列相关性问题、多重共线性问题以及随机解释变量这四大类问题。异方差是模型随机扰动项的方差不同时产生的一类现象。在异方差存在的情况下,OLS 估计尽管是无偏、一致的,但通常的假设检验却不再可靠,这时仍采用通常的 t 检验和 F 检验,则有可能导致出现错误的结论。同样地,由于随机项异方差的存在而导致的参数估计值的标准差的偏
2、误,也会使采用模型的预测变得无效。对模型的异方差性有若干种检测方法,如图示法、Park 与 Gleiser 检验法、Goldfeld-Quandt 检验法以及 White 检验法等。而当检测出模型确实存在异方差性时,通过采用加权最小二乘法进行修正的估计。序列相关性也是模型随机扰动项出现序列相关时产生的一类现象。与异方差的情形相类似,在序列相关存在的情况下,OLS 估计量仍具无偏性与一致性,但通常的假设检验不再可靠,预测也变得无效。序列相关性的检测方法也有若干种,如图示法、回归检验法、Durbin-Watson 检验法以及 Lagrange 乘子检验法等。存在序列相关性时,修正的估计方法有广义最
3、小二乘法(GLS)以及广义差分法。多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。模型的多个解释变量间出现完全共线性时,模型的参数无法估计。更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得 t-统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。而解决多重共线性的
4、办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。当模型中的解释变量是随机解释变量时,需要区分三种类型:随机解释变量与随机扰2动项独立,随机解释变量与随机扰动项同期无关、但异期相关,随机解释变量与随机扰动项同期相关。第一种类型不会对 OLS 估计带来任何问题。第二种类型则往往导致模型估计的有偏性,但随着样本容量的增大,偏误会逐渐减小,因而具有一致性。所以,扩大样本容量是克服偏误的有效途径。第三种类型的 OLS 估计则既是有偏、也是非一致的,需要采用工具变量法来加以克服。二、典型例题分析1、下列哪种情况是异方差性造成的结果?(1)OLS 估计量是有偏的(2)通常的 t 检验不再服
5、从 t 分布。(3)OLS 估计量不再具有最佳线性无偏性。解答:第(2)与(3)种情况可能由于异方差性造成。异方差性并不会引起 OLS 估计量出现偏误。2、已知模型 tttt uXY2102)(tttZuVar式中,Y、X 1、X 2 和 Z 的数据已知。假设给定权数 ,加权最小二乘法就是求下式中的各tw,以使的该式最小 22102 )()( ttttt XYuwRS (1)求 RSS 对 1、 2 和 2 的偏微分并写出正规方程。(2)用 Z 去除原模型,写出所得新模型的正规方程组。(3)把 带入(1)中的正规方程,并证明它们和在(2)中推导的结果一样。tt/解答:(1)由 对各 求偏导得2
6、2102 )()( ttttt XwwYuwRS 如下正规方程组:)( 210 ttttt XY01ttttt )( 210 ttttt ww3(2)用 Z 去除原模型,得如下新模型 ttttt ZuXY210对应的正规方程组如下所示: 01)(210 tttttZ)( 1210ttttt ZXY0)( 2210 tttttZ(3)如果用 代替(1)中的 ,则容易看到与(2)中的正规方程组是一样的。t tw3、已知模型 iiii uXY210式中, 为某公司在第 i 个地区的销售额; 为该地区的总收入; 为该公司在该地iYi iX2区投入的广告费用(i=0,1,2,50) 。(1)由于不同地区
7、人口规模 可能影响着该公司在该地区的销售,因此有理由怀疑iP随机误差项 ui 是异方差的。假设 依赖于总体 的容量,请逐步描述你如何对此进行检ii验。需说明:1)零假设和备择假设;2)要进行的回归;3)要计算的检验统计值及它的分布(包括自由度) ;4)接受或拒绝零假设的标准。(2)假设 。逐步描述如何求得 BLUE 并给出理论依据。iiP解答:(1)如果 依赖于总体 的容量,则随机扰动项的方差 依赖于 。因此,要进i i 2i2iP行的回归的一种形式为 。于是,要检验的零假设 H0: ,备择iiiP2102 10假设 H1: 。检验步骤如下:01第一步:使用 OLS 方法估计模型,并保存残差平
8、方项 ;2ie第二步:做 对常数项 C 和 的回归2ie2iP第三步:考察估计的参数 的 t 统计量,它在零假设下服从自由度为 2 的 t 分布。1第四步:给定显著性水平面 0.05(或其他) ,查相应的自由度为 2 的 t 分布的临界值,4如果估计的参数 的 t 统计值大于该临界值,则拒绝同方差的零假设。1(2)假设 时,模型除以 有:iiPiiiiii PuXY210由于 ,所以在该变换模型中可以使用 OLS 方法,得出 BLUE22/)/(iiPuVar估计值。方法是对 关于 、 、 做回归,不包括常数项。iYi/1iX/1i/24、以某地区 22 年的年度数据估计了如下工业就业回归方程
9、 321ln6.0l5.ln.089.3X(-0.56)(2.3) (-1.7) (5.8)2.6R147.DW式中,Y 为总就业量;X1 为总收入;X2 为平均月工资率;X3 为地方政府的总支出。(1)试证明:一阶自相关的 DW 检验是无定论的。(2)逐步描述如何使用 LM 检验解答:(1)由于样本容量 n=22,解释变量个数为 k=3,在 5%在显著性水平下,相应的上下临界值为 、 。由于 DW=1.147 位于这两个值之间,所以 DW 检验是64.Ud503.1Ld无定论的。(2)进行 LM 检验:第一步,做 Y 关于常数项、 lnX1、lnX2 和 lnX3 的回归并保存残差 ; te
10、第二步,做 关于常数项、lnX1、lnX2 和 lnX3 和 的回归并计算 ;te1te2R第三步,计算检验统计值(n-1) =210.996=20.916;2R第四步,由于在不存在一阶序列相关的零假设下(n-1) 呈自由度为 1 的 分布。在 5%的22显著性水平下,该分布的相应临界值为 3.841。由于 20.9163.841,因此拒绝零假设,意味着原模型随机扰动项存在一阶序列相关。5、某地区供水部门利用最近 15 年的用水年度数据得出如下估计模型: rainpricecypohousewater 123.87.105.36.035.0926 (-1.7) (0.9) (1.4) (-0.
11、6) (-1.2) (-0.8)F=38.9.2R式中,water用水总量(百万立方米),house住户总数(千户),pop总人口(千人),pcy人均收入(元),price价格(元/100 立方米),rain降雨量5(毫米) 。(1)根据经济理论和直觉,请计回归系数的符号是什么(不包括常量),为什么?观察符号与你的直觉相符吗?(2)在 10%的显著性水平下,请进行变量的 t-检验与方程的 F-检验。T 检验与 F 检验结果有相矛盾的现象吗?(3)你认为估计值是(1)有偏的;(2)无效的或(3)不一致的吗?详细阐述理由。解答:(1)在其他变量不变的情况下,一城市的人口越多或房屋数量越多,则对用水
12、的需求越高。所以可期望 house 和 pop 的符号为正;收入较高的个人可能用水较多,因此 pcy 的预期符号为正,但它可能是不显著的。如果水价上涨,则用户会节约用水,所以可预期price 的系数为负。显然如果降雨量较大,则草地和其他花园或耕地的用水需求就会下降,所以可以期望 rain 的系数符号为负。从估计的模型看,除了 pcy 之外,所有符号都与预期相符。(2)t-统计量检验单个变量的显著性,F-统计值检验变量是否是联合显著的。这里 t-检验的自由度为 15-5-1=9,在 10%的显著性水平下的临界值为 1.833。可见,所有参数估计值的 t 值的绝对值都小于该值,所以即使在 10%的
13、水平下这些变量也不是显著的。这里,F-统计值的分子自由度为 5,分母自由度为 9。10%显著性水平下 F 分布的临界值为 2.61。可见计算的 F 值大于该临界值,表明回归系数是联合显著的。T 检验与 F 检验结果的矛盾可能是由于多重共线性造成的。house、pop、pcy 都是高度相关的,这将使它们的 t-值降低且表现为不显著。price 和 rain 不显著另有原因。根据经验,如果一个变量的值在样本期间没有很大的变化,则它对被解释变量的影响就不能够很好地被度量。可以预期水价与年降雨量在各年中一般没有太大的变化,所以它们的影响很难度量。(3)多重共线性往往表现的是解释变量间的样本观察现象,在
14、不存在完全共线性的情况下,近似共线并不意味着基本假定的任何改变,所以 OLS 估计量的无偏性、一致性和有效性仍然成立,即仍是 BLUE 估计量。但共线性往往导致参数估计值的方差大于不存在多重共线性的情况。6、一个对某地区大学生就业增长影响的简单模型可描述如下 ttttt gGDPgPOMINgEP 413210式中,为新就业的大学生人数,MIN1 为该地区最低限度工资, POP 为新毕业的大学生人数,GDP1 为该地区国内生产总值,GDP 为该国国内生产总值;g 表示年增长率。(1)如果该地区政府以多多少少不易观测的却对新毕业大学生就业有影响的因素作为基础来选择最低限度工资,则 OLS 估计将
15、会存在什么问题?(2)令 MIN 为该国的最低限度工资,它与随机扰动项相关吗?(3)按照法律,各地区最低限度工资不得低于国家最低工资,哪么 gMIN 能成为gMIN1 的工具变量吗?解答:6(1)由于地方政府往往是根据过去的经验、当前的经济状况以及期望的经济发展前景来定制地区最低限度工资水平的,而这些因素没有反映在上述模型中,而是被归结到了模型的随机扰动项中,因此 gMIN1 与不仅异期相关,而且往往是同期相关的,这将引起OLS 估计量的偏误,甚至当样本容量增大时也不具有一致性。(2)全国最低限度的制定主要根据全国国整体的情况而定,因此 gMIN 基本与上述模型的随机扰动项无关。(3)由于地方
16、政府在制定本地区最低工资水平时往往考虑全国的最低工资水平的要求,因此 gMIN1 与 gMIN 具有较强的相关性。结合(2)知 gMIN 可以作为 gMIN1 的工具变量使用。三、习题(一)基本知识类题型4-1解释下列概念:(1)异方差性(2)序列相关性(3)多重共线性(4)偏回归系数(5)完全多重共线性(6)不完全多重共线性(7)随机解释变量(8)差分法(9)广义最小二乘法(10)D.W.检验4-2判断下列各题对错,并简单说明理由:1) 在存在异方差情况下,普通最小二乘法(OLS)估计量是有偏的和无效的;2) 如果存在异方差,通常使用的 t 检验和 F 检验是无效的;3) 在存在异方差情况下
17、,常用的 OLS 法总是高估了估计量的标准差;4) 如果从 OLS 回归中估计的残差呈现系统模式,则意味着数据中存在着异方差;5) 当存在序列相关时,OLS 估计量是有偏的并且也是无效的;6) 消除序列相关的一阶差分变换假定自相关系数 必须等于 1;7) 两个模型,一个是一阶差分形式,一个是水平形式,这两个模型的 R2 值是不可以直接比较的。8) 回归模型中误差项 存在异方差时,OLS 估计不再是有效的;tu79) 回归模型中误差项 存在序列相关时,OLS 估计不再是无偏的;tu4-3简述异方差对下列各项有何影响:(1)OLS 估计量及其方差;(2)置信区间;(3)显著性 t 检验和 F 检验
18、的使用。4-4在存在 AR(1)自相关的情形下,什么估计方法能够产生 BLUE 估计量?简述这个方法的具体步骤。(二)基本证明与问答类题型4-5在存在 AR(1)的情形下,估计自相关参数 有哪些不同的方法?4-6在如下回归中,你是否预期存在着异方差?Y X 样本a) 公司利润 净财富 财富500 强b) 公司利润的对数 净财富的对数 财富500 强c) 道琼斯工业平均指数 时间 19601990 年(年平均)d) 婴儿死亡率 人均收入 100 个发达国家和发展中国家e) 通货膨胀率 货币增长率 美国、加拿大和 15 个拉美国家4-7已知消费模型: tttt uxy210其中: 消费支出ty个人
19、可支配收入tx1消费者的流动资产t20)(tuE为 常 数 )其 中 221(ttarxV要求:(1)进行适当变换消除异方差,并证明之;(2)写出消除异方差后,模型的参数估计量的表达式。4-8什么是异方差性?举例说明经济现象中的异方差性。检验异方差性的方法思路是什么?4-9什么是序列相关性?举例说明经济现象中序列相关性的存在。检验序列相关性的方法思路是什么?熟悉 D.W.统计量的计算方法和查表判断。4-10什么是多重共线性?产生多重共线性的经济背景是什么?多重共线性的危害是什么?为什么会造成这些危害?检验多重共线性的方法思路是什么?有哪些克服方法?84-11随机解释变量的来源有哪些?随机解释变
20、量可以造成哪些结果?4-12当模型中出现随机解释变量时,最小二乘估计量具有什么特征?4-13试比较说明普通最小二乘法与加权最小二乘法的区别与联系。4-14估计量的渐近统计性质的含义是什么?什么是渐近无偏性? 4-15什么是估计的一致性?证明对于工具变量法的估计量 是 的一致估计。4-16为什么回归残差序列可以作为检验线性回归模型误差项的各种问题的基础?4-17对于线性回归模型: ,已知 为一阶自回归形式:tt uXY10u,要求:证明 的估计值为:tttu1nttte214-18证明下面方程中的误差项 是同方差的。i, 其中:iiiii XuXY2121)()()( iiXu(三)基本计算类题
21、型4-19某上市公司的子公司的年销售额 Yt 与其总公司年销售额 Xt 的观测数据如下表:序号 X Y 序号 X Y1 127.3 20.96 11 148.3 24.542 130.0 21.40 12 146.4 24.303 132.7 21.96 13 150.2 25.004 129.4 21.52 14 153.1 25.645 135.0 22.39 15 157.3 26.366 137.1 22.76 16 160.7 26.987 141.2 23.48 17 164.2 27.528 142.8 23.66 18 165.6 27.789 145.5 24.10 19 1
22、68.7 28.2419 145.3 24.01 20 171.7 28.78要求:(1)用最小二乘法估计 关于 的回归方程;tYtX(2)用 D.W.检验分析随机项的一阶自相关性;(3)用 Durbin 两步法估计回归模型的参数;(4)直接用差分法估计回归模型的参数.4-20下表是被解释变量 Y 及解释变量 X1、X 2、X 3、X 4 的时间序列观测值:9Y 6.0 6.0 6.5 7.1 7.2 7.6 8.0 9.0 9.0 9.3X1 40.1 40.3 47.5 49.2 52.3 58.0 61.3 62.5 64.7 66.8X2 5.5 4.7 5.2 6.8 7.3 8.7
23、 10.2 14.1 17.1 21.3X3 108 94 108 100 99 99 101 97 93 102X4 63 72 86 100 107 111 114 116 119 121要求:(1)采用适当的方法检验多重共线性;(2)多重共线性对参数估计值有何影响?(3)用修正 Frisch 法确定一个较好的回归模型。4-21下表是某种商品的需求量、价格以及消费者收入的统计资料:年份 1 2 3 4 5 6 7 8 9 10需求量 Y 3.5 4.3 5.0 6.0 7.0 9.0 8.0 10 12 14价格 X1 16 13 10 7 7 5 4 3 3.5 2收入 X2 15 20
24、 30 42 50 54 65 72 85 90要求:(1)检验 X1 和 X2 是否存在严重的多重共线性?(2)如何解决或减轻多重共线性的影响,并给出这一问题的回归方程。4-22对于模型: ttt uY121要求:(1)如果用变量的一次差分估计该模型,采用何种自相关形式?(2)用差分估计时,并不删除截距,其含义是什么?(3)假设模型存在一阶自相关,如果用 OLS 法估计,试证明其估计式: 仍22ixy然是无偏的,式中的 , 。XxiiYyii(4)试证明 不是有效的。221)(iVar4-23某国的政府税收 T(单位:百万美元) 、国内生产总值 GDP(单位:10 亿美元)和汽车数量 Z(单
25、位:百万辆)的观测数据如下表所示:序号 T GDP Z1 3 4 52 2 1 23 5 7 6104 6 8 75 4 5 56 5 7 67 7 8 68 9 11 79 8 10 7要求:试以汽车数量 Z 作为国内生产总值 GDP 的工具变量,估计税收函数:ttGDPT104-24继续习题 3-21 的讨论。问题如下:(1)假定做 GMAT 分数对 GPA 的回归分析,并且发现两变量之间显著正相关。那么,你对多重共线性问题有何看法?(2)对习题 3-21 的(1)建立方差( ANOVA)分析表并检验假设:所有偏回归系数均为零。(3)用 R2 值,对本题(2)建立 ANOVA 表进行分析。
26、4-25如果解释变量之间的相关系数为 0,则称它们是正交的。对于模型: tttt uXY210若 X1 与 X2 是正交的,证明下列结论:(1)多元线性回归的最小二乘估计量 、 分别等于 Y 对 X1、Y 对 X2 的一元线性回归12的最小二乘估计量;(2)多元回归的回归平方和为两个一元回归的回归平方和的和。4-26假设 Y 为内生变量,X 为外生变量,以下各组方程中哪些方程可以用 DurbinWatson 方法检验一阶自相关:(1) tttu11tttt YXY222(2) ttt11tttt u2)1(2)(2(3) tttXY11ttt 22114-27有 5 个解释变量的多元线性回归模
27、型,用容量为 93 的样本数据进行回归分析。若根据回归残差序列计算的 D.W.值为 1.1,应得出什么结论?若 D.W.值为 2.35 呢?4-28若已知线性回归模型 的误差项的方差为 ,210XY 321iiX问处理该模型的方法是什么?4-29一个两变量线性回归模型的回归残差序列如下表所示:n 残差 e n 残差 e n 残差 e1 0.013 8 -0.082 15 0.1982 0.054 9 -0.053 16 0.1033 -0.014 10 0.041 17 0.0004 -0.042 11 -0.151 18 -0.0635 -0.078 12 -0.054 19 -0.0586
28、 -0.056 13 0.0427 0.083 14 0.117要求:请分析该模型的误差项是否存在什么问题?若存在一些问题,说明有哪些处理方法可以考虑?4-30在研究生产中的劳动在增加值中所占的份额(即劳动份额)的变动时,有以下模型:模型 A: tt uY10模型 B: tt 2其中,Y 为劳动份额,t 为劳动时间。根据该研究时期内的 15 年数据进行参数估计,得到模型结果为:模型 A: tt 041.528. 5284.0R825.0.WD)963(模型 B: 2.7 ttYt )24()(69.02R82.1.WD其中:括号中的数字是 t 检验值。要求:(1)模型 A 中有没有自相关?模型
29、 B 呢?(2)如何解释自相关的存在?12(3)你会怎样区分“纯粹”自相关和模型形式设定错误?13四、习题解答4-1答:异方差性指对于不同的样本值,随机扰动项的方差不再是常数,而是互不相同的。序列相关性指对于不同的样本值,随机扰动项之间不再是完全相互独立,而是存在某种相关性。(3)多重共线性指两个或多个解释变量之间不再彼此独立,而是出现了相关性。偏回归系数指:在三变量线性回归模型中,当其中一个解释变量为常量时,另一个解释变量对被解释变量均值的影响。完全多重共线性指:在有多个解释变量模型中,其中一个变量可以表示为其他多个变量的完全线性函数,即 ,其中至少有一个kXBXB321, 与等式右边线性组
30、合的相关系数为 1,则这种情况被称为完全),32(,0kiBi 多重共线性。在此情况下,不能估计解释变量各自对被解释变量的影响。不完全多重共线性指:在实际经济活动中,多个解释变量之间存在多重共线性问题,但 与等式右边线性组合的相关系数不为 1。1X随机解释变量指:在现实经济现象中,解释变量是不可控的,即解释变量的观测值具有随机性,并且与模型的随机误差项有相关关系,这样的解释变量称为随机解释变量。差分法是一类克服序列相关性的有效方法。它是将原计量经济模型变换为差分模型,分为一阶差分法和广义差分法。广义最小二乘法(GLS)即最具有普遍意义的最小二乘法。D.W.检验:全称杜宾瓦森检验,适用于一阶自相
31、关的检验。该法构造一个统计量:,计算该统计量的值,根据样本容量 和解释变量数目 查 D.W.niiieWD121)(. nk分布表,得到临界值 和 ,然后按照判断准则考察计算得到的 D.W.值,以判断模型的ldu自相关状态。144-2答:错。当存在异方差情况下,OLS 法估计量是无偏的但不具有有效性。对。如果存在异方差,通常使用的 t 检验和 F 检验是无效的。 错。实际情况可能是高估也可能是低估。对。通过将残差对其相应的观察值描图,了解变量与残差之间是否存在可以观察到的系统模式,就可以判断数据中是否存在异方差。错。当存在序列相关时,OLS 法估计量是无偏的但不具有有效性。对。即假设误差项之间
32、是完全正序列相关的,这样广义差分方程就转化为一阶差分方程。对。对。错。仍是无偏的。4-3答:由于异方差的存在,使得:OLS 估计量仍是线性无偏但不再具有最小方差,即不再有效;相应的置信区间和 t 检验、F 检验都是不可靠的。4-4答:在存在 AR自相关的情况下,使用广义最小二乘法能够产生 BLUE 估计量。具体步骤简述如下:4-5答:在存在 AR的情况下,估计自相关参数 有下述几种方法:4-6答:存在;不存在;不存在;存在;存在。4-7答:模型两边同时除以 进行变换,得:tx1 tttt xuxy12101ttt 1210其中: ,可以证明误差项 是同方差的。证明如下:ttxu1ttxu1已知
33、: , , (根据已知条tt121tt 221212 )()()() ExEttt件 为常数) ,证得变换后的误差项是同方差的。2154-8答:对于模型 ( ) ,如果出ikiiii uxxy210 n,21现 ,即对于不同的样本点,随机误差项的方差不再是常数,),21(,)(nuVarii 而且互不相同,则认为出现了异方差性。在现实经济运行中,异方差性经常出现,尤其是采用截面数据作样本的计量经济学问题。如:工业企业的研究与发展费用支出同企业的销售和利润之间关系的函数模型;服装需求量与季节、收入之间关系的函数模型;个人储蓄量与个人可支配收入之间关系的函数模型等。检验异方差性的思路即检验随机误差
34、项的方差与解释变量观察值之间是否存在相关性。4-9答:对于模型 ( ) ,如果出ikiiii uxxy210 n,21现 ,即对于不同的样本点,随机误差项之间不再是),(,),( njuCovji 完全互相独立,而是存在某种相关性,则认为出现了序列相关性。在现实经济运行中,序列相关性经常出现,尤其是采用时间序列数据作样本的计量经济学问题。如:以时间序列数据作为样本建立的行业生产函数模型;以时间序列数据作样本建立的居民总消费函数模型等。检验序列相关性的方法思路即先采用 OLS 法估计模型,以求得随机误差项的“近似估计量 ”,然后通过分析这些“近似估计量 ”之间的相关性以达到判断随机误差项是ie ie否具有序列相关性的目的。4-10答:对于模型 ( ) ,如果ikiiii uxxy210 n,21某两个或多个解释变量之间出现了相关性,则称为多重共线性。