1、第7章 模型选择:标准与检验,我们前面已经提到过模型的设定误差,在实际应用中,我们应尽量避免出现设定误差,这就需要我们在选择模型的时候要特别注意。本章主要考虑下列问题: (1)“好的”或者“正确的”模型有哪些性质? (2)在实践中可能会犯哪些类型的设定误差? (3)设定误差的后果是怎样的? (4)如何诊断设定误差? (5)出现设定误差的补救措施有哪些?,7.1 “好的”模型具有的性质 7.2 设定误差的类型 7.3 遗漏相关变量:“过低拟合”模型 7.4 包括不相关变量:“过度拟合”模型 7.5 不正确的函数形式 7.6 度量误差 7.7 诊断设定误差:设定误差的检验 7.8 小结,7.1 “
2、好的”模型具有的特性,简约性(节省性) - 模型应尽可能的简单 可识别性 - 每个参数只有一个估计值 拟合优度高 - 拟合优度越大越好 理论一致性 - 与理论相合而非相背 预测能力好 - 理论预测能被实际经验所验证,7.2 设定误差的类型,1. 遗漏相关变量:“过低拟合”模型 2. 包括不相关变量:“过度拟合”模型 3. 采用了错误的函数形式 4. 度量误差,7.3 遗漏相关变量:“过低拟合”模型,考虑习题4.14中的数据,并考虑如下回归:Yi=B1+B2X2i+B3X3i+ui (7-1) 其中 Y:婴儿死亡率;X2:人均GNP;X3:女性识字率。如果我们采用并估计的是下面的方程:Yi= A
3、1+A2X2i+vi (7-2),返回(7-6),返回残差检验,也称“不足拟合”,注意此时vi的性质:vi中包含B3X3i+ui 。 这就可能会产生遗漏重要解释变量的错误。,返回(7-12),由于遗漏了变量X3t,若该变量是重要变量,则会出现遗漏变量偏差,可能会产生如下后果:(1) 如果X3与X2相关,则估计量a1和a2是有偏和不一致的 (2)如果X3与X2不相关,则估计量a2是无偏和一致的(3) 误差方差的估计是有偏的 (4) 估计量a2的方差是有偏的(5)置信区间和假设检验不可靠,例7.1 婴儿死亡率的决定因素利用表4-7给出的数据,式(7-1)的回归结果如下:CMi= 263.6416-
4、0.0056PGNPi-2.2316FLRise=(11.5932) (0.0019) (0.2099) (7-6)t = (22.74) (-2.8187) (-10.629)2=106315.6; R2=0.6981; 而错误设定式(7-2)的回归结果为:CMi= 157.4244-0.0114PGNPise=(9.8455) (0.0032) (7-7)t = (15.989) (-3.5157)2=303228.5; R2=0.1528;,返回(7-13),(1) 错误设定式表明:PGNP每增加1美元,平均而言婴儿死亡率降低约0.01。真实模型表明,PGNP每增加1美元,平均而言婴儿死
5、亡率降低约0.006。错误设定方程高估了(绝对值)PGNP对CM的影响。,注意两个回归结果有如下几个特点:,(2) 截距也是有偏的,本例中低估了真实的截距值(比较方程(7-6)和(7-7) (3) 从两个模型中所估计的RSS也明显不同 (4) 截距和斜率的标准差也明显不同 (5) 两模型的判定系数也有明显不同,7.4 包括不相关变量:“过度拟合”模型,为避免遗漏相关变量,将可能相关的所有的变量都包括进模型中是否可行?此时有可能犯“过度拟合”或者“过度设定”模型(也就是说包括非必须变量)的错误。这有可能是因为经济理论不完善,或者研究人员不能确定变量在模型中的作用。模型中包括非相关变量会导致什么后
6、果呢?,我们仍用简单的双变量和三变量模型加以说明。假设: Yi=B1+B2X2i+ui (7-9) 是正确设定的模型,但是,某研究者却加入了多余的变量X3,估计了以下的模型:Yi=A1+A2X2i+A3X3i+vi (7-10) 这里,设定误差是过度拟合了模型,此时,R2值会增加(若增加变量系数的t值的绝对值大于1,则校正后的R2也会增加),从而增加模型的预测能力。其它后果如下:,(1)“不正确”模型(7-10)的OLS估计量是无偏的(也是一致的)。 (2) 从回归方程(7-10)中所得的2的估计量是合适的估计值。 (3) 标准的置信区间和假设检验仍然是有效的。 (4) 但是回归方程(7-10
7、)中估计的参数的方差通常比从真实模型(7-9)中估计的大。因此,尽管假设-检验是有效的,但是估计的系数值没有根据正确模型所估计的真实值那么精确。简言之,OLS估计量是线性无偏估计量,但不是最优线性无偏估计量。,从上述讨论中我们注意到:遗漏相关变量比包括不相关变量的后果要严重一些。但是通常并不鼓励为避免遗漏相关变量而包括可能不相关的变量,因为:1.不必要变量的增加会减少估计量的有效性(即更大的标准差);2.可能导致多重共线性问题;3.自由度的损失更大。所以正确选择变量是非常重要的。,7.5 不正确的函数形式现在考虑另外一种设定误差。假设模型所包括的变量Y,X2,X3都是理论上正确的变量,考虑如下
8、两种模型设定:Yi=B1+B2X2i+B3X3i+ui (7-1)lnYi=A1+A2lnX2i+A3lnX3i+vi (7-12)方程(7-1)和(7-12)中的变量相同,但变量间的函数关系不同。注意:方程(7-12)是一个双对数线性模型,参数A2度量的是Y对X2的弹性,而在方程(7-1)中,B2度量的仅仅是Y与X2的变化率(斜率),两者是不一样的。如何从这两个方程中选择模型?如果用了不恰当的模型来拟合数据,很可能导致模型设定误差,所估计的系数可能是真实系数的有偏估计。,例7.3 美国进口商品支出考虑表7-1给出的数据:19592006年美国进口货物的支出Y、个人可支配收入X数据(单位:10
9、亿美元)。,下面我们给出根据模型(7-1)和(7-12)拟合的结果:t= 36295.32+0.2975X2t-18.5253X3tt = (6.3790) (20.5203) (-6.403) (7-13)R2=0.9839; lnt=10.9327+1.4857lnX2t-0.0085X3t t=(0.7014) (13.6501) (-1.0215) (7-14)R2=0.9959 (7-14)的回归结果表明:进口支出对PDI的弹性约为1.49,进口支出以0.85/年的速率在下降,而对于模型(7-13):进口支出在研究时期内以185亿/年的速率减少,这两个数值无法比较。而且,两方程中的R
10、2值也无法比较,因为这两个模型中的被解释变量是不相同的。 见Eviews文件。,7.6 度量误差,我们一直隐含地假定应变量Y和解释变量X不存在度量误差。也就是说,在进行回归时,假定这些变量的数据是准确的,不存在度量误差。但在实践中,这一假定可能难以满足。度量误差的后果取决于误差是产生于应变量还是解释变量。,7.6.1 应变量中的度量误差 如果仅仅是应变量中的度量误差,则有: (1)OLS估计量是无偏的。 (2)OLS估计量的方差也是无偏的。 (3)估计量的估计方差比没有度量误差时大。,7.6.2 解释变量中的度量误差如果解释变量中存在度量误差,则有:(1)OLS估计量是有偏的。(2)OLS估计
11、量是不一致的。所以,解释变量中的度量误差是一个严重问题。如果应变量和解释变量中都存在度量误差,则问题更为严重。 补救措施:(1)确保变量X的数据尽可能准确,避免记录、舍入和遗漏误差,并确保数据的可比性。(2)使用工具变量(或替代变量)。这些变量与原始的X变量高度相关,但与度量误差和回归误差项无关。有时可以找到这样的变量,但也是也很困难。,7.7 诊断设定误差:设定误差的检验,7.7.1 诊断非相关变量的存在 7.7.2 对遗漏变量和不正确函数形式的检验 7.7.3 MWD检验 7.7.4 回归误差设定检验,我们已经知道设定误差的类型和产生的后果,但如何知道我们所建立的模型是否存在设定误差,设定
12、误差属于哪一种类型?只有知道这些,我们才知道我们的模型是否正确,如果不正确,如何进行改进。,如果经济理论表明某几个变量X1,X2,X3对Y都有影响,模型中自然应该包括这三个变量,即使其中的某个变量的系数是统计不显著的。如果我们不能肯定模型中是否还包含变量X4,为了避免产生遗漏变量偏差,将该变量X4引入模型,若经检验(t检验)该变量是统计不显著的,并且去掉它对模型影响不大(对估计值和假设检验的结果影响不大),就抛弃该变量。如果我们不能肯定模型中是否还包含变量X4 和X5,可用F检验对零假设:B4=B5=0进行检验。,7.7.1 诊断非相关变量的存在,例7-4 85个国家的生命预期为了评估收入和获
13、得保健对生命预期的影响,收集了85个国家的数据,回归结果见下表。应变量是生命预期(单位:年)。,具体指标比较可见Eviews文件输出结果。,7.7.2 对遗漏变量和不正确函数形式的检验首先根据理论或调查以及先前的工作经验,建立一个自以为抓住了问题的本质的模型。然后对这个模型进行实证检验,并对回归结果进行仔细的分析。判断模型是否恰当,主要是根据以下一些参数:(1) 与预期相比,估计系数的符号(2) R2和校正后的R2 (3) 估计的t值,残差检验残差ei也可用于检验模型的设定误差,比如检验是否遗漏了某个重要变量或使用了不正确的函数形式。例如模型(7-1)和(7-2),如果方程(13-1)是正确的
14、,我们却使用了方程(7-2),则可认为模型(7-2)误差项为:vt=B3X3t+ut ,即残差项vt与X3t有相关关系,不是一个白噪声,可根据残差的这种特点来确定模型是否恰当。,回到模型(7-13):进口支出对PDI和时间的回归。假定我们错误地漏掉了时间或趋势变量,估计了如下回归方程:,其中:Y:进口商品支出;X:个人可支配收入 也即如果趋势变量X3确实应包含在模型中,则上面模型中的误差项应为:所以残差会显示出一些系统模式。,注:S1是漏掉趋势变量后模型的残差; S2是包含趋势变量模型的残差 具体结果见Eviews文件。,其他检验设定误差的方法(1)麦克金农-怀特-戴维森检验(MWD检验)(2
15、)拉姆齐(Ramsey)RESET检验(设定误差检验)(3)瓦尔德(Wald)检验(4)拉格朗日乘数检验 (5)霍斯曼(Hausman)检验(6)博克斯考克斯变换 (Box-Cox transformation)(以确定回归模型的函数形式),7.7.3 在线性模型和对数线性模型之间选择:MWD检验,H0: 线性模型: Y是X的线性函数 H1: 对数线性模型: lnY是X或lnX的线性函数估计线性模型,得到Y的估计值 估计线性对数模型,得到lnY的估计值 求 做Y对X和Z1i的回归 如果根据t检验Z1i的系数是统计显著的,则拒绝H0,检验步骤如下:,(6)令(7)做lnY对X或lnX和Z2i的回
16、归如果Z2i的系数是统计显著的,则拒绝H1,回到进口支出一例,假定真实的进口支出函数是线性的,在这一假定下,按照上述步骤,得到的结果见下表:,7.7.4 回归误差设定检验:RESET,RESET检验步骤: (1)根据原设定模型估计出Y值,记为 (2)若残差图表明残差与Y的估计值之间存在某种曲线关系,则考虑如下模型:(3)做F检验:,(7-24),(7-23),若F值是统计显著的,则认为原始模型是错误设定的。RESET检验的优点之一,在于简单易行,因为它无须设定备择模型。但是,如果检验结论说明原始模型是错误设定的,该检验结果并不能帮助我们选择正确模型。,对于进口支出一例,方程(7-23)的实证分
17、析结果见下表:,利用式(7-24)进行F检验,得到:,该值大于此时的F临界值5.122,所以拒绝零假设,即原模型是错误设定的。,7.8 小结本章讨论的要点如下: 1.古典线性回归模型假定实证分析中所使用的模型是“正确设定的” 2.模型的正确设定有几种含义(包含的变量不多、不少,函数形式正确等) 3.如果模型遗漏重要变量,则此模型所估系数通常有偏且不一致,t检验和F检验失效 4.使用错误的函数形式,会有类似结果,返回首页,5.如何模型中包含非相关变量,估计的系数仍是无偏和一致的,估计量的误差方差和标准差也是正确的,传统的假设检验也是有效的,但估计的标准差会相对变大,也即参数估计值不很精确,从而导致置信区间变宽。 6.讨论了判断在具体应用中是否存在设定错误的几种诊断工具。 7.讨论了评估模型预测能力的AIC标准和BIC标准。寻找理论上正确的模型可能相当麻烦,需牢记几个实践标准:节俭;可识别;拟合优度高;理论一致性;预测能力好。,