1、1,第6章 模型设定:解释变量的选择,正确的方程由三部分组成:正确的解释变量、正确的方程形式、正确的随机误差形式。 任何一部分的选择错误都会造成模型的设定误差。 关于解释变量选取的偏误,主要包括漏选相关变量和多选无关变量。 决定解释变量是否应该在方程中的关键依据:理论 如果理论含糊不清,则根据一些统计工具帮助判断。,2,6.1 遗漏变量,遗漏变量偏误:在方程估计中,如果遗漏自变量会导致其它自变量的估计是有偏的,称为过低拟合”模型.,3,例如,如果“正确”的模型为:,而我们将模型设定为,6.1.1 遗漏变量的后果,4,例:研究产出与投入的劳动力和资本的关系,5,6,6.1.2 设定偏误示例,7,
2、6.1.3 遗漏变量的纠正,加入遗漏变量,但实际中做起来很难: 1、遗漏变量导致的偏误很难察觉;有时偏误较小难以察觉,例如方程(6-9)例外:如果估计值和预期值符号相反,则可以判断可能遗漏相关变量. 最好的判断标准是建立模型的理论;在估计之前先确定选择哪些变量、判断预期符号是什么?,8,2、如何识别相关变量?当研究者面临明显的设定偏误时,通常没有什么线索可以提示,是哪一个变量引起的问题.要避免犯数据挖掘的错误。剔除一个变量也无法根治遗漏变量偏误. 如果基于一个出乎意料的结果确定模型遗漏了一个变量,则可以通过预期分析方法寻找可能遗漏的变量.预期偏误分析只能用于判断在理论上被认为是合理的潜在变量.
3、 例P96,回到鸡肉消费的例子.,9,残差分析:通过分析包含遗漏变量的残差的图形模式寻找遗漏变量,残差分析也只能用于判断在理论上被认为是合理的后选变量.,10,6.2 不相干变量,6.2.1 加入不相干变量的影响,11,例:对方程 进行OLS估计,X2是不相关变量,真实系数为0,不会导致偏误, OLS估计量却不具有最小方差性。,中X1的方差,中X1的方差:,当X1与X2完全线性无关时,两者相等,否则不等.,12,遗漏变量和包含不相关变量的影响,P97,表6-1,13,6.2.2 误选不相干变量的实例,14,6.2.3模型设定的四个重要准则,是否增加或删除一个变量时,考虑: 1、理论:是否合理?
4、 2、t检验:变量系数的估计值在预期的方向上是不是显著的? 3、调整的R2:将变量加入方程后,总体拟合度是否改进? 4、偏误:将变量加入方程后,其他变量系数是否有显著的变化? 如果都满足,则加入此变量。 如果都不满足,则为不相关变量. 如果四个准则的判断结果不一致,则需谨慎判断.,15,6.3 滥用模型设定准则的一个实例,盲目使用四个设定准则可能会导致错误判断,所以牢记经济理论是判定模型是否应该包含一个变量的最重要准则.即使对t值不显著的变量,仍不能简单地从方程中排除. 例:P99,16,6.4 模型设定搜索,6.4.1 设定搜索的最优实践 1.尽可能根据理论而不是统计上的拟合度来选择变量、方
5、程形式或者类似的设定问题; 2.减少待估方程的数量; 3.选择一些模型设定准则(附录P111-114)。,17,6.4.2 按顺序搜索,首先估计一个初始方程,然后相继去掉或加入变量,直到找到一个合理的具有良好统计性质方程为止。 问题1:导致结果的统计显著性被高估,名义显著性水平与真实显著性水平存在较大差异。,18,问题2:研究者只报告最终结果,读者无法知道其它的结果是否存在重要变量的符号与预期相反或者系数不显著等信息。目前没有一种普遍承认的进行序贯搜索的方法。 建议:尽可能减少回归的数量,在选择变量或函数形式时注重理论考察,报告所有的模型设定。即节省性原则和公开原则。,19,6.4.3 依据t
6、检验选择变量引起的偏误,20,6.4.4 敏感性分析,敏感性分析:在确定了潜在最优方程之后,通过有目的地回归大量备选的模型,以决定某一特定结果是否具有稳健性.由于真实模型的设置是未知的,所以试图通过这种方式决定一个潜在的”最优方程”对模型设定是如何敏感的,目的是为了让读者相信某一特殊结果对各种模型设定、函数形式、变量定义或数据的子集都是显著的。,21,6.4.5 数据挖掘,数据挖掘:在确定最优方程之前估计各种备选的模型设定形式,并希望借此找出最优方程。 注意: 如果你用数据挖掘的方法建立了一个假设,就必须用不同的数据集检验这一假设。 数据挖掘会引导你选择能反映你的特殊数据集的特质的模型设定,t
7、值会夸大估计系数在统计上的显著性。 进行不恰当的数据挖掘以获得理想的最终回归方程的统计结果,是一种潜在的不道德的实证研究方式,即”如果你对数据严刑拷打,它就会屈打成招.”,22,6.5 选择自变量的一个例子,P103,23,小结,24,附录6A 其他设定准则,三个常用的模型设定准则:拉姆齐重设检验赤池信息准则施瓦茨准则,25,6A.1 拉姆齐回归设定偏误检验,26,拉姆齐重设检验的例子,P112-113,27,受约束的最小二乘法:F检验法,28,一般的检验方法,先有一个较大的模型,即无约束模型,含个解释变量; 再有一个较小的受约束模型: 一个或多个参数受到某种线性约束,如: 零假设:;(m=1) 零假设:;(m=1) 零假设:;(m=4) 分别用无约束模型和受约束模型去拟合数据,得到残差平方和,然后计算F统计量,并使用决策原则。 注意:线性约束个数m的判断,m为线性约束的个数或者从模型中略去的回归元个数。,29,6A.2 赤池信息准则和施瓦茨准则,30,拉姆齐重设检验与AIC和SC的区别,拉姆齐重设检验最适合于作为存在设定错误的一般检验;AIC和SC更适合于比较两个或多个备选模型时使用.,31,习题,2、3、4、6、8、9 11、12、13、14、16、17,