1、1,第11章,关于虚拟变量的回归,2,第11章 关于虚拟变量的回归,1、虚拟变量的性质 2、对一个定量变量和一个两分定性变量的回归 3、对一个定量变量和一个多分定性变量的回归 4、对一个定量变量和两个定性变量的回归 5、一个例子:“兼职”经济学 6、检验回归模型的结构稳定性 7、比较两个回归:虚拟变量法 8、比较两个回归:进一步说明 9、交互作用效应 10、虚拟变量在季节分析中的应用 11、分段线性回归 12、在时间序列和横截面数据的合并中使用虚拟变量 13、虚拟变量方法的一些技术问题,3,11.1 虚拟变量的性质,虚拟变量,是一种离散结构的量,用来描述所研究变量的发展或变异而建立的一类特殊变
2、量,常用来表示职业、性别、季节、灾害、经济结构变化、受教育程度等的影响。此外它还有一些其他的名称,如指标变量、二值变量、范畴变量、定性变量和二分变量。 量化虚拟变量的方法通常是赋值“1”和“0”。 在回归模型中,对定量变量和虚拟变量的估计方法是一样。,4,如果一个模型中的自变量全都是虚拟变量,通常对这 种模型的分析方法称之为方差分析。(为什么把这种 模型称为方差分析模型?) 一个教授年薪的模型:其中 表示教授的年薪,5,根据所给数据可以估计出如下结果:估计方法与前面说讲的方法没有区别。由于这个模 型与单因素方差分析统计模型的原理及所要表达的 统计意义一致,因此这个最简单的虚拟变量模型也 称之为
3、方差分析模型,6,7,8,11.2 一个定量变量和一个两分定性变量,仍然用上面的例子,只是引入教龄作为解释变量。有如下模型:表示教龄,其他定义如前。这个模型的系数估计用ols即可完成。,9,10,主要以下几点需要注意: 1、虽然有男、女两个分类,但是只用一个虚拟变量。更通用的规则是:如果一个定性变量有m个类别,则引入m-1个虚拟变量。 2、虚拟变量的取值是随意,但是一旦取定之 后要能合理地解释其意义。 3、被赋予零值的那个类别通常称为基底。它 是用以和其他类别作比较的一个基础。 4、虚拟变量的系数称为级差截距系数,它表 示取值1的类别的截距值和基底类的截距值相 比有多大差别。,11,11.3
4、一个定量变量和一个多分定性变量,假设在横截面数据的基础上,分析个人保健支出对个人收入和教育水平的回归。教育水平是定性变量,分为三类:低于中学、中学和大学。模型中引入两个虚拟变量。模型如下:其中 保健年度支出年度收入,12,13,11.4 一个定量变量和两个定性变量,回顾前面学院教授薪金回归模型,现在假定除了教龄和性别之外,肤色也是一个重要的薪金决定因素。肤色假定只有两种情况:黑和白。于是模型改写为:其中 表示学院教授的薪金表示教龄,14,假定 ,则可以得到以下回归: 黑人女教授平均薪金:黑人男教授平均薪金:白人女教授平均薪金:白人男教授平均薪金:,15,15.5 一个例子:“兼职”经济学,在国
5、外,把持有两份工作的人称为“夜袭者”。Shisko和 Rostker为了发现是什么因素影响这些人的工薪。根据318 名夜袭者的数据建立了如下回归模型:表示夜袭工资, 表示主业工资, race0白人, race1非白人; urban=0非城里人, urban1城里人; reg0非西部, reg 1西部; hisch=0非毕业, hisch1中学毕业; age表示年龄。,16,当所有虚拟变量都为0时,可以得到白人、非城镇、非西部、非中学毕业夜袭者的平均小时工薪模型:,当所有虚拟变量都为1时,可以得到非白人、城镇、西部、中学毕业夜袭者的平均小时工薪模型:,17,11.6 检验回归模型的结构稳定,前面
6、的虚拟变量模型只考虑了影响回归截距的情 形,这一节将分析存在变斜率的虚拟变量模型。仍 然用联合王国储蓄收入数据。(见表15.2) 数据分为两期: 重建时期: 重建后时期: 其中 Y表示储蓄,X表示收入。,18,这两个回归模型可能有以下四种情形: 1、 和 ;两个回归相同。(重复回归) 2、 但 ;平行回归,截距不同。 3、 但 ;相汇回归,截距相同,斜率不同。 4、 且 ;相异回归, 所有这些情形都说明模型发生了结构性变化,在 前面曾经讲到的邹至庄检验对结构性变化有很好 的描述,下面将用虚拟变量模型来处理结构性变 化,某些地方有着比邹检验更好的性质。,19,20,11.7 比较两个回归:虚拟变
7、量法,将储蓄收入模型中两期数据进行合并,重新建立以下回归模型:和 同前, 观测值属于重建时期; 观测值属于重建后时期。假定E(ui)=0,21,根据表15.2中的数据得到如下结果:,各个系数在统计上都是显著的。可以肯定两个时期的回归是相异的。,重建时期,重建后时期,22,23,24,25,26,27,虚拟变量法相比邹至庄检验的优越性:1、用虚拟变量只需做一个回归。 2、一个回归可以做各种检验。截距检验和斜率检验都可以一次完成。 3、邹至庄检验没有明确告诉是哪一个系数发生变化,而虚拟变量模型则可以很清楚看出这一点。 4、合并后样本容量变大,估计精度也有所提高,28,11.8 比较两个回归:进一步
8、说明,虚拟变量技术在实际中有很多的应用,下面 是一个关于英国失业和空缺的例子。从1958 年第4季度到1971年第2季度的失业率与职位 空缺率的关系。通过散点图(p508图15.6)可 以看出在1966年4季度前后曲线发生了明显 的变动。作者认为这是因为工党的失业补贴 政策发生了重大变化,致使失业等待时间更 长,给定的空缺所对应的失业人数更多。,29,建立以下模型:UN=失业率, V=职位空缺率。 D=1从1966年4季度开始以后的时期0 1966年4季度以前的时期 估计得到如下结果:,30,31,32,33,11.9 交互作用效应,再考虑这样一个模型:其中 表示衣着方面的年度开支表示收入该模
9、型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。,34,这种假定显然是站不住脚的。显然上过大学 的男性与女性在衣着方面支出差距比没上过 大学的肯定大或者说不一样。这就是存在所 谓的交互效应。简单一点,上过大学和性别 这两个因素对衣着支出的影响不是独立的, 他们相互影响,也即交互效应。,35,模型修正为:女性的级差效应大学毕业的级差效应女大学毕业生的级差效应 交互作用虚拟变量的系数是否在统计上显著,可通过平常的t检验加以验证。错误地忽略一个显著的交互作用项将导致模型设定上的偏误。,36,11.10 虚拟变量在季节分析中的应用,经济数据有时会呈现一种
10、季节波动。这一点在时间序列数据出现比较多。当然现在有很多方法来消除季节波动,下面主要讲述用虚拟变量方法怎么解决季节波动的问题。 例子:美国制造业的利润销售额行为其中 利润, 销售额,37,根据所提供的数据,估计结果如下:结果表明只有销售额和第二季度的系数在统计上显著。因此可以重新考虑以下模型,只引入一个虚拟变量以区别第二季度和其他季度。,38,新的模型估计结果如下:注意:这里我们所建立的模型都没有考虑销售额的斜率系数是否随着季节变化,只是考虑了截距项的变化。关于这一点可以通过乘积性虚拟变量技术加以检验,39,40,11.11 分段线性回归,虚拟变量的另一种用途。,在销售没有达到给定销售水平之前
11、以一种方式支付佣金,在销售额达到给定销售水平之后以另一种方式支付佣金。,41,根据所给条件建立如下回归:给定销售水平,又称为结点。1 如果0 如果 达到销售水平以前的平均佣金达到销售水平以后的平均佣金,参阅例15.7,42,43,11.12 在时间序列和横截面数据的合并中使用虚拟变量,混合回归 Grunfeld研究总投资( )与厂商的价值( )和资本 存量( )之间的关系一个例子。研究对象分别是通 用汽车、西屋电气和通用电气。研究 、 、 之间的关系有如下三种方式: 、对每一个厂商进行时间序列回归:通用汽车:西屋电气:,44,、对每一年做一个横截面回归。但是在本 例中样本过少,只有3个厂商。如
12、果有15 20或以上,这也是一种思路。 、把所有样本数据聚合,做一个回归:i=1,2 t=1,2,20. 这就是混合回归的一个例子,这个回归假定了回 归参数不随时间变化,并且在各个横截面之间没 有差异,不存在异方差。,45,在仅考虑这样一种情形:通用汽车和西屋电气的投资函数有不同截距,但有相同的斜率,并且误差项都满足经典假设。模型可改写为:其中对通用汽车的观测值取 ;否则取零。如果 是统计上的显著的,这就意味这着通用汽车投资函数的截距不同于西屋电气投资函数的截距。具体估计结果如下:,46,11.13 虚拟变量方法的一些技术问题,1、在半对数回归中的虚拟变量的解释 回顾前面的关于线性到对数回归模
13、型的讨论。加入虚拟变量之后的模型变为:其中 学院教授的起薪, 教龄,D1男性,D=0女性。 对于 的解释前面已经介绍的很清楚了。现在关键要考虑虚拟变量的系数 的解释。,47,这方面的解释可以参照霍尔沃森和帕姆奎斯特的建 议: 均值的相对变化取所估的虚拟喜事的反对数再 从中减。书上举了一个学院教授薪金与教龄和性别 的假想例,估计结果如下:重点是看虚拟变量的解释:在其他情况不变的情况 下,男教授的平均薪金比女教授高出 0.1435,即14.35。,48,2、避免虚拟变量陷阱的另一种方法 再考虑前面的教授薪金模型(P497,15.2.4):把模型改写为:在去掉截距项之后,数据不再有完全共线性的问题。
14、其实仔细看上面的模型就是一个过原点回归模型。这个模型虽然可以避免多重共线性的问题,但是要注意他的 并不总是有意义。还是遵循我们前面的规则:如果有m个类别,就选择(m-1)个虚拟变量。,49,3、虚拟变量与异方差 前面所考虑的模型都没有考虑异方差的问 题,包括在分段回归中,如果两个时期的回 归方程都不一样,怎么保证他们有相同的残 差方差?也许求得系数在统计上显著,而实 际上却并不如此。当然,对于异方差的问 题,我们已经有很好的工具来解决这一问题,50,4、虚拟变量与自相关 考虑以下涉及时间序列数据的模型:其中第一时期的观测值取 ;而对第二时期的观测值取 。再假定误差项 按马尔可夫一阶自回归方式生
15、成。即: 。 满足标准假定。对于一阶自相关可以用一阶迭代法解决。但是对于虚拟变量 ,有另外一套解决办法,51,马达拉的建议: 、在第一时期的全部观测取 值为零;在第二期中,对第一个观测 值为 ,但对其余观测值取为1。 、将变量 变换为 。注意,除非我们借助于普莱斯温斯顿变换,将失去一个观测值。 、在第一时期的全部观测取 的值为零(注意在第一时期里 为零);在第二时期里,第一个观测值取 ,并置第二时期的其余观测值为,52,20042005学年第一学期 计量经济学期末考试时间安排,时间:2005年1月4日上午8:3010:30 地点:首义校区文津楼401教室 注意事项:不能携带手机、计算器等物品考场声音不能超过5贝分,