1、第6章 虚拟变量回归模型,2018/7/11,计 量 经 济 学,2,回归分析中,被解释变量往往不仅受定量因素的影响,也会受定性因素的影响。因此,在构建回归模型时,常常有必要纳入定性因素。在回归模型里面纳入定性因素必须先把定性因素“定量化”。,方法:建立虚拟变量(常用大写字母D表示),按照一定的规则赋予虚拟变量特定的取值,使得虚拟变量的取值与某种“性质”相对应。,例如:样本观测点的性别属性为男性,则设定D=0,女性设定为D=1。当然,可以反过来设定。取值为零的称为“基准类”、“参照类”。把何种类型定为基准类并无实质性区别,根据研究者的着眼点而定。,虚拟变量又叫指标变量、分类变量、定性变量等。,
2、2018/7/11,计 量 经 济 学,3,因此:男性就业者平均年薪为:女性就业者平均年薪为:,例子:建立回归模型研究女性就业者与男性就业者的工作水平是否存在显著差异。,以就业者的平均年薪为被解释变量Y;以就业者的性别的虚拟变量D为解释变量,即:,构建相应的双变量回归模型:,基准类的平均年薪,2018/7/11,计 量 经 济 学,4,女性就业者与男性就业者的平均年薪差异为:,2正好是虚拟变量(D)的回归系数,如果2统计上显著不为零,那么就说明男性就业者平均年薪与女性就业者平均年薪存在显著差异,否则并不存在显著差异。,2018/7/11,计 量 经 济 学,5,虚拟变量的估计与假设检验方法由于
3、虚拟变量的取值同样遵循解释变量的非随机的假定,因此用OLS法估计包含一个或多个虚拟变量的回归模型,并不会带来新的估计问题。这就是说,OLS估计法则同样适用于解释变量为虚拟变量的回归模型。,而OLS估计法则的假设检验也同样适用于解释变量为虚拟变量的回归模型。,2018/7/11,计 量 经 济 学,6,思考女性就业者与男性就业者的平均年薪差异的回归模型,该回归模型能否用来解释工资中的性别歧视?,不能!因为,所谓工资性别歧视,应该是指在其它条件不变的情况下(比如能力、教育水平、工龄、职称、地区等等),男女年薪仍然存在显著差异。由于该模型只纳入了性别虚拟变量作为唯一的解释变量,所以不能解释工资的性别
4、歧视,只能解释工资的性别差异。,2018/7/11,计 量 经 济 学,7,当需要纳入某个定性变量时,如果模型包含截距项,那么引入的虚拟变量个数应该比该定性变量的分类总数少1。否则,会造成多重共线性,使得模型无法估计。这种情形亦称为“虚拟变量陷阱”。,虚拟变量设定规则:n分定性变量需要引入(n-1)个虚拟变量。例如:性别的种类有两种,则只需要引入一个虚拟变量D。学历若只考虑大学、硕士、博士三种,则只需要引入两个虚拟变量,D1和D2。季节变量有四种类型,则只需纳入三个虚变量,D1、D2和D3。,2018/7/11,计 量 经 济 学,8,虚拟变量回归模型的一般形式:包含m个定量变量与n个定性变量
5、,即:,这种回归模型称为协方差分析模型(ANCOVA),2018/7/11,计 量 经 济 学,9,以性别的平均年薪差异回归模型为例,在此模型的基础上,考虑工龄的影响,加入一个新的解释变量,因此:男性就业者平均年薪为:女性就业者平均年薪为:,在考虑工龄影响的情况下女性与男性就业者的平均年薪差异为:,2018/7/11,计 量 经 济 学,10,如果3显著异于0,就说明在工龄保持不变的条件下,男女工资存在显著地差异。,工资水平,工龄,男性,女性,两条曲线的斜率相同,意味着工龄对于男性与女性工资水平的影响是相同的两条曲线的截距不同,意味着男性与女性的工龄初始点是不同的,2018/7/11,计 量
6、经 济 学,11,如男女性别,是可以当做两分定性变量的,但是有一些定性变量中,并非仅仅是分为两类的,是可以分为多类的,这就可以定义为多分定性变量。如将全国地区分为东、中、西部地区,如将大学生的年级分为大一、大二、大三与大四。,例如:研究教师薪酬水平的地区差异。设被解释变量:教师平均薪酬水平(Pay)定量解释变量:政府机构用于学生的花销(PPS)定性解释变量: D1=1,第一类地区(东部地区);=0,其他地区 D2=1,第二类地区(中部地区);=0,其他地区 第三类地区(西部地区)为基准类,基准类对应的虚拟变量取值均为零,即:D1=0,D2=0。,2018/7/11,计 量 经 济 学,12,因
7、此,构建包括一个定量变量与一个多分定性变量的回归模型,第一类地区(东部地区)教师平均薪酬水平,第二类地区(中部地区)教师平均薪酬水平,第三类地区(西部地区,基准类)教师平均薪酬水平,该模型只能解释不同地区教师平均年薪的截距差异。,2018/7/11,计 量 经 济 学,13,例如,研究教师的薪酬水平受到教龄、性别与学历的影响。设被解释变量:教师平均薪酬水平(Y)定量解释变量:教师的教龄(X)两分定性解释变量:教师性别 D1=1,女性;=0,男性多分定性解释变量:教师学历(假设将教师学历分为本科、硕士及博士三类,因此引入再两个虚拟变量) D2=1,硕士;=0,其他 D3=1,博士;=0,其他 第
8、三类(本科)为基准类,基准类对应的虚拟变量取值均为零,即:D2=0,D3=0。,2018/7/11,计 量 经 济 学,14,男性平均年薪:男性本科平均年薪:男性硕士平均年薪:男性博士平均年薪:,因此,构建包括一个定量变量、一个二分定性变量与一个多分定性变量的回归模型,女性平均年薪:女性本科平均年薪:女性硕士平均年薪:女性博士平均年薪:,2018/7/11,计 量 经 济 学,15,假定Y为教师平均年薪,X为工龄,其他虚拟变量:,男性平均年薪:,女性平均年薪:,可见,女性与男性平均年薪差异为3,不取决于D的取值如何。,2018/7/11,计 量 经 济 学,16,男性平均年薪:,女性平均年薪:
9、,可见,女性与男性平均年薪差异为(3+3D),差异大小还取决于D的取值,也就是取决于是硕士还是博士。,2018/7/11,计 量 经 济 学,17,假设回归模型为:,系数度量了在X3保持不变的情况下,X2对Y的影响程度,但是在现实中,X2对Y的影响往往还取决于X3的水平。,因此,将回归模型修正为:,如果4显著不为零,说明X2对Y的影响会取决于X3的水平。同理X3对Y的也要取决于X2的水平。,2018/7/11,计 量 经 济 学,18,例子:研究美国1970-1995年间个人储蓄与个人收入间的关系。考虑一个问题:1982年美国经济经历严重衰退,这一事件也许会影响个人储蓄与个人可支配收入的关系。
10、研究目标:检验两段事情个人储蓄与个人收入之间的关系是否显著存在差异,以及差异是什么。设定Y表示个人储蓄,X表示个人可支配收入,则对1970-1981年间和1982-1995年间的储蓄利用分段回归方程进行估计,即:,萧条前:萧条后:,检验:,2018/7/11,计 量 经 济 学,19,用虚拟变量回归的方法检验结构变化的问题。,利用虚拟变量D表示时期的这一定性变量:,因此,构建回归模型为:,2018/7/11,计 量 经 济 学,20,第一阶段(1970-1981)个人平均储蓄的回归函数为:,第二阶段(1981-1995)个人平均储蓄的回归函数为:,2称为差别截距系数,4称为差别斜率系数(斜率漂
11、移因子),检验2与4的统计显著性,即可判断两阶段储蓄函数的结构是否具有明显差异,同时可以得知差异是来自截距还是斜率,或者二者都有。,2018/7/11,计 量 经 济 学,21,Y,X,0,一致回归,Y,X,0,平行回归,2018/7/11,计 量 经 济 学,22,Y,X,0,并发回归,Y,X,0,相异回归,2018/7/11,计 量 经 济 学,23,在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种:加法方式:乘法方式:,加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。,2018/7/11,计 量 经 济 学,24,以加法方式引入虚拟变量时,主要考虑的问
12、题是定性因素的属性与引入虚拟变量的个数。,加法方式引入虚拟变量的主要作用为:在有定量解释变量的情形下,主要改变方程截距;在没有定量解释变量的情形下,主要用于方差分析。,2018/7/11,计 量 经 济 学,25,以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟解释变量与其它解释变量的乘积,作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的。或者将模型斜率系数表示为虚拟变量的函数,以达到相同的目的。,加法方式引入虚拟变量:截距不变;截距和斜率均发生变化,2018/7/11,计 量 经 济 学,26,“季节”是在研究经济学问题中常遇到的定性因素。如,酒和肉的销售量在冬季会超过其
13、他季节,而饮料的销售又以夏季最大。当建立该类问题的计量模型时,需要考虑将“季节”因素引入计量模型中。,月度或季度时间序列数据往往呈现出一定的季节模式。把“季节”成分从时间序列中剔除,有助于独立观察其它成分的运行态势。从时间序列中消除季节成分的过程称为季节调整。季节调整可以用虚拟变量回归的办法来实现。,2018/7/11,计 量 经 济 学,27,例子:市场用煤销售量模型。由于受取暖用煤的影响,每年第四季度的销售量大大高于其他季度。将用煤量表示在图形中:,2018/7/11,计 量 经 济 学,28,例子:冰箱的销售量与季节性如果回归模型包含截距项,那么在虚拟变量在季节分析的应用中就需要设置三个
14、虚拟变量。若选定将第一季度作为基准类,因此设置虚拟变量:,因此,构建相应的回归模型,2018/7/11,计 量 经 济 学,29,四个季节的冰箱销售量为:第一节度平均销售量:第二季度平均销售量:第三季度平均销售量:第四季度平均销售量:,回归结果为:,回归结果为:,第二季度与第三季度虚拟变量的结果是统计显著的,而第四季度虚拟变量的结果不是统计显著的,这说明第二与第三季度存在季节效应,而第四季度则没有。,2018/7/11,计 量 经 济 学,30,得到经过季节调整的时间序列,第一步:利用实际的Y值减去上述回归模型中估计出的Y值,得到相应的残差序列;第二步:将残差序列加上Y的均值序列,即得到经过季
15、节调整后的时间序列。,2018/7/11,计 量 经 济 学,31,在很多研究中,被解释变量往往是以定性变量的身份出现的。比如:学生是否被某学校录取,某居民是否申请到购房贷款,某个劳动力是否进入劳动力市场,等等。对于这些情形,对被解释变量的回答只有“是”或“不是”。因此这些被解释变量具有二分性,可以用一个虚拟变量来表示。通常就用Y来表示,Y只取0和1两个值。Y=0表示否定回答,Y=1表示肯定回答。被解释变量是定性变量的回归模型,称为概率模型。,2018/7/11,计 量 经 济 学,32,例子:研究个人申请房贷成功的概率与个人收入之间的关系。,假设解释变量为个人收入(X),被解释变量为是否申请
16、房贷成功的虚拟变量:,因此构建回归模型为:,根据期望的定义可得:,根据回归方程可得:,因此:,所以,可以利用 来估计,2018/7/11,计 量 经 济 学,33,例子:研究个人申请房贷成功的概率与个人收入之间的关系。,因此,E(Y|X)给出了当个人收入为X时,成功申请到房贷的概率,可以用Y的拟合值来作为这一概率的点估计值。,2给出了当个人收入X每增加一个单位时,成功申请到房贷的概率会增加多少。,一般不关心判定系数的大小和截距项的意义。,2018/7/11,计 量 经 济 学,34,线性概率模型被解释变量为虚拟变量中最简单的,但线性概率模型中得到的误差项存在异方差的问题,一般使用加权最小二乘法进行估计。但是加权最小二乘法却无法保证估计的被解释变量在(0,1)之内,这就是线性概率模型的一个缺点。因此,对线性概率模型进行转换,会得到二元选择模型,而二元选择模型的估计方法一般采用最大似然法的方法。,2018/7/11,计 量 经 济 学,35,二元选择模型根据误差项的分布函数的不同分成三类。,