1、第8章 虚拟变量模型,本章教学要求: (1)掌握虚拟变量的概念 (2)掌握虚拟变量作为自变量情况时的设置和应用 (3)虚拟变量作为因变量的情况 (4)非线性概率模型的概念及应用 (5)利用Eviews软件估计虚拟变量模型的参数,8.1 虚拟变量与线性模型,8.1.1 虚拟变量的概念及作用,定量变量:可以直接获取观测资料数值的变量,定性变量:表示某种特征的存在与否,基本思想:直接在回归模型中加入定性因素存在诸多的困难,是否可将这些定性因素进行量化,以达到定性因素能与定量因素有着相同作用之目的。,取值0或1,量化方法,0:表示属性不存在,1:表示属性存在,在计量经济学中,我们把反映定性因素变化,取
2、值为0和1的人工变量称为虚拟变量(dummy variable)。,8.1.2 虚拟变量作为自变量的情况,规则一:对于一个有m种可能的定性变量,只能引入m-1个虚拟变量。,1、虚拟变量的设置规则,(1)一个因素多种属性的问题,如,学历、工龄对薪金都有影响,则薪金模型可写为:,其中,D1D2代表高中以下、高中和大学及以上三种学历水平。,否则会导致多重共线性,称作虚拟变量陷阱 (dummy variable trap)。,(2)理论上讲,关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。一般将定性变量中取值为0所对应的类别称作基础类别(base category),而将比较类别
3、(肯定类别)取值为1。,2、虚拟变量的引入方式,加法对模型截距项的影响,乘法对模型斜率系数的影响,b0 + b1xt + ut , (D = 0) yt = (b0 + b2) + b1xt + ut , (D = 1),t,0,女,男,Y,b0 + b1xt + ut , (D = 0) yt = b0 + (b1 + b2) xt + ut , (D = 1),Y,t,女,男,0,仍以薪金模型为例:yt = b0 + b1 xt + b2 xt Dt + ut 其中xt为定量变量;Dt为定性变量。当D = 0 或1时,上述模型可表达为:,b0 + b1 xt + ut (D = 0) (b
4、0 + b2 ) + (b1 + b3)xt + ut , (D = 1),yt=,t,女,男,0,3、一般方式,在经济发生转折时期,可通过建立虚拟变量实现模型的分段回归。例如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。,3、折线回归,假设以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,可设如下虚拟变量:,则进口消费品的回归模型可建立如下:,若经检验Dt显著,则两时期进口消费品函数分别为:,当tt*=1979年,,当tt*=1979年,,在我国上市公司中,个人做第一大股东的现象还非常少,主要是国家或法人作为公司的第一大股东。而国
5、家作为第一大股东与法人相比,除了公司业绩,还有其它考虑,例如就业、形象工程、负责人升迁、上缴利税等,这些目标都或多或少有悖于公司利润最大化的目标。另外,国家控股的公司由国家选择代理人,而这些代理人往往是行政人员或官僚出身,没有经营管理的特长,进一步制约上市公司绩效的发挥。因此,总体而言,国家作为第一大股东的上市公司的绩效要低于法人做第一大股东的上市公司的绩效。为验证上述结论,我们建立如下的模型:,虚拟变量在金融数据处理中的作用案例1,其中 为每股收益,用以代表公司绩效。 的定义方式如下:1,国家是公司i的第一大股东 =0,法人是公司i的第一大股东 由模型可以得到:国家为第一大股东平均每股收益:
6、 =法人为第一大股东平均每股收益: =0)=,根据有效市场理论,在有效市场中,由于股票价格能够及时地反映所有的信息,因此股价将会呈现出随机波动的特征。并且,在有效市场中,由于投资者能够随时获取所需要的信息,因此将不存在套利的机会,股票的价格将反映价值。按照有效市场理论,一周内每天的收益率将是随机波动、没有规律的。因为如果假设某天的收益率比其他各天的收益率高或者低,由于投资者可随时掌握所需要的信息,并且做出理性的选择,因此他们将充分利用这个套利机会来获取超额收益率。而随着套利过程的进行,超额收益率也会逐渐减少直至消失,从而每天的收益率又将会呈现出无规律的波动。,虚拟变量在金融数据处理中的作用案例
7、2,下面我们将利用虚拟变量模型对这一现象进行实证检验: 数据描述:我们利用的是上海股票市场上证指数1997年1月1日到2004年12月31日的日收盘价数据,共1926个观测值。收益率的计算我们采用的是连续收益率法,计算公式如下 我们建立如下的虚拟变量模型:,使用Eviews3.1软件对上述模型进行OLS回归,得到如下结果(括号内为相应的t值):对模型各系数估计值进行联合F检验,看各系数值是否同时为零,结果的到F值为1.03,其概率值为0.39,因此不能拒绝各系数值同时为零的假设,则可以得出结论,上海股票市场不存在周内效应。,8.1.3 虚拟变量作为因变量的情况,1、因变量为虚拟变量的回归模型,
8、虚拟变量作为因变量的模型也称定性响应模型,既可以包括二值变量模型(也称二分选择模型),也包括多分选择模型。我们重点讨论二值变量模型。 模型举例:一个大学毕业生是否会被一个不错的MBA项目录取,取决于其学习成绩、GMAT分数和其它因素。一位成年男子是否就业取决于总体失业率、平均工资率、受教育程度和家庭收入等因素。,在因变量为定量变量的模型中,总体回归函数描述的是解释变量和相应条件下因变量期望值之间的函数关系。 在因变量为定性变量的模型中,这一总体回归函数有何特殊含义? 以居民家庭购买汽车的状况为例,假定该家庭是否购买汽车只同家庭收入x有关,且呈线性关系,则回归模型为:,相应地,这种因变量为虚拟变
9、量的线性回归模型又称为线性概率模型。,现在分析线性概率模型误差的分布:,u,i,=,y,i,-,a,-,b,x,i,=,E(,u,i,) = (1,-,a,-,b,x,i,),p,i,+ (,-,a,-,b,x,i,) (,1,-,p,i,) =,p,i,-,a,-,b,x,i,由(,4,)式,p,i,=,a,+,b,x,i,,有,E(,u,i,) =,p,i,-,a,-,b,x,i,= 0,因为,y,i,只能取,0, 1,两个值,所以,,Var (,u,i,) = E(,u,i,2,),= (1,-,a,-,b,x,i,),2,p,i,+ (,-,a,-,b,x,i,),2,(,1,-,p,
10、i,),= (1,-,a,-,b,x,i,),2,(,a,+,b,x,i,),+ (,a,+,b,x,i,),2,(,1,-,a,-,b,x,i,),= (1,-,a,-,b,x,i,),(,a,+,b,x,i,),= (,1,-,p,i,),p,i,=,p,i,-,p,i,2,上式说明,误差项的期望为零,方差具有异方差。,所以线性概率概率模型回归系数的OLS估计量具有无偏性和一致性,但不具有有效性。,2、线性概率模型估计中存在的问题,Var(ui2) = pi - pi2当pi = 0.5时最大,xi取值在一定范围之内时对被解释变量可能取值的概率估计才是合理的。,随机误差项不服从正态分布,而
11、是服从二点分布 随机误差项具有异方差性 0E ( yi/xi) 1不被满足 可疑的拟合优度,如何解决?,异方差性加权最小二乘,随机误差项不服从正态分布大样本下,参数估计量 近似服从正态分布,0E ( yi/xi) 1不被满足,然而这样做是有问题的。假设预测某个事件发生的概率等于,1,,但是实际中,该事件可能根本不会发生。反之,预测某个事件发生的概率等于,0,,但是实,际中该事件却可能发生了。,虽然估计过程是无偏的,但是由估计过程得出的,预测结果却是有偏的。,由于线性概率模型的上述缺点,希望能找到一种变换方法,(,1,)使解释,变量,x,i,所对应的所有预测值(概率值)都落在(,0,,,1,)之
12、间。(,2,)同时对于,所有的,x,i,,当,x,i,增加时,希望,y,i,也单调增加或单调减少。显然累积概率分布,函数,F,(,z,i,),能满足这样的要求。,采用累积正态概率分布函数的模型称作,Probit,模型,。,另外,logistic,函,数也能,满足这样的要求,。采用,logistic,函数的模型称作,logit,模型。,8.2 非线性概率模型,8.2.1逻辑模型,8.2.2逻辑模型的估计问题,1、因变量观测值可以分组的情况,如果样本容量足够大,以至每一个自变量观测值都有若干因变量观察值与之对应,则可求出给定条件下每组因变量的取值为一的概率值,从而在此基础上运用OLS法估计。,2、
13、因变量观测值不能重复观测的情况,采取极大似然估计方法估计。,三 、考虑下面的模型:其中,Y表示大学教师的年薪收入,X表示工龄。为了研究大学教师的年薪是否受到性别、学历的影响。按照下面的方式引入虚拟变量:,(1)基准类是什么? (2)解释各系数所代表的含义。 (3)若 ,你得出什么结论?,在对美国1980-1995年间人均消费支出(PCE)和人均可支配收入(PDPI) 年度数据取对数后,在对数序列的基础上进行回归分析,得到了如下 Eviews回归分析结果:,(1)求出空白处的数值(填在空格内)。 (2)根据以上回归结果,写出回归分析报告。 (3)在0.05的显著性水平下进行各统计准则的检验,并解释其经济含义。 (4)检验模型是否存在一阶序列相关问题。,