1、Tobit模型与样本选择模型,Tobit模型,简单来说,当因变量在正值上连续但是还有很多机会取值为0,可以使用tobit模型。 文献中有把tobit模型分为五类的说法。,Type I Tobit 假设B*是预算约束下效用最大化得出的牛肉消费量,Type II Tobit,Type III tobit model,Type IV tobit model,Type V Tobit model,“截取”变量的分布与密度函数,1、从下截取 已知 根据条件概率公式密度函数为 根据 可以验证:,(2)从上截取 当,2、截取变量的条件期望 当不存在截取时, 当存在从下截取时,式中: 对于从上截取的情形:容易
2、判断出:,3、标准正态分布随机变量的截取期望 经验分析中随机扰动项经常被假定服从正态分布。 (1)当 ,证明过程见靳云汇P237(2)推广 当 ,,第I类Tobit模型:在零值左截取的回归模型,1、模型:James Tobin在1958年的文章 “estimation of relationships for limited dependent variables”中,以家庭耐用消费品为例,讨论了当因变量y在0点被左截取的时候,如何估计x对y的影响。因此把在零值左截取的回归模型称为第I类Tobit模型,是最简单的一种情形。 模型形式为:,假定观察到:2、y的条件期望 在截取的条件下,y的条件期
3、望不再与y*相同。 (1) 的概率分布 首先看一下 的概率:,(2)当 时的条件期望其中, 为逆米尔斯比(Inverse Mills Ratio),的期望(不同于上面的条件期望。有些文献中称为无条件期望,以区别于上面的条件期望),3、 对于y的边际影响结论:在数据存在截取的情况下, 对于y的边际影响通过两个渠道产生作用:首先影响 ,即观测值是否被截取的概率,其次是通过 影响y*的大小,从而影响被观察到的y值的大小。当 时,边际影响等于。,第一类Tobit模型的估计 (在零值左截取的回归模型,是截取模型中最简单的一种情形),1、ols估计有偏且不一致。,1.1如果只对 的数据进行简单的OLS估计
4、,正确的模型应该为 若遗漏掉中间部分,则还会导致残差项与解释变量相关,出现内生性问题。 1.2若对全部数据进行OLS估计,问题会更严重,因为x y之间的正确模型为:,2、Tobit ML估计,该似然函数由两部分组成,一部分对应于没有限制的观测值,是经典回归部分;一部分对应于受到限制的观测值。 这是一个非标准的似然函数,它实际上是离散分布与连续分布的混合。,若对上式进行再参数化,令 可得: 对上式极大化,应用牛顿法求解,然后求得原参数的估计量。 注意:若不考虑截取数据情况下的最大似然估计等价于最小二乘估计。对于实际的截取数据,如果采用OLS估计,将得到有偏的估计结果。 上述似然函数的假设:截取数
5、据中不可观测的部分和可观测部分具有相同的分布。如果这一条件得不到满足,最大似然估计将遇到困难。这时可使用heckman两步估计。,3、Tobit 回归(也称为heckman两阶段法,或Heckit法,这种方法广泛运用于由于样本选择导致的断尾数据分析中) 我们可以对截取数据进行tobit回归,得到系数的一致估计结果。步骤: 第一,用全部数据采用probit模型,估计 ,代入得到 的估计值。 第二,用y0的数据,进行y对x和 的OLS估计,得到系数的一致估计。,如果样本观测值不是以0为界,而是以某一个数值a为界,则有,估计原理与方法相同。,第I类tobit模型的stata命令,Tobit y x1
6、 x2.xk,ll(c) ul(c),断尾与选择性样本 第II类Tobit模型,选择性样本与非随机样本,1、基于自变量的样本选择:外生样本选择的例子 Saving=b0+b1income+b2age+b3size+u 假设数据集是基于对35岁以上人群的调查,是对成年人的非随机样本,但仍能得到无偏和一致估计量。缺点是低效估计。 2、基于因变量的样本选择:内生样本选择,第I类Tobit模型的缺点之一,是假设同一列变量及参数既决定截断的概率,又决定观测因变量的期望值。 考虑进一步放松该假定。,选择性样本模型,选择性样本模型扩展了克拉格的模型,放松其对模型两步骤相互独立的假设。模型的基本思路是:结果变
7、量y仅当另一变量z满足某种条件时才可被观测。 概念:当被解释变量y的断尾与另一变量z有关时,被称为偶然断尾或样本选择,z为选择变量。,第II类TOBIT模型,概念:第II类TOBIT模型有时又被称为双变量样本选择模型、heckman选择模型、Probit选择模型。 1、模型设定 其一为:选择方程或叫参与方程其二为:结果方程或称水平方程 y1和y2分别表示观察到的水平结果和参与结果,对于 和 ,假定都具有线性形式:若 不相关,则OLS能得到一致的估计结果。 但在样本选择模型中,可把相关性看作是模型内在的固有特质。Berk & Ray “即使模型被完美拟合,两项误差仍具共变性。两个模型在本质上受到
8、相同的随即干扰(或共变的随机干扰)”.,记x=(x1,x2),表示模型中所有的解释变量。在双变量样本选择模型中的基本假设如下: (1)x和y1总可以观察到,但y2只有当y1=1时才能够被观察到。 (2)x1和x2为外生的解释变量, (3) ,之所以将选择方程中的随机扰动项方差设为1,是因为后面采用probit方法对该方程进行估计。 (4) 可以推出 ,,2、y1与y2的概率分布 对于选择结果y1,它的概率分布为:由于水平结果y2只有当y1=1时才能够被观察到,所以当y2连续时,只有讨论它的密度函数 才有意义。,根据贝叶斯法则,可知 有:,3、模型估计:部分ML估计,对于第II类Tobit模型,
9、由于y2只有当y1=1时才能被观察到,因此不能采用全条件的ML估计,而采用部分ML估计法。即所建立的似然函数是以y1=1为条件的,因此所使用的只是部分观察到y2的样本。上面所推导的正是部分ML估计所需要和所能运用的密度函数。对所有观察到y2的样本的对数似然函数 进行加总,并最大化,可以估计出 。,对于第i个样本,我们观察到它的样本结果的概率为:进而可构造双变量样本选择模型的对数似然函数, 进一步求出待估计参数。,4、模型估计:heckit方法,与第I类tobit类似,第II类tobti模型也可以采用heckit方法。首先对第II类Tobit模型中的条件期望进行推导。 由于我们面对的是断尾数据,
10、因此考虑是有意义的。因为,所以这就是heckman两阶段程序即heckit方法中的估计方程。从中可以看出,如果 ,那么即使用有选择的样本来进行OLS估计,仍然可以得到x2对于y2的一致影响。,但是当 时,OLS估计会遗漏掉 ,从而产生遗漏变量的问题。 被称为选择偏差。逆米尔斯比也称为控制函数,用于控制选择性偏差。 步骤总结:在第一阶段的估计中,对所有的观测对象,用y1对x1进行probit估计,得到 进而得到逆米尔斯比的估计值 。 第二阶段中,用观察到的y2对x2 和 进行OLS估计,从而得到 。,检验: ,即第二阶段回归方程中逆米尔斯比的系数。由于该回归方程中的随机扰动项具有异方差性,对该系
11、数的检验可通过Wald检验来完成。 当检验的结果拒绝原假设时,表明出现了基于未观测变量的选择性,即影响水平的没有观察到的变量同时也影响了选择的结果,或者与选择方程中的残差项相关,所研究的问题存在选择问题及选择性偏差。,5、对heckit方法的说明,1、对 的解释: 。它的符号能够反映出参与方程与选择方程中没有被观察到的误差之间的相关关系。如果 ,意味着他们之间为负的相关关系,因此不仅存在选择偏差,而且意味着向下的数据截取,即选择进来的样本具有较低的y2取值,而观察不到那些取值较高的y2。,2、关于正态分布:对 的估计,非常依赖于对 正态分布的假设,而且估计的结果对该假设也非常敏感。当该假设不满
12、足时, 的估计结果就会存在很大问题。计量经济学家试图用高阶的多项式来表述选择项,从而克服正态分布的局限性。除此之外,如果我们能对 的分布进行合理的其他形式假设,仍可采用ML方法,与Heckit两阶段估计相比,ML估计量更有效。但是ML方法比heckit更依赖于分布函数的假设,因此heckit方法更稳健。,3、模型的识别条件:在采用heckit方法对第II类tobit模型进行估计时,我们要求 ,即x2是x1的真子集。也就是说影响选择方程的解释变量至少有一个不影响结果方程,而影响结果方程的解释变量一定都包含在选择方程中。没有包含在结果方程中的解释变量称为“排除约束”。我们可以这样理解: 尽管逆米尔
13、斯比为x1的非线性函数,但它通常可以很好地由一个线性函数来近似,如果x1=x2,就会造成 与x2的高度相关,从而出现多重共线性,参数估计的方差极大。,4、与第I类tobit模型的比较 第I类tobit模型以常数0为左截取点,虽然它也采用了隐性变量的模型结构,但在该模型中,仅仅是y*自身的取值大小影响其被观察到的数值大小。与之相比,第II类tobit模型明确提出了选择方程和结果方程,这两个方程是不一样的,并分别进行了估计。 第I类tobit模型中,影响数据截取的变量及系数与影响数据水平结果的变量及系数完全一样.但在第II类tobit模型中,影响数据截取,的变量x1及其系数 与影响结果的变量x2及
14、其系数 是有区别的。因此第II类tobit模型有时又被称为一般化的tobit模型.,样本选择模型的估计,简单OLS估计 Heckman两步估计 最大似然估计,Stata的相关命令(断尾、截取和选择性样本),truncreg y x1 x2 x3, ll(#) (lower limit,左边断尾) truncreg y x1 x2 x3, ul(#) (upper limit,右边断尾) truncreg y x1 x2 x3, ll(#) ul(#) (lower and upper limit,双边断尾) 截取回归: tobit y x1 x2 x3, ll(#) tobit y x1 x2
15、 x3, ul(#) tobit y x1 x2 x3, ll(#) ul(#) heckman y x1 x2 x3, select(z1 z2)(默认MLE,选择方程的被解释变量为y) heckman y x1 x2 x3, select(z1 z2) twostep(两步法,选择方程的被解释变量为y),Stata的相关命令,heckman y x1 x2 x3, select(w=z1 z2)(默认MLE,选择方程的被解释变量为w) heckman y x1 x2 x3, select(w=z1 z2) twostep(选择方程的被解释变量为w) Select方程中因变量应该为0-1变量
16、。因此如果缺省的话,则y的观测值缺失被认为没有参与,反之视为参与。 Cnreg:对更复杂的截取情况的模型进行估计。允许每个观察对象拥有各自的截取点,因此使用这个命令时还需要生成一个特殊的变量。取值为-1代表左截取,0表示无截取,1表示右截取。,Example from wooldridge:,已婚妇女的年度劳动供给P524 Tobit hours nwifeinc educ exper expersq age kidslt6 kidsage6 (Sigma是对潜变量方程残差项的标准差的估计。) 已婚妇女的工资报价方程:P542 heckman lwage educ exper expersq, select(inlf=educ exper expersq nwifeinc age kidslt6 kidsge6) twostep,