1、4.5 受限被解释变量数据模型 选择性样本 Model with Limited Dependent Variable Selective Samples Model,一、社会经济生活中的选择性样本问题 二、“截断”数据计量经济学模型的最大似然估计 三、“截断”数据计量经济学模型的Heckman两步估计 四、“归并”数据计量经济学模型的最大似然估计 五、选择性样本的经验判断和检验,The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel 2000 “for his development of theory
2、and methods for analyzing selective samples”,James J Heckman,“Shadow Prices, Market Wages and Labour Supply”, Econometrica 42 (4), 1974, P679-694发现并提出“选择性样本”问题。 “Sample Selection Bias as a Specification Error”, Econometrica 47(1), 1979, P153-161证明了偏误的存在并提出了Heckman两步修正法。,一、社会经济生活中的选择性样本问题,1、“截断”(trun
3、cation)问题,不能从全部截面个体,而只能从一部分个体中随机抽取被解释变量的样本观测值。 分为两种情况: 一是,所抽取的部分个体的观测值都大于或者小于某个确定值,即出现“掐头”或者“去尾”的现象,与其它个体的观测值相比较,存在明显的“截断点”。 二是,所抽取的样本观测值来自于具有某些特征的部分个体,但是样本观测值的大小与其它个体的观测值相比较,并不存在明显的“截断点”。 样本选择受到限制。,2、“归并” (censoring)问题,将被解释变量的处于某一范围的样本观测值都用一个相同的值代替。 经常出现在“检查”、“调查”活动中,因此也称为“检查”(censoring) 问题。 需求函数模型
4、中用实际消费量作为需求量的观测值,如果存在供给限制,就出现“归并”问题。 被解释变量观测值存在最高和最低的限制。例如考试成绩,最高100,最低0,出现“归并”问题。 被解释变量样本观测值受到限制。,二、“截断”数据计量经济学模型的最大似然估计,1、思路,如果一个单方程计量经济学模型,只能从“掐头”或者“去尾”的连续区间随机抽取被解释变量的样本观测值,那么很显然,抽取每一个样本观测值的概率以及抽取一组样本观测值的联合概率,与被解释变量的样本观测值不受限制的情况是不同的。 如果能够知道在这种情况下抽取一组样本观测值的联合概率函数,那么就可以通过该函数极大化求得模型的参数估计量。,2、截断分布,如果
5、服从均匀分布U(a, b),但是它只能在(c, b)内取得样本观测值,那么取得每一个样本观测值的概率,为随机变量分布范围内的一个常数,服从正态分布,是标准正态分布条件概率函数,3、截断被解释变量数据模型的最大似然估计,求解该1阶极值条件,即可以得到模型的参数估计量。 由于这是一个复杂的非线性问题,需要采用迭代方法求解,例如牛顿法。,4、演示例题农村居民消费模型,根据对农民消费行为的分析,发现农民的消费水平(Y)既取决于来自于农业生产经营的持久收入(X1),也受到来自于从事非农生产的瞬时收入(X2)的影响。现有某地区50户农户的人均消费、人均持久收入和人均瞬时收入的样本观测值,试图建立该地区农民
6、消费模型。,说明:后面的估计结果如果与教科书不同,则是教科书中的数据存在错误(第34、43样本的X2的观测值中的小数点误写为逗号),本课件的结果是正确的。,样本观测值,选择截断数据ML估计,将样本视为不受限制的随机抽取,将样本视为人均消费大于1500元的范围内随机抽取,将样本视为在人均消费大于1500元、小于6000元的范围内随机抽取,比较3种假设下的对数似然函数值可见,随着截断区间的缩小,抽取同一个样本的概率增大,致使对数似然函数值增大。,5、为什么截断被解释变量数据模型不能采用普通最小二乘估计,对于截断被解释变量数据计量经济学模型,如果仍然把它看作为经典的线性模型,采用OLS估计,会产生什
7、么样的结果? 因为yi只能在大于a的范围内取得观测值,那么yi的条件均值为:,由于被解释变量数据的截断问题,使得原模型变换为包含一个非线性项模型。 如果采用OLS直接估计原模型: 实际上忽略了一个非线性项; 忽略了随机误差项实际上的异方差性。 这就造成参数估计量的偏误,而且如果不了解解释变量的分布,要估计该偏误的严重性也是很困难的。,三、“截断”数据计量经济学模型的Heckman两步估计,说明,如果对截断被解释变量数据计量经济学模型采用最大似然估计,必须首先求得“截断分布”,为此,必须存在明确的“截断点”。 在实际的截断数据模型中,这个条件经常不能被满足,诸如利用上市公司为样本研究全部企业的行
8、为,就不存在明确的被解释变量的“截断点”。 关于这类模型的估计,Heckman于1979年提出了两步修正法。 下面以一个实例说明两步修正法的原理和步骤。,1、Heckman两步修正模型,Sample Selection Bias as a Specification Error, Econometrica 47(1), 1979, P153-161,模型 为了研究企业经理报酬W与影响因素X之间的关系,在上市公司中随机抽取n1个企业为样本,建立如下的模型:,- 为了修正偏误,在全部企业(包括上市和未上市)中随机抽取n2个企业为样本,建立如下的二元离散选择模型:,经理报酬模型,上市倾向模型,修正原
9、理,逆米尔斯比 inverse mills ratio,该模型已经修正了选择性偏误,可以采用OLS进行估计。,2、Heckman两步估计步骤,具体步骤如下: 第一步:利用从全部企业(包括上市和未上市)中随机抽取的样本,估计上市倾向模型 ;并利用估计结果计算逆米尔斯比的值。 第二步,利用选择性样本观测值和计算得到的逆米尔斯比的值,将(1)作为一个待估计参数,估计经理报酬模型,得到1的估计。 注意,在抽取样本时间必须保证所有选择性样本包含于全部样本之中。,四、“归并”数据计量经济学模型的 最大似然估计,1、思路,以一种简单的情况为例,讨论“归并”问题的计量经济学模型。即假设被解释变量服从正态分布,
10、其样本观测值以0为界,凡小于0的都归并为0,大于0的则取实际值。如果y*以表示原始被解释变量,y以表示归并后的被解释变量,那么则有:,单方程线性“归并”问题的计量经济学模型为:,如果能够得到yi的概率密度函数,那么就可以方便地采用最大似然法估计模型,这就是研究这类问题的思路。 由于该模型是由Tobin于1958年最早提出的,所以也称为Tobin模型。,2、“归并”变量的正态分布,由于原始被解释变量y*服从正态分布,有,3、归并被解释变量数据模型的最大似然估计,该似然函数由两部分组成,一部分对应于没有限制的观测值,是经典回归部分;一部分对应于受到限制的观测值。 这是一个非标准的似然函数,它实际上
11、是离散分布与连续分布的混合。 如何理解后一部分?,为什么要求和?,如果样本观测值不是以0为界,而是以某一个数值a为界,则有,估计原理与方法相同。,4、演示例题,将3个5800视为归并数据,选择归并估计,估计结果,比较不受限制和归并假设下的对数似然函数值可见,将样本中3个5800元的观测值视为5800元的归并时,抽取该观测值的概率显著增大,致使模型估计的对数似然函数值显著增大。,5、归并被解释变量模型最大似然估计的条件,构造归并数据似然函数时是以一个基本假设为条件的,即假设归并数据中不可观测的部分和可观测的部分具有相同的分布,例如都服从正态分布。 如果这一条件得不到满足,就不能得到似然函数,最大
12、似然估计将遇到困难。 这时,Heckman两步估计是一种合适的估计方法。,五、选择性样本的经验判断和检验,1、经验判断,选择性样本问题是对微观截面个体而言的,所以对于时间序列样本,不考虑选择性样本问题。 如果以截面上的全部个体作为样本,不考虑截断问题。如果按照抽样理论选取截面上的部分个体作为样本,尽管样本观测值处于某一范围之内,也不考虑截断问题。如果按照特定的规则选取截面上的部分个体作为样本,必须考虑截断问题。 对于截面数据样本,是否考虑归并问题,一般根据样本观测值的经济背景决定。,2、选择性样本模型的检验,分布设定检验(Misspecification of Proby*0) 选择性样本模型的一个重要的特殊的检验 。 即检验不能观察到实际样本观测值的样本点是否与能观察的样本点同分布。 在构造截断问题模型的似然函数时,假定被截断的样本点与能观察的样本点具有相同的分布; 在构造归并问题模型的似然函数时,也假定被不可观察的样本点与能观察的样本点具有相同的分布。,LR统计量,似然比统计量,归并模型似然函数,二元Probit模型似然函数,截断模型似然函数,如果LR统计量足够小,就不拒绝具有相同分布的假设。,