1、1第五章 离散选择模型第一节 模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用 1 和 0 表示;对某一建议持反对、中立和赞成 5 种观点,分别用 0、1、2 表示。由离散数据建立的模型称为离散选择模型。2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示
2、为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为 0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。下面是几个离散数据的例子例 5.1 研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但
3、我们可以观察到是否购买了住房,即1,0Y购 买, 不 购 买我们希望研究买房的可能性,即概率 的大小。()P例 5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决2于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即1,0Y跳 槽, 不 跳 槽例 5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即1,23Y支 持, 反 对, 弃 权研究投票者投各种票的可能性,即 。(),12,3Pj从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称
4、二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。离散选择模型起源于 Fechner 于 1860 年进行的动物条件二元反射研究。1962 年,Warner 首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80 年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于 20 世纪 80 年代初期。 (参见李子奈,高等计量经济学,清华大学出版社,2000 年,第 155 页-第 156 页)二、线性概率模型对于二元选择问题,可以建立如下计量经济模型。1、线性
5、概率模型的概念。设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示12iiYXu其中 为家庭的收入水平, 为家庭购买住房的选择,即iXi0家 庭 已 购 买 住 房家 庭 无 购 买 住 房3由于 是取值为 0 和 1 的随机变量,并定义取 值为 1 的概率是 p,则 的分布YYY为则 的数学期望为 ()0(1)EYp显然 ()()iPXEY从而 12()iiEYp上述数学模型的经济学解释是,因为选择购买住房变量取值是 1,其概率是 p,并且这时对应 p 的表示是一线性关系,因此, 在给定 下的条件期望YiX可解释为在给定 下,事件(家庭购买住房)将发生的条件概率为()iEYXiX,
6、亦即家庭选择购买住房的概率是家庭收入的一个线性函数。我们1iiP称这一关系式为线性概率函数。2、线性概率函数的估计。对线性概率函数的估计存在以下困难:(1)随机误差项的非正态性表现。 1212,0iiii iiuYX表明 服从两点分布。iu(2) 的异方差性。事实上,i 2 21 122()()()()iiii iVaruEuEXpXppY 0 1概率 1-p p4上式中,p 随着 i 的变动是一个变动的量,则 的方差不是一个固定常数。iu(3)利用加权最小二乘法修正异方差。取权数为1212()()()i i iiiiiwpXYuw可以证明 具有同方差。在具体估计线性概率模型时,用 作为 p
7、的估计来iu iY计算权数 的估计 。w3、可决系数 的非真实性。由于,被解释变量 只取值 1 或 0,不可能有2R估计的线性概率模型能很好地拟合这些点,所以,这时计算的 会比 1 小许多,2R在大多数例子中, 介于 0.2 与 0.6 之间。24、0 1 不成立。克服这一问题可直接从对线性概率模型的估计,()iEYX求出 ,用人工的方法定义当 1 时,取 =1;当 1 时,取 =1iYi当 0,则 ,因此,在其它条件不变的.861e情况下,平均分数每增加一个单位,将导致接受新教学方法后成绩有所改善的发生比会相应提高。同理,对于变量 TUCE 也可作类似的讨论;由于 PSI 为虚拟解释变量,表
8、示是否接受新教学方法,如果接受取 1,否则取 0,因此,在其它条件不变的情况下,当 PSI=1 时,则将会使接受新教学方法后,学习成绩改善的发生比有所提高,而当 PSI=0 时,则将会使接受新教学方法后,学习成绩改善的发生比保持不变。2、用概率来解释 Logit 模型的系数。 除了解释变量对于对数发生比的偏作用外,有时也用事件发生的概率来解释模型中系数的偏作用。对事件发生概率的偏作用可以通过对 Logit 模型1212()(1|)ii iXi XePYe求 的偏导数来加以解释。其求导结果如下iX12122()(1)()i Xii iXiieepp于是,变量 对事件发生概率的偏作用就等于该解释变
9、量的系数 与iX 2的乘积。偏作用的符号由 决定,因为 永远为正值,作用的幅(1)p2(1)p度依赖于 的幅度和对应于 特定值的概率,而它与模型中所有其它解释变量2iX17有关。因此,不同于对发生比作用的解释,对事件发生概率的偏作用是随 值p的变化而变化的。这就需要在讨论变量 对事件发生概率的偏作用时,应将概iX率 值计算出来后,才能解释其偏作用。p3、预测概率。与一般线性回归模型一样,根据 Logit 模型也可以获得事件发生的预测概率。以一个解释变量的 Logit 模型为例,如果我们知道参数估计 和 ,并确12定某一事件的 ,便可将其代入 Logit 模型,计算预测概率。计算(1,2)iXn
10、公式为1212()ii iXXepe在计算预测概率的基础上,还进一步计算在解释变量发生离散变化时 预测概率的变化,这种方法被称为概率离散变化法。其计算公式是1|1|i ipPYXYPYX另外,与一般线性回归模型一样,由一个解释变量的 Logit 模型也可扩展到多个解释变量的 Logit 模型,见下式111() (1,2)kjik kji jiXi Xep ne相应的对数发生比为1ln()(,2)ki jipn类似多元线性回归模型,在 Logit 模型中,由于多个解释变量可能会以多个不同的尺度加以测量,这个时候要直接对比不同解释变量对发生比的影响是不行的,因此,需要对解释变量进行标准化变换,将解
11、释变量和被解释变量由非标准化变量转换为标准化变量,从而,才直接对比各个解释变量对发生比的影响大小。其变换方法与多元线性回归模型一样。可参见王济川、郭志刚,Logistic回归模型方法与应用,高等教育出版社,2001 年。第 115 页-第 117 页。18第三节 Probit 模型一、Probit 模型及参数估计在前面已经看到,由 S 型曲线,可分别得到累积分布函数和标准正态分布函数,对于后者可建立一个二元选择的 Probit 模型。单一解释变量 的 ProbitiX模型为1212(|)()()iXi iPYXzd式中 分别为标准正态分布的分布函数和密度函数。(),z与 Logit 模型的参数
12、估计相似,对 Probit 模型的参数估计也可采用最大似然估计方法。有的教科书还介绍了一种运用效用行为选择理论建立 Probit 模型,并采用群组数据对 Probit 模型的参数应用 OLS 方法进行估计(参见 Damodar N.Gujarati 计量经济学基础 (第四版)下册,中国人民大学出版社,2005 年,第 569 页-573 页) 。这里我们仅根据计算软件 Eviews 的功能,介绍最大似然估计对 Probit 模型参数的估计。在样本分布与总体分布一致的前提下,按随机抽样原则抽取样本,对 n 个样本 ,建立对数似然函数(,)1,2iXYin 1212 121l(,)l)(l()i
13、ii iiLYX上述模型的最大似然估计就是使该表达式有最大值时的 的估计 、 。12、 12具体求解过程这里不再赘述。例 在前述新教学方法的例子里,运用 Eviews 软件里的 Probit 模型估计方法得到如下结果19写出具体表达式为 (1|,)(7.45231.680.517.4263)PYGATUCEPSIGPATUCEPSI二、Logit 模型与 Probit 模型的比较综合来看,在二分类被解释变量情况下,Logit 模型与 Probit 模型的结果十分接近,这是因为生成 Logit 模型的累积分布函数和累积正态分布函数之间非常接近。尽管两种模型有相似的分布函数,但是,两种函数却有以下几点不同:一是函数的形式不同;二是两种模型估计的系数由于解释不同,所以不能直接对比。那么,在处理实际问题时,到底选用哪一种模型?根据经验,选择 Logit模型还是 Probit 模型主要出于方便的需要。但是,在某些条件下,Logit 模型与Probit 模型估计结果相差较大,如果大量观测点集中于分布两端,这时,选择Logit 模型更合适;当模型中包含了连续的解释变量时,也是应用 Logit 模型更好。