1、二元离散选择模型 Binary Discrete Choice Model,一、二元离散选择模型的经济背景 二、二元离散选择模型 三、二元Probit离散选择模型及其参数估计 四、二元Logit离散选择模型及其参数估计 五、一个实例,说明,在经典计量经济学模型中,被解释变量通常被假定为连续变量。 离散被解释变量数据计量经济学模型(Models with Discrete Dependent Variables)和离散选择模型(DCM, Discrete Choice Model)。二元选择模型(Binary Choice Model)和多元选择模型(Multiple Choice Model)
2、。本章只介绍二元选择模型。,离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。1962年,Warner首次将它应用于经济研究领域,用以研究公共交通工具和私人交通工具的选择问题。70、80年代,离散选择模型被普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。模型的估计方法主要发展于80年代初期。,一、二元离散选择模型的经济背景,研究选择结果与影响因素之间的关系。影响因素包括两部分:决策者的属性和备选方案的属性。对于两个方案的选择。例如,两种出行方式的选择,两种商品的选择。由决策者的属性和备选方案的属性共同决定。,对于单个方案的取舍。例如,购买者
3、对某种商品的购买决策问题 ,求职者对某种职业的选择问题,投票人对某候选人的投票决策,银行对某客户的贷款决策。由决策者的属性决定。,二、二元离散选择模型,1、原始模型,其中Y为观测值为1和0的决策被解释变量,X为解释变量,包括选择对象所具有的属性和选择主体所具有的属性。,对于,问题在于:该式右端并没有处于0,1范围内的限制,实际上很可能超出0,1的范围;而该式左端,则要求处于0,1范围内。于是产生了矛盾。,对于随机误差项 ,具有异方差性 。因为:,所以原始模型不能作为实际研究二元选择问题的模型。,2、效用模型,作为研究对象的二元选择模型,第i个个体 选择1的效用,第i个个体 选择0的效用,注意,
4、在模型中,效用是不可观测的,人们能够得到的观测值仍然是选择结果,即1和0。很显然,如果不可观测的U1U0,即对应于观测值为1,因为该个体选择公共交通工具的效用大于选择私人交通工具的效用,他当然要选择公共交通工具;相反,如果不可观测的U1U0,即对应于观测值为0,因为该个体选择公共交通工具的效用小于选择私人交通工具的效用,他当然要选择私人交通工具。,3、最大似然估计,欲使得效用模型可以估计,就必须为随机误差项选择一种特定的概率分布。两种最常用的分布是标准正态分布和逻辑(logistic)分布,于是形成了两种最常用的二元选择模型Probit模型和Logit模型。最大似然函数及其估计过程如下:,标准
5、正态分布或逻辑分布的对称性,在样本数据的支持下,如果知道概率分布函数和概率密度函数,求解该方程组,可以得到模型参数估计量。,三、二元Probit离散选择模型及其参数估计,1、标准正态分布的概率分布函数,2、重复观测值不可以得到情况下二元Probit离散选择模型的参数估计,关于参数的非线性函数,不能直接求解,需采用完全信息最大似然法中所采用的迭代方法。应用计量经济学软件。这里所谓“重复观测值不可以得到”,是指对每个决策者只有一个观测值。即使有多个观测值,也将其看成为多个不同的决策者。,3、重复观测值可以得到情况下二元Probit离散选择模型的参数估计,对每个决策者有多个重复(例如10次左右)观测
6、值。对第i个决策者重复观测ni次,选择yi=1的次数比例为pi,那么可以将pi作为真实概率Pi的一个估计量。,建立 “概率单位模型” ,采用广义最小二乘法估计 。实际中并不常用。,四、二元Logit离散选择模型及其参数估计,1、逻辑分布的概率分布函数,2、重复观测值不可以得到情况下二元logit离散选择模型的参数估计,关于参数的非线性函数,不能直接求解,需采用完全信息最大似然法中所采用的迭代方法。应用计量经济学软件。,3、重复观测值可以得到情况下二元logit离散选择模型的参数估计,对每个决策者有多个重复(例如10次左右)观测值。对第i个决策者重复观测ni次,选择yi=1的次数比例为pi,那么
7、可以将pi作为真实概率Pi的一个估计量。,建立“对数成败比例模型” ,采用广义最小二乘法估计 。实际中并不常用。,分布函数的类型决定了二元选择模型的类型,根据分布函数F的不同,二元选择模型可以有不同的类型,常用的二元选择模型如下表所示: 表 常用的二元选择模型,五、例题,分析与建模:在一次选举中,由于候选人对高收入者有利,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y)作为被解释变量,以投票者的月收入(x)作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0。原模型为:,样本观测值,估计二元选择模型,从Equation Specification对话框中,选
8、择Binary估计方法。在二元模型的设定中分为两部分。首先,在Equation Specification区域中,键入二元因变量的名字,随后键入一列回归项。由于二元变量估计只支持列表形式的设定,所以不能输入公式。然后,在Binary estimation method中选择Probit估计方法。,模型估计结果,但是作为估计对象的不是原始模型,而是下面这个模型。按照方程:可以得到不同X值下的Y选择1的概率。例如,当600时,查标准正态分布表,对应于2.0137的累积正态分布为0.9982;于是,的预测值YF=1-0.9982=0.0018;即对应于该个人,投赞成票的概率为0.0018。,例 贷款
9、决策模型,分析与建模:某商业银行从历史贷款客户中随机抽取78个样本,根据设计的指标体系分别计算它们的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。,样本观测值,估计二元选择模型,从Equation Specification对话框中,选择Binary估计方法。在二元模型的设定中分为两部分。首先,在Equation Specification区域中,键入二元因变量的名字,随后键入一列回归项。由于二元变量估计只支持列表形式的设定,所以不能输入公式。然
10、后,在Binary estimation method中选择Probit,Logit,Extreme value选择三种估计方法的一种。,模型估计输出结果,参数估计结果的上半部分包含与一般的回归结果类似的基本信息,标题包含关于估计方法(ML表示极大似然估计)和估计中所使用的样本的基本信息,也包括达到收敛要求的迭代次数。和计算系数协方差矩阵所使用方法的信息。在其下面显示的是系数的估计、渐近的标准误差、z-统计量和相应的概率值及各种有关统计量。,在回归结果中还提供几种似然函数: log likelihood是对数似然函数的最大值L(b),b是未知参数 的估计值。 Avg. log likeliho
11、od 是用观察值的个数N去除以对数似然函数L(b) ,即对数似然函数的平均值。 Restr. Log likelihood是除了常数以外所有系数被限制为0时的极大似然函数L(b) 。 LR统计量检验除了常数以外所有系数都是0的假设,这类似于线性回归模型中的统计量,测试模型整体的显著性。圆括号中的数字表示自由度,它是该测试下约束变量的个数。, Probability(LR stat)是LR检验统计量的P值。在零假设下,LR检验统计量近似服从于自由度等于检验下约束变量的个数的2分布。 McFadden R-squared是计算似然比率指标,正像它的名字所表示的,它同线性回归模型中的R2是类似的。它
12、具有总是介于0和1之间的性质。,估计选项 因为我们是用迭代法求极大似然函数的最大值,所以Option选项可以从估计选项中设定估计算法与迭代限制。单击Options按钮,打开对话框如下图所示。图 Options对话框,Option对话框有以下几项设置: 稳健标准差 (Robust Standard Errors) 对二元因变量模型而言,EViews允许使用准-极大似然函数(Huber/White)或广义的线性模型(GLM)方法估计标准误差。察看Robust Covariance对话框,并从两种方法中选择一种。 初始值 EViews的默认值是使用经验运算法则而选择出来的,适用于二元选择模型的每一种
13、类型。 估计法则 在Optimization algorithm 一栏中选择估计的运算法则。默认地,EViews使用quadratic hill-climbing方法得到参数估计。这种运算法则使用对数似然分析二次导数的矩阵来形成迭代和计算估计的系数协方差矩阵。还有另外两种不同的估计法则,Newton-Raphson也使用二次导数,BHHH使用一次导数,既确定迭代更新,又确定协方差矩阵估计。,预测 从方程工具栏选择Procs/Forecast(Fitted Probability /Index),然后单击想要预测的对象。既可以计算拟合概率, ,也可以计算指标 的拟合值。,回归方程表示如下: JG
14、F = 1-CNORM(-(8.797358375 - 0.2578816624*XY + 5.061788664*SC) 模拟:该方程表示,当XY和SC已知时,代入方程,可以计算贷款成功的概率JGF。例如,将表中第19个样本观测值XY=15、SC=1代入方程右边,计算括号内的值为0.1326552;,查标准正态分布表,对应于0.1326552的累积正态分布为0.5517;于是,JG的预测值JGF=10.5517=0.4483,即对应于该客户,贷款成功的概率为0.4483。,预测:如果有一个新客户,根据客户资料,计算的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),代入模型,就可以得到贷款成功的概率,以此决定是否给予贷款。二元选择模型中估计的系数不能被解释成对因变量的边际影响,只能从符号上判断。如果为正,表明解释变量越大,因变量取1的概率越大;反之,如果系数为负,表明相应的概率将越小。,