收藏 分享(赏)

离散选择模型.ppt

上传人:天天快乐 文档编号:779458 上传时间:2018-04-23 格式:PPT 页数:63 大小:1.08MB
下载 相关 举报
离散选择模型.ppt_第1页
第1页 / 共63页
离散选择模型.ppt_第2页
第2页 / 共63页
离散选择模型.ppt_第3页
第3页 / 共63页
离散选择模型.ppt_第4页
第4页 / 共63页
离散选择模型.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

1、logistic回归分析,logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法。,1.多元线性回归方法要求 Y 的取值为连续性随机变量2.多元线性回归方程要求Y与X间关系为线性关系3.多元线性回归结果不能回答“发生与否”logistic回归方法补充多元线性回归的不足,值得注意的是,因变量并不仅仅局限于“是”或“否”这样的二分变量。,比如,美国总统的选举问题。假定有三个政党民主党、共和党和独立党派,因变量就是三分变量。此外,还可能存在五分变量或者多分因变量的问题。,在这种情况下,我们运用相应的模型来预测每种事件发生的概率,因此,含有

2、定性变量作为因变量的模型通常被成为概率模型。,因为通常情况下,我们考虑被解释变量为二元变量的模型,这种模型也因此被称为二元选择模型或者离散选择模型,如果为多元,则称之为多元选择模型。,离散选择模型起源于Fechner于1860年所进行的动物条件二元反射研究,1962年Warner首次将这一方法应用与经济研究领域。Mcfadden因为在离散选择模型领域里的突出贡献而获得了2000年的诺贝尔经济学奖。,例如,公共交通和私人交通的选择问题,对某种商品的购买决定问题,离散选择模型在实际生活中的应用,大学生对职业的选择问题,一、基本概念,1.变量的取值 logistic回归要求应变量(Y)取值为分类变量

3、(两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm,2.两值因变量的logistic回归模型方程,一个自变量与Y关系的回归模型,其中:,记家庭拥有自有住房的条件概率为P(Yi=1/Xi),则不拥有自己住房的概率就是1- P(Yi=1/Xi) :,条件期望:,那么:,例如,我们对一个是否拥有自有住房的案例进行回归,结果如下:,回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位(1万元人民币),平均拥有住房的概率将增加10.56%:,但问题是,当收入10万元,或者更少的情况下,平均拥有住房的概率为负值,而当收入

4、为20万元,或者更多的情况下,平均拥有住房的概率大于1,因此,我们必须考虑相应的方法对这一问题进行处理。,对同样的问题,我们采用如下的模型形式:,那么:,从而:,这样的事件发生比Li,不仅对Xi是线性的,对参数也是线性的,而且发生概率将永远落在0和1之间, Li就被称为logit,像*这样的模型也就被称为logit模型。,参数的含义是什么?,现在定义:,当X变化一个单位时:,因此有:,二、logit模型的估计,为了估计事件发生的概率之比Li,除了需要知道解释变量的数据之外,还得知道Li的数值。此时,该如何处理?,依然以是否拥有自有住房为例进行说明,不同的收入水平下有很多个家庭N,在这一收入水平

5、下有n个家庭拥有自己的住房,其余N-n个家庭没有自己的住房,那么我们就可以用事件发生的相对频率作为事件发生概率的估计值Pi ,并利用这个估计值得到Li 。事实上,当样本容量足够大的时候,这样的频率将是概率的良好估计。,对模型* 估计之后,如何计算指定收入水平下拥有住房的概率?,1.一般情况下的估计,回归结果如下:,这就意味着,当收入增加1万元时,根据该样本回归的结果认为,拥有自有住房的发生比将增加8.2%,2.解释变量同样为定性变量的情况,Xi=1时:,Xi=0时:,如果定义:,那么就有:,危险因素 Y x= 1 x= 0发病=1 30(a) 10( b) 不发病=0 70(c) 90(d)

6、a+c b+d 危险因素 Y x= 1 x= 0发病=1 p1 p0 不发病=0 1-p1 1-p0,有暴露因素人群中发病的比例,反映了在其他变量固定后,X=1与X=0相比发生Y事件的对数优势比。 回归系数1与OR X与Y的关联 1 =0,OR=1 无关 1 0,OR1 有关,危险因素 1 0,OR1, 有关,保护因子,例:抽烟与否与患食道癌的概率,其中,Y=0表示没有罹患食道癌,Y=1则表示患了食道癌; X=0表示没有抽烟习惯,X=1则表示有抽烟的习惯,回归的结果如下:,表示什么含义?,这意味着在其他条件都相同的情况下,抽烟人士患食道癌的可能性是不抽烟人士的3.7倍还要多。,3.多个解释变量

7、的情况,在很多情况下,解释变量既有定性变量,又有连续变量,而且连续变量并非分组变量,很难计算出解释变量取不同值时事件发生的频率,在这种情况下,又该如何处理?,例如:新的教学方法对大一新生成绩的影响如果学生期末成绩为A,则记为被解释变量PJ=1,如果期末成绩为B或者C或者更低,则记为被解释变量PJ=0。考虑使用的解释变量为:学生的平均学分GPA 学生在期初时的成绩PRES 是否使用新的教学方法(1,是;0,否),建立如下logit模型:,回归结果如下:,这意味着在其他条件都相同的情况下,或者说控制了其他影响学生期末成绩的情况下,接受新教学方法的学生得到A的可能性是没有接受新教学方法学生的6倍多。

8、,需要注意的是,在logit模型中,模型的拟合优度衡量的是正确预测次数的概率,这样的拟合优度对于回归而言是次要的,回归系数的期望符号以及他们在统计上的显著性才是首要的。此外,这种logit估计是针对大样本的,对于小样本并不适用。,probit回归分析,probit模型也是一种广义的线性模型。服从正态分布。 当因变量是名义变量时,Logit和Probit并没有本质的区别,一般情况下可以换用。区别在于采用的分布函数不同,Logit模型假设随机变量服从逻辑概率分布,而Probit模型则假设随机变量服从正态分布。这两种分布函数的区别在于逻辑概率分布函数的尾巴比正态分布粗一些。但当因变量是序次变量时,回

9、归时只能用有序Probit模型。有序Probit可以看作是Probit的扩展,一、使用群组数据的Probit估计,假定在是否拥有自有住房的回归中,第i个家庭对是否拥有住房的决定,依赖于一种不可观测的效用指数Ii,而后者又按照某种方式取决于解释变量,比如说取决于收入:而且指数Ii的值越大,家庭拥有住房的概率就越高。,其中Xi表示第i个家庭的收入水平。 Xi仍然具有分组的特征,拥有自有住房的决定如何与Ii发生关系呢?,一个合理的假定就是:对每一个家庭而言,都存在一个门槛值Ii *,当Ii * Ii时,该家庭拥有自己住房,否则不拥有,因此有:,其中F()是标准正态分布函数, Ii是效用函数。 因为P

10、i=F(Ii), F()为单调递增函数,因此,Ii=F-1(Pi),其中F-1()是正态CDF的反函数。,累积分布函数,P(Yi=1/Xi)表示给定解释变量X的值时,拥有自有住房这一事件出现的概率,如下图所示:,对于模型: 估计步骤如下:,从分组数据得到,根据得到的 ,从标准正态CDF中得到Ii=F-1(Pi),用得到的Ii作为模型(1)中的因变量,用OLS对模型(1)进行回归,得到相应的参数。,对是否拥有自有住房的例子,回归结果如下:,Xi的系数0.0487代表什么含义?,对Probit模型中系数的解释:,考察X的单位变动对Y=1这一事件发生概率的影响,也就是求:,其中, 是在 处取值的标准

11、正态概率密度函数。,就本例而言,当Xi=5万元时,标准正态密度函数的值为:,查标准正态分布表可知:-0.7478处的标准正态密度约为0.3011,将该值乘以斜率系数的估计值0.0487,得到0.0147。 这意味着,从5万元开始,如果收入上升1万元,一个家庭购买住宅的可能性将上升约1.47%。,例:贷款决策模型,某商业银行从历史贷款客户中随机抽取78个样本,根据设计的指标体系分别计算它们的“商业信用支持度”(CC)和“市场竞争地位等级”(CM)。目的是研究客户的贷款结果JG与CC、CM之间的关系,并为正确贷款决策提供支持。,结果表示:当CC和CM已知时,代入方程,可以计算贷款成功的概率JGF。

12、例如,将表中第19个样本:CC=15、CM=1代入方程右边,括号内的值为0.1326552;查标准正态分布表,对应于0.1326552的累积正态分布为0.5517;于是,JG的预测值JGF=10.5517=0.4483,即对应于该客户,贷款成功的概率为0.4483。,二、非群组数据的Probit估计,仍然以前面新的教学方法与学生成绩之间的关系为例:,如果学生期末成绩为A,则记为被解释变量PJ=1,如果期末成绩为B或者C或者更低,则记为被解释变量PJ=0。考虑使用的解释变量为:学生的平均学分GPA 学生在期初时的成绩PRES 是否使用新的教学方法(1,是;0,否),用Logit回归的结果如下:,

13、用Probit回归的结果如下:,由于要考察新的教学方法TAN对学生成绩的影响,现在求概率函数对TAN的导数:,带入各解释变量的均值,得到:,查标准正态分布表可知:-0.6212处的标准正态密度约为0.3292,将该值乘以斜率系数的估计值1.1281,得到0.3713,也就是说,接受新的教学方法的学生得到A的可能性比未接受新教学方法的学生高37.13%。,三、Ordered-Probit估计,当被解释变量为有序的分类变量时,或者,分类的个数超过两个的时候,我们需要用Probit模型去进行估计,具有这样特征的Probit模型就是Ordered-Probit模型。,比如,因变量为:,与一般的Prob

14、it模型一样,我们需要设定一个状态变量或者效用函数,使之具有如下特征:,或者写成向量的形式:,ui为标准正态分布的随机误差项:,被解释变量和效用函数之间的关系定义如下(以3种分类为例):,因为 ,这种关系也可以写成:,ui的概率密度为:,与一般的Probit模型一样,解释变量X的变化对事件发生概率的边际影响为:,很明显:P(Yi=0)的导数与系数符号相反;P(Yi=2)的导数与系数符号相同;P(Yi=1)的导数的符号则不确定,它取决于密度函数 和 的大小比较。,例:居民的幸福感与居民收入差距之间的关系,本例中幸福感( HAPPINESS) 在数字1 到 5 之间变化,具体表达式如下:HAPPI

15、NESS = 1, 如果 HAPPINESS C1 非常不幸福HAPPINESS = 2, 如果 C1HAPPINESS C2 不幸福HAPPINESS = 3, 如果 C2HAPPINESS C3 一般HAPPINESS = 4, 如果 C3HAPPINESS C4 幸福HAPPINESS = 5, 如果 C4 HAPPINESS 非常幸福,居民收入差距用基尼系数来衡量,样本的基本情况:,变量之间的相关性:,可见,不管样本来自于城市还是农村,其基尼系数与居民之间的幸福感都呈现负相关关系,基尼系数越大,居民的幸福感越低 。因此,随着收入差距的拉大,居民幸福感就会降低, 但农村居民基尼系数与幸福

16、感之间的负相关关系并不显著。,解释变量主要有以下四类:个体特征变量( personal):包括性别( sex)、 年龄(age)、 宗教信仰( religion) 、工作状况( job) 、受教育程度( education) 和婚姻状况( marital);收入变量( income):用样本家庭全年总收入( family income) 衡量;收入差距变量( inequality),用基尼系数( gini) 衡量;满意度变量(satisfaction),包括家庭经济状况满意度, 家庭关系满意度 人际关系满意度 个人健康状况满意度 住房状况满意度 社区满意度以及工作满意度, 分别用 satisf

17、action1 7 表示。,具体的模型设定如下:happiness= f (personal , income , inequality , satisfaction),其中收入变量取其对数值,回归的结果如下:,略,tobit回归分析,Tobit模型是Probit模型的一个扩展,最先由诺贝尔经济学家詹姆斯托宾提出。 例:对人们购买住房的情况进行分析时,不仅想知道样本个体是否购买了住房,还想知道其花在购买住房上的金额。此时就存在这样一个问题:如果一个消费者没有购买住房,那么我们就无法得到他花在购买住房上的具体金额。 Tobit模型就是针对这种情况而言的:对统计调查取得的数据进行研究的时候,被解释

18、变量不能被完全观察的情形,我们称之为数据出现了截取或者断尾的现象。,一、截取数据,截取和断尾的共同之处在于:样本因为某种原因,不能够代表真实的总体,因此简单的OLS估计将会得到不一致的结果,如果借助极大似然估计方法,就必须对总体分布施加更强的假设,才能够从有偏的样本中得到一致的参数估计结果。,当被解释变量y的取值被限定在一个特定的范围内时,就出现了数据截取问题。此时,我们观察到y在一个特定的范围之内并不等于其真实值y*,通常情况下,y在这一特定范围之内会等于某一常数。,1.定义,数据截取分为从上截取和从下截取,又称为右截取和左截取。,在从上截取的情形中,当真实值y*大于某一值c时,我们就无法观

19、测到真实的y* ,而是观察到y=c,因此从上截取更详细的表达式为:,相应的,在从下截取的情形中,当真实值y*小于某一值c时,我们就无法观测到真实的y* ,而是观察到y=c,因此从下截取更详细的表达式为:,2.产生截取数据的原因,角点解的存在:在消费者或者厂商问题中,会面临预算约束或者资源约束,当这些约束条件成立时,就会产生角点解。,例如:在耐用消费品的选择中,如果最优消费数量y*小于1,消费者就会选择不购买,此时我们就只能观测到y=0; 在电影或者球赛的门票销售中,由于受到场地的限制,当电影或比赛备受欢迎,门票的需求量超过了座位数c时,我们也只能观测到y=c。,数据分类:在对数据进行分类整理时

20、,我们常常会把低于某个下限或者高于某个上限的数值用下限或者上限来代替,从而产生数据截取的问题。,比较典型的例子就是:对收入调查数据进行处理时,对于高收入群体,调查中就经常采用类似“高于2万元”这样的选项,从而使得这一样本个体的具体收入情况无法得知,也就产生了从上截取的现象。,二、断尾数据,当被解释变量y的取值在某一范围内时,我们无法获得有关的样本信息,此时就出现了数据断尾的问题。数据断尾实际上是一个样本缺失的问题,由于缺失的样本在某个截取点之外,因此就称之为“断尾”。,1.定义,由此可见,数据“断尾”情况下,数据的缺失不是随机的,它具有系统性,从而导致所得到的的样本并不具有对总体的代表性,我们

21、可以这样表示从上“断尾”的情形:,2.产生断尾数据的原因,样本选择是产生断尾数据的主要原因。所谓样本选择是指所观察到的样本由于在抽样的过程中,或多或少受到因变量取值的影响,而因此成为非随机样本。,被调查对象的“自选择”行为:具有某种特定行为或特征的被调查对象很容易进入到样本中来,而其他的被调查对象则容易被排除在外。,例如:对工资与工作时间关系的研究时,容易出现“自选择”的情况。在劳动力市场中,我们所观察到的工资和工作时间都是从就业群体中获得的,而那些失业者能够接受的保留工资和意愿工作时间则无法观察到。,抽样方案设计不当:如果抽样方案设计不当,也会产生数据断尾的情形,在这种情况下,因为抽样方案设

22、计不当而导致的样本选择是可以通过一定的途径得到修正的。,比如:在对人们购物习惯(网购)进行调查时,如果对抽样方案进行设计时,确定通过网络调查来获得样本数据。这样就会导致样本中的“网虫”比例过高;再比如:研究消费者的收入水平时,如果选择在高档的消费场合进行调查,就必然导致样本中高收入群体的比重过高。,值得说明的是:因为样本选择而系统地缺失特定群体的信息,从而会导致数据的断尾,但样本选择并不一定会导致数据断尾。,如果样本选择只与外生的解释变量有关,也就是说,选择的偏差出现在外生的解释变量一方时,标准的OLS估计仍然能够得到一致的估计。,如果样本选择与被解释变量有关,也就是说,在抽取样本时,不管是有

23、意考虑了被解释变 量的取值,还是无意之间受到了被解释变量取值的影响,就会产生数据断尾的情况,从而导致OLS估计得到有偏和不一致的估计结果。,三、运用tobit模型进行估计,以耐用消费品的消费为例,说明tobit模型的估计问题。,问题:当y*0时,是否可以进行OLS估计?,对y*0部分的数据进行OLS估计的结果:,f(i),i,Y* = -40 + 1.2X + uY = Y* if Y* 0Y=0 if Y* 0 Y* 0 意味着: u 40 - 1.2X,例如:,Y*,X,Tobit模型的估计,Y,X,全部实际观察到的数据,Y,X,OLS:用全部实际观察到的数据,参数估计向下偏误,但是截距出现了高估的情况,用Eviews软件做Tobit回归,案例:上市商业银行的经营效率,被解释变量:上市商业银行的经营效率(Efficiency),解释变量:商业银行的不良贷款率(A,Asset) 商业银行人均营业费用(M,Management) 商业银行存贷比(L,Liquidity) 商业银行上市年数(T,Listing Time),选择11家上市商业银行连续3年的数据进行分析,Tobit回归的结果如下:,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报