收藏 分享(赏)

4.4-计数数据模型.ppt

上传人:天天快乐 文档编号:759358 上传时间:2018-04-21 格式:PPT 页数:62 大小:778.50KB
下载 相关 举报
4.4-计数数据模型.ppt_第1页
第1页 / 共62页
4.4-计数数据模型.ppt_第2页
第2页 / 共62页
4.4-计数数据模型.ppt_第3页
第3页 / 共62页
4.4-计数数据模型.ppt_第4页
第4页 / 共62页
4.4-计数数据模型.ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

1、4.4 离散计数数据模型Models For Count Data,一、离散计数数据模型的提出 二、计数过程及其分布 三、泊松回归模型 四、负二项分布回归模型 五、零变换泊松模型,一、离散计数数据模型的提出,1、经济社会研究中的离散计数问题,计数变量是取值为非负整数的变量 许多经济、社会问题的描述变量都为计数变量一定时间内发生事故的次数一年中公司申请的专利数量一定时间内变换工作的次数一定时间内到医院就诊的次数家庭生育孩子的数量学生在本科4年中不及格课程门数以这些变量为被解释变量,研究它们的影响因素,构成了计量经济学的一类问题。,2、计量经济学中的离散计数数据模型,以离散计数变量为被解释变量,研

2、究它们的影响因素,构成了计量经济学的一类问题。这类问题的共同特点是:被解释变量观测值表现为非负整数。,假设是Y计数变量,X是一组解释变量,建立如下的经典线性模型:,左端为非负整数,而右端并无限制,致使左右端矛盾。,如果对Y采用对数变换,可以解决非负限制问题。,在计数数据应用研究中难以实现,因为相当比例的Y的观测值为0。,当y没有上界时,可以采用指数函数模型,非线性最小二乘方法(NLS)可以用于该模型的估计,但效果不理想。因为NLS估计量非有效,除非y的方差为常数,而实际上,所有计数数据的标准分布都意味着异方差。,被解释变量观测值的非负整数特征,计数数据中零元素和绝对值较小的数据出现得较为频繁,

3、而且离散特征十分明显,以及模型的异方差特征,决定了有必要引进描述非负整数特征的概率分布建立离散计数数据模型。,七十年代末以来,许多学者在计数数据模型的处理方法方面作出了较大贡献,包括:Gilbert(1979)提出了泊松回归模型,Hausman,Hall和Griliches(1984)提出了负二项回归模型和Panel方法,Gourier,Monfort和Trogonon(1984)提出了仿最大似然法。其中,最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛。,二、计数过程及其分布,1、计数过程,计数过程的定义随机过程N(t),t0 被称为计数过程,N(t) 表示t时间前发生的事件总量。平

4、稳性(Stationary)在任何时间区间上,事件发生数量的分布只由时间区间的长度决定。,2、单变量泊松过程,在时间区间(t,t+t) 上,事件发生1次的概率与t时间前事件发生的数量无关。在时间区间(t,t+t) 上,事件发生1次和0次的概率分别为:,即,在一个足够短的区间上,事件发生两次以上的概率趋近于0。,在t时刻已经发生k次的概率乘以(t+t)内发生0次的概率,在t时刻已经发生(k-1)次的概率乘以(t+t)内发生1次的概率,使用初始条件 ,求解以上微分方程利用概率生成函数得到泊松分布,3、泊松分布(Poisson distribution),在泊松过程中,标准化时间区间长度为 t=1,

5、 则可以得到参数为的标准泊松分布,泊松分布的一个重要特征是均值和方差相等,称为分散均衡 (equidispersion)。,泊松分布是计数过程最常见的一类分布。所谓均值和方差相等,指的是,如果对同一个个体,例如某个人一年内到医院就诊的次数,进行无数次重复抽样,得到的计数数据序列的均值和方差相等。在实际社会经济生活中,所谓“重复抽样”是不可能实现的,只能根据对不同个体的一次抽样得到的序列近似地判断是否服从泊松分布。,定理 令 , 。当且仅当X与Y独立时,随机变量 Z=X+Y是泊松分布。当X与Y独立时,Z的概率生成函数为则Z服从泊松分布,参数为,4、二项分布(Binomial distributi

6、on),随机变量X服从参数为n和p的二项分布,XB(n,p), 0p1, 即,均值和方差为:E(X)=np, Var(X)=np(1-p) 计数过程的均值大于方差,称为分散不足(underdispersion)。,5、负二项分布(Negative Binomial distribution),如果计数过程的均值小于方差,称为分散过度(overdispersion)。对于这样的计数过程,一般服从负二项分布。 XNB(,), 00 。,6、对数分布(Logarithmic distribution ),方差和均值为:,7、计数数据分布特征,如果以泊松分布作为标准,二项分布更集中于均值,而负二项分布

7、更为分散 所有分布都向左侧倾斜(skewed to the left),说明在计数分布中,数值较小的数据出现的概率较高。,8、Katz分布族,非负整数分布可以用递归概率比表示Katz分布族定义为其中, ,且当 ,,当 ,分布为泊松分布当 ,分布为二项分布当 ,分布为负二项分布当 ,分布为对数分布,三、泊松回归模型,1、泊松回归模型(Poisson regression model),被解释变量Y i服从参数为i的泊松分布,其中i与解释变量Xi存在某种关系。模型的初始方程为:,2、极大似然估计(MLE),对数似然函数最大化似然函数,一阶条件:Hessian矩阵:,由于Hessian矩阵是负定的,

8、对数似然函数是凹函数,估计值 的二阶条件满足利用迭代算法,可以求解一阶条件例如,Newton-Raphson方法 g(.)是梯度向量,3、例题:本科不及格门数的原因分析,变量Unpass不及格门数Score高考成绩Stime平均每周于用学习的时间Dsa理、文科虚变量Dbody健康状况虚变量,数据,数据,经典模型(OLS),Poisson回归模型,剔除不显著变量,4、估计量的性质,模型正确设定,当且仅当存在 满足 假设模型正确设定,围绕 对 进行Taylor展开 由一阶条件可知,,根据iid假设和大数定律,I为Fisher信息矩阵根据中心极限定理因此,,以上结果表明, 是 的一致估计量 由于大样

9、本方差矩阵达到Cramer-Rao下界,估计量是大样本有效的 因此,正确设定的泊松回归模型满足,5、泊松回归模型的假设检验,泊松回归模型假定被解释变量的均值等于方差,这是一个非常强的假设。如何检验这个假设条件是否成立?主要有以下两种:基于回归的检验方法 拉格朗日乘子检验法,基于回归的分布检验,如果的估计趋近于1,则不拒绝零假设。,如果的估计趋近于1,的估计趋近于0,则不拒绝零假设。,拉格朗日乘子检验泊松分布是负二项分布的一种特殊情况,如果对负二项分布的某个参数施加一定的限制条件后,就能够得到泊松分布。构造LM统计量:,权重为1,例题:采用基于回归的检验方法检验被解释变量的均值等于方差,得到回归

10、方程:,拒绝均值等于方差零假设。由简单统计分析得到,序列UNPASS的均值为0.48,方差为0.9078,可以认为该序列为分散过度型。应该采用负二项分布回归模型。,6、泊松回归模型的拟合优度检验,由于泊松回归模型的条件均值非线性,且回归方程存在异方差,所以它不能产生类似于经典线性模型中的R2统计量。提出了若干个替代性的统计量,用以衡量该模型的拟合优度。,Pseudo R-squared,该统计量被应用软件(例如Eviews等)普遍采用。从直观看,如果完全拟合,R2=1。,Rp2 统计量,该统计量通过把泊松模型同只有一种观察值的模型相比较的方法,考察该模型的拟合优度。但是这个统计量有时为负,而且

11、会随变量的减少而变小。,G2统计量,该统计量为各样本观察值的偏差(deviance)之和。如果拟合达到完美状态,则该统计量为零。,分子和分母都衡量了模型在只有一种观察值的模型基础上的改进,分母为改进的最大空间。所以该统计量的数值在0到1之间。,Rd2统计量,四、负二项分布回归模型,负二项分布模型(Negative Binomial Regression Model)由于泊松模型假定被解释变量的均值等于方差,人们提出了许多替代该模型的方法。其中应用得较多的是负二项分布模型。Cameron和Trivedi在1986年提出负二项分布的一种形式。,引入无法观察的随机影响来使泊松模型一般化,被解释变量的

12、条件分布,被解释变量的分布,该分布是负二项分布的一种形式。其条件均值为i,条件方差为i(1+1/)i)。由概率密度可以求得最大似然函数,再通过迭代法求出参数估计。对于负二项分布假设可以用Wald或者LR统计量进行检验。,例题的负二项分布回归模型,用回归方程表示如下:UNPASS = EXP(21.464405080.03152123676*SCORE 0.1039909045*STIME+ 0.1233402396*DSA 0.2315551204*DBODY)从估计结果发现:检验拟合优度的统计量的值为0.465,表明模型具有比较好的拟合优度;检验总体显著性的LR统计量的值为43.39,表明模

13、型具有很高的总体显著性;通过变量显著性的Z检验发现,理文科虚变量(Dsa)和健康状况虚变量(Dbody)对不及格门数的影响并不显著。,五、零变换泊松模型,被解释变量为零值的产生过程与它取正值的过程差异很大。例如,1年内到医院就诊的次数假设1:身体健康的人就诊次数为0,身体不健康的人就诊次数大于0;假设2:身体健康的人就诊次数为0,身体不健康的人就诊次数一般大于0,但也可能为0。,零变换泊松模型(Hurdle and Zero-Altered Possion Models)Mullahey(1986)最先提出了一个Hurdle模型,用白努利分布来描述被解释变量分别为零值和正值的概率。,改变了被解

14、释变量取零值的概率,但是所有取值的概率之和保持为1,假设1,Mullahey(1986),Lambert(1992)等人还分析了在hurdle模型的一种扩展情况,即假定被解释变量的零值产生于两个区域(regime)中的一个。在一个区域里,被解释变量总是零,而另一个区域里,被解释变量的取值符合泊松过程,既可能产生零,也可能产生其他数值。即假设2模型形式如下:,如果用z表示白努利分布的两种情况,事件发生在区域1时令z=0,发生在区域2时令z=1,并用y*表示区域2内被解释变量服从的泊松过程,则所有观察值都可以表示为z y* 。 于是这个分离模型可表示为(式中F为设定的分布函数):,Lambert(1992)和Greene(1994)考虑了许多方法,其中包括应用logit和probit模型描述两个区域各自的发生概率。这些修正的方法都改变了泊松过程,即均值和方差不再相等。关于分离模型的进一步探讨比较复杂,请同学们自行参考Greene的教科书和相关文献。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报