收藏 分享(赏)

第九讲定类或定序因变量回归分析.ppt

上传人:HR专家 文档编号:7991023 上传时间:2019-06-02 格式:PPT 页数:37 大小:286KB
下载 相关 举报
第九讲定类或定序因变量回归分析.ppt_第1页
第1页 / 共37页
第九讲定类或定序因变量回归分析.ppt_第2页
第2页 / 共37页
第九讲定类或定序因变量回归分析.ppt_第3页
第3页 / 共37页
第九讲定类或定序因变量回归分析.ppt_第4页
第4页 / 共37页
第九讲定类或定序因变量回归分析.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、第九讲 定类或定序因变量回归分析,线性回归模型在定量分析中广为流行,然而当因变量是一个定类变量而不是一个连续变量时,很难应用线性回归模型。如政治学中研究是否选举某候选人,经济学研究中涉及的是否销售或购买某种商品,如在社会学和人口学研究中所涉及的如犯罪、逃学、迁移、结婚、离婚、生育、患病等等都可以按照二分类变量或多分类来测量。又如在研究态度与偏好等心理现象时也经常按几个类型进行测量的,如“强烈反对”、“反对”、“中立”、“支持”、和“强烈支持”。另外,有时对一些连续变量也要转换成类型变量,如在分析升学考试的影响因素时,将考生分为录取线以上和录取线以下,只要选定一个分界点,连续变量便可以被转换成定

2、类变量。,一、问题的提出,从统计理论上看,在进行最小二乘法的参数估计时,我们仅仅关注残差项的分布,很少对因变量Y所服从的分布予以关注,实际上,我们拥有Y的信息要远远大于拥有残差项的信息。因变量Y服从正态分布的推断来源于残差项服从正态分布,因为Y 是残差项的线性函数。事实上,社会经济现象往往有不同于正态分布的其他分布,例如: (1)二项分布(binomial distribution)(2)泊松分布(Poisson),二、线性概率模型,1、模型建立 以最小二乘法为基础的线性回归方程是估测因变量的平均值,而二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估测概率,就是所谓的线性概率回归。

3、用公式表示为: P = a + iXi + 对二项分布线性概率模型的结果解释:在其他变量不变的情形下,x每增加一个单位,事件发生概率的期望将变动个单位。例如,林楠和谢文(1988)曾用线性概率模型估测入党(政治资本)的概率,模型为: P = -0.39 +0.01A +0.04E +0.03U其中:P党员概率, A年龄, E受教育年限, U单位身份,2、线性概率模型存在的问题,1)异方差性 普通最小二乘法假设残差项的方差是相同的,但二项分布的方差为 p(1-p),这意味着方差是中间大,两边小,所以方程中残差项的方差不可能恒定。 2)非正态性在给定自变量x条件下, 是y的预测值与实际值的离差。由

4、于y仅仅有0和1两个值,误差项 要么等于 ,或者 很明显,该误差项不是正态分布。 3)无意义的解释从解释力上看,由于概率的值是有边界的,在0与1之间。但林楠方程很有可能要超过该限制,因变量的估计值可能是负数,也可能大于1,因此模型的结果是无意义的。例如,运用林楠方程,我们发现如果年龄为100岁,受教育程度超过10年,则入党的概率约等于1。 4)非线性关系,三、简单对数比率回归,1、模型建立既然用线性概率回归存在以上两个方面的局限性,我们能否用比率做因变量呢?比如用男女比率作因变量,用成功与不成功之比做因变量。用比率做因变量可以建立估计方程,但存在的问题是,比率是非对称的.一个简单的解决办法就是

5、取对数,结果就是所谓对数比率(logit)。若用P代表某事件的概率,则对数比率函数的定义为 g(P)= log (P/1-P)以对数比率为因变量对自变量X1,X2,X3做回归称为对数比率回归(logistic regression),其方程式为:,表1 概率、比率和对数比率,该模型即为logit回归模型。logit回归模型实际上是普通多元线性回归模型的推广,但它的误差项服从二项分布而非正态分布,因此,需要采用极大似然估计方法进行参数估计,参数称为logit回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起的发生比自然对数值的变化量。,2、发生比,发生比是事件的发生频数与不发

6、生频数之间的比,即: Odds=(事件发生频数)/(事件不发生频数)当比值大于1时,表明事件更有可能发生。比如一个事件发生的概率为0.6,事件不发生的概率为0.4,发生比等于0.6/0.4=1.5。事件发生的可能性是不发生的1.5倍。,四、极大似然估计的基本思想 1) 概率问题例1、假定我们要估计一样本中男性的发生概率。以s表示样本中男性的数量;N是样本规模;是总体中男性的概率( =0.5 )。 根据贝努利公式:其中k!=k(k-1)2.1 10个样本中有3个男性的概率为:如果我们已知样本中s、N及其概率分布的信息,需要估计总体特征,则需要借助极大似然估计法来完成。极大似然估计ML就是估计这样

7、一个参数值,由于该参数的存在可以使得被观察的事件最有可能发生。,2) 似然函数当已知N 和,求s发生的可能性有多大,所建立的函数,称为概率函数。而当已知N 和s,求发生的可能性有多大,所建立的函数,称为似然函数。二者的差异:第一、前者是在参数已知下的数据的函数,后者是在数据已知条件下的参数的函数。第二、参数值是由可能性最高的值决定,我们称该值为极大似然估计。L( /s=3, N=10)=由于极大似然估计就是估计参数值,使得样本发生的可能性最大,故求最大化的前提是对上式求偏导:,解得上式可以得到的估计值为0.3,例2,运用极大似然估计法估计泊松分布中参数,概率密度函数为:似然函数为:Li(/yi

8、) 假定观察值是独立的,样本的似然函数就是个体似然函数的乘积。Li(/yi) = L1 * L2 * Ln= Li,LnL = -N+yiln()-ln(yi!) lnL/ = -N +yi/ = yi / N,例3、运用极大似然估计法估计正态分布中的参数,设变量X为具有平均数,方差 的正态变量,这里和 为未知参数。试由样本观察值X1,X2Xn估计平均值和方差。解:由最大似然法得下述似然函数:,例3、估计logistic回归模型中的参数 由于logistic模型是二项分布,其似然函数为:L=,通过三个例子的比较,我们可以看出在线性回归中,似然函数是通过对似然方程求偏导数得到的,对于未知参数是线

9、性的,容易求解,但是对于logistic回归,似然函数是和的非线性函数,求解比较困难,需要借助于计算机,通过迭代计算完成。 最大似然估计与OLS估计的统计性质几乎完全相同,即具有一致性、渐进有效性和渐进正态性。一致性是指当样本规模增大时,模型参数估计逐渐向真值收敛,即估计将近似于无偏。所谓渐进有效性是指当样本规模增大时,参数估计的标准误相应缩小。所谓渐进正态性是指随着样本规模增大,最大似然估计值的分布渐进于正态分布。,五、logistic回归模型及参数估计的评价,1、Logistic回归模型估计的假设条件第一、数据来自于随机样本。 第二、因变量Yi被假设为K个自变量Xk(k=1,2,K)的函数

10、。 第三、正如OLS回归,logistic回归也对多重共线性有所限制,自变量之间存在多重共线性会导致标准误的膨胀。Logistic回归模型还有一些与OLS回归不同的假设。第一,因变量是二分变量;第二,因变量和各自变量之间的关系是非线性的。,2、拟合优度检验,模型参数估计完成以后,需要评价模型是否能够有效地描述了观测数据。如果模型的预测值能够与对应的观测值有较高的一致性,就认为这一模型能够拟合数据。否则将不能接受这一模型,而需要对模型重新设置。因此,模型的拟合优度是指预测值与观测值的匹配程度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比卡方检验等。1)皮尔逊卡方检验皮尔逊卡方检验主要用于检验残

11、差项的大小。计算公式: 其中yi是观察值(0或1),pi是估算值的概率, i=1,2n,分母是估算值的标准差,自由度为n-J-1,其中J为自变量数目。,2)、Hosmer-Lemeshow 拟合优度检验该方法通常适用于自变量很多,或自变量为连续变量的情形。HL方法根据预测概率的大小将所有观察单位十等分,然后根据每一组中因变量的实际值与理论值计算Peason卡方,其统计量为:其中G 代表分组数,且G10;ng为第g组中的观测值数;yg第g组事件的观测数量;pg为第g组的预测事件概率;ngpg为事件的预测值,实际上它等于第g组的观测概率和。,3)对数似然比卡方检验对数似然比是用较复杂模型的似然与基

12、本模型的似然进行比较。因为是非常小的数,通常将似然取对数并乘以-2,即-2logL,简称对数似然。 通常基本模型以独立模型表示:用L0表示独立模型的似然,L1表示非独立模型的似然,那么对数似然比定义为:遵循卡方分布,其自由度为非独立模型的自变量数目,可用于检验复杂模型中自变量对似然率的增加是否显著,越大越好。,3、logit模型回归系数的假设检验,设原假设H0为:k=0,表示自变量对事件发生的可能性无影响;如果原假设被拒绝,说明自变量对事件发生的可能性有影响。Wald检验 在logit模型中,对回归系数进行显著性检验,通常使用Wald检验,其计算公式为:Wald 统计量实际上就是正态分布Z 统

13、计量的平方。在零假设条件下,每一个回归系数都等于0。Wald统计量服从卡方分布,其自由度为n-k-1。,六、模型解释,由于logit模型是非线性的,因此不能以传统回归模型中自变量与因变量之间的关系解释之。通常以发生比率来解释logit回归系数截矩项通常被作为基准发生比的对数,表明当回归模型中没有任何自变量时所产生的发生比。或者说,是在所有自变量都取0值时所产生的发生比。,预测概率,将系数估计和自变量值代入logistic函数,便可得到预测概率的公式:,练习:二分变量logit 回归模型的实证分析 英国国会权力下放后的国民身份认同感分析,1、题目内容:本文分析的数据来自1999和2001两年分别

14、在英格兰、威尔士和苏格兰三地的跨地区对比调查,包括5298个观测值。2000年英国国会将权力下放给新成立的威尔士议会和苏格兰国会,此研究通过对比权力下放前和下放后国民身份认同感的变化,反映权力下放带来的影响。 2、变量包括:性别、年龄、权力下放前后(Year)、居住国家、宗教信仰(RELIG)、教育程度、社会阶级、地区认同感(Minorid)。 3、解题思路:我们所关心的最重要的问题是:权力下放后,人们的地区认同感是否降低?本节是以地区认同感(Minorid)作为因变量,来看其他变量对其影响。,七、多项对数比率回归,我们研究的现象常是多分类的,如职业的选择等,这时需要用多项对数比率回归处理。多

15、项对数比率回归是简单对数比率回归的扩展,由一组对数比率方程组成。常用的做法是基准类比法,即先选出基准类,然后将它的概率与其它各类的概率进行对比。假如要研究一个或一组自变量X如何影响人们对J类职业选择,用P1,P2Pj表示各类职业的概率,那么多项对数比率回归就可表示为:,需要注意的是:1)就系数解释和检验而言,多项对数比率回归和简单对数比率回归相同。2)方程组在统计上不独立,必须同时估算,不可一一求解。,SPSS上的应用: 1)AnalyzeRegressionMultinomial Logistic 2)Dependent用于选入无序多分类的因变量 3)Factor 用于选入分类自变量,可以是

16、有序或无序多分类,系统会自动生成哑变量。 4)Covariates用于选入连续型的自变量。 选择系统默认值,点击OK钮,运行所选命令 5)结果解释数据汇总与模型的似然比检验。拟合优度检验(Pearson,Deviance检验)。参数估计结果。,八、定序变量对数比率,当因变量是定序变量,变量值之间具有高低之分时,在设计logit模型时,就应考虑到其中所包含的信息。通常有三种处理方法:邻类比、升级比和累进比。 1、邻类比邻类比是将所有相邻两类的概率两两相比,如果变量含有J个有序类别,就可得到J-1个不重复对数比率方程。假如用P1,P2Pj表示一个定序变量由低到高各级类别的概率,设X是一个或一组自变

17、量,那么对数邻类比回归就是:,对于定序变量,常常假设升级的作用是一样的,即在方程组中,各个方程的斜率项是相同的,1=2=j-1 ,上式可表示为:,2、升级比,用P1,P2,Pj表示一定序变量由低到高各级类别的概率,那么对数升级比回归就是:,书中的例子是关于性别与高升学率的关系。将学校依等级高低分为小学、初中、高中和大学四类。初中升高中的比率不仅是初中毕业生和高中毕业生的比率,还应包括大学毕业生,因为他们也完成了初中到高中的升级过程。升级比在统计上是各自独立的,因而可以照简单对数比率回归一一估算。加总各独立升级比率回归的对数似然比和自由度,即总模型的对数似然比和自由度。,对数升级比回归的编码示例

18、,3、累进比,对数累进比率回归示例收入等级分析(Nee 1991),若假设1=2=j-1, 则对数升级方程组可简化方程如下:SPSS中的(ordinal logistic regression)就是截矩项都相等的累进比对数回归模型。,SPSS操作程序 1、选择logistic回归程序: 点击主菜单中的Analyze 然后点击Regression 再点击Ordinal,屏幕上出现对话窗口 2、选定模型 Dependent选择一个有序分类因变量。 Factor选择若干分类自变量。 Covariates用于选入连续型的自变量。 择系统默认值,点击OK钮,运行所选命令 结果解释 数据汇总与模型的似然比检验。 拟合优度检验(Pearson,Deviance检验)。 参数估计结果。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报