第8章--logistic回归模型.ppt-道客多多

资源描述

1、第八章,Logistic回归模型,许多社会科学的观察都只分类而不是连续的比如，政治学中经常研究的是否选举某候选人又如，经济学研究中所涉及的是否销售或购买某种商品、是否签订个合同等等这种选择量度通常分为两类，即“是与“否” 在社会学和人口研究中，人们的社会行为与事件的发生如犯罪、逃学、迁移、结婚、离婚、患病等等都可以按照二分类变量来测量。,线性回归模型在定量分析中也许是最流行的统计分析方法，然而在许多情况下，线性回归会受到限制.比如，当因变量是一个分类变量，不是一个连续变量时，线性回归就不适用,严重违反假设条件. 分类变量分析通常采用对数线性模型(Log-linear model), 而因变量

2、为二分变量时, 对数线性模型就变成Logistic回归模型.,logistic回归是一个概率型模型，因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标，判断患某种疾病的概率有多大。,目的：作出以多个自变量（危险因素）估计应变量（结果因素）的logistic回归方程。属于概率型非线性回归。,资料：1. 应变量为反映某现象发生与不发生的二值变量；2. 自变量宜全部或大部分为分类变量，可有少数数值变量。分类变量要数量化。,用途：研究某种疾病或现象发生和多个危险因素（或保护因子）的数量关系。,1.成组（非条件）logistic回归方程。2.配对（条件）logistic回归方程。

3、,第八章,第一节,机动目录上页下页返回结束,logistic回归模型,一、两分类因变量与Logistic回归模型,事件发生的条件概率P(yi=1|xi)与xi之间的非线性关系通常是单调函数，假设有一个理论上存在的连续反应变量yi代表事件发生的可能性，其值域为负无穷至正无穷当该变量的值跨越一个临界点c(比如co)，使导致事件发生于是有：,这里，yi是实际观察到的反应变量, yi1表示事件发生 yi0表示事件未发生如果假设在反应变量yi* 和自变量xi之间存在一种线性关系，即,如果假设在反应变量yi* 和自变量xi之间存在一种线性关系，即,这里，yi是实际观察到的反应变量,yi1 表

4、示事件发生yi0 表示事件未发生,由上面的式子得到：,通常，假设公式中误差项i有logistic分布或标准正态分布由于logistic分布和标准正态分布都是对称的，得到：,如果i为logistic分布，就得到logistic模型;如果i为标准正态分布，就得到probit模型.,其中F为累积分布函数.,当i为logistic分布时:,上式可以变换为:,记条件概率,得logistic回归模型,pi是xi的非线性函数，可以转换为线性函数,定义不发生事件的条件概率为:,那么事件发生概率与不发生概率之比为:,这个比率成为事件的发生比（the odds of theexperiencing an even

5、t ）,简称odds，对odds取对数，可以得到对数发生比：,上面的式子由于做了对数变换，被称作logit形式，也称作y的logit,即logit(y).,当有k个自变量时，相应的logistic 回归模型将有如下形式：,其中，pi=P(yi=1|x1i,x2i,xki)为在给定系列自变量x1, x2,xki的值时事件发生概率。,第八章,第二节,机动目录上页下页返回结束,Logistic回归模型估计,最大似然估计(Maximum Likelihood Estimation),最大似然估计法既可以用于线性模型，也可以用于更为复杂的非线性估计,方法: 首先要建立似然函数(Likeliho

6、od function) 将观测数据的概率表示为未知模型的参数选择能够使这一函数达到最大的参数估计,一、建立似然函数,假设有由N个案例构成的总体、Yl，YN，从中随机抽取n个案例作为样本，观测值标注为Yl, , yn, 设piP(yi=1|xi)为给定xi的条件下得到结果yi1的条件概率。,而在同样条件下得到结果yi0的条件概率为1-pi,于是得到一个观测值的概率为：,其中yi=0或1 ，联合分布可以表示为各个边际分布的乘积：,似然函数取对数为了求最大的估计参数, 得到回归模型的对数似然函数:,分别对，求偏导，令它等于0，可以得到似然方程组:,由于方程是和的非线性函数,求解是通过计算机迭代计

7、算完成的. 得到和的最大似然估计值,从上面的两个公式的得到的，的值估计就是最大似然估计。按照惯例，用表示估计值，p表示条件概率的估计值,这个值是在给定x i的条件下yi=1的条件概率的估计。它代表了logistic模型的拟合值或预测值，令偏导函数等于0时，,这意味着观测值之和等于预测概率之和，这一性质在评价模型拟和情况时非常有用。,二、模型估计的假设条件,1.数据必须来自于随机样本,2.因变量Yi被假设为K个自变量Xki的函数,3.Xi对多重共线性敏感,自变量之间存在的多重共线性会导致标准误的膨胀。,4.因变量是分类变量,5.因变量和各自变量之间的关系是非线性的,6.在OLS回归中要假设方差不

8、变，类似的假设在logistic中不需要,7. 没有关于自变量分布的假设条件，自变量可以是连续变量，也可以使离散变量，还可以是虚拟变量，并且不需要假设它们之间存在多元正态分布,三、最大似然估计的性质,logistic的最大似然估计与OLS估计的性质几乎完全相同，即logistic的最大似然估计有:,一致性，渐进有效性渐进正态性,四、模型估计的样本规模,最大似然估计具有的一致性、有效性和正态性都是一些很好的统计件质，然而保持这些性质的条件为样本规模要很大,但是，这并不等于说最大似然估计在小样本时统计性质就定不好简单而言，我们通常并不知道在小样本时的统计性质究竞如何。,更实际的问题是，样本在多大

9、时就可以应用最大似然化计，或多大样本可以保证统计检验得到显著的结果这个问题现无明确的答案许多研究者在没有其他方法可供选择的条件下，便无论对大样本还是对小样本都用最大似然估计方法,根据一些资深研究人员的看法，最大似然估计的大样本性质维持得较好，即使在中等规模样本(比如M100)的条件下也能够接受。Long (1997)提到，在样本规模小于100时使用最大似然估计风险较大样本大于500时就显得比较充分了。,第八章,第三节,机动目录上页下页返回结束,Logistic回归模型的评价,模型估计完成以后，我们需要评价模型如何有效地描述反应金旦及模型匹配配观测数据的程度如果模型的预测值能够与对应的

10、观测值有较高的一致性，就认为这一模型拟和数据否则，将不能接受这一模型，就需要对模型重新设置。,一、拟和优度,检验预测值与观测值之间差别,在开始讨论具体拟合优度统计指标之前，先介绍一下协变类型的概念, 这一概念又称为子总体. 协变类型描述的是模型中协变量不同值的特定组合.,如果模型中只包括两个分类变量,比如性别和重点大学, 出于性别和重点大学都是二分类变量，因此模型中只有4种(即2x 2)可能的协变类型组合,即协变类型或子总体为4个。,在固定样本规模n情况下，协变类型越多，每个类型(即每个子总体)中的案例数nj就越少在每个协变类型中，预测的事件发生频数表示为nj*，其中是第j种协变类型中事件发生

11、的模型预测概率。与此类似，我们也可以计算每种协变类型中事件末发生的频数.,二、皮尔逊,皮尔逊可以用通过比较模型预测的和观测的事件发生和不发生的频数检验模型成立的假设.,将观测频数和预测频数代入标准计算公式,J是协变类型的种类数目,Oj和Ej分别为第j类协变类型中的观测频数和预测频数,卡方值很小,意味着预测值与观测值之间没有显著差别,卡方值很大,意味着预测值与观测值之间有显著差别,拟合不佳,三、偏差,观测值和预测值的比较还可以根据对数似然函数表示，以作为模型所估计得最大似然值，它概括了样本数据由这一模型所拟和的程度，由于这一统计量不能独立于样本规模，因此不能根据它的值估计模型的拟和优度,对于同

12、一套数据还必须有一个基准模型作为比较所设模型拟和优度的标准。一种基准模型为保和模型，它的最大似然值为，通过比较和，便可以估计所设模型代表数据的充分程度。,通常采用-2乘以设定模型和饱和模型的最大似然值的对数：,D统计量被称为偏差，D值越小，拟和优度越好。,四、Hosmer-Lemeshow拟合优度指标,当自变量数量增加时，尤其是连续自变量纳入模型之后，协变类型的数量便会很大，于是许多协变类型只有很少的观测案例结果，偏差和皮尔逊卡方值不再适用于估计拟合优度Hosmer-Lemeshow研究了一种对logistic模型拟和优度的检验方法。,Hosmer-Lemeshow指标(记为HL)是一种类

13、似于皮尔逊2统计量的指标.它可以从观测频数和预测频数构成的2*G交互表中求得其统计公式如下:,其中G代表分组数，且G10 ,ng为第n组中的案例数；yg为第g组事件的观测数量；为第g组的预测事件概率；ng 为事件的预测数，实际上它等于第g组的预测概率之和,五、信息测量类指标,另一种估计logistic回归模型的拟合优度的指标是信息测量类的指标这些指标也可以用来比较不同模型的优劣其中一种著名的信息测量指标是Aknike信息标准。它的定义如下:,其中K为模型中自变量的个数；S是反应变量类别总数减1（对于logistic回归有S=2-1），n是观测数量，是所设模型的估计最大似然值的自然对数, 其值

14、较大表示拟合较好.,其他条件不变的情况下,较小的AIC值表示拟合模型较好.AIC指标还常常应用于比较不同样本的模型,或应用于比较非嵌套关系的模型,而这些模型的比较不能采用似然比(L.R.)检验.,六、Logistic回归模型的预测准确性类R2指标,线性回归的R2有一种十分诱人的解释特性，即它描述因变量的变动中模型的自变量所“解释”的百分比但是，在logistic回归分析中却没有相应的统计指标,不过，在模型似然值对数的基础上，可以为logistic同归模型计算某种类似R2的指标，表示如下：,与R2类似，LRI在0到1之间。当自变量与因变量完全不相关时（即所有的回归系数为0），LRI=0。当模型的

15、拟合程度提高时，LRI值增加，拟合得越好，LRI越接近1。,七、模型卡方统计,线性回归及AN0VA模型中常用自由度分别为K和n-K-1的F检验(来检验“除常数项外的所有系数都等于0”的无关假设。,logistic回归中服务于同一目的的检验却是似然比检验，它可以用来检验logistic回归模型是否统计件显著,似然比统计量近似地服从于卡方分布。,实际上，模型卡方与多元线性回归中的F检验十分类似.,模型卡方作为一种卡方统计量来检验可以提供关于零假设(即除常数项外的所有系数都等于0的假设，通常以公式表示为: H0: B1=B2=Bk=0,第八章,第四节,机动目录上页下页返回结束,Logis

16、tic回归系数的解释,当logistic回归模型能够较好地拟合数据时，便可以对模型的系数进行解释了类似于线性同归系数，logistic回归系数也可以被解释为对应自变量一个单位的变化所导致的因变量上的变化.,logistic回归模型的系数如果是正值且统计显著，意味着在控制其他自变量的条件下对数发生比随对应自变量值增加而增加;,相反，一个显著的负系数代表对数发生比随对应自变量的增加而减少;,如果系数的统计性不显著，说明对应自变量的作用在统计上与0无差异.,由于Logistic回归的因变量不是常规的连续变量，而是logit(即对数发生比，那么对应每个自变量的估计系数便是对该自变量对logit的作用.

17、尽管这种解直截了当，但是其实十分含糊因为logit或对数发生比没有较直观的含义.,通常，较方便的是将logit进行转换后再进行解释，而不是直接解释系数本身. 如果我们将回归模型等式两侧取自然指数，于是左边便成为发生比(p(1p)由于发生比是日常生活中的常用概念, 比如关于高校录取或投票选举结果等成功与失败的比率，因此这种解释便变得容易理解,一、发生比和发生比率,发生比是事件的发生频数与不发生频数之间的比，即：,odds=(事件发生频数)/(事件不发生频数),由于发生比被表示为一个比值，因此其值域的上限无边界，即可以在所有非负值域取值当比值大于1时，事件更为可能发生.,比如，一个事件发生的概率

18、为0.6那么事件不发生的概率即0.4，于是发生比便等于0.6/0.41.5 这意味着事件发生的可能性是不发生的可能性的1.5倍，或者说我们期望看到对应每一次事件不发生有1.5次事件发生.,如果发生比odd=0.25，说明事件不发生可能性是发生可能性的4倍，或者说可以期望对应每4次事件不发生有1次事件发生.,假设研究事件为“高中毕业后考入大学“(简标为“是)否事件便是“未能考入大学”(简际为“否”)共有1000名高中毕业生，其中550名男生、450名女生因此，考入大学的发生比为“是”的频数除以“否”的频数,假如分别有259名男生和76名女生考入了大学(同时有291名男生和374名女生落榜),男生

19、和女生的(是否)发生比分别为：,oddsm=259/291=0.8900; oddsf=76/374=0.2032,而男生与女生的发生比率(OR)为：,ORoddsm/oddsj0.8900/0.20324.38,二、按发生比解释系数,对logistic回归系数进行解释时，很难具体把握以对数单位测量的作用幅度，所以通常将以logit单位推导的作用转换为对应的发生比率.,例如有如下模型：,其中变量p为高中毕业后进人大学的概率；变量GENDER表示性别( 1为男性。0为女性)；变量KFYSCH表示高中类型(1为重点中学，0为其他中学)；变量MEANGR代表高中平均成绩，GENDERKEYSCH都是

20、虚拟变量，而MEANGR是连续变量。,因为理解发生比比理解对数发生比更容易，logistic回归模型可以按事件发生比的形式改写为 :,连续自变量的发生比率,在上面的例子中，自变量MEANER的logistic回归系数为=0.4245，因此MEANER增加一个单位将使发生比变化。,e0.4245 = 1.529,在社会科学研究中，人们对一些连续变量中一个单位值的变化通常不感兴趣比如，年龄增加1岁或收入增加1元的作用十分微小，并不重要而一个离散的变化，如年龄增加5岁或收入增加100元的变化也许更有意义,为了估计连续变量的调整发生比率，通常先要设定两个要比较的变量值比方用a 和b标志这两个代表连续自

21、变量Xk水平的值，那么这个变量从a变到b时，其logit的变化为：,调整发生比率为：,其中，代表在控制其他变量条件下，xk变化一个单位时导致logit（对数发生比）的变化估计,在我们的例子中，计算当MEANGR比总平均值高5分时调整发生比率是多少，应用上面的式子可以得到：,AOR=exp(5-0)0.4245=8.352,分类自变量的发生比率,当分类自变量多于两个类别时，就要建立组虚拟变量来代表类型的归属性质如果个分类变量包括m个类别，那么可以产生m个相应的虚拟变量但是，建模需要的虚拟变量的数目应等于分类总数减l 这就是说，如果变量包括m个类别，那只需要建立m-1个虚拟变量即可,不能同时在模

22、型中包括m个虚拟变量，因为其中的每一个虚拟变量都是其余虚拟变量的线性组合，这会违反回归的基本假设条件。,从建模中省略的那个类别称作参照类比如，学校的类型是个名义变量，如果我们定义它有三个类别：重点中学，城市普通中学，农村普通中学我们将在模型中设置两个虚拟变量SCH1(表示重点中学)和SCH2(表示城市普通中学) 模型中没有包括表示农村普通中学的虚拟变量，所以农村普通中学这个类别就作为参照类.,分类变量的哪一类别应为参照类是随意的，在省略农村普通中学虚拟变量的情况下当一个学生属重点中学时，虚拟变量SCH1=1，否则，SCHl=0；当属城市普通中学时,虚拟变量SCH2=1，否则，SCH2=0,这时

23、，模型如下：,如同在线性回归中一样，系数代表重点中学与农村普通中学(参照类)在因变量上的差别所以,为重点中学对农村普通中学的发生比率在同样的基础上，,为城市普通中学对农村普通小学的发生比率。,标准化系数,通常在线性回归模型中的自变量是以不同尺度测量的比如。收入的单位是元，年龄的单位是岁，长度单位可用厘米、分米、或米，如此等等，于是，某个自变量中的一个单位的变化并不等价于另一个自变量上一个单位的变化如果我们要比较因变量与不同自变量之间关系的强度，通常采用标准化回归系数出于同样的原因，在logistic回归分析中也可以考虑使用标准化系数。,对logistic回归来说,Logistic 回归的标准化

24、系数为：,第八章,第五节,机动目录上页下页返回结束,Logistic回归系数的统计推断,如果模型满足假设条件，可以由样本模型的结果对总体参数进行统汁推断,统计推断有两个含义: 假设检验和参数估计,1.假设检验涉及的一系列工作最后导致接受或拒绝总体参数所作假设陈述的结论；,2.参数估计便是估计出总体参数的值(包括点估计和置信区间估计),一、Logistic回归系数的显著性检验,在logistic回归模型中自变量xk对logit作用的显著性检验这涉及到一个自变量是否与反应变量显著相关的统计假设，以及如何建立和检验这一假设并做出结论。,假设零假设H0为： o(表示自变量对事件发生可能性无影

25、响作用) 如果零假设被拒绝、说明事件发生可能性依赖于xk的变化。,Wald检验,选择显著性水平以后，就可以计算检验统计量了，可以采用Z统计量：,其中为的标准误,Wald统计量的一般形式: Q=r,其中为待检验的模型参数向量, Q为常数矩阵(各元素值为0或1), r为常数矩阵(元素为0),W=Q-rQ Var()Q-1Q-r 2( Q 的行数),常用统计软件中，对logistic回归系数进行显著性检验时通常使用wald检验，其公式为：,决策的规则为:,若W在=0.05水平的23.841，拒绝H0若W在=0.01水平的26.635，拒绝H0若W在=0.001水平的210.828，拒绝H0,似然

26、比检验,统计学已经证明，在大样本时，如果两个模型之间有嵌套关系那么两个模型之间的对数似然比乘以-2的结果(简标为-2LL)之差近似服从卡方分布。,这一检验统计量称为似然比(1ikelihood ratio 简标为L.R. ), 在0+之间.,其中为待检验的模型参数向量, Q为常数矩阵(各元素值为0或1), r为常数矩阵(元素为0),L.R. =(-2LLm2)-(-2LLm1)=-2ln(Lm2/Lm1),若令:,回归模型,概率P：01，logitP：。,取值范围,模型参数的意义,常数项表示暴露剂量为0时个体发病与不发病概率之比的自然对数。回归系数表示自变量改变一个单位时logitP 的

27、改变量。,流行病学衡量危险因素作用大小的比数比例指标。计算公式为：,优势比OR(odds ratio),与 logisticP 的关系：,二、logistic回归模型的参数估计,参数估计原理：最大似然( likelihood )估计,可反映某一因素两个不同水平（c1，c0）的优势比。,2. 优势比估计,例: 下表是一个研究吸烟、饮酒与食道癌关系的病例对照资料，试作logistic回归分析。,确定各变量编码,表吸烟与食道癌关系的病例对照调查资料,经logistic回归计算后得:,的95可信区间:,饮酒与不饮酒的优势比,OR1的95可信区间,吸烟与不吸烟的优势比：,三、logistic回归模型

28、的假设检验,2. Wald检验,1.似然比检验,方法：前进法、后退法和逐步法。检验统计量：不是 F 统计量，而是似然比统计量、 Wald 统计量和计分统计量之一。,四、变量筛选,例：为了探讨冠心病发生的有关危险因素，对26例冠心病病人和28例对照者进行病例对照研究，各因素的说明及资料见下两。试用logistic 逐步回归分析方法筛选危险因素。,表冠心病8个可能的危险因素与赋值,表冠心病危险因素的病例对照调查资料,表方程中的自变量及有关参数的估计值,第八章,第二节,机动目录上页下页返回结束,条件logistic回归,一、原理,配对资料。最常用的是每组中有一个病例和若干个对照，即1:

29、 M配对研究（一般）,表 1: M 条件logistic回归数据的格式,* t = 0 为病例，其他为对照,条件 logistic 模型,Pi表示第i层在一组危险因素作用下发病的概率, 表示各层的效应，为待估计的参数。,与非条件logistic 回归模型不同之处在常数项上，不同匹配组的可以各不相同，但内在假定了每个危险因素的致病能力在不同匹配组中相同。,二、应用实例,例某北方城市研究喉癌发病的危险因素，用1:2配对的病例对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数据，各因素的赋值说明、资料列于下表。试作条件logistic逐步回归分析。,表进入方程中的自变量及有关参

30、数的估计值,表喉癌1:2配对病例对照调查资料整理表,选入的4个危险因素分别为吸烟量(X2)、有声嘶史(X3)、是否经常摄食新鲜蔬菜(X4)及癌症家族史(X6)，其中摄食新鲜蔬菜为保护因素(b40)。,第八章,第三节,机动目录上页下页返回结束,logistic回归的应用及其注意事项,一、logistic回归的应用,1流行病学危险因素分析,logistic回归分析的特点之一是参数意义清楚，即得到某一因素的回归系数后，可以很快估计出这一因素在不同水平下的优势比或近似相对危险度，因此非常适合于流行病学研究。logistic回归既适合于队列研究(cohort study)，也适合于病例-对照

31、研究(case-control study),同样还可以用于断面研究(cross-sectional study),4预测与判别 logistic回归是一个概率型模型，因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标，判断患某种疾病的概率有多大。关于判别问题见第十八章。,二、logistic回归应用的注意事项,课后应用思考题：为了分析影响医院抢救急性心肌梗死（AMI）患者能否成功的因素，某医院收集了5年中所有的AMI患者的抢救病史（有关因素很多，由于篇幅有限，本例仅列出3个），共200例见下表。其中P=0表示抢救成功，P=1表示抢救未成功而死亡；X1=1表示抢救前已发生休克， X1=0表示抢救前未发生休克； X2=1表示抢救前已发生心衰， X2=0表示抢救前未发生心衰； X3=1表示患者从开始AMI症状到抢救时已超过12小时， X3=0表示患者从开始AMI症状到抢救时未超过12小时。请问最好采用哪种分析方法？为什么？分析结果有哪些？,AMI患者的抢救危险因素资料,

展开阅读全文