1、logistic回归模型简介,易洪刚,Department of Epidemiology & Biostatistics, School of Public Health , Nanjing Medical University Email:,2 南京医科大学流行病与卫生统计学系,logistic回归,模型简介 传统方法与logistic回归的关系 回归系数的解释 模型的估计与假设检验 建模策略 正确应用,3 南京医科大学流行病与卫生统计学系,3 南京医科大学流行病与卫生统计学系,多元线性回归的适用条件,计量资料(均数)定量、等级、分类,二分类资料(率)定量、等级、分类 ?,4 南京医科大学
2、流行病与卫生统计学系,1 模型简介,P发病的概率, 0P1。,Cox(1970) logit变换,5 南京医科大学流行病与卫生统计学系,logistic函数,6 南京医科大学流行病与卫生统计学系,logistic回归模型,P发病的概率。为“机会”或“优势”(odds)logit P为优势之对数(log odds),7 南京医科大学流行病与卫生统计学系,logistic回归模型的几种形式,8 南京医科大学流行病与卫生统计学系,logistic回归,模型简介 传统方法与logistic回归的关系 回归系数的解释 模型的估计与假设检验 建模策略 正确应用,9 南京医科大学流行病与卫生统计学系,2 传
3、统方法与logistic回归,四格表资料(病例对照)与logistic的关系 分层四格表资料与logistic的关系,10 南京医科大学流行病与卫生统计学系,例 四格表资料,探讨妇女使用雌激素与患子宫内膜癌的病例-对照研究,11 南京医科大学流行病与卫生统计学系,四格表资料的logistic回归,X=1 表示使用过雌激素 X=0 表示未使用过雌激素,12 南京医科大学流行病与卫生统计学系,四格表资料与logistic回归,X=1时 X=0 时,13 南京医科大学流行病与卫生统计学系,例 分层四格表资料与logistic回归,按年龄分层的心肌梗死与近期口服避孕药的关系,14 南京医科大学流行病与
4、卫生统计学系,Mantel-Haenszel法结果,. mhodds y x fw=f , by(age)Comparing x=1 vs. x=0 by age -age | Odds Ratio chi2(1) Pchi2 95% Conf. Interval -+-1 | 7.225806 6.78 0.0092 1.263340 41.328772 | 8.863636 28.64 0.0000 3.369128 23.318813 | 1.538462 0.58 0.4450 0.504952 4.6873034 | 3.712821 6.58 0.0103 1.266587 10.
5、883615 | 3.883871 5.53 0.0187 1.147490 13.14561 -Mantel-Haenszel estimate controlling for age -Odds Ratio chi2(1) Pchi2 95% Conf. Interval -3.969895 34.72 0.0000 2.418041 6.517702 -Test of homogeneity of ORs (approx): chi2(4) = 6.27Prchi2 = 0.1797,15 南京医科大学流行病与卫生统计学系,logistic回归结果,. xi : logit y x i.
6、age fw=fi.age _Iage_1-5 (naturally coded; _Iage_1 omitted)Logit estimates Number of obs = 1976LR chi2(5) = 151.47Prob chi2 = 0.0000 Log likelihood = -643.06749 Pseudo R2 = 0.1054-y | Coef. Std. Err. z P|z| 95% CI -+-x | 1.385176 .2505323 5.53 0.000 .8941417 1.87621 _Iage_2 | 1.138362 .4769719 2.39 0
7、.017 .2035146 2.07321 _Iage_3 | 1.934401 .4583881 4.22 0.000 1.035977 2.832825 _Iage_4 | 2.648059 .4497735 5.89 0.000 1.766519 3.529599 _Iage_5 | 3.194293 .4475326 7.14 0.000 2.317145 4.07144_cons |-4.36985 .4347941 -10.05 0.000 -5.222031 -3.517669 -,16 南京医科大学流行病与卫生统计学系,logistic回归结果,. xi : logistic
8、y x i.age fw=fi.age _Iage_1-5 (naturally coded; _Iage_1 omitted)Logit estimates Number of obs = 1976LR chi2(5) = 151.47Prob chi2 = 0.0000 Log likelihood = -643.06749 Pseudo R2 = 0.1054-y | Odds Ratio Std. Err. z P|z| 95% CI -+-x | 3.995528 1.001009 5.53 0.000 2.445236 6.528714_Iage_2 | 3.121652 1.48
9、894 2.39 0.017 1.225703 7.950304_Iage_3 | 6.919897 3.171998 4.22 0.000 2.817857 16.9934_Iage_4 | 14.12659 6.353765 5.89 0.000 5.850452 34.11027_Iage_5 | 24.39291 10.91662 7.14 0.000 10.14666 58.64136 -,17 南京医科大学流行病与卫生统计学系,传统方法与logistic回归的关系,单因素病例对照研究的OR,与logistic回归等价; 分层病例对照研究的ORMH,与logistic回归结果近似。l
10、ogistic回归是传统方法的扩展。,18 南京医科大学流行病与卫生统计学系,logistic回归,模型简介 传统方法与logistic回归的关系 回归系数的解释 模型的估计与假设检验 建模策略 正确应用,19 南京医科大学流行病与卫生统计学系,3 回归系数的解释,logistic回归中的系数,与OR有关! 一个暴露因素(x)时,当暴露为1,非暴露为0时, ln(OR),20 南京医科大学流行病与卫生统计学系,回归系数的解释,一个暴露因素时,当暴露为c1,非暴露为c0时,,21 南京医科大学流行病与卫生统计学系,回归系数的解释,一个暴露因素:暴露为1,非暴露为0。 一个混杂因素时:水平数分别为
11、:1,2,,当x2固定时(取某个值的前提下):,22 南京医科大学流行病与卫生统计学系,例 食道癌危险因素研究,在食道癌危险因素研究中,采用病例-对照设计,调查了200个食道癌患者和788个非食道癌患者,调查因素及编码如下。,23 南京医科大学流行病与卫生统计学系,logistic回归系数的解释,24 南京医科大学流行病与卫生统计学系,回归系数的解释,等级变量:一般以最小等级或最大等级作为参考组,并按等级顺序依次取为0,1,2,。此时,exp()表示X增加一个等级时的优势比, exp(k)表示增加k个等级时的优势比。连续性变量:表示增加1(个计量单位)时的优势比。,25 南京医科大学流行病与卫
12、生统计学系,回归系数的解释,多分类变量:哑变量(dummy variable) x1时:D10, D20, D30 表示A型血 x2时:D11, D20, D30 表示B型血 x3时:D10, D21, D30 表示AB型血 x4时:D10, D20, D31 表示O型血exp(1) 表示B与A比之OR; exp( 2) 表示AB与A比之OR; exp( 3) 表示O与A比之OR。,26 南京医科大学流行病与卫生统计学系,logistic回归,模型简介 传统方法与logistic回归的关系 回归系数的解释 模型的估计与假设检验 建模策略 正确应用,27 南京医科大学流行病与卫生统计学系,4 模
13、型的估计及假设检验,线性模型时,用最小二乘估计(LSE)logistic回归模型,用极大似然估计。(maximum likelihood estimate, MLE),28 南京医科大学流行病与卫生统计学系,Wald检验,Wald检验实际上是比较估计系数与0的差别来进行的,其检验统计量为:,29 南京医科大学流行病与卫生统计学系,似然比检验(likelihood ratio test),似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为:GGPGK2ln(LP)+2ln(LK) 其中,模型P中的变量是模型K中变量的一部分,另一部分就是我们要检验
14、的变量(模型P嵌套在模型K中)。 G服从自由度为K-P的2分布。,30 南京医科大学流行病与卫生统计学系,例 分层四格表资料与logistic回归,按年龄分层的心肌梗死与近期口服避孕药的关系,31 南京医科大学流行病与卫生统计学系,可能的模型,Model 1: logit P =常数项 Model 2: logit P =常数项+口服药 Model 3: logit P =常数项+口服药+年龄 Model 4: logit P =常数项+年龄,32 南京医科大学流行病与卫生统计学系,年龄为哑变量的模型,. logit y x age2-age5 fw=fLogit estimates Numb
15、er of obs = 1976LR chi2(5) = 151.47Prob chi2 = 0.0000 Log likelihood = -643.06749 Pseudo R2 = 0.1054 -y | Coef. Std. Err. z P|z| 95% CI -+-x | -1.385176 .2505323 -5.53 0.000 -1.87621 -.8941417age2 | -1.138362 .4769719 -2.39 0.017 -2.07321 -.2035146age3 | -1.934401 .4583881 -4.22 0.000 -2.832825 -1.0
16、35977age4 | -2.648059 .4497735 -5.89 0.000 -3.529599 -1.766519age5 | -3.194293 .4475326 -7.14 0.000 -4.07144 -2.317145 _cons | 4.36985 .4347941 10.05 0.000 3.517669 5.222031 -. lrtest , saving(0),33 南京医科大学流行病与卫生统计学系,不包含年龄的模型,. logit y x fw=fIteration 0: log likelihood = -718.80399 Iteration 1: log l
17、ikelihood = -716.28407 Iteration 2: log likelihood = -716.18551 Iteration 3: log likelihood = -716.18543Logit estimates Number of obs = 1976LR chi2(1) = 5.24Prob chi2 = 0.0221 Log likelihood = -716.18543 Pseudo R2 = 0.0036-y | Coef. Std. Err. z P|z| 95% Conf. Interval -+-x | -.5211354 .2176934 -2.39
18、 0.017 -.9478068 -.0944641_cons | 2.059114 .0741642 27.76 0.000 1.913755 2.204474 -. lrtestLogit: likelihood-ratio test chi2(4) = 146.24Prob chi2 = 0.0000,34 南京医科大学流行病与卫生统计学系,检验年龄能否以线性形式进入模型,. logit y x age fw=fIteration 0: log likelihood = -718.80399 Iteration 1: log likelihood = -651.41522 Iterati
19、on 2: log likelihood = -644.33827 Iteration 3: log likelihood = -644.2107 Iteration 4: log likelihood = -644.2106Logit estimates Number of obs = 1976LR chi2(2) = 149.19Prob chi2 = 0.0000 Log likelihood = -644.2106 Pseudo R2 = 0.1038 -y | Coef. Std. Err. z P|z| 95% Conf. Interval -+-x | -1.336405 .24
20、6982 -5.41 0.000 -1.820481 -.8523292age | -.7087472 .0657999 -10.77 0.000 -.8377125 -.5797818_cons | 4.645473 .2766158 16.79 0.000 4.103316 5.18763 -. lrtest Logit: likelihood-ratio test chi2(3) = 2.29Prob chi2 = 0.5152,35 南京医科大学流行病与卫生统计学系,三个变量的logistic回归结果,36 南京医科大学流行病与卫生统计学系,12个logistic回归模型及其对数似然函
21、数值,37 南京医科大学流行病与卫生统计学系,似然比检验,检验变量ALC是否有统计学意义:模型3与模型1G2-494.74421(-422.42460)144.6392,=1,P0.001,检验在控制AGE的影响后,变量ALC是否有统计学意义:模型5与模型2G2-451.09778(-375.674484)150.8466,=1,P0.001,检验在控制AGE和TOB两变量的影响后,ALC是否有统计学意义:模型7与模型8G2-416.34959(-365.15673)102.3858,=1,P0.001,38 南京医科大学流行病与卫生统计学系,logistic回归,模型简介 传统方法与logi
22、stic回归的关系 回归系数的解释 模型的估计与假设检验 建模策略 正确应用,39 南京医科大学流行病与卫生统计学系,5 建模策略,任一建模过程均应从详细的各变量的单因素分析开始。 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适宜尺度,及自变量间的必要的一些变量变换。 在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选, 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。,40 南京医科大学流行病与卫生统计学系,低出生体重儿调查,在中国出生缺陷监测网上进行的低出生体重儿(体重2500g)发生率的调查。 分层整群抽样。 一年内所抽医院所有的新生儿。共监测2
23、367例无其它系统畸形的新生儿。 其中低体重儿为110例,总发生率为4.65。 同时调查了一些可疑因素。目的是探讨哪些因素与新生儿的出生体重有关。,41 南京医科大学流行病与卫生统计学系,调查的有关因素,42 南京医科大学流行病与卫生统计学系,单因素分析结果,43 南京医科大学流行病与卫生统计学系,变量选不进的原因:暴露率过低,44 南京医科大学流行病与卫生统计学系,母亲年龄与低体重发生率的关系,变量选不进的原因:非线性关系,45 南京医科大学流行病与卫生统计学系,母亲年龄与低体重发生率的关系,年龄分组,0,1,2,3,4,0,5,10,15,20,25,发生率(%),46 南京医科大学流行病
24、与卫生统计学系,父亲年龄与低体重发生率的关系,变量选不进的原因:非线性关系,47 南京医科大学流行病与卫生统计学系,选择变量的尺度,48 南京医科大学流行病与卫生统计学系,同类性质指标的多元分析,49 南京医科大学流行病与卫生统计学系,多元逐步回归,Log Likelihood = -365.50715,50 南京医科大学流行病与卫生统计学系,母亲年龄与低体重发生率的关系,51 南京医科大学流行病与卫生统计学系,建模策略,任一建模过程均应从详细的各变量的单因素分析开始。 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适宜尺度,及自变量间的必要的一些变量变换。 在单变量分析和
25、相关自变量分析的基础上,进行多因素的逐步筛选, 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。,52 南京医科大学流行病与卫生统计学系,不同的模型,不同的分析思维、不同的统计方法所得模型可能不一样,应该允许多个模型并存,只要他们真正较好地反映了病因与疾病间的联系。,53 南京医科大学流行病与卫生统计学系,logistic回归,模型简介 传统方法与logistic回归的关系 回归系数的解释 模型的估计与假设检验 建模策略 正确应用,54 南京医科大学流行病与卫生统计学系,6 正确应用,logistic回归模型的应用条件 独立性。各观察对象间是相互独立的。 logitP与自变量的关系
26、是线性关系。 队列资料,建议用Poisson回归。,55 南京医科大学流行病与卫生统计学系,回归系数的检验,似然比检验:最可靠 Wald检验:未考虑各因素的综合作用,当存在共线性时,结果不可靠。故在筛选变量时应慎重。可信区间是基于Wald统计量计算的。 在对混杂因素进行分析时,如协变量对回归系数的影响较大(比如,方程中某变量的回归系数,在有该协变量时比无该协变量时改变了0.5以上),则该变量就认为有重要影响的变量,无论该变量是否有统计学意义。,56 南京医科大学流行病与卫生统计学系,混杂因素的控制,控制某混杂因素,实际上就是将该因素纳入模型。 在解释暴露因素的影响时,该混杂因素实际上是控制了。
27、,57 南京医科大学流行病与卫生统计学系,logistic回归的样本含量,有研究表明,当各组样本含量大于自变量数的20倍时,参数估计的偏差是可以接受的。 另一经验方法,对抽样调查、普查或队列研究,每个自变量至少需要出现10个阳性结果。 适当增加对照数采用配比设计时。 对照例数一般取为相等,也可以不等,一般不超过1:4。,58 南京医科大学流行病与卫生统计学系,影响logistic回归模型可解释性的原因,资料的质量。 异常值。 样本含量太少,或考虑的变量太多。 应用条件不成立。 自变量间的共线性。 暴露率极低或极高,甚至为0或1。,59 南京医科大学流行病与卫生统计学系,常见的统计学模型,方程的形式: 函数因变量 自变量的线性组合,回归分析的策略 回归分析的策略 回归分析的建模策略,60 南京医科大学流行病与卫生统计学系,检查数据,异常值、缺失值等; 单因素分析,应用条件 性质相同的自变量的局部多元回归 多元回归,逐步筛选 注意与单因素分析时的结论进行对比 重要变量没有进入模型的原因分析 异常值、多重共线性、条件不满足 回归模型的专业解释、拟合优度 多个回归模型并存,61,Many thanks,