1、2018/10/11,医学统计学,1,第十六章 logistic回归分析,第二军医大学卫生统计学教研室 孟 虹,2018/10/11,医学统计学,2,本章的内容,第一节 Logistic 回归*基本概念、参数估计、假设检验、变量筛选、模型评价第二节 条件 Logistic 回归第三节 Logistic 回归的应用和注意问题*为重点介绍,2018/10/11,医学统计学,3,问题的提出,医学科研中常研究多个影响因素(x)对结果变量(y为分类变量)的关系或作用. 例 冠心病与可能危险因素关系的研究 冠心病结果(y) (x)危险因素 结果记录有或无 (x1)高血压史 有或无(x2)高血脂史 有或无
2、(x3)吸烟 有或无,2018/10/11,医学统计学,4,多元线性回归方程,多元线性回归的要求:Y 变量的取值为连续性随机变量。Y与X间关系为线性关系。 前例采用单因素统计方法? 问题: 1.常采用2检验,但如有混杂因素干扰,导致结果不一定正确。2.不能回答哪个因素(x)对(y)关系更密切或作用更大?,2018/10/11,医学统计学,5,单因素方法 分类变量(y)与影响因素(x)关系,冠心病 危险因素(x1=高血压)(Y) 有 = 1 无= 0 合计有=1 60(a ) 40( b) 100 无=0 40(c) 60(d) 100 例1 按血脂水平分层分析 血脂高水平 血脂低水平冠心病 有
3、高血压 无高血压 有高血压 无高血压 有=1 (40) ( 10) (10) ( 40)无=0 (30) (20) (20) (30),血压与血脂何者对冠心病作用更大?,2018/10/11,医学统计学,6,例2 两医院乳腺癌术后5年生存率比较,比较组 生存数 死亡数 合计 生存率% 甲医院 485 270 755 64.2 乙医院 257 126 383 67.1,2 = 0.167p=0.683,不考虑病情和其他因素,单因素分析,结论:两生存率差别无统计意义,2018/10/11,医学统计学,7,腋下淋巴 甲医院=1 乙医院=0结转移 病例 生存 生存率% 病例 生存 生存率%无=0 45
4、 35 77.7 300 215 71.6有=1 710 450 63.4 83 42 50.6合计 755 485 64.2 383 257 67.1,多因素分析作用: 1.可校正混杂因素,正确评价结果的效应. 2.回答哪个因素对事件(疾病)作用更大?,考虑病情因素,甲医院生存率高于乙医院.,两医院乳腺癌术后5年生存率比较,2018/10/11,医学统计学,8,第一节 logistic回归,一、基本概念 logistic回归(logistic regression)是研究观察结果(y)为分类变量与多个影响因素(x)之间回归关系的多变量统计方法。 根据因变量(y)取值不同, Logistic
5、回归又有两分类 Binary Logistic 回归和多分类 Multinomial Logistic 回归方法.,2018/10/11,医学统计学,9,两分类的logistic回归模型,变量的取值(y,x)应变量(y)为两分类:自变量(Xi)收集可能与y变量有关因素,称为危险因素(risk factor)或暴露因素,可为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm 。,2018/10/11,医学统计学,10,logistic回归模型,以事件发生(y=1)的概率(p)做应变量,建立 p 和自变量Xi 的函数关系,即概率p与自变量(x)的回归关系是logistic回归模型。
6、P(概率)的取值波动01范围。,概 率,函数表达式,2018/10/11,医学统计学,11,1. logistic回归模型方程表达形式,Logistic回归概率模型方程Y与一个自变量(x)的logistic回归方程:p(y=1/x): 表示在某暴露因素(x)状态下,事件发生(y=1)的概率(P)模型。,概率回归方程,二者等价,2018/10/11,医学统计学,12,logistic回归概率模型方程,某暴露因素为有和无(X=1和0),2018/10/11,医学统计学,13,logistic回归模型方程的线性表达,对logistic回归概率(p)模型做logit变换:,截距(常数),回归系数,Y(
7、-至+),线性表达形式:,2018/10/11,医学统计学,14,在有多个危险因素(Xi)时,logistic回归模型方程线性表达:,或概率模型,公式16-2,公式16-1,2018/10/11,医学统计学,15,2.模型中参数的意义,0(常数项):暴露因素Xi=0时,个体出现事件(发病)概率与不出现事件(发病)的概率之比的自然对数值(基线值)。,2018/10/11,医学统计学,16,方程中回归系数的含义,的含义:某暴露因素存在(x=1)与不存在(x=0)相比,个体发生结果事件(如y=1)优势比的对数值。 优势比:是流行病学上衡量暴露因素(X )与疾病(Y )发生是否有关联及关联程度大小的指
8、标.,2018/10/11,医学统计学,17,优势比(odds ratio ,OR),暴露因素优势(odds1)有暴露因素的个体中,个体出现某事件(y=1)的概率P(y=1)与个体无事件(Y=0)的概率(1-P)的比值,称某暴露因素存在发生某事件的优势。,2018/10/11,医学统计学,18,吸烟与肺癌关系的病例对照研究,结果 暴露因素(x)( y) 吸烟=1 不吸烟 =0 合计 肺癌组(y=1) 688 (a) 21(b) 709 (a+b) 对照组(y=0) 350 (c) 359(d) 709(c+d) 合计 1038(a+c) 380(b+d)1418,暴露因素(吸烟的优势)在两组的
9、优势(odds1),同理:非暴露因素的odds0=21/359=0.0585,2018/10/11,医学统计学,19,优势比(odds ratio,OR),定义:暴露因素存在与暴露不存在出现事件(疾病)的优势(odds1)/(odds0)之比,称为事件暴露因素的优势比(odds ratio,OR) 公式:,例:,2018/10/11,医学统计学,20,优势比(odds ratio,OR),2018/10/11,医学统计学,21,OR值反映暴露因素与事件(疾病)关系,OR意义: OR值1,表示有暴露因素的个体出现事件(患某病)的优势大于无暴露因素者,或优势(危险性)增加 。OR值1,表示有暴露因
10、素的人出现事件(患疾病)的优势低于无暴露因素者,或危险性减少。OR值=1,意味无论暴露出现与否,与事件(疾病)无关系.,2018/10/11,医学统计学,22,Logistic方程的回归系数含义,暴露因素存在(x=1)与不存在(x=0)的个体相比,发生某事件(y=1)优势比的对数值。或 x每增加一个单位发生Y事件的对数优势比.,X=1,X=0,2018/10/11,医学统计学,23,含义为:在其他变量(x)固定后,某X=1与x=0相比或x每增加一个单位发生Y事件优势比的对数值。回归系数与OR X与Y关联结论=0, OR=1 无关 0,OR1 有关,危险因素0,OR1 有关,保护因子OR值的大小
11、反映暴露因素与事件发生关系的程度。,多个自变量(x)回归模型的 概念,2018/10/11,医学统计学,24,二、logistic回归模型的参数估计,1. 模型中的回归系数(i)估计用最大似然函数 (maximum likelihood estimate, MLE)估计, 公式16-7,由统计软件包完成。,,,,,(16-7),2018/10/11,医学统计学,25,2. 优势比(OR)及可信区间的估计,如X=1,0两分类,则OR的1-可信区间估计公式为:,为回归系数的标准误,(公式16-11),回归系数与OR的关系为:,2018/10/11,医学统计学,26,例:讲义表16-1资料,研究吸烟
12、、饮酒与食管癌关系的病例对照设计的资料(886例),试作logistic回归分析。 变量的赋值,建立Logistic 回归模型为:,2018/10/11,医学统计学,27,吸烟、饮酒与食管癌关系的病例对照资料变量赋值和例数,暴露因素(x) (y)例数 吸烟 饮酒 病例 对照0 0 63 1360 1 63 1071 0 44 571 1 265 151,暴露因素 无=0,有=1,2018/10/11,医学统计学,28,经logistic回归计算后得b0 =-0.9099, b1 =0.8856, b2 =0.5261,,Logistic 回归模型为:,控制饮酒因素后,吸烟与不吸烟相比患食管癌的
13、优势比为2.4倍,2018/10/11,医学统计学,29,OR的可信区间估计,X1变量(吸烟与不吸烟)OR的95%可信区间:,X2变量(饮酒与不饮酒)OR的95%可信区间:,2018/10/11,医学统计学,30,三、Logistic 回归模型的假设检验,1.检验模型中自变量的j是否对Y有作用。 检验方法: 1)似然比检验 (likelihood ratio test) 2)Wald检验 3)计分检验(score test),2018/10/11,医学统计学,31,假设检验的统计量,16-12,G统计量2,p,认为某变量对回归有统计意义。,吸烟(X1)和饮酒(x2)与食管癌关系例子,消除饮酒的
14、影响后,10,吸烟与食管癌有关系。,1.似然比检验(likelihood ratio test),2018/10/11,医学统计学,32,2.Wald检验(单个变量检验),检验假设:Wald检验统计量,公式16-14,当 认为某x对y有关系.,3.计分检验(score test),2018/10/11,医学统计学,33,例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算),1.对建立的整个模型做检验。Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr 似然比 68.5457 2 .0001 计分检验 67.0712 2 .
15、0001 Wald检验 64.2784 2 .0001,2018/10/11,医学统计学,34,例表16-1资料,对各x的做检验(wald检验),参数 Wald2 Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008,Odds Ratio EstimatesPoint 95% Wald Effect Estimate Confidence Limits吸烟x1 2.424 1.807 3.253饮酒x2 1.692 1.244 2.303,P值,2018/1
16、0/11,医学统计学,35,四、 Logistic 回归的变量筛选,目的:将回归系数有统计意义的自变量选入模型中,作用不显著的自变量则排除方程外。变量筛选算法有:向前逐步法、向后逐步退法逐步回归检验水准:进入方程的检验水准为0.05或0.10,变量保留在方程的水准为0.1或0.15,2018/10/11,医学统计学,36,例:讲义例16-2 冠心病与危险因素关系的病例对照研究,设计方法:病例对照研究病例组:经检查证实为冠心病的26例病人。对照组:无冠心病和无与冠心病有关疾病的28 例病人为对照。收集8个可能与冠心病有关危险因素,变量赋值见表16-2。采用Logistic 回归逐步法做变量筛选。
17、进入方程=0.10,剔除方程为=0.15,2018/10/11,医学统计学,37,表16-2 冠心病8个可能的危险因素与赋值,因素 变量名 赋值说明 年龄(岁) x1 45=1,45-54=2,55-64=3,65=4 高血压史 x2 无=0, 有=1 高血压家族史 x3 无=0, 有=1 吸烟 x4 不吸=0,吸烟=1 高血脂史 x5 无=0, 有=1 动物脂肪摄入 x6 低=0, 高=1 体重指数 x7 24=1,24-=2,26-=3 A性格 x8 是=0, 否=1 冠心病 y 病例=1,对照=0,2018/10/11,医学统计学,38,表16-4 逐步回归法进入方程的自变量及参数估计
18、(SAS软件),变量 Sb Wald2 P值 标准 OR 常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.0525 0.401 2.52 高血脂 1.496 0.744 4.04 0.0443 0.406 4.46 脂肪摄入 3.136 1.249 6.30 0.0121 0.703 23.06 A性格 1.947 0.847 5.29 0.0215 0.523 7.01标准回归系数() 比较各自变量对Y 的相对贡献,2018/10/11,医学统计学,39,表16-2 冠心病与危险因素关系,统计分析结果:经Logistic回归分析(逐步法)结果
19、见表,冠心病的危险因素有年龄、高血脂、脂肪摄入 、A性格。其中危险因素对冠心病的作用大小依次为脂肪摄入 、A性格、高血脂、年龄。,2018/10/11,医学统计学,40,第二节 条件Logistic回归,概念:1. 用配对设计获得病例-对照研究资料,计算的Logistic回归模型为条件Logistic回归。2.未配对设计的病例-对照研究资料,计算的Logistic回归模型为非条件Logistic回归。两回归模型区别: 条件Logistic回归模型无常数项(0)参数;研究目的主要用于寻找危险因素的分析。,2018/10/11,医学统计学,41,病例对照的配对设计,采用配对设计控制已知的影响因素(
20、配对因素如年龄、性别、生活条件),减少对比较组的影响。如配对组的观察对象为1个病例和1个对照,称为1:1配对研究,或1:2、1:4的配对研究。例:16-6 采用1:2配对的病例对照设计,研究6个可能与喉癌有关的危险因素,共25个配对组,数据见表16-7.,2018/10/11,医学统计学,42,例:16-6 采用1:2配对配对病例对照研究喉癌危险因素,因素 变量名 赋值说明 咽炎 X1 无=1 偶尔=2 经常=3 吸烟史(支/日) X2 0=1 1 -4=2 5-9=3 10-20=4 20=5 声嘶史 X3 无=1 偶尔=2 经常=3 摄食新鲜蔬菜 X4 少=1 经常=2 每天=3 摄食水果
21、 X5 很少=1 少量=2 经常=3 癌症家族史 X6 无=0 有=1 是否患喉癌 Y 病例=1 对照=0表16-8 逐步回归法进入方程的变量和参数 变量 回归系数 标准误Sb Wald2 P值 OR X2 1.4869 0.5506 7.29 0.0069 4.42 X3 1.9166 0.9444 4.12 0.0424 6.80 X4 -3.7641 1.8251 4.25 0.0392 0.02 X6 3.6321 1.8657 3.79 0.0516 37.79,2018/10/11,医学统计学,43,1:2配对25对病例对照研究喉癌危险因素,2018/10/11,医学统计学,44,
22、第三节 logistic回归的应用及注意问题,一、logistic回归的应用1.危险因素的筛选和分析 用回归系数(i)和OR说明危险因素(x)与事件(疾病)的关系。例:讲义例16-1,16-2,16-3 适用的资料:前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。,2018/10/11,医学统计学,45,2.校正混杂因素,评价实验处理的效应如实验研究,比较组间存在混杂因素或实验无法控制因素,该法可控制混杂因素,合理评价结果的效应。3.对个体预测与分类1)预测个体在某因素存在条件下,发生某事件(发病)的概率.为进一步研究提供依据。2)根据预测的概率,对研究个体进行分类.,2018/10
23、/11,医学统计学,46,腋下淋巴 甲医院=1 乙医院=0结转移 病例 生存 生存率% 病例 生存 生存率%无=0 45 35 77.7 300 215 71.6有=1 710 450 63.4 83 42 50.6合计 755 485 64.2 383 257 67.1,例1,变量编码:Y=1 生存,y=0 死亡,x1=1甲医院,x1=0乙医院,x2=1转移.x2=0无转移,两医院乳腺癌术后5年生存率比较,2018/10/11,医学统计学,47,Logistic回归模型计算结果,校正病情因素后,两医院生存率差别有统计意义,甲医院的生存率高于乙医院。病情因素差别有统计意义,淋巴结有转移者生存率
24、低,是无转移患者生存率的43%。,2018/10/11,医学统计学,48,例2 两种药物对某病疗效的研究,上表可见,女性无论新药和对照药疗效高于男性,问:性别是否与疗效有关,排除性别因素后,两组药物疗效是否有差别? 不考虑性别作用,OR=4.46, P=0.01,2018/10/11,医学统计学,49,Logistic回归模型计算结果,Standard Wald Parame Estimate Error Chi-Square Pr 常数 -1.9037 0.5982 10.127 0.0015性别 1.4685 0.575 6.508 0.0107药物 1.7816 0.518 11.794
25、 0.0006Odds Ratio EstimatesPoint 95% WaldEffect Estimate Confidence Limitsx1 性别 4.343 1.405 13.421x2 药物 5.939 2.149 16.417,2018/10/11,医学统计学,50,结论:性别和药物的回归系数都均有统计意义。女性和用新药的疗效较优。用Logistic的概率模型对个体的疗效做预测 :,设如女性病人,x1=1,用新药x2=1,有效的概率p=0.79 如男性病人x1=0,用新药x2=1, 有效的概率p=0.4695,2018/10/11,医学统计学,51,二、Logistic回归应
26、用的注意问题,1.模型中自变量的取值计量数据有时划为有序组段(如年龄40岁=1、40-50岁=2、50-60岁=3),OR的实际意义更大。 例: 表16-3 年龄(每增加10岁)的OR=2.52 例:如年龄 x1(岁),2018/10/11,医学统计学,52,数据为分类数据赋值形式,1)两分类变量(Binary variable )赋值为:有=1,无=02)有序变量(Ordinal variable ) 文化程度,赋值为: 文盲=1 , 小学=2 , 中学=3 ,大专及以上=43.)多分类无序变量如血型,化为分类数-1个哑变量(dummy variable),2018/10/11,医学统计学,
27、53,哑变量的赋值与方程,哑变量方程:,血型(X)变量的赋值,2018/10/11,医学统计学,54,哑变量的赋值与方程,方程1:有序变量方程,含义:x每增加1个单位(10岁),发病的概率(优势比)增加1,表16-3 年龄(X)变量的赋值,2018/10/11,医学统计学,55,方程2:哑变量方程方程系数的解释:40-岁与40岁相比的对数优势比50-岁与40岁相比的对数优势比60-岁与40岁相比的对数优势比,2018/10/11,医学统计学,56,2.样本含量,1)非配对研究的病例和对照组的例数可相等或不等,但接近比较好。2)样本例数的估计 原则:自变量个数越多,例数越多。各组样本例数(对照组
28、和病例组)至少为自变量个数的5-20倍。,2018/10/11,医学统计学,57,3、 Logistic回归模型效果的判断,1)拟合优度(goodness of fit) 意义: 评价模型结果与实际结果的一致程度. 判断指标: 预测结果的正确率:用logistic回归的概率模型回代建模样本,预测个体结果正确的比例.Pearson 2 拟合优度检验(SAS软件)检验预测值与实际值的差别,p,认为拟合效果好,2018/10/11,医学统计学,58,讲义例16-2 冠心病与8个危险因素关系,将个体的变量值回代方程,预测个体是冠心病的概率和符合率,2018/10/11,医学统计学,59,表16-1资料
29、吸烟、饮酒与食管癌的关系,剩余差(D)与Pearson 2 拟合优度检验 表16-10 如检验水准=0.2Criterion DF Value Pr ChiSqDeviance 1 3.4202 0.0644Pearson 2 1 3.4218 0.0643,如p =0.2 , 认为拟合方程理想, 本例p0.2,认为食管癌资料仅用上述2个指标解释,数据拟合不理想.,2018/10/11,医学统计学,60,4.多分类的Logistic回归,Logistic回归可处理:1)应变量(Y)为有序的多分类资料 例:疗效结果(y)为:治愈、显效、好转、无效 例: 检查结果(y): 2)应变量(Y)为无序的多分类资料 例:研究阑尾炎类型(y)与危险因素关系 阑尾炎类型有:卡他型、坏疽型、腹膜炎型多分类Logistic回归方法(略),2018/10/11,医学统计学,61,Logistic回归分析小结,1. Logistic回归是研究应变量(y)为分类变量与影响因素(x)关系的方法。2. Logistic回归分析主要的应用1)筛选y变量的影响因素,通过OR值大小说明x变量对y的作用。2)通过构建的概率模型,对研究的个体发生某事件的概率(p)做预测。,2018/10/11,医学统计学,62,结束谢 谢 大 家,