1、1,第十六章 Logistic回归分析,Logistic regression,2,复习 多元线性回归 (multiple linear regression),在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、身高等有关。,3,表 多元线性回归分析的数据结构 实验对象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n
2、 yn an1 an2 an3 anp 其中:y取值是服从正态分布,4,多元线性回归模型,通过实验测得含有p个自变量x1,x2,x3,xp及一个因变量y的n个观察对象值, 利用最小二乘法原理, 建立多元线性回归模型:其中b0为截距, b1 ,b2 bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi改变1个单位时Y将改变bi个单位.,5,logistic regression analysis,Logistic回归分析及其应用,6,(一)基本概念和原理,1.应用背景 Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须
3、是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。,7,设资料中有一个因变量y、p个自变量x1, x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。,2、Logistic回归模型的数据结构,8,表2 Logistic回归模型的数据结构 实验对象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是二值或多项分类,表3 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区1 1
4、 1 0 30 02 1 0 1 46 13 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。,表4 配对资料(1:1) 对子号 病例 对照x1 x2 x3 x1 x2 x31 1 3 0 1 0 12 0 3 1 1 3 03 0 1 2 0 2 0 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况 ,取值:0,1,2,11,Logistic回归 - Logistic回归与多重线性回归联系与区
5、别,联系:用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。 区别:线性模型中因变量为连续性随机变量,且要求呈正态分布. Logistic回归因变量的取值仅有两个,不满足正态分布。,12,3、 Logistic回归模型,令: y=1 发病(阳性、死亡、治愈等)y=0 未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1, x2,xp之间的Logistic回归模型为:可知,不发病的概率为:,经数学变换得:定义:为Logistic变换,即:,14,4、回归系数i的意义流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:
6、暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:,故对于样本资料OR=exp( ) 95%置信区间为: 可见 是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数,5.假设检验,(1)回归方程的假设检验H0:所有 H1:某个计算统计量为:G=-2lnL,服从自由度等于n-p 的 分布(2)回归系数的假设检验H0: H1:,计算统计量为:Wald,,自由度等于1。,17,(二) Logistic回归类型及其实例分析,1、非条件Logistic回归当研究设计为队列研究、横断面研究或成组病例
7、对照研究时,可以用非条件Logistic回归。,18,实例1,某研讨究者调查了30名成年人,记录了同肺癌发病的有关因素情况, 数据见表4。其中是否患病中, 0代表否, 1代表是;性别中 1代表男, 0代表女;吸烟中 1代表吸烟, 0代表不吸烟;地区中, 1代表农村, 0代表城市。试分析各因素与肺癌间的关系。,19,表5 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区1 1 1 0 30 02 1 0 1 46 13 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村
8、,0代表城市。,20,SPSS操作步骤:,Analyze-Regression-Binary Logistic -Dependent框(y)-Covariates框(x1,x2,)-ok,非条件Logistic回归 SPSS操作步骤:,21,22,23,结果表明, 性别, 吸烟, 年龄三个因素都与肺癌有关. 由于在对某一因素进行单因素分析时没有控制其它因素的干扰, 因此结果不可靠.,单因素分析的结果,24,多因素分析的结果,25,26,由上最大似然估计分析知因素X2(吸烟), X3(年龄)对肺癌的发生有影响。 所得的回归方程为: Logit(P)=-9.7544+2.5152X1+3.9849
9、X2+0.1884X3-1.3037X4.,27,2.条件logistic回归分析,配对设计的类型:1:1、1:m、n:m (可采用分层COX模型来拟合)。 例如:某市调查三种生活因素与胃癌的关系,资料见表5。,表6 配对资料(1:1) 对子号 病例 对照x1 x2 x3 x1 x2 x31 1 3 0 1 0 12 0 3 1 1 3 03 0 1 2 0 2 0 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况 ,取值:0,1,2,29,配对Logistic回归SPSS操作步骤:,Analyze-Survival-C
10、OX Regression-Time框(outcome)-Status框( Status ) -Define Event:Single value 1:continue-Covariates框(x1、x2、x3)-Strata框(id)-Options-at last step-ok,30,31,32,33,34,35,36,37,3、逐步Logistic回归分析,(1)向前法(forward selection),开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter, 缺省值 P
11、(0.05)。,38,(2)后退法(backward selection),开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove, 缺省值 p(0.10)。,39,(3)逐步回归法 逐步引入-剔除法(stepwise selection),前进逐步引入-剔除法是在前进法的思想下,考虑剔除变量, 因此有两个p界值Enter, Remove。,40,无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在 model后加选项:/selection=forward、backward或s
12、tepwise 再给出SLE, SLS的界值。,调试法:P从大到小取值0.5,0.1,0.05, 一般实际用时, SLE,SLS应多次选取调整,41,解 释,设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。当bi0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。,42,在本例中不良饮食习惯X2
13、 ,取值:0、1,2、3,b=1.2218, OR=3.393,表示不良饮食习惯是危险因素;精神状况X3 ,取值:0、1、2,b=2.2947, OR=9.922,表示精神状况是危险因素。,43,SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在 method后加选项:Enter:所有变量一次全部进入方程。Forward:逐步向前法Backward:后退法变量移出方程所采取的检验方法:Conditional; LR; Ward(尽量不用),44,45,二分类Logistic回归,46,SPSS 软件实现方法,FileOpen相应数据(已存在) Analyze RegressionBinary Logistic Dependent(y)Covariates (自变量) Mothod(逐步回归方法)Specify model(单因素或多因素) save(欲保存的内容)Options(输出选项)OK,