1、第十五章 logistic回归分析 Logistic Regression Analysis 山东大学公共卫生学院 回归分析的分类 多个因变量 (y1,y2, yk) 路径分析 结构方程模型分析 一个因变量 y 连续型因变量 (y) - 线性回归分析 分类型因变量 (y) -Logistic 回归分析 时间序列因变量 (t) -时间序列分析 生存时间因变量 (t) -生存风险回归分析 logistic回归( logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。 在流行病学研究中,常需要分析疾病与各种危
2、险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。 ( 1) Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。 当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。 ( 2)线性回归分析: 由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。 logistic回归 :不仅适用于病因学分析,也可用于其他方面的研究,研究 某个二分类(或无序及有序多分类)目标变量与有关因素的关系 。 logis
3、tic回归的分类: ( 1)二分类资料 logistic回归: 因变量为两分类变量的资料,可用非条件 logistic回归和条件 logistic回归进行分析。非条件 logistic回归多用于非配比病例 -对照研究或队列研究资料,条件 logistic回归多用于配对或配比资料。 ( 2)多分类资料 logistic回归: 因变量为多项分类的资料,可用多项分类 logistic回归模型或有序分类 logistic回归模型进行分析。 队列研究 (cohort study): 也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,
4、在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。 队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。 研究人群 + - + + - - 调查方向:追踪收集资料 比较 疾病 人数 暴露 a b c d a/(a+b) c/(c+d) 队列研究原理示意图 病例 非病例 合计 发病率 暴露组 a b n 1 =a +b a/ n 1 非暴露组 c d n 0 =c +d c/ n 0 相对危险度( r el at i v e r i s k , R R )也称危险比( r i s k r at i
5、 o ) 或率比( r at e r at i o ) 。010 /ncnaIIRR e 、1/ naI e 、20 / ncI RR(相对危险度 relative risk): 表示暴露组与非暴露组发病率 (或死亡率 )的比值。也称为危险比( risk ratio)。反映了暴露与疾病发生的关联强度。 RR表明暴露组发病或死亡的危险是非暴露组的多少倍。 病例对照研究 (case-control studies): 一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例 (case)和对照(control)两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进
6、行比较,推测疾病与暴露间的关系。 + - 病例 + - 对照 调查方向:收集回顾性资料 a b c d a/(a+b) c/(c+d) 比较 人数 暴露 疾病 病例对照原理示意图 是否暴露 病例 对照 合计 暴 露 组 a b a+ b( n1) 未暴露组 c d c+ d( n2) 合计 a +c b +d n 比数比( od ds r at i o 、 OR ):病例对照研究中表示 疾病与暴露间 联系强度 的指标,也称比值比。 比值( odds ):某事物 发生的可能性与不发生的可能性之比 。 病例组暴露的比值)/()/(babbaa、对照组暴露的比值 )/()/(dcddcc该暴露因素的
7、优势比:OR=/ ( ) / ( )/ ( ) / ( )a a b c c db a b d c dadbc相对危险度 RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比 OR值。OR与 RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于 5%时, OR是 RR的极好近似值。 OR1,说明 该因素是疾病的危险性增加,为危险因素;OR0 时,jOR1 ,表示jX是一个危险因素; j0 时,jOR1 ,表示jX是一个保护因素。 由于jOR值与模型中的常数项0无关,因此0在危 险因素分析中常常被视为无效参数。 对于发病率
8、很低 的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作 为相对危险度( r el at i ve ri s k , RR )的近似估计。 即1 1 10 0 0( 1 )( 1 )P P PO R R RP P P 二、 logistic回归模型的参数估计 l og i s t i c 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数: 11( 1 )iinYYiiiL P P (1 , 2 , ,in) ( 15 . 6) 其中,iP表示第i例观察对象处于暴露条件下时阳 性结果发
9、生的概率。阳性结果 时,1iY ;阴性结 果时,0iY 。 根据最大似然原理,似然函数 L 应取最大值。 对似然函数取对数形式: 1l n l n ( 1 ) l n ( 1 ) ni i i iiL Y P Y P ( 15 . 7 ) 式中为对数似然函数, 对其取一阶导数求解参数。对 于参数j(1 , 2 , ,jm),令 ln L 的一阶导数为 0 , 即ln0jL,用 N e w t on - R a ph s o n 迭代方法解方程组, 得出参数j的估计值jb和jb的渐进标准误jbS。 优势比估计 自变量jX不同水平1c和0c优势比的估计值: 10 e x p ( ) jjO R b
10、 c c当样本含量 n 较大时,jb的抽样分布近似服从 正态分布,若jX只有暴露和非暴露 2 个水平, 则优势比jOR的 100( 1 )% 可信区间为: 2e x p ( )jjbb u S表 15 - 1 为吸烟、饮酒与食管癌关系的病例 - 对照研究调查 资料,试进行 l ogi s t i c 回归分析。 表 15 - 1 吸烟、饮酒与食管癌关系的病例 - 对照研究资料 分层g吸烟1X饮酒2X总例数gn阳性数gd阴性数ggnd 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 首先确定变量的赋值或编码:
11、 吸烟 饮酒 病例 110X 不吸烟 210X 不饮酒 10Y 对照 l og i s t i c 回归分析过程可通过 S A S 统计软件包中 l ogi s t i c 过程步实现 例 15-1 在 logistic过程步中加“ descending”选项的目的是使SAS过程按阳性率( y=1)拟合模型,得到阳性病例对应于阴性病例的优势比。 观察例数 OR值 OR的 95%CI 对偏回归系数的假设检验 吸烟与不吸烟的优势比: 11 e x p e x p 0 . 8 8 5 6 2 . 4 2O R b ,其1OR的 95% 可信区间: 11 0 . 0 5 2e x p e x p (
12、0 . 8 8 5 6 1 . 9 6 0 . 1 5 0 0 ) ( 1 . 8 1 , 3 . 2 5 )bb u S 饮酒与不饮酒的优势比: 22 e x p e x p 0 . 5 2 6 1 1 . 6 9O R b ,其2OR的 95% 可信区间: 22 0 . 0 5 2e x p e x p ( 0 . 5 2 6 1 1 . 9 6 0 . 1 5 7 2 ) ( 1 . 2 4 , 2 . 3 0 )bb u S 由结果可看出,吸烟和饮酒均为食管癌发病的危险因素, 吸烟人群发生食管癌的可能性是不吸烟人群的 2. 42 倍, 饮酒人群发生食管癌的可能性是不饮酒人群的 1. 6
13、9 倍。 三、 logistic回归模型的假设检验 常用的检验方法有似然比检验( l i ke l i hoo d r a t i o t e s t ) 和W a l d检验。 1. 似然比检验 基本思想是比较 2 种不同假设条件下的对数似然函 数值差别的大小。具体方法是: 先拟合不包含待 检验因素的 l ogi s t i c 模型,求对数似然函数值0ln L; 再拟合包含待检验因素的 l ogi s t i c 模型,求另一 个对数似然函数值1ln L; 比较两个对数似然函数 值差别的大小 若 2 个模型分别包含l个自变量和p个自变量, 似然比统计量G的计算公式为: 2 ( l n l
14、n )plG L L当样本含量n较大时,在0H成立的条件下,G统计量近似服从自由度d p l 的2分布。 如果只对一个回归系数(或一个自变量)进行检 验,则 1 。 2. W a l d 检验 用 u 检验或2检验来检验各参数j是否为 0 。 jjbu b S 22jjbbS jbS为偏回归系数的标准误。 概率 p值均小于 0.05,说明方程有意义。 对所拟合模型的假设检验: 四、变量筛选 L o g i s t i c 逐步回归 变量筛选的过程 与 线 性 逐步 回 归 变量筛选的过程 极为相似,但其中所用的 检 验 统计量不再是 F 统计量,而是似然比统计量、 W a l d 统计量 等。
15、 例如使用似然比统计量, 即利用( ) ( )102 l n l n llG L L, 在进行到第 l 步时, 通过比较含有jX和不含jX的模型,决定jX是 否引入模型。 与多元线性回归类似,标准化 偏 回归系数可以 比较各因素作用的相对重要性 。 例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取 26例。试用 logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平均为 0.10)。 表 15 - 4 与肾细胞癌转移有关的因素及说明 符号 说明 1X确诊时患者年龄 ( 岁 ) 2X肾细胞癌血管内皮生长因子 ( V E G F ) ,阳性表述由低到高共 3 级 3X肾细胞癌组织内微血管数 ( MVC ) 4X肾癌细胞核组织学分级, 由低到高共 4 级 5X肾细胞癌分期,由低到 高共 4 期 Y 肾细胞癌转移情况 ( 有转移 Y =1; 无转移 Y =0) 用逐步回归法拟合模型 ,变量选入和剔除水平均为 0.10 指定选项“ des”是为了按照 y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照 y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。