1、第十六章 logistic回归分析,暨南大学医学院医学统计教研室 林汉生,内容,logistic 回归的概念 应用举例 预备知识:OR值与RR值 logistic回归对资料的要求 模型的建立与变量筛选 logistic回归分析的结果表达 logistic回归应用的注意事项 logistic回归的应用 logistic回归的种类 logistic回归分析资料主要来源,一、logistic 回归的概念,在医学研究中经常遇到应变量为二项分类的资料,如治愈与未愈、生存与死亡、发病与未发病等,可以概括为阳性与阴性两种互斥的结果,同时可能存在对分类结果发生概率产生影响的因素即自变量。 研究1个二分类观察结
2、果与多个影响因素之间关系的多变量分析方法。,二、应用举例,探讨疾病发生的危险因素、筛选与疾病预后有关的因素、综合多个指标进行诊断试验,等。如: 非胰岛素依赖型糖尿病的危险因素分析 301例急性心肌梗死病人急性期预后因素的logistic模型分析 运动试验logistic回归分析对冠心病的诊断价值,三、预备知识:OR值与RR值,预备知识:OR值,OR值(odds ratio):比值比或优势比 比值( odds )是指某事物发生的概率与不发生的概率之比。病例组和对照组有暴露史与无暴露史的概率分别为:a / (a+b), b/(a+b) a / bc / (c+d), d / (c+d) c / d
3、 OR=( a / b)/( c / d )=(ad)/(bc)=( 76 44)/ (10 40)=8.36 出生时有窒息缺氧史儿童,发生低智的危险是对照儿童的8.36倍(要经过假设检验)。,OR值与RR值,RR(relative risk):暴露人群发病率P(1)与非暴露人群发病率P(0)之比。当P(1)和 P(0)都很小时,OR值接近RR值。 RR1:说明暴露越多,发病越多,可能是致病因素; RR1:说明暴露越少,发病越少,可能是抑制发病因素。,四、 logistic回归对资料的要求,Y 取值:0,1 X1,X2,X3,Xm的取值:计数、计量和等级资料。,五、模型的建立与变量筛选,将回归
4、效果显著的自变量选入模型,不显著的自变量则排除在模型外,使建立的模型比较稳定和便于解释。,实习指导例题,例 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。,有关符号意义说明如下,i:标本序号 x1 :确诊时患者年龄 x2 :肾细胞血管内皮生长因子,分3个等级 x3 :肾细胞癌组织内微血管数 x4 :肾癌细胞核组织学分级,分4级 x5 :肾细胞癌分期,分4期 y :肾细胞癌转移情况(1转移;0无转移),1. SPSS的数据工作表,2. SPSS的操作步骤 Analyze Regressi
5、on Binary Logistic,Logistic regression 对话框,将Y选入Dependent栏,X1 X5选入Covariate栏,选择Forward:LR法。单击Options按钮。,Options对话框,单击Continue按钮,单击OK按钮,3. SPSS的结果与分析 (1)数据基本情况,数据基本情况为26例纳入分析,没有缺失值,(2)0步时的分析结果,变量筛选第0步的Score检验结果,可作为单变量logistic回归分析的结果。如进行单变量logistic回归分析,在=0.05水准,变量X2、X4和X5有统计学意义。,(3)拟合优度用决定系数R2描述,(4)分类表
6、:只有1个分错类,即观察值为0类,而预测值为1类,Y的观察值和预测值的符合情况:观测值为0时(肾癌未转移),预测的准确率为94.1%;观测值为1时(肾癌转移),预测的准确率为100.0%;总的预测准确率为96.2%。该指标可以评价logistic模型的拟合优度。,(5)模型中的变量,B:回归系数。当其他变量保持不变时,Xj每增加或减少1个单位时,OR值自然对数的平均变化量。 Exp (B):OR值(经校正的,或调整的OR值,adjusted odds ratio) SE:回归系数的标准误 Wald值:对回归系数进行假设检验的统计量,最重要的结果,选入模型的变量:X2和X4的OR值都大于1,故等
7、级越高,肾癌转移的风险越大。 总体OR值的95%可信区间太宽,提示例数太少 。 可以将X2和X4的取值代入下式,计算肾癌转移的可能性。判断的截断点默认为0.50,大于0.50,则预测为肾癌转移(分类表中的结果)。,(6)未引入模型的变量,没有引入模型的变量,最小的P值为0.197。即使将引入变量的检验水准放宽到0.10,也不能引入新变量。,多因素logistic回归分析结果,该表可以改进吗?,表1 肾细胞癌转移的多因素logistic回归分析,表1 肾细胞癌转移的多因素logistic回归分析,小结,用多因素logistic回归分析的似然比前进法筛选变量,引入变量的检验水准为=0.10。在所研
8、究的5个有关临床病理因素中,入选模型的因素有2个:肾细胞血管内皮生长因子表达等级是肾细胞癌转移的危险因素(经校正的OR值为11.17,95% CI为 1.07116.45,P=0.044);肾癌细胞核组织学分级也是肾细胞癌转移的危险因素(经校正的OR值为8.14,95% CI为 0.9768.62,P=0.054 )。,六、logistic回归分析的结果表达,赋值表 单因素分析 多因素分析,例:16-2(P339),为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,各因素的说明及资料见表。试用logistic回归分析方法筛选危险因素。,冠心病危险因素的病例对照
9、调查资料,表1 冠心病的相关因素与赋值,(一)相关因素与赋值,(二)单因素分析,单独分析每个自变量X与应变量Y是否有关联。检验水准可以放宽到0.10。对单因素有统计学意义的变量,进行多因素logistic回归分析。 当某个自变量有缺失值时,不影响对其它自变量进行分析。 可以分析每个自变量与应变量的关联 对自变量进行初步筛选,为多因素分析做准备。当例数较少,而自变量较多,缺失值较多时,初步筛选更有必要。,单因素分析方法,无序分类资料:卡方检验 有序分类资料:卡方检验中的线性趋势检验 计量资料:t检验 每次引入1个自变量进行logistic回归分析(任意类型资料) 当缺失值没有或很少时,逐步多因素
10、logistic回归0步时的分析结果(任意类型资料),1. 卡方检验,Y Column (s),Chi-square卡方检验 Risk 求OR值或RR值,列联表及行百分数,8个变量,例数54,无缺失值,年龄:等级资料;病例组与对照组的年龄构成,线性趋势检验:年龄与冠心病的发病呈线性关系(25.68,P0.017) 等级资料,不能计算OR值,A型性格 与 冠心病 OR= (2115) / (135)=(21/13) / (5/15)= 4.85,26.82,P0.009 OR=4.85 (1.42, 16.51),表中的因素都是2分类变量,如果是计量资料,则百分率改为 ,2 改为t,2. 每次引
11、入1个自变量进行 logistic回归分析,OR为4.85, 95% CI为1.4216.51, P=0.012,Score统计量的结果与卡方检验一致 Wald统计量的结果与卡方检验很接近,3. 当缺失值没有或很少时,逐步多因素logistic回归0步时的分析结果,结果,没有缺失值,Score统计量的结果与卡方检验一致(无缺失值的情况下),(三)多因素分析,筛选独立的自变量进入模型 例如,动物脂肪摄入和体重指数在单因素分析都有统计学意义,但多因素分析时,只有动物脂肪摄入这个因素被引入模型。说明动物脂肪摄入与体重指数可能有联系,动物脂肪摄入提供的信息取代了体重指数。,多因素logistic回归分
12、析结果,结果简洁清楚,七、logistic回归应用的注意事项,危险因素分析 时,将计量指标转变为等级或二分类指标(如年龄,肿瘤转移的淋巴结个数),使OR值的实际意义明确。 无序分类变量的赋值方法:哑变量 样本含量:经验上,病例和对照的人数应至少各有3050例。,SPSS中哑变量的设置,Categorical按钮的使用,例(P 352),1352名少年儿童肥胖症危险因素调查资料 肥胖症:无;有(根据体重指数BMI划分) 性别:男;女 年龄组:7-9岁;10-12岁;13-15岁;16岁及以上 胆固醇:低;高 甘油三脂:低;高,数据文件,多因素logistic回归分析,年龄的OR值为0.782,什
13、么含义?,Crosstab:肥胖发生风险并非随年龄增加而减少。可以79岁年龄组为参照,79岁年龄组为参照: 单击Categorical,选择:First (1: 79岁年龄组),单击Change,单击Continue,单击OK,哑变量自动生成 Frequency是分层的数目,总共有64层,其中有7层的例数为0,结果解释,年龄的参照组为79岁 年龄组(1)的OR值为2.53,P0.001。即在校正了其它因素后, 1012岁儿童患肥胖症的风险是79岁儿童的2.52倍。 1315岁和16岁及以上儿童患肥胖症的风险与79岁儿童比较,差异无统计学意义。 性别的OR值为0.607?(1:男性;2:女性)
14、甘油三酯的OR值为2.02? (1:低;2:高),是每个年龄组都是 男性肥胖率高于女性吗?,八、logistic回归的应用,筛选疾病预后或发生的有关因素 诊断模型的建立 校正混杂因素如临床试验数据分析:当评价指标为二值变量(有效,无效),非处理因素在试验组和对照组中分布可能不均衡时。可以利用logistic回归分析得到调整后的药物评价结果。Y group 年龄 病情 (0无效;1有效) (1常规疗法;2新疗法) (不均衡),九、logistic回归的种类,非条件logistic回归分析:简称logistic回归分析,即前面介绍的内容,应用最广泛。 条件logistic回归分析:为消除混杂因素对
15、研究结果的影响,对每1例病人选择1至数例在混杂因素的暴露水平上相一致的,合乎研究条件的,未患病的人作为对照,共同组成一个匹配组。统计分析按匹配组进行。 多项分类Logistic回归分析 有序多分类Logistic回归分析,十、Logistic回归分析资料主要来源,回顾性资料(研究开始前病历等资料已经存在,但可能不完整) 前瞻性资料(可按设计要求收集临床和实验室数据) 现况研究(横断面研究:在某一特定人群中,调查收集特定时间内某种疾病的患病情况及其有关因素):如“医学高校知识分子高血压及相关危险因素Logistic分析”;“山西省居民高血压患病情况及危险因素调查” 病例对照研究:如“山东省大肠癌影响因素病例对照研究”,“宫颈癌危险因素的病例对照研究”(罕见疾病的病因研究),作业,简答题P350:1,2,3,4,5 上机练习:实习十八 logistic 回归 P339 例16-2,