1、医用多元统计分析方法,欢迎学习,Logistic 回归模型,主讲:黄志碧,回归分析概述1、根据自变量多少分(1)简单回归(一个自变量)(2)多元回归(多个自变量)2、根据Y的取值分(1)确定型回归(多元线性回归)(2)概率型回归(Logistic回归)3、根据回归图形分线性回归(多元线性回归)非线性回归(Logistic回归),多元线性回归模型,描述Y 与 X1, X2Xm之间的线性关系。Y:连续变量,呈正态分布。最小二乘法求1, 2 m,Logistic 回归模型,Logistic回归模型概述Logistic回归模型是一种概率模型,它是以某一事件发生与否的概率P为因变量,以影响P的因素为自变
2、量建立的回归模型,分析某事件发生的概率与自变量之间的关系,是一种非线性回归模型。,Logistic回归模型适用的资料:Logistic 回归模型用于因变量Y为分类的资料,二项或多项分类的资料,Y也可以是计量资料,但主要用于 Y为二项分类的资料(0,1资料)。,注意: Y为二项分类的资料不宜用线性回归模型来进行分析,原因是:(1) 由于Y的取值仅为0或1,不符合正态分布和方差齐性的假设;(2) 用线性回归建立的方程来预报二分类资料,会使Y的预报值超出0,1之外,给结果解释带来困难。,Logistic回归模型的应用 Logistic回归模型在流行病学、临床医学研究中有广泛应用。只要事件的结局能表达
3、为发生或不发生两项分类的资料,一般都能用该模型进行分析。常用于病因分析、预后因素分析、鉴别诊断、评价治疗措施的好坏等等。如:非传染性疾病的病因研究资料;影响治疗效果的因素;影响恶性肿瘤复发或远处转移的因素;药物剂量与动物死亡的关系,等等。,病因研究的方法队列研究:按是否暴露于某因素或不同的暴露水平分组,观察各组的发病或死亡情况。可以直接计算相对危险度(RR),说明暴露因素与发病或死亡的联系强度。病例对照研究:选某病患者做为病例组,以健康人或非该病患者做为对照组,收集某些因素暴露的情况。,病例对照研究类型成组的病例对照研究配比的病例对照研究(1:1 , 1:2 ,1:3,1:4)计算优势比(Od
4、ds ratio, OR) ,说明危险因素与疾病或死亡联系的强度。优势(Odds):指暴露组或非暴露组发病(或死亡)的概率P与未发病的概率(1P)之比:P/(1-P),称为优势(Odds)。,病因研究资料分析方法单因素分析:传统的经典的分析方法;受混杂因素的影响较大,可在设计时控制,或进 行分层分析。如分层较多,需要的样本含量较大,有时难以做到。 多因素分析:logistic回归模型进行分析。,Logistic回归模型可分为1、条件Logistic 回归模型2、非条件Logistic回归模型。 前者适合于配对或配伍设计资料;后者适合于成组设计资料。因变量可以是:两项分类、无序多项分类、有序多项
5、分类等。,第一节 多元 logistic 回归模型基本概念,一、模型结构 (一)、 logistic分布函数y的取值在之间,函数值F(y) 在01之间取值,且呈单调上升的S型曲线。可以将这一特征运用到流行病学和临床医学中描述事件发生的概率与影响因素的关系。,(二) logistic回归模型利用logistic分布函数的特征来表示在自变量X的作用下出现阳性结果或阴性性结果的概率。出现阳性结果的概率记为: P( y=1|x),出现阴性结果的概率为:Q( y=0|x), 注意:P+Q=1。,当只有一个自变量时,logistic回归模型:,式中, 为回归线的截距, 是与X有关的参数,也称回归系数。,(
6、1),(2),(3),当有多个X时, logistic回归模型:,(4),(5),式中, 为截距, (j=1,2,p), 称偏回归系数。,(6),式(1) 或 式(4)称为logistic回归模型。,(三) logit变换:将S型曲线转化为直线,(7),(8),(3),(6),对式(3)和式(6) 两边取自然对数得:,这就是线性回归方程。 说明:(1) ln( P/Q)称为 logit(P)变换;(2) P/Q称为事件的优势,在流行病学中称为比值(odds)。 因此,优势的对数值与影响因素之间呈线性关系。,(四) 优势比(odds ratio), 简记OR 暴露组的优势(比值)与非暴露组的优势
7、(比值)之比,称优势比(比值比)(OR)。OR用于说明暴露某因素引起疾病或死亡的危险度大小。,(9),对式(9)两边取自然对数得:,(10),P(1)X取1时,为暴露组 ; P(0)X取0时,为非暴露组。,由上式可见, 的意义是:在其他自变量固定不变的情况下,自变量的暴露水平每改变一个测量单位所引起的优势比(OR)自然对数的改变量,或引起优势比为增加前的exp( )倍。,(五) 的统计学意义,与优势比OR有密切关系,同时与暴露因素(自变量)的取值有密切关系。1、若 为正值, 增加使OR增大, 是危险因素;若 为负值, 增加使OR减少, 是保护因素。2、当暴露因素X为二水平时(X取0,1),lo
8、gistic 回归模型中X的系数 就是暴露与非暴露优势比的对数值。,如果暴露时X=a ,非暴露时X=b , 则:,此时, 不能直接解释为优势比的对数值,因为此时X改变“一个单位”没有实际意义。 比如:年龄从50岁变到51岁。,3、当X为等级变量时(0、1、2.),以最小或最大等级为参照组,exp( )为增加一个等级时的优势比, exp( k )为增加K个等级时的优势比。 4、如果X为连续性变量,如年龄,则将X分段或变为等级资料再分析。如6064岁的人比5559岁的人,有多大的可能性患冠心病,OR为exp(5 )。,5、当X为多项分类变量时,用1、2、3.k表示k个不同的分类,分析时转为k-1个
9、指示变量或哑变量。每个指示变量都是二分类变量,都有自己的系数。如血型、民族、职业、工种等。如血型变量X:A、B、AB、O,用1、2、3、4分别表示。此时X仅为分类变量,不是等级变量。,分析时,用D1、 D2、D3 表示血型x=1时:D1=1, D2=0,D3=0 A血型;x=2时:D1=0, D2=1,D3=0 B血型;x=3时:D1=0, D2=0,D3=1 AB血型;x=4时:D1=0, D2=0,D3=0 O血型; 分析时,将D1、 D2、D3放入logistic回归模型同时分析,得3个参数: 。表示A与O的优势比; 表示B与O的优势比; 表示AB与O的优势比。,(六)标准回归系数用于比
10、较各个自变量对模型贡献大小。,为标准回归系数,bi为第i个自变量的回归系数,Si为第i个自变量的标准差,S为Y的标准差。的绝对值越大,则该自变量对模型贡献越大。,二、logistic回归模型的参数估计与假设检验(一)logistic回归模型的建立Logistic回归分析的过程,就是要根据样本资料,求出各自变量的回归系数 。由于logistic回归是一种概率模型,通常用最大似然法(maximun likelihood,ML)求回归系数的估计值(i=1,2,3,p)。,(二) logistic回归模型的假设检验1、回归系数的假设检验求得回归系数后,还要对回归系数进行检验,目的是检验总体回归系数是否
11、为零。检验方法有:1)、似然比检验(likelihiood ratio test)(1) 检验引入的变量对模型有无贡献; (2)对模型回归系数进行整体检验。,似然比检验(likelihiood ratio test):L 为方程中包含m(mP)个自变量的对数似然函数值; 为增加一个自变量 Xi 后的对数似然函数值。G 服从自由度为1的 X2 分布。若 , 则可以认为在检验水准下有统计学意义, Xi可以引入方程,否则不能引入方程。,2)、Wald检验3)、计分检验(score test)。似然比检验最可靠, Wald检验和计分检验一致。Wald检验未考虑因素的综合作用,当因素间存在共线性时,所得
12、结果不可靠。,2、logistic回归模型的拟合优度检验检验logistic回归模型预测的理论频数分布是否符合实际的理论频数分布。常用的方法:(1)偏差检验(Deviation test)(2)Pearson 检验(3)Hosmer-Lemesshow 检验。,偏差检验、Pearson 检验的效果相近,其对样本含量和理论频数要求比较严格。Hosmer-Lemesshow 检验用于两分类应变量的Logistic回归分析,当样本含量大,自变量数目多,且有连续型变量引入模型时,检验效果好。模型拟合优度检验: H0设实际频数分布和理论频数分布相符合,即模型的拟合优度较好。,第二节 二项分类变量资料非条
13、件logistic 回归,二项分类反应变量是最常见的变量类型,又称0、1变量。可用于病例-对照研究,队列研究和横断面研究,其中成组设计的非条件Logistic回归最常见。,例15-1:评价新旧两种降糖药的治疗效果。,变量的赋值方法因素 变量名 赋值方法研究中心 X1 甲医院 1, 乙医院 2降糖药 X2 新药 1 , 旧药2 治疗效果 Y 有效 1 , 无效 0,SPSS 数据文件建构,数据录入,新旧两种降糖药效果不同,新药疗效是旧药的5.636倍。不同医院疗效无差异。,对模型的检验:X2=0.519,P=0.772。说明模型拟合效果好。,例1:子宫内膜癌与雌激素关系的病例对照研究。,(成组的
14、病例对照研究)赋值方法:对象: 病人 1 , 对照 0雌激素:用过 1 , 未用过 0,OR95可信区间:,用logistic回归模型分析:,回归系数:b=1.311 回归系数标准误:S.E.=0.291 回归系数检验:Wald=20.278, P=0.000 OR: Exp(B)=3.709 总体回归系数95%CI:2.0966.562 (说明总体回归系数不为0),因为b=1.311,服用雌激素取值为1, 故雌激素是子宫内膜癌的危险因素。服用雌激素者患子宫内膜癌的危险性是不服用者的3.709倍。,例2:妇女吸烟和使用避孕药与血栓形成的关系。,变量赋值的方法因素 变量 赋值方法 是否吸烟 X1
15、 吸烟 1 , 不吸烟 0 是否用避孕药 X2 服用1 , 不用 0 对象 Y 血栓病人 1 , 对照 0,数据文件结构,数据录入,血栓形成与口服避孕药有关,与吸烟无关,口服避孕药是血栓形成的危险因素,服用者是不服用者7.912倍。,对模型的检验:X2=2.221,P=0.329。说明模型拟合效果好。,第三节 多分类结果变量的 logistic回归,前面介绍的logistic回归模型的反应变量Y的取值仅有两个(0 ,1),为二项反应变量。但在实际中经常碰到Y的取值为多个的情况, 称多项分类变量。如:某种疾病处于不同的临床期;同一种肿瘤不同的亚型;病例对照研究中,一个病例组,两个或多个对照组,如
16、医院对照和健康人对照。,根据类别之间有无大小顺序,多项分类变量分为:无序(名义)变量(nominal):如血型、民族、职业等有序变量(ordinal variables):如疗效分为四个等级(无效、好转、显效、痊愈);疾病严重程度分为:轻度、中度、重度等。,对于多项分类反应结果资料,如果两两拆开或合并成二分类资料,用前介绍的两分类logistic回归模型进行分析,会损失部分信息,降低统计效能(降低3050)。对于这种资料应该采用多项分类logistic回归模型进行分析。,一、无序多分类反应变量的logistic回归,(一)、模型结构 设Y有K个类别,令第i(i=1,2,K)类的概率分别是P1,
17、P2 PK,并满足: P1P2 PK1。当K=2时,就是二项分布。令自变量为X,用i,i分别表示第i类的常数项和自变量的参数,则多项分类logit模型为:,( i=0,1,2,K-1),(广义logit模型),该模型需要估计K-1个二项分类logit模型,称广义logit模型。模型左侧为两个类型间的对数优势。模型由K-1个具有各自参数的logit等式组成,即效应反应类别与基线的不同由所改变。当K2时只有一个等式, K3时有二个等式。,任两个类别a, b间模型的估计方法:,反应变量的概率:,说明:对于每一类别k的反应概率Pk,分母相同,且等于每个类别k的分子之和,所以无论以哪一类别做基线,基线所
18、对应的参数均为0。,模型中参数的意义和检验:模型中的参数与二分类logistic回归相似,要注意是哪两类比较;同一变量在不同logit函数中效应可能不一样。,例15-2:分析新生儿体重和产妇妊娠期间疾病对新生儿分娩的影响。,用SPSS进行分析:数据文件:结果:,例6 分析产后大出血与孕高症的关系。,用SPSS进行分析:数据文件:结果:,与对照组相比:有孕高症者发生子宫性大出血者,是没有孕高症者的2.435倍;发生胎盘性大出血者,是没有孕高症者的5.909倍。孕高症是产后大出血的一个危险因素。,例7 分析产后大出血与孕高症的关系。,用SPSS进行分析:数据文件:结果:,二、有序多分类反应变量的l
19、ogistic回归,有序多类变量资料用该模型进行分析。 (一)、累积logit模型结构有序反应变量为Y, 共有K个类别,令第j(j=1,2,.K)类的概率分别是P1,P2 PK,并满足: P1P2 Pk1。当K=2时,就是二项分布。令自变量为X,用k,k分别表示第k类的常数项和自变量的参数,则累积logit模型为:,对每个可能的类别k, 反应变量Y k的概率就是累积概率,第k分类的累积概率为:,(k=1,2,K),有K个反应类,就有K-1个二项分类的累积logit模型。如3,则有2个累积logit模型。,分类方法:1 , 2 3 ; 1 2 ,3,用累积概率表示累计logit 模型:,K=1,
20、2,.K-1),例8 分析小学生IQ与母亲文化程度的关系。,0.6373 OR=exp(0.6373)=1.89 母亲文化程度提高一级,儿童智力提高一个或一个以上等级的可能性增加0.89倍。,累积比数模型的应用条件自变量的回归系数与分割点无关。 即:123等;,例8,为探讨营养与智力的关系,某单位从某市3所小学中整群抽取18个班级,测定了学生的智商,以智力等级Y作为结果变量,同时调查了有关营养方面的信息,Y被分成四个等级,即y=1:IQ90;y=2:90IQ110;y=3,110Q130;y4:IQ130。这是一份多分类有序结果资料,现拟采用累积比数logistic回归分析之。,第四节 配比设
21、计的条件logistic回归适用于配比的病例对照研究资料(matched case-control study),一、配比设计的条件logistic回归模型配比研究设计的目的:控制混杂因素对研究结果的影响。配比因素:影响研究结果的主要的非研究因素(主要的混杂因素);配比变量的类型: 分类(属性)变量:性别、民族、病情等( 定量变量:年龄、工龄、血压等(配比时按一定波动范围进行配比。如年龄2,血压 5mmHg),配比因素不要太多,一般34个。配比因素应该是影响研究结果的主要混杂因素。配比设计可以提高研究效率,提高OR估计的精确度,使方差可缩小1015。用途:主要用于罕见或少见的疾病的病因研究。缺
22、点:配比因素不进行分析。对照数:可以是1个(1:1)也可以是2个(1:2配对),最多4个对照,超过4个不能增加研究的效率。,二、条件logistic回归资料资料表示方法设: 共有n个配比组,第i个配比组(i=1n)共有1+m个观察对象,所研究的危险因素共有p个,X1,X2.Xp。(m为对照个数) 配比设计资料形式。Xnmin: 配比组号(1n),m: 组内编号(0m,0代表病例,对照计为j=1m),i:分析因素(自变量,编号i=1p)。X101: (第1个配比组病例的第1个观察指标)X111: (第1个配比组对照的第1个观察指标),用第i个配比组建立的logistic回归模型:模型假设:自变量
23、X在各配比组对研究结果的作用是相同的。 i(常数项)为该配比组的各个自变量均为0时的基线风险。 i 大小对自变量的解析无帮助,在模型中不考虑,条件logistic回归模型如下:,因此,条件logistic回归模型仅用于危险因素的分析,不能用来进行预测。,例4 软组织肉瘤与接触苯氧乙酸或氯酚的关系(1:1 配对)。原始数据格式:SPSS数据文件:,注意: 建立数据文件时,要虚拟一个生存时间,对照的生存时间比病例的生存时间长就可以了。这里生存时间变量用Time 表示,病例给1, 对照给2 。,用SPSS分析步骤: Analyze Survival Cox Regression (调用Cox回归)T
24、ime: Time (指定虚拟生存时间变量)Status: Y (选入生存状态变量)Define Event: Single value: 1 (1 表示出现观察结局)Covariate: X; 你(选入欲分析的变量)Strata: match (指定分层变量,配比组),上表结果说明回归模型成立的; 下表结果指明X1的是个危险因素,接触者患软组织肉瘤是不接触者的4倍。,例15-4 分析糖尿病与血压、血脂、家族史、体重指数、职业的关系。(1:1配对研究),结果表明:血压、家族史、体重指数和职业都与糖尿病有关。血压、家族史、体重指数是危险因素,脑力劳动增加糖尿病危险性。,Logistic回归模型的
25、应用条件,1应变量Y必须是二项分类变量,即Y的取值必须是0,1,如果是非0,1变量,可通过变换使其成为0,1变量。例如,生存时间,可令生存时间不满一年为0,满一年及以上的为1。但分析类似这样的生存资料,其效率低于COX模型,最好使用COX模型进行分析。,2Logistic回归模型是建立在事件独立性基础上,即甲的发病与否对乙是否发病的概率没有影响。所以仅适用于非传染病的资料的分析。 3Logistic回归模型原则上只适用于发病率较低的疾病,如心血管病、恶性肿瘤等,因为只有发病率低的疾病,该模型计算的OR才近似等于RR,如不需计算RR,则不受此限制。,关于logistic 回归的样本含量logis
26、tic 回归的样本含量比多元线性回归要多,所需样本含量为自变量的20倍;每个自变量至少有10个阳性结果(至少占30%以上)。配比研究50个配比组以上,对照最多4个。,应用logistic 回归模型注意事项,1、根据应变量的类型,选用合适的logistic回归模型。2、对自变量的处理(1)连续性资料:直接纳入;(2)无序分类资料:设哑变量;(3)等级资料:按等级赋值。,3、自变量的筛选: 最大可取0.2。当变量较多时,先用单因素筛选。然后后逐步法进行筛选。 4、样本含量近可能多的样本量。按经验估计至少是自变量个数的1520倍。,5、对性质相同的一些自变量进行部分多因素分析。6、将单因素分析有意义
27、及从专业上认为有重要意义的变量,作为候选变量,进行多因素筛选,建立起多因素模型。可以取:0.05、0.1、0.15、0.2,甚至0.3。但最好不超过0.1。否则选入一些不重要的变量,所估计的系数不稳定。 7、考虑是否纳入变量的交互作用项。,logistic回归到此结束,谢谢!,软组织肉瘤与接触苯氧乙酸或氯酚的关系软组织肉瘤接触 未接触 合计对 接触 3(a) 4 (b) 7照 未接触 16 (c) 30(d) 46合计 19 34 53,最终模型与只包含常数项模型相比,-2lnL从165.94降为49.519,似然比X2=116.42,v=6,P0.001,说明模型总体拟合情况良好。经模型拟合优度检验,Pearson检验X2=2.216,P=0.696,偏差检验X2=3.083, P=0.544,均显示模型拟合优度较好。,1、与自然分娩相比,巨大儿更可能用胎吸助产; 2、低体重儿和巨大儿,产妇在妊娠期间有病,更容易剖宫产。,出血量400ml 做为对照; 出血量400ml 做为病例(产后大出血);有子宫因素和胎盘因素,与对照组相比:有孕高症者发生子宫性大出血者,是没有孕高症者的2.435倍;发生胎盘性大出血者,是没有孕高症者的5.909倍。孕高症是产后大出血的一个危险因素。,这是一个2因素,3分类结果的logistic回归问题。,数据文件,数据录入,