收藏 分享(赏)

Logistic回归的实际应用.doc

上传人:精品资料 文档编号:9906393 上传时间:2019-09-18 格式:DOC 页数:10 大小:283KB
下载 相关 举报
Logistic回归的实际应用.doc_第1页
第1页 / 共10页
Logistic回归的实际应用.doc_第2页
第2页 / 共10页
Logistic回归的实际应用.doc_第3页
第3页 / 共10页
Logistic回归的实际应用.doc_第4页
第4页 / 共10页
Logistic回归的实际应用.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、 Logistic 回归的介绍与实际应用 摘要本文通过对 logistic 回归的介绍,对 logistic 回归模型建立的分析,以及其在实际生活中的运用,我们可以得出所建立的模型对实际例子的数据拟合结果不错。关键词:logistic 回归;模型建立;拟合;1、logistic 回归的简要介绍1、Logistic 回归的应用范围: 适用于流行病学资料的危险因素分析 实验室中药物的剂量-反应关系 临床试验评价 疾病的预后因素分析2、 Logistic 回归的分类: 按因变量的资料类型分:二分类、多分类;其中二分较为常用 按研究方法分:条 件 Logistic 回归、非条件 Logistic 回归

2、两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。3、Logistic 回归的应用条件是: 独立性。各观测对象间是相互独立的; Logit P 与自变量是线性关系; 样本量。经验值是病例对照各 50 例以上或为自变量的 5-10 倍(以10 倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确 logistic 回归分析,此时要求分析变量不能太多,且变量分类不能太多; 当队列资料进行 logistic 回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用 Poisson 回归)。4、拟和 logistic 回归方程的步骤: 对每一个

3、变量进行量化,并进行单因素分析; 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。 对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换; 在单变量分析和相关自变量分析的基础上,对 P(常取0.2,0.15 或 0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a 进入变量

4、的筛选用 score 统计量或 G 统计量或 LRS(似然比统计量),用户确定 P 值临界值如:0.05、0.1 或 0.2,选择统计量显著且最大的变量进入模型;b 剔除变量的选择用 Z 统计量(Wald 统计量),用户确定其 P 值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。 在多因素筛选模型的基础上,考虑有无必要纳入变

5、量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。 对专业上认为重要但未选入回归方程的要查明原因。5、回归方程拟合优劣的判断(为线性回归方程判断依据,可用于 logistic 回归分析) 决定系数 (R2)和校正决定系数 ( ),可以用来评价回归方程的优劣。R2 随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。但亦有研究指出 R2 是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与

6、观测值之间差别的问题,因此在 logistic 回归中不适合。 Cp 选择法:选择 Cp 最接近 p 或 p1 的方程(不同学者解释不同)。Cp 无法用 SPSS 直接计算,可能需要手工。1964 年 CL Mallows 提出:Cp 接近(p+1 )的模型为最佳,其中 p 为方程中自变量的个数,m 为自变量总个数。 AIC 准则: 1973 年由日本学者赤池提出 AIC 计算准则,AIC 越小拟合的方程越好。在 logistic 回归中,评价模型拟合优度的指标主要有 Pearson 2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike 信息准则(AIC)

7、、SC 指标等。Pearson 2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用 HL 指标则更为恰当。Pearson 2、偏差(deviance)、 Hosmer- Lemeshow (HL)指标值均服从 2 分布, 2 检验无统计学意义( P0.05)表示模型拟合的较好, 2 检验有统计学意义 (P0.05)则表示模型拟合的较差。AIC 和 SC 指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其 AIC 和 SC 指标值排序,AIC 和 SC 值较小者一般认为拟合得更好。6、拟合方程的注意事项: 进行方程拟合对自变量筛选采

8、用逐步选择法前进法(forward)、后退法(backward)、逐步回归法( step wise)时,引入变量的检验水准要小于或等于剔除变量的检验水准; 小样本检验水准 定为 0.10 或 0.15,大样本把 定为 0.05。值越小说明自变量选取的标准越严; 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程; 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。 多重共线性的诊断(SPSS

9、中的指标):a 容许度:越近似于 0,共线性越强;b 特征根:越近似于 0,共线性越强;c 条件指数:越大,共线性越强; 异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points) 以及强影响点(influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有 Pea

10、rson 残差、Deviance 残差、杠杆度统计量 H(hat matrix diagnosis)、Cook 距离、DFBETA 、Score 检验统计量等。这五个指标中,Pearson 残差、Deviance 残差可用来检查特异点,如果某观测值的残差值2,则可认为是一个特异点。杠杆度统计量 H 可用来发现高杠杆点, H 值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA 指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook 距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后 log

11、istic 回归系数的变化,变化越大(即DFBETA 指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。7、回归系数符号反常与主要变量选不进方程的原因: 存在多元共线性; 有重要影响的因素未包括在内; 某些变量个体间的差异很大; 样本内突出点上数据误差大; 变量的变化范围较小; 样本数太少。8、 参数意义

12、Logistic 回归中的常数项(b 0)表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic 回归中的回归系数(b i)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即 OR 或 RR 的对数值。需要指出的是,回归系数 的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t)三种方法结果基本一致。 存在因素间交互作用时,Logistic 回归系数的解释变得更为复杂,应特别小心。 模型估计出 OR,当发病率较低时,ORRR,因

13、此发病率高的疾病资料不适合使用该模型。另外,Logistic 模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。9、统计软件能够进行 logistic 回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。二、logistic 回归模型的建立1、实际的例子:在一次住房展销会上,与房地产商签订初步购房意向书的共有 n=313 名顾客。在随后的 3 个月的时间内,只有部分顾客

14、确实购买了房屋。购买房屋的顾客记为 1,没有购买房屋的顾客记为 0。以顾客的年家庭收入(万元)为自变量 x,对表 1 中的数据建立 Logistic 回归模型。序号年家庭收入(万元)x 签订意向书人数 in实际购房人数 im实际购房比例 iinp/逻辑变换 )1l(iip权重 )1(iipnw1 1.5 25 8 0.320000 -0.75377 5.4402 2.5 32 13 0.406250 -0.37949 7.7193 3.5 58 26 0.448276 -0.20764 14.3454 4.5 52 22 0.423077 -0.31015 12.6925 5.5 43 20

15、0.465116 -0.13976 10.6986 6.5 39 22 0.564103 0.257829 9.5907 7.5 28 16 0.571429 0.287682 6.8578 8.5 21 12 0.571429 0.287682 5.1439 9.5 15 10 0.666667 0.693147 3.333表 12、模型的建立:Logistic 回归方程: ,i=1,2,.,c )exp(10ii x(1) (1)式中 c 为分组数据的组数。本例中,c=9。将以上回归方程做线性变换,令 )1ln( ii pp(2)式(2)的变换称为逻辑变换,变换后的线性回归模型为: iii

16、x1(3)式(3)是一个普通的一元线性回归模型。式(3)没有给出误差项的形式,我们认为其误差项的形式就是做线性变换所需要的形式。对表 1 中的数据,算出经验回归方程为: , xp156.08. (4)判别系数 ,显著性检验 P 值 0,高度显著。将式(4)还原为式9243.0r (1)的 Logistic 回归方程为: )156.8.exp(1 x(5)三、运用模型进行预测利用式(5)可以对购房比例做预测,例如 ,则有80x=0.590。)156.08.exp(1 x四、结果的实际意义这表明在住房展销会上与房地产商签订初步购房意向书的年收入 8 万元家庭中,预计实际购房比例为 59%.或者说,

17、一个签订初步购房意向书的年收入 8万元的家庭,其购房概率为 59%.五、模型的拟合效果分析我们用 Logistic 回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,即异方差性并没有解决。式(3)的回归模型不是等方差的,应该对式(3) ,用加权最小二乘估计。当 较大, 的近似方差为:inip(6) ,其中 ,因而选取权数:)1()( iiinpD )(iiyE, (7)对例题重新用加权最小二乘做估计。利用 SPSS 软件操作,iiiw点选分析 回归 线性回归,因变量:逻辑变换;自变量:年家庭收入;WLS 权重:权重 。得到结果如下:iw模型汇总 b,c模型R R 方 调

18、整 R 方标准 估计的误差 Durbin-Watson1 .939a .881 .864 2.4282 2.059a. 预测变量: (常量 ), 逻辑变换。b. 因变量: 年家庭收入 x模型汇总 b,c模型R R 方 调整 R 方标准 估计的误差 Durbin-Watson1 .939a .881 .864 2.4282 2.059a. 预测变量: (常量 ), 逻辑变换。b. 因变量: 年家庭收入 xc. 加权的最小二乘回归 - 按 权重 w 进行加权Anovab,c模型 平方和 df 均方 F Sig.回归 306.486 1 306.486 51.982 .000a残差 41.272 7

19、 5.8961总计 347.758 8a. 预测变量: (常量 ), 逻辑变换。b. 因变量: 年家庭收入 xc. 加权的最小二乘回归 - 按 权重 w 进行加权系数 a非标准化系数 标准系数模型B 标准 误差 试用版 t Sig.(常量) -.886 .102 -8.653 .0001家庭年收入 .156 .017 .961 9.242 .000a. 因变量: 逻辑变换系数 a,b非标准化系数 标准系数模型B 标准 误差 试用版 t Sig.(常量) -.849 .114 -7.474 .0001家庭年收入 .149 .021 .939 7.210 .000a. 因变量: 逻辑变换b. 加权

20、的最小二乘回归 - 按 权重 进行加权用加权最小二乘法得到的 Logistic 回归方程为:, (8)利用(8)式可以对 时的购房比例做预)149.08.exp(1xi 80x测,有: =0.585,所以,年收入 8 万元的家庭预计)(i实际购房比例为 58.5%,这个结果与未加权的结果很接近。结束语本文对 Logistic 回归的应用范围和拟和 logistic 回归方程的步骤进行了简要介绍,以及对回归方程拟合优劣的判断,提及了一些拟合方程的注意事项;明确了参数意义;其实能够进行 logistic 回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等,本文中实际的例子利用了 SPSS 进行了分析,发现拟合效果还不错。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报