1、计算中心,Logistic回归分析,对于用属性变量Y表示的特性,例如节目是否受欢迎,产品是否被接受,信用卡是否被欺诈等,描述这一特性发生与否的统计特征是它发生的可能性大小,即概率。这一可能性本身也受其他因素的影响。因而也希望用一些自变量来说明和预测所关心的特性发生的可能性大小。当Y是连续变量时,可用方差分析和回归分析处理;当Y时属性变量时,则用Logistic回归分析处理。,计算中心,Logistic回归分析,拟合Logistic回归模型不采用通常的最小二乘法,而是采用最大似然法。对于拟合的结果,检验模型或参数的显著性,也不是使用线性模型中的方差分析方法,而是使用与最大似然估计法相联系的卡方(
2、2)统计量进行检验。原假设是模型无显著影响或回归系数全为零。,计算中心,Logistic回归分析,描述属性变量Y所表示的某一特征发生的可能性大小(即概率p),也希望用一些自变量x1, x2,.来说明和预测。特别是两值问题(Y=0表示某事件A不发生,Y=1表示发生):记PY=1=p p的取值在0与1之间变化,所以简单地将概率p表示为自变量x1, x2,的线性函数是不合适的。,计算中心,Logistic回归分析,概率p作一变换f(p)假设在自变量x1,x2,xn作用下,某事件发生的概率为p,则该事件不发生的概率为1-p,p/(1-p)为发生概率和不发生概率之比,称为“优势比”(odds),若对od
3、ds取自然对数,得到:,Logistic回归模型: Logit(p)=ln(p/(1-p)=0+1x1+2x2+nxn Y=Logit(p) 的图形如下 (随p由0变到1,Y的值由-单调上升到),计算中心,Logistic回归分析,计算中心,Logistic回归分析,上模型称为Logistic回归模型.其中最简单的情况是只含一个自变量:logit(p)=0+1x 或,计算中心,Logistic回归分析,一般地,拟合回归模型时,是要建立属性变量(因变量)取某种状态的概率pi关于自变量的关系式.自变量若也是属性的变量,应先把它数量化.比如自变量x取k种不同的状态,引入k-1个标识变量zi(i=1,
4、.,k-1)作为自变量.其中 zi = 1 , 当x取第i种状态,zi = 0 , 其它. (i =1,k-1).,例,下表记录了某公司在过去6个月中的顾客信息.其中包括顾客的性别(gender:0=男和1=女),顾客的年龄(AGE),顾客的年收入(income:1=低,2=中和3=高)和购买价值(PURCHASE:0=小于100元,1=大于等于100元),共记录了431位顾客的资料,数据集为sales1。,计算中心,用分析家作logistic分析,统计回归 Logistic.。 purchase Dependent, sex Quantitative 在Logistic回归分析主窗口Depe
5、ndent左边点击Model Pr 右侧向下箭头 ,并且选1; 在主窗口选Statistics键 Intervals,并选中Profile Likelihood Limits(使它左边方框打勾).,计算中心,结果分析,数据集名称:sales1 目标变量:purchase 目标变量类别数:2 映射函数:logit 观测值:431,计算中心,结果分析,收敛状态(Model Convergence Status 指参数估计是否收敛 模型拟合统计量(Model Fit Statistics) 类似于线性回归中的总平方和、残差平方和等,在logit回归中较少关注,计算中心,结果分析,总体拟合测试(Tes
6、t Global Null Hypothesis) 测试有预测变量和没有预测变量效果是否一样 原假设:效果一样,如果P很小,效果不一样 Likelihood Ratio:似然比卡方值 4.6978=570.649-565.951 其对应的P值小,建模效果显著,计算中心,结果分析,参数估计值 (Analysis of Maxamum Likelihood Estimates) 回归方程: Logit(p)=-0.7566+0.4373*sex 由检验的显著性概率值(分别为0.001和0.0312)可知在0.05的水平下回归式的两个系数均显著地不为0.,计算中心,结果分析,优势比估计(Odds R
7、atio Estimates) 对于两值的Logistic回归:logit(p)=0+1x, 若自变量x也是只取两个值0,1 当x=1时,Y=1发生的优比(Odds)为当x=0时,Y=1发生的优比(Odds)为:,计算中心,结果分析,优势比估计(Odds Ratio Estimates)在这两种情况下,Y=1发生的优比率(Odds Ratio)为此例的优比率为1.549,表示利用拟合的回归式预测女性购买100元以上商品的优比为男性的1.549倍. 优比率的95%置信区间为(1.040,2.305).,计算中心,结果分析,在Logistic回归分析中,衡量模型拟合好坏的指标除了各种与似然函数联系
8、的综合指标外,一个常用的做法是计算预测的和实际的观测中的一致对与不一致对的比例.两值Logistic回归的因变量Y可取值为0或1,而拟合的Logistic回归式logit(p)=b0+b1x是用以预测Y=1的概率p的.对每个实际观测(Yi ,xi) ,用拟合的回归式都可以计算得到,计算中心,结果分析,对于实际和预测的数据 ,考虑数据对 对于YiYj的数据对规定:若(Yi - Yj )(pi-pj)0 称数据对是一致的若(Yi - Yj )(pi-pj)0 称数据对是不一致的 若(Yi - Yj )(pi-pj)=0 称数据对平分的对所有YiYj的数据对 统计其一致对和不一致对的总数及所占的比例
9、。这是衡量拟合的Logistic回归是否反映实际数据趋势的一种方法。,计算中心,结果分析,预测概率和观测响应关联统计 因为原始记录中有162个PURCHASE=1,269个为0。所以可配成162269=43578个对。其中30.1%用拟合的回归模型预测时其趋势是与实际结果一致的.而19.5%是不一致的,其余为平分的. SomersD等4个统计量表示预测概率和观测值之间的关联度。 一般而言,C统计量的值0.7,关联度高,可以使用该模型,计算中心,例饮酒与食道癌发病关系的分析,1977年Tuyns等在法国llle-et-Vilaine(Brittany)地区的一所医院收集了200例食道癌患者与77
10、5例对照进行病例对照研究,探讨饮食与发病的关系,考虑到年龄这一混杂因素的干扰,按每10岁一组共分为6组。危险因素饮酒分为两个水平:每天饮酒量少于80克者为非接触(x=0),80克为接触(x=1),年龄组范围为:1组:25,2组:35,3组:45,4组:55,5组:65,6组:75 (数据集为logit),饮酒与食道癌发病关系资料 (200例食道癌与775例对照数据),Logistic回归,进入分析家并打开数据集 选择统计/回归/LogistiYDependent,xQuantitative /countFrequency 点击Model右侧的箭头,并选0(y=0为发病) ok,例50例急性淋巴
11、细胞性白血病病人,在入院治疗时取得了外周血中的细胞数x1(千个/mm3)、淋巴结浸润等级x2(分别为0,1,2,3四级),出院后巩固治疗x3(有巩固治疗为1,无巩固治疗为0),并随访取得病人的生存时间T(月),变量Y(生存时间1年以内为0,1年以上为1) (数据集为logit2),分析过程,进入分析家并打开数据集 选择统计/回归/LogistiYDependent,x1,x2,x3Quantitative 点击Model右侧的箭头,并选0(y=0) Ok 结果中有不显著的自变量,用逐步法选择自变量 /selection/stepwise selectionX1,x2移出模型。,结果,结果: 1.Ln(p/(1-p)=1.9924-2.7462x3 有巩固治疗x3=1,Ln(p/(1-p)=-0.7538 p/(1-p)=0.471,p=0.471/1.471=0.32 有巩固治疗一年内死亡的概率是0.32 2.无巩固治疗x3=0,Ln(p/(1-p)=1.9924 p/(1-p)=7.33,p=7.33/8.33=0.88 无巩固治疗一年内死亡的概率是0.88,作业 关于食管癌与使用咸菜关系的病例-对照研究 不考虑年龄的因素,仅对“吃咸菜”一个变量作Logistic回归,