1、 Binary Logistic 回归模型介绍: 01Pr()log.1pbevntbxb01Pr(),=.exp()pbevntz其 中实验:实验数据见:Logistic.sav.例 1:一个城市的居民家庭,按其有无割草机可分为两组,有割草机的记为一组为 ,没1有割草机的一组记为 ,割草机工厂欲判断一些家庭是否购买割草机。从 和 分别随2 2机抽取 12 个样品,调查两项指标: 家庭收入, 房前屋后土地面积。1x2x用 y 作为二元被解释变量,有割草机的家庭用 1 表示,没有割草机的家庭用 0 表示,作为解释变量。12,x实验步骤:打开 Logistic.sav,之后选择回归分析。主窗口如下
2、:方法:选择进入,即所有自变量强制进入回归方程,其他方法可以查阅相关资料。点击分类选择变量之后,在保存中进行选择概率表示每个观测量发生特定事件的预测概率;组成员表示依据预测概率得到的每个观测量的预测分组。在选项中进行选择分类图:因变量的预测值与观测值的分类直方图。Hosmer-Lemeshow 拟合良好度统计量。所有个案表示输出所有观测量的各种统计量。输出:在每个步骤中,对每一步过程输出表、统计量和图形。在最后一个步骤中,只输出最终方程的表格、统计量和图形。输出分析:表 1案例处理汇总未加权的案例 a N 百分比包括在分析中 24 100.0缺失案例 0 .0选定案例总计 24 100.0未选
3、定的案例 0 .0总计 24 100.0a. 如果权重有效,请参见分类表以获得案例总数。表1是对样本及变量做简单描述。表2因变量编码初始值 内部值0 0dimension0 1 1表2是说二元因变量被编码为0,1,以方便计算。表3模型系数的综合检验卡方 df Sig.步骤 17.948 2 .000块 17.948 2 .000步骤 1模型 17.948 2 .000表3是3中常用的卡方统计量。因为拟合方法选择的是Enter,只有一步完成包含常数项和所有变量的模型的拟合,所以模型的model、Block、和step 的卡方值都相同。如果采用逐步回归,增加变量,一步计算后sig的值小于0.05,
4、那么说明增加变量后的方程有意义;剔除也根据同样方法判断。表 4 模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方1 15.323a .527 .702a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 7 处终止。-2 对数似然值:此值越接近于0(越小)越好;Cox & Snell R 方:此值越接近于1越好。表3,4是对整个模型的检验,表中结果表明模型是非常显著的。表 5 = Hosmer 和 Lemeshow 检验 =步骤 卡方 df Sig.1 5.658 8 .685表5是Hosmer Lemeshow检验,其原假设是方程对数据的拟合良
5、好。 Sig.0.05,接受原假设,说明方程对数据的拟合良好。表 6 分类表 a已预测yes or no已观测0 1 百分比校正0 10 2 83.3yes or no1 2 10 83.3步骤 1总计百分比 83.3a. 切割值为 .500表6是分类矩阵,说明83.3%的观测判断了正确的组。表 7 方程中的变量B S.E, Wals df Sig. Exp (B)x1 .333 .163 4.168 1 .041 1.395x2 1.928 .926 4.337 1 .037 6.873步骤 1 a常量 -25.938 11.487 5.098 1 .024 .000a. 在步骤 1 中输入
6、的变量: x1, x2.表 7 是模型的系数及检验,由表中结果可以得到下面的模型: 1225.938098xpe这里, 表示购买割草机概率的预测值,我们看到,模型中常数项变量,x1,x2 系数的 Wals检验在 0.05 的显著性水平上是显著的,而且 x1,x2 系数的指数值都大于 1,说明 x1,x2 对因变量的影响都是正的。收入越高和土地面积越大,就越有可能购买割草机,而且土地面积对家庭是否购买割草机的影响大于收入的影响。表 8案例列表已观测 临时变量案例选定状态 a yes or no 已预测 预测组 残差 ZResid1 S 1* .175 0 .825 2.1742 S 1* .43
7、3 0 .567 1.1443 S 1 .887 1 .113 .3564 S 1 .716 1 .284 .6295 S 1 .998 1 .002 .0406 S 1 .992 1 .008 .0927 S 1 .952 1 .048 .2238 S 1 .992 1 .008 .0899 S 1 .728 1 .272 .61110 S 1 .988 1 .012 .11011 S 1 .715 1 .285 .63212 S 1 .910 1 .090 .31413 S 0* .780 1 -.780 -1.88314 S 0 .490 0 -.490 -.98115 S 0 .102
8、 0 -.102 -.33716 S 0 .184 0 -.184 -.47517 S 0* .583 1 -.583 -1.18318 S 0 .029 0 -.029 -.17219 S 0 .019 0 -.019 -.14020 S 0 .292 0 -.292 -.64121 S 0 .008 0 -.008 -.08722 S 0 .015 0 -.015 -.12523 S 0 .001 0 -.001 -.03424 S 0 .009 0 -.009 -.096a. S = 已选定,U = 未选定的案例及 * = 未分类的案例。根据上面得到的Logistic模型,可以计算出每个
9、观测购买割草机概率的预测值,概率值按照0.5为分界点进行判别归类。临时变量反映残差情况。第1,2,13,17个观测出现了误判的情况,可以对这些观测进行更深入的诊断。第1户的收入不高,土地面积也不大,但是拥有割草机,第2户拥有割草机,但其土地面积是有割草机家庭中最少的,也导致了误判;第13户的收入并不低,屋后土地面积也大于第1户,但是没有割草机,也导致了误判;第17户的收入较高,但是也没有割草机。可见,由于某些样品的特殊性,导致了模型的误判情况。但是Logistic模型还是能够反映样品的一些共性的,这也正是我们所需要证实的。Logistic模型还可以用于预测,如果知道某户收入和屋后土地面积,我们
10、可以计算出该用户购买割草机的概率,预测他是否会购买割草机。举例2:数据集是癌细胞淋巴转移数据 data11-02.sav要求:通过Logistic回归分析,判断所给数据表示阴性或阳性。因变量必须是二分型的,建议取值为0-1。分析变量最好是多元正态分布,可以是单独变量,也可以是两项以上的交互项。类型可以是数值型,也可以是分类的。此模型试图建立的回归方程: Logit = x的线性表达式其中 Logit = log ( Prob(event) /Prob(no event) )操作步骤:分析-回归- 二元logistic主窗口如下:若分析的协变量中有分类型,则点击 分类在本例中,肿瘤扩散等级是分类
11、型变量,将其选入右侧框中(程序会对扩散等级变量进行 recode 重新编码,成为指标变量)对比方法与单变量多因素方差分析中的对比内容一致(对比用来检验因子的水平之间的差值,可以为模型中的每个因子指定对比。 )设置 选项Hosmer-Lemoshow 拟合度表示模型拟合程度估计值的相关性:各变量估计参数的相关系数矩阵CI(x)表示置信度分类标准值是 0-1 之间的数( 0.5):根据 0.5,将结果分类。若概率值0.5 则判别为 1,否则判别为 0;结果输出:案例处理汇总未加权的案例 a N 百分比包括在分析中 1121 92.9缺失案例 86 7.1选定案例总计 1207 100.0未选定的案
12、例 0 .0总计 1207 100.0a. 如果权重有效,请参见分类表以获得案例总数。因变量编码初始值 内部值无 0dimension0 有 1分类变量编码参数编码频率 (1) (2)5 厘米 12 .000 .000对肿瘤扩散等级变量recode重新编码,此分类变量有3个水平,所以最少可用2个进制位来表示:00, 01, 10, 11 (有位冗余不用) 所以就引入2个辅助二分变量来替代原来的多分变量.迭代历史记录 a,b,c系数迭代-2 对数似然值 Constant1 1219.800 -1.0692 1216.671 -1.1893 1216.668 -1.192步骤 04 1216.66
13、8 -1.192a. 模型中包括常量。b. 初始 -2 对数似然值: 1216.668c. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 4 处终止。模型系数的综合检验卡方 df Sig.步骤 64.897 4 .000块 64.897 4 .000步骤 1模型 64.897 4 .000模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方1 1151.770a .056 .085a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 4 处终止。红色标注部分:类似于线性回归,是用来衡量解释度。= Hosmer 和 Lemeshow 检验
14、=步骤 卡方 df Sig.1 8.545 8 .382分类表:根据回归模型的表达式,计算某一样本被判到了哪一类。如果原来是yes,判别结果yes ,那么这是一个判对个案。下面表格显示哪些样本判对了?哪些判错了?错判率是多少?分类表 a已预测癌变部位的淋巴结是否含有癌细胞已观测无 有 百分比校正无 846 14 98.4癌变部位的淋巴结是否含有癌细胞 有 246 15 5.7步骤 1总计百分比 76.8a. 切割值为 .500方程中的变量B S.E, Wals df Sig. Exp (B)EXP(B) 的 95% C.I.下限 上限age -.025 .006 18.282 1 .000 .
15、976 .965 .987pathsize .424 .131 10.487 1 .001 1.528 1.182 1.975pathscat .548 2 .760pathscat(1) -.185 .846 .048 1 .827 .831 .158 4.362pathscat(2) -.307 .728 .178 1 .673 .736 .176 3.066步骤 1a常量 -.398 1.042 .146 1 .702 .671a. 在步骤 1 中输入的变量: age, pathsize, pathscat.z= -0.398 + 0.424 * pathsize + (-0.25)*age + (-0.185)*pathcat(1) + (-0.307)* pathcat(2)患病概率: prob( 有癌细胞) = exp(z) / 1+ exp(z) = 1/(1+ exp(-z) )若此值小于cutoff(0.5)值 视为阴性 大于 视为 阳性.