Logistic回归.doc-道客多多_道客多多docduoduo.com

资源描述

1、 Binary Logistic 回归模型介绍： 01Pr()log.1pbevntbxb01Pr(),=.exp()pbevntz其中实验：实验数据见：Logistic.sav.例 1：一个城市的居民家庭，按其有无割草机可分为两组，有割草机的记为一组为，没1有割草机的一组记为，割草机工厂欲判断一些家庭是否购买割草机。从和分别随2 2机抽取 12 个样品，调查两项指标：家庭收入，房前屋后土地面积。1x2x用 y 作为二元被解释变量，有割草机的家庭用 1 表示，没有割草机的家庭用 0 表示，作为解释变量。12,x实验步骤:打开 Logistic.sav,之后选择回归分析。主窗口如下

2、：方法：选择进入，即所有自变量强制进入回归方程，其他方法可以查阅相关资料。点击分类选择变量之后，在保存中进行选择概率表示每个观测量发生特定事件的预测概率；组成员表示依据预测概率得到的每个观测量的预测分组。在选项中进行选择分类图：因变量的预测值与观测值的分类直方图。Hosmer-Lemeshow 拟合良好度统计量。所有个案表示输出所有观测量的各种统计量。输出：在每个步骤中，对每一步过程输出表、统计量和图形。在最后一个步骤中，只输出最终方程的表格、统计量和图形。输出分析：表 1案例处理汇总未加权的案例 a N 百分比包括在分析中 24 100.0缺失案例 0 .0选定案例总计 24 100.0未选

3、定的案例 0 .0总计 24 100.0a. 如果权重有效，请参见分类表以获得案例总数。表1是对样本及变量做简单描述。表2因变量编码初始值内部值0 0dimension0 1 1表2是说二元因变量被编码为0，1，以方便计算。表3模型系数的综合检验卡方 df Sig.步骤 17.948 2 .000块 17.948 2 .000步骤 1模型 17.948 2 .000表3是3中常用的卡方统计量。因为拟合方法选择的是Enter，只有一步完成包含常数项和所有变量的模型的拟合，所以模型的model、Block、和step 的卡方值都相同。如果采用逐步回归，增加变量，一步计算后sig的值小于0.05，

4、那么说明增加变量后的方程有意义；剔除也根据同样方法判断。表 4 模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方1 15.323a .527 .702a. 因为参数估计的更改范围小于 .001，所以估计在迭代次数 7 处终止。-2 对数似然值:此值越接近于0（越小）越好；Cox & Snell R 方：此值越接近于1越好。表3,4是对整个模型的检验，表中结果表明模型是非常显著的。表 5 = Hosmer 和 Lemeshow 检验 =步骤卡方 df Sig.1 5.658 8 .685表5是Hosmer Lemeshow检验，其原假设是方程对数据的拟合良

5、好。 Sig.0.05,接受原假设，说明方程对数据的拟合良好。表 6 分类表 a已预测yes or no已观测0 1 百分比校正0 10 2 83.3yes or no1 2 10 83.3步骤 1总计百分比 83.3a. 切割值为 .500表6是分类矩阵，说明83.3%的观测判断了正确的组。表 7 方程中的变量B S.E, Wals df Sig. Exp (B)x1 .333 .163 4.168 1 .041 1.395x2 1.928 .926 4.337 1 .037 6.873步骤 1 a常量 -25.938 11.487 5.098 1 .024 .000a. 在步骤 1 中输入

6、的变量: x1, x2.表 7 是模型的系数及检验，由表中结果可以得到下面的模型： 1225.938098xpe这里，表示购买割草机概率的预测值，我们看到，模型中常数项变量,x1,x2 系数的 Wals检验在 0.05 的显著性水平上是显著的，而且 x1,x2 系数的指数值都大于 1，说明 x1,x2 对因变量的影响都是正的。收入越高和土地面积越大，就越有可能购买割草机，而且土地面积对家庭是否购买割草机的影响大于收入的影响。表 8案例列表已观测临时变量案例选定状态 a yes or no 已预测预测组残差 ZResid1 S 1* .175 0 .825 2.1742 S 1* .43

7、3 0 .567 1.1443 S 1 .887 1 .113 .3564 S 1 .716 1 .284 .6295 S 1 .998 1 .002 .0406 S 1 .992 1 .008 .0927 S 1 .952 1 .048 .2238 S 1 .992 1 .008 .0899 S 1 .728 1 .272 .61110 S 1 .988 1 .012 .11011 S 1 .715 1 .285 .63212 S 1 .910 1 .090 .31413 S 0* .780 1 -.780 -1.88314 S 0 .490 0 -.490 -.98115 S 0 .102

8、 0 -.102 -.33716 S 0 .184 0 -.184 -.47517 S 0* .583 1 -.583 -1.18318 S 0 .029 0 -.029 -.17219 S 0 .019 0 -.019 -.14020 S 0 .292 0 -.292 -.64121 S 0 .008 0 -.008 -.08722 S 0 .015 0 -.015 -.12523 S 0 .001 0 -.001 -.03424 S 0 .009 0 -.009 -.096a. S = 已选定，U = 未选定的案例及 * = 未分类的案例。根据上面得到的Logistic模型，可以计算出每个

9、观测购买割草机概率的预测值，概率值按照0.5为分界点进行判别归类。临时变量反映残差情况。第1，2，13，17个观测出现了误判的情况，可以对这些观测进行更深入的诊断。第1户的收入不高，土地面积也不大，但是拥有割草机，第2户拥有割草机，但其土地面积是有割草机家庭中最少的，也导致了误判；第13户的收入并不低，屋后土地面积也大于第1户，但是没有割草机，也导致了误判；第17户的收入较高，但是也没有割草机。可见，由于某些样品的特殊性，导致了模型的误判情况。但是Logistic模型还是能够反映样品的一些共性的，这也正是我们所需要证实的。Logistic模型还可以用于预测，如果知道某户收入和屋后土地面积，我们

10、可以计算出该用户购买割草机的概率，预测他是否会购买割草机。举例2：数据集是癌细胞淋巴转移数据 data11-02.sav要求：通过Logistic回归分析，判断所给数据表示阴性或阳性。因变量必须是二分型的，建议取值为0-1。分析变量最好是多元正态分布，可以是单独变量，也可以是两项以上的交互项。类型可以是数值型，也可以是分类的。此模型试图建立的回归方程: Logit = x的线性表达式其中 Logit = log ( Prob(event) /Prob(no event) )操作步骤：分析-回归- 二元logistic主窗口如下：若分析的协变量中有分类型，则点击分类在本例中，肿瘤扩散等级是分类

11、型变量，将其选入右侧框中（程序会对扩散等级变量进行 recode 重新编码，成为指标变量）对比方法与单变量多因素方差分析中的对比内容一致（对比用来检验因子的水平之间的差值，可以为模型中的每个因子指定对比。）设置选项Hosmer-Lemoshow 拟合度表示模型拟合程度估计值的相关性：各变量估计参数的相关系数矩阵CI（x）表示置信度分类标准值是 0-1 之间的数（ 0.5）：根据 0.5，将结果分类。若概率值0.5 则判别为 1，否则判别为 0；结果输出：案例处理汇总未加权的案例 a N 百分比包括在分析中 1121 92.9缺失案例 86 7.1选定案例总计 1207 100.0未选定的案

12、例 0 .0总计 1207 100.0a. 如果权重有效，请参见分类表以获得案例总数。因变量编码初始值内部值无 0dimension0 有 1分类变量编码参数编码频率 (1) (2)5 厘米 12 .000 .000对肿瘤扩散等级变量recode重新编码，此分类变量有3个水平，所以最少可用2个进制位来表示：00, 01, 10, 11 (有位冗余不用) 所以就引入2个辅助二分变量来替代原来的多分变量.迭代历史记录 a,b,c系数迭代-2 对数似然值 Constant1 1219.800 -1.0692 1216.671 -1.1893 1216.668 -1.192步骤 04 1216.66

13、8 -1.192a. 模型中包括常量。b. 初始 -2 对数似然值: 1216.668c. 因为参数估计的更改范围小于 .001，所以估计在迭代次数 4 处终止。模型系数的综合检验卡方 df Sig.步骤 64.897 4 .000块 64.897 4 .000步骤 1模型 64.897 4 .000模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方1 1151.770a .056 .085a. 因为参数估计的更改范围小于 .001，所以估计在迭代次数 4 处终止。红色标注部分：类似于线性回归，是用来衡量解释度。= Hosmer 和 Lemeshow 检验

14、=步骤卡方 df Sig.1 8.545 8 .382分类表：根据回归模型的表达式，计算某一样本被判到了哪一类。如果原来是yes，判别结果yes ，那么这是一个判对个案。下面表格显示哪些样本判对了？哪些判错了？错判率是多少？分类表 a已预测癌变部位的淋巴结是否含有癌细胞已观测无有百分比校正无 846 14 98.4癌变部位的淋巴结是否含有癌细胞有 246 15 5.7步骤 1总计百分比 76.8a. 切割值为 .500方程中的变量B S.E, Wals df Sig. Exp (B)EXP(B) 的 95% C.I.下限上限age -.025 .006 18.282 1 .000 .

15、976 .965 .987pathsize .424 .131 10.487 1 .001 1.528 1.182 1.975pathscat .548 2 .760pathscat(1) -.185 .846 .048 1 .827 .831 .158 4.362pathscat(2) -.307 .728 .178 1 .673 .736 .176 3.066步骤 1a常量 -.398 1.042 .146 1 .702 .671a. 在步骤 1 中输入的变量: age, pathsize, pathscat.z= -0.398 + 0.424 * pathsize + (-0.25)*age + (-0.185)*pathcat(1) + (-0.307)* pathcat(2)患病概率: prob( 有癌细胞) = exp(z) / 1+ exp(z) = 1/(1+ exp(-z) )若此值小于cutoff（0.5）值视为阴性大于视为阳性.

展开阅读全文