1、有序多分类logistic回归模型 Ordinal Regression,暨南大学医学院医学统计学教研室 林汉生,一、用途和基本原理,用途:分析1个有序多分类应变量与多个自变量之间的关联 基本原理: 依次将应变量按不同的取值水平分割成两个等级,对这两个等级建立反应变量为二分类的logistic回归模型。 不管模型中反应变量的分割点在什么位置,模型中各自变量的回归系数 i 都保持不变,所改变的只有常数项。 无效0,有效1,痊愈2无效与有效痊愈,无效有效与痊愈,可建立两个方程。两个方程的常数项不同,但回归系数相同。,二分类logistic回归模型,Ordinal logistic回归模型(SPSS
2、) 无效0,有效1,痊愈2,Ordinal Model,Larger coefficients (i) indicate an association with larger scores(Y1:无效;2:有效;3:显效). When you see a positive coefficient for a dichotomous factor, you know that higher scores are more likely for the first category (category 2 is the reference category ). A negative coeffi
3、cient tells you that lower scores are more likely. For a continuous variable, a positive coefficient tells you that as the values of the variable increase, the likelihood of larger scores increases.,Ordinal logistic回归模型,应变量Y 有3个等级:无效0、有效1、治愈2影响因素:性别X1(0男;1女);治疗方法X2 ( 0新药; 1传统) ;取值大的类别为参照组。 某分类变量的回归系
4、数为正时,则暴露组(如新药)为更高的等级(如治愈)的可能性大于参照组(传统药) 某连续变量的回归系数为正时,则随着该变量的变量值增加,应变量为更高等级的可能性也增加。,二、SPSS操作与结果解释 建立数据文件,Weight,AnalyzeRrgressionOrdinal,Factor 与 Covariate,自变量是分类变量,选入Factor栏,取值大的类别为参照组。 自变量是计量资料,选入Covariate栏。,分别单击:Options, Output, Location, Scale,Options (默认),Link:,logit:Evenly distributed categori
5、es Complementary:Higher categories more probable Negative:Lower categories more probable Probit:Latent variable is normally distributed Cauchit:Latent variable has many extreme values,Link:,logit:用于反应变量各取值水平发生概率相近的资料 Complementary:用于反应变量取值水平高的水平发生概率高的资料 Negative:用于反应变量取值水平低的水平发生概率高的资料 Probit:用于潜在变量服
6、从正态分布的资料 Cauchit:用于潜在变量存在很多极端值的资料,Output Test of parallel lines: 不管反应变量的分割点在什么位置,模型中各自变量的系数都保持不变,Location (默认),Scale(默认),单击OK,说明各种取值水平组合中有多少其观察频数为0。如果有连续性变量,这个比例会较大。,变量各水平的例数,似然比检验:模型中自变量偏回归系数是否全为0。结果P=0.000,说明至少有一个自变量的偏回归系数不为0。,拟合优度检验:各种取值水平组合中其观察频数为0的比例较高时,该检验不可靠。本例P 值均大于0.05,拟合较好。,伪决定系数:分类数据,该系数一
7、般不会太高。,经Test of parallel lines,21.47,P0.480。可认为:不管反应变量的分割点在什么位置,模型中各自变量的系数都保持不变。该资料适合用有序多分类Logistic回归模型。,参数估计,无效,有效,治愈无效与有效治愈,无效有效与治愈,可建立两个方程。,ORexp() 不同疗法的OR值为exp(1.797)=6.03。新疗法优于传统疗法。疗效至少优于1个等级的可能性,新疗法是传统疗法的6.03倍。 不同性别的OR值为exp(-1.319)=0.27。男性的疗效比女性差。疗效至少优于1个等级的可能性,男性是女性的0.27倍。,表2 不同性别和疗法对某病疗效*的影响
8、,*疗效分3个等级 1:无效;2:有效;3:治愈,例2:对某地人群调查所从事的工作是否满意,可能的影响因素有:年龄、性别、收入水平。文化程度。数据文件satisfy.sav。,建立数据文件,AnalyzeRegressionOrdinal,分别单击:Options, Output, Location, Scale,Options (默认),Output Test of parallel lines: 不管反应变量的分割点在什么位置,模型中各自变量的系数都保持不变,Location (默认),Scale(默认),单击OK,说明各种取值水平组合中有多少其观察频数为0。如果有连续性变量,这个比例会较
9、大。,变量各水平的例数,似然比检验:模型中自变量偏回归系数是否全为0。结果P=0.000,说明至少有一个自变量的偏回归系数不为0。,拟合优度检验:各种取值水平组合中其观察频数为0的比例较高时,该检验不可靠。,伪决定系数:分类数据,该系数一般不会太高。,经Test of parallel lines,212.36,P0.194。可认为:不管反应变量的分割点在什么位置,模型中各自变量的系数都保持不变。该资料适合用有序多分类logistic回归模型。,回归系数估计 ORexp(),表2 某地人群工作满意度影响因素的有序多分类logistic回归分析,表2 某地人群工作满意度影响因素的有序多分类logistic回归分析,结果解释,年龄越大,满意度越高 收入越高,满意度越高 文化程度越高,满意度越低,作业,例:对某地人群调查所从事的工作是否满意,可能的影响因素有:年龄、性别、收入水平和文化程度。 数据文件satisfy-作业.sav。 样本例数:3173例 试用有序多分类Logistic回归模型进行分析,数据文件satisfy-作业.sav。 注意:将数据库中的满意度赋值改为:1不满意;2中立;3满意,