1、Logitboost 法与累积比数 Logit 模型在判别分析中的应用分析(1)【摘要】 目的:探讨 Logitboost 和累积比数Logit 模型这两种方法应用于判别分析的优缺点。方法:简要介绍 Logitboost 和累积比数 Logit 模型的原理,并采用此两种方法分别对同一个实例进行判别分析。结果:两种方法的判别正确率均较高。Logitboost 判别效果高于累积比数 Logit 模型判别。讨论:在迭代轮数适当的情况下,Logitboost 判别正确率更高,受迭代次数影响较大;而累积比数 Logit 模型的稳定性较强。在对事件进行判别时,可根据数据资料的具体特点选用判别方法,也可将两
2、种方法结合应用,取其判别效果较好者。【关键词】累积比数 Logit 模型判别分析 Logitboost 睡眠质量LogitboostandCumulativeOddsLogitModelandTheirApplicationinDiscriminantAnalysis AbstractObjective:TocompareLogitboostwithCumulativeoddslogitmodel,anddiscusstheircharacteristicswhentheyareusedinDiscriminantanalysis.Methods:TheultimateprincipleofL
3、ogitboostandCumulativeoddslogitmodelwillbeintroducedinthispaper,andwewillusethetwomethodstosolvethesameproblem.ResultsLogitboostseffectisbetterthanCumulativeoddslogitmodel.Conclusion:TheeffectofLogitboostwouldbebetterifaappropriateiterationisgiven,inotherwords,Logitboostisaffectedbyiterationinlargem
4、easure.ButCumulativeoddslogitmodelisstable.Weshouldchoosethebetteraccordingthedata.KeywordscumulativeoddsLogitmodel;discriminantanalysis;Logitboost;sleepquality判别分析(discriminantanalysis)是判别样品所属类型的一类统计方法,其应用之广可与回归分析相媲美。进行判别时,通常是根据已经掌握的一批分类明确的样品建立判别函数。从判别准则上分为 Fisher 判别和 Bayes 判别,但由于这两种传统的判别方法各有利弊,对资料
5、有特定要求,如 Fisher 判别要求资料服从多元正态分布,Bayes 判别要求已知先验概率,当不满足条件时,判别效果往往不理想,给人们的实际工作带来许多困难。本研究以一个实例简介 Logitboost 法和累积比数Logit 模型在判别分析中的应用。1 原理累积比数 Logit 模型判别累积比数 Logit 模型是二分类 Logit 模型的扩展,主要用于处理反应变量为有序分类变量的资料。该模型对资料要求不严,解释变量既可以是连续型变量,也可以是无序分类变量或有序分类变量1 。只要资料满足比例优势假定条件(proportionaloddsassumption),即自变量的回归系数与分割点无关,
6、且各自变量与 Logit P 呈线性关系,即可应用此方法。设应变量 Y 为 K 个等级的有序变量,第k(k=1,2,K)个等级的概率分别为1,2,k,且ki=1k=1。影响因素xT=(x1,x2,xP)为自变量,xi(i=1,2,p)可以是连续变量、无序或有序分类变量。则累积比数 Logit模型可以表示为:logit)=ln1-P)=-kpi=1ixi(k=1,2,K-1)等价于:P=11e每类结果的概率:P=P-P=11e-11ek=1,2,K式中,k 和 i 为待估参数。该模型实际上是将 K 个等级人为地分成1,k和k1,K两类,在这两类基础上定义的 LogitP 表示属于前 k 个等级的
7、累积概率与后K-k 个等级的累积概率的比数之对数。故该模型称为累积比数模型。对于 K 类反应变量,K-1 个累积 Logit 模型各有一个不同的 k 估计,而对于 xi,K-1 个模型的系数 i 均相同2 。Logitboost 判别Boosting 是由 Schzpire 于 1990 年首先提出3 ,后经 Freud 和 Schapire 改进的一种机器学习方法。Frieman、Hastie、Tibshirani 于 XX 年又进一步改进,称为 Logitboost,属于提升算法的一种。其基本思想是:基于现有样本数据集构建一个基础的“弱分类器” ,反复调用该“弱分类器” ,通过对每轮中错判
8、的样本赋予更大的权重,使其更关注那些难判的样本,经过多轮循环,最后采用加权的方法将各轮的“弱分类器”合成“强分类器” ,从而得到较高精度的预测模型4 。其算法如下:首先给定一个样本集:(xi1,xiN,yi) ,yiY=-1,1表示不同的类。赋予每一个样品相同的权重,选定一种基础分类器,根据该权重建立预测模型,回代样本,其中错判的样本的权重在下一轮将被提升。迭代 T 轮后得出最终分类器 F(x):F=Tt=1F 式中,t为迭代轮数,f 表示弱分类器的函数形式,可以是 Logit 函数、决策树等,根据 F(xi)的正负对第 i 个样品进行判别归类。此算法也可用于多分类。下面以一个三分类的例子简介
9、两种方法的特点。2 实例分析采用匹兹堡指数为标准,随机抽查了 480 名在校大学生,男生 254,女生 226 名。以睡眠质量(好、中、差)为反应变量,属于有序结果的资料。153 名睡眠质量好,赋值为 0,235 名睡眠质量一般,赋值为 1,92 名睡眠质量差赋值为 2。包括 7 个显著影响因素,每个因素按严重程度相应赋值,形成等级资料,将样本分成两份,其中 85%作为训练样本用来建立预测模型,其余 15%样本用来回代,以检验模型的判别效果。以睡眠质量好者为对照,用进行累积比数 Logit 模型判别,建立判别模型如下:LogitP1/0=LogitP2/0=得概率判别模型:P=1/P=1/-1/P=1-1/e(作者:3COME 未知本文来源于爬虫自动抓取,如有侵犯权益请联系 service立即删除)