收藏 分享(赏)

多分类器组合中的基分类器选取方法.doc

上传人:weiwoduzun 文档编号:1828727 上传时间:2018-08-27 格式:DOC 页数:62 大小:238KB
下载 相关 举报
多分类器组合中的基分类器选取方法.doc_第1页
第1页 / 共62页
多分类器组合中的基分类器选取方法.doc_第2页
第2页 / 共62页
多分类器组合中的基分类器选取方法.doc_第3页
第3页 / 共62页
多分类器组合中的基分类器选取方法.doc_第4页
第4页 / 共62页
多分类器组合中的基分类器选取方法.doc_第5页
第5页 / 共62页
点击查看更多>>
资源描述

1、北京交通大学硕士学位论文多分类器组合中的基分类器选取方法姓名:付彬申请学位级别:硕士专业:计算机科学与技术指导教师:王志海20090601,;,:;。:独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定特授权北京交通大学可以

2、将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅同意学校向国家有关部门或机构送交论文的复印件和磁盘(保密的学位论文在解密后适用本授权说明)学位论文作者签名:)于;签字日期:乙呵年月导师签名:立名鱼经;签字日期:歹聊尹年月形厂同致谢本论文的工作是在我尊敬的导师王志海教授的悉心指导下完成的,从论文的选题,论文的撰写,一直到论文的最终定稿,王老 师一直给予我细心的指导和无尽的关怀王志海教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响在此衷心感谢三年来王志海老师对我的关心和指导衷心感谢黄厚宽和田盛丰教授,两位教授宽广豁达的长者风范、以及

3、严谨的治学态度始终让我深深地敬仰他们在此期间对我的关心和鼓励让我深受感动瞿有利老师对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢在实验室工作及撰写论文期问,冯浩、王世 强、邵 鲁杰、邵 进智等同学对我论文研究工作给予了热情帮助,在此向他们表达我的感激之情另外也感谢我的父母,他们的理解和支持使我能够在学校专心完成我的学业最后,衷心地感谢在百忙之中审阅论文的各位老师和专家,恳请各位老师多多批评指正,并提出宝贵的意见引言随着当前计算机技术的广泛应用,我们已经能够捕获和存储大量的数据然而,人们对数据的掌握了解速度却永远赶不上数据升级的速度当人们正在被海量数据所淹没时,对数据的理解程度

4、却在降低,对大量数据中潜在的重要的知识不能充分的发掘出来并有效利用数据的利用率太低降低了数据的有用性,并使数据成为了数据“坟墓”因此,如何将大量数据转换为有用的信息和知识成为当前业界一个巨大的挑战和研究热点机器学习()与数据挖掘()就是研究从数据中提取知识的理论和技术,】,这些理论与技术已经在实际生产领域中开始得到应用,并有着巨大的潜在利用价值数据挖掘是指采用模式识别,统计等技术通过分析大量数据来发现有用的相互关系、模式和趋势并且以简单的数据模型归纳之的过程针对要发现的模型的不同,数据挖掘技术主要可以分为挖掘频繁模式,分 类和预测,聚 类分析等主要方向】研究背景近二十年来,研究人员已经建立并发

5、展了许多机器学习与数据挖掘的理论体系,并开发了 许多实用技术,其中分 类是最重要的研究问题之一当前针对分类问题已提出了多种分类模型,如贝叶斯方法()、决策树()和最近邻等,】他 们都是通过利用分类模型对已知类别的训练数据集进行学习来得到一个单一的分类器,来对类别未知的数据进行分类另外,在具体的分类任务下,面 对众多的分类器如何评价和比较分类器也是一个主要研究点当前提出的评价方法有分类错误率,分类成本,最短描述长度等【,】,其中分类错误率是最基本的评价方法分类错误率测量的是分类器在训练集或测试集上分错的实例的与所有实例的比,错误率低的分类器被认为更适合当前的分类问题然而研究表明,并没有一种分类器

6、可以在所有的分类问题上都有较低的错误率,在存在噪声数据等情况下分类器甚至会产生糟糕的分类性能因此,研究如何降低分类器的错误率或按其他分类器评价标准来指导分类器的设计成为了一个受关注的研究问题为了降低分类器的错误率,研究人员提出了多分类器系统()的理论,并已经提出了多种 组合方法例如装袋法()、提升法()和随机子空间法(), 】多分类器组合是组合多个分类器对实例进行分类的系统,其中每个分类器被称为基分类器在分类阶段,每个基分类器都参与对测试实例的分类,然后运用某种组合方法,综合所有基分类器的分类结果以形成一个最终分类结果因此多分类器组合主要包括两个问题:一是如何产生多个基分类器;另一个是如何组合

7、这些基分类器【】分类器组合是建立这样的假设上的,即在分类时每个分类器所做的决定是独立的,不同的直观上可以看出,这样即使有分类器做出错误的分类,其他的分类器也会纠正这个错误通过实验观察,分 类器组合方法能显著地降低分类器的错误率关于多分类器组合为什么能够降低分类错误率,从统计的()、计算的()和代表性的()个角度说明多分类器模型能更接近最优的分类模型 】将分 类错误率划分成方差和偏差】研究认为分类错误率的减少可以通过减少方差和偏差来实现,且分类器组合能显著的减小方差【经过多年的研究发展,进一步提升传统的单一分类器的分类性能变得十分困难因此多分 类器组合成为了当前研究和应用的一个重点本文所完成的工

8、作在数据挖掘领域中,分 类是一种非常重要的技术,在金融、证券、科学、工程等领域有着广泛的应用多分类器组合技术是将多个不同的单分类器组合成一个分类器,组合的目的是利用多个分类器的差异来改善最终分类器的分类性能方法是一种应用广泛的多分类器组合方法该方法中的一个典型算法是算法,它能够较显著的提高基分类器的分类性能而且容易实现然而算法中是静态地对基分类器进行权重赋值,即在测试实例到来之前就已完成对基分类器的权重赋值,这样就可能给一个对当前测试实例会错误分类的基分类器赋以较高权重,降低了组合的分类正确率另外,在生成多分类器组合后,如何 评价组合的质量来预测其在未知数据上的性能是一个重要研究问题除了传统的

9、正确率,错误率等方法外,组合的多样性是一种公认的多分类器组合评价标准然而,关于多样性的定义并没有一个统一的标准,人 们提出了多种多样性的度量方法并通过实验比较它们另外,在确定了多样性的度量方法后,如何在多分类器组合的生成过程中利用多样性,使得最终的组合质量更好也是一个重要研究问题当前存在着多种利用多样性从基分类器集合中选择,评价基分类器子集以产生组合的方法但传统的穷举法或其他的启发式算法通常时间复杂度较高或者比较简单,因此研究其他的利用多样性对基分类器进行选择也是一个重要的研究问题在上述背景之下,本文完成的工作是:()首先,介绍分类的基本概念以及相关技 术()其次,叙述了多分类 器组合的基本概

10、念及其各个关 键问题包括:多分 类器提高分类精度的原因,组合多样性的定义和应用,基分类器的生成策略,基分类器的选取策略等多分类器组合研究中的各关键问题()第三,在分析了如何利用多样性指导基分类 器选取的基础上,提出了一种新的多样性测量方法,并利用贪心策略结合方法提出了一种新的选取方法该方法首先使用了方法生成多个基分类器,然后利用多样性从中选取了一个多样性最高的子集来形成最后的组合()第四,在详细分析了方法的基 础上,指出了其静态权重赋值的潜在问题,提出了一种利用动态选取思想的动态权重赋值的方法跟静态权重赋值相比,该方法能 够根据当前测试实例属性取值的不同,按照其被每一个基分类器可能正确分类的可

11、能性大小而对其动态分配权重基分类器的权重随着当试实例的变化而变化,从而保证了对当日订测试实例可能分类精度最高的分类器具有较大的权重()进而,讨论了著名的数据挖掘开源平台系统,着重分析了中元学习的相关内容以及实现()最后,并通过实验比 较了上述两种新提出的多分 类器组合方法, 传统的多分类器组合及经典的决策树分类器最终得出结论,提出的新算法在大多数数据集上可以提高原有分类器的分类性能论文的组织安排本文的主要框架和结构如下:第章给出了课题的出发点以及研究的问题及范围,叙述了数据挖掘产生的背景以及数据挖掘相应的分析方法,分析了多分类器组合的研究现状,介绍了本文所完成的工作第章介绍了多分类器组合的理论

12、和相关知识,包括多分类器组合的基本概念,多分类器 组合能提高分类精度的分析,以及多分类器组合研究中的各个关键问题第章在详细分析了研究所采用的基分类器及方法的基础上提出了在方法的基础上利用贪心策略结合多样性来对基分类器进行选择的一种基分类器选取方法的具体实现第章在分析了算法的基础上,指出了其静 态权 重赋值可能带来的问题,提出了被 错误分类子集的概念,并在其基础上提出了一种动态权重分配的方法第章首先对平台下进行了介绍,介绍了中原学 习部分的相关情况接着叙述了实验方法,描述了实验数据集,并在平台下进行实验比较了本文所提出的几种方法和传统的分类器组合方法以及经典的决策树分类器给出了本文的实验过程和结

13、果,最后对结果进行比较和分析第章总结全文, 对本课题 研究做了分析和总结 ,分析了算法的不足之 处,并给出了本课题将来的研究内容和方向多分类器组合技术综述数据是知识的基本载体人们往往通过对数据的收集,分析来获得所需的知识并用于指导当前的生产活动近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步与此同时,随着当前 计算机技术的广泛应用,在各个领域产生了大量的数据然而,人们对数据的掌握了解速度永远赶不上数据升级的速度当人们 正在被海量数据所淹没时,人 们对数据的理解程度却在降低,对大量数据中潜在的重要的知识不能充分的发掘出来并有效利用于是人们迫切需要一种能够从这些数据中自动抽取知识的学

14、习方法,能够将大量数据转换为有用的信息和知识在超大 规模数据库的出现、 计算机技术的迅猛发展和较难的统计方法的运用等因素激发下,数据挖掘这门新兴科学应运而生,成为当前研究和应用的一个热点数据挖掘技术就是在上述背景下产生的一种用于从数据中获取知识的新技术数据挖掘是指采用模式识别, 统计等技术通过分析大量数据来发现有用的相互关系、模式和趋势并且以简单的数据模型归纳之的过程针对要发现的模型的不同,数据挖掘技术主要可以分为挖掘频繁模式,分类和预测,聚类分析等主要方向其中,分类是数据挖掘技 术的一个重要分支分类的概念分类是数据挖掘一项十分重要的任务,当前研究人员已经提出了众多的关于分类的基本理论和技术,

15、并在实际中获得了比较广泛的应用分类是指预测数据所属的类标号这里,数据集中每一条数据都属于某一个离散无序的类别其通 过分析训练集中的数据,为每个类别建立分类模型,然后利用这个分类模型对其他未知类别的数据进行分类分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能够把数据映射到给定类别集合中的某一个类别因此,本 质上分类器就是一个从数据到类标的映射】因此分类可以被定义为:给定一个数据集缸,而)和一组类,分类问题是去确定一个映射:乒专,使每个 实例被分配到一个 类中一个 类包含映射到该类中的所有实例,即铲而),刀且而分类与预测是两个不同的技术两种方法都是数据挖掘中对数据进行分析的方法

16、但分类 不能等同于预测,两者具有相同点和不同点相同点是两者都需要先构建模型,然后用构建的模型来估计未知值二者的区别在于分类主要是用于预测离散的类标签,而 预测则是用来估计连续值在分类中,数据通常可以分为训练集和测试集训练集用于构造分类器,测试集用来评估该分类器的分类精度训练集和测试集一般采用不同的数据,以防止产生过于乐观的估计分类的过程由以下两个步骤组成第一步是生成阶段,生成阶段是为了在训练数据集合上生成一个用于分类的分类器,通常 这一阶段也被称作为学习阶段 训练数据集就是用来建立分类模型所使用的训练数据的集合训练数据集中的单条训练数据称作训练样本分类算法通过分析训练样本的取值分布及特征来构造

17、分类器其中每一条训练例都属于其中一个预定义的类,由一个称作类标签属性的属性确定由于提供了每个训练样本的类标号,所以 这一步也被称作有监督的学习,即模型的学习在被告知每个训练样本属于哪个类的“指导下进行它不同于另外一种无监督的学习,也称作聚类,此时 每个样本的类标签是未知的,要学习的类的个数或者集合也可能事先不知道,也就是没有类标签作为学习的“指导通常学习模型用决策树,分类规则或其他数学公式形式来表示学习模型使用的形式不同,学习出来的分类器性能也有差别要注意的事,分类模型和分类器并不是一个概念分类器的产生依赖于两个条件:一个是分类模型,另一个是训练数据集,两者缺一不可如果只存在模型,而没有数据来

18、训练它,只能称之为分类器算法,当有了训练数据进行训练学习之后,才能够产 生用于对新数据进行分类的分类器同时,仅仅有训练数据集,但是没有模型,也不可能产生分类器,没有模型 计算机无法从训练集中产生分类规则对新数据进行分类,也就是说分类器建立在分类模型之上另外,虽然不同模型决定了产生的分类器的分类性能,但是对于同一种模型,分类器还和训练集有关,训练集中 训练数目的多少以及属性个数的多少,同样决定了分类器的分类性能对于某些模型,如果训练例数目过少分类器性能可能很差,而有些模型对于训练例属性个数较多时产生的分类器性能同样较差因此,分类器是模型和训练数据集的产物,受模型和训练数据的影响第二步是使用模型进

19、行分类保持法是一种使用类标号样本已知测试集的简单方法,这些 样本随机选取并独立于训练样本分类确率是 评估模型的一个重要指标模型在 给定测试集上的准确率是被模型正确分类的测试样本的百分比对于每个测试样本,将已知的类标签与通过学习模型预测的结果相比较如果模型的准确率是根据训练数据集评估,那么评估的结果可能是乐观的,因为学习模型倾向于过度拟合数据因此,一般使用交叉验证法来评估模型如果认为模型的准确率可以接受,就可以用它来对类标签未知的数据元组或对象进行分类总之,我们可以把分 类归结为模型建立和使用模型进行分类两个步骤其实,图分类过程模型模型建立的过程就是使用训练数据进行学习的过程,使用模型分类过程就

20、是对类标签未知的数据进行分类的过程该过程如图所示近二十年来,许多研究人员已经建立并发展了许多分类的理论体系,并开发了许多实用技术当前已提出了多种分类模型,如贝叶斯方法、决策树方法、尽最近邻方法,等它 们都是通过利用分类模型对 已知类别的训练数据集进行学习来得到一个单一的分类器,进而对类别未知的数据进行分类然而实验表明,并不存在一个分类器对所有的分类问题都是最优的这就迫使我们在面对众多不同的分类器时,思考如何对其进行评价,并 针对当前问题选择一个最优分类器由于寻找最优分类器是一个难点,研究人员提出多分类器组合概念组合利用了其中每个分类器的信息,来模拟当前问题的最优分类器另外,单分类器的分类性能的

21、提升也已经到了一个瓶颈,很难再有明显的提升而实验表明多分类器组合与单分类器相比,能明显的提升分类性能因此,对多分类器组合的研究和应用已经成为当前的一个研究热点本章以下部分将结合现有的理论、概念和近些年来的典型方法等对多分类器组合的基本概念,基本理论和基本问题进行阐述多分类器组合的基本概念经过多年的研究与实践,单分类器的分类精度的提升已经达到了一个瓶颈,很难再有大的提升正是在这种背景下研究人员才提出了多分类器组合的方法本节对多分类器组合的基本概念和关键问题进行了综述,介绍了多分类器组合的基本概念、理论 、研究中的关键问题和当前的典型方法什么是多分类器组合多分类器组合也被称为分类器集成,是为了提高

22、分类性能尤其是分类正确率而提出的一种技术顾名思义,多分 类器组合是一个包含了多个不同的分类器的组合,其中每个分类器被称为基分类器在 给定训练集合后,单分类器方法仅仅训练出一个分类器来执行分类任务而多分类器则通过某种方法训练出多个不同的基分类器在分 类阶段时,每个基分 类器都参与对测试实例的分类并给出一个分类结果,然后按照某种方法(比较典型的如投票法)组合这些分类结果并给出一个对测试实例的最终分类结果由上述可看出,多分类器组合实际上仍然是一个从实例到类标的映射设训练实例集合为,似,肌),表示第刀个)练实例,肌表示其所属的类标多分类器组合为,玎,其中协为第,个基分类器,其中每一个基分类器都是一个从

23、实例到类标的映射:仇一则多分类器组合则代表这样的一个映射即:一嘲,即使用了某种方法综合了多个基分类器的映射结果形成一个最终的映射由上述的概念可以看出,多分类器组合主要包含两个关键的方面:一个是基分类器的生成阶段,即如何生成多个不同的基分类器;另外一个方面是组合阶段,即如何使用基分类器来对测试实例进行分类,并组合它们的分类结果来形成一个最终的分类结果为什么多分类器组合能提高分类性能实验表明,多分 类器组合与单分类器相比,能 显著地提升分类算法的分类精度多年来,关于为什么多分 类器组合能更显著地提高分类精度,人们给出了多种解释通常情况下,多分 类器组合比其中任何一个基分类器分类精度都高的一个必须且

24、充分的条件是:基分类器是准确且多样的】,基分类器是准确的是指该分类器在面对新的测试实例时,分类错误的概率应该比随机猜想的要小,也就是小于;基分类器是多样的指在对测试实例分类,尤其是当分类错误时,各基分类器的分类结果应该尽可能是不同和独立的直观上可以看出,这样即使有分类器做出错误分类,其他分类器也会纠正这个错误为了解释为什么准确性和多样性是必要的,我们假设有一个包含三个基分类器的组合:,和一个新的测试实例如果三个分类器是相同的,那么当是错的话,()和()就都是错的这样在采用投票法的前提下, 组合的最终分类结果肯定就是错的然而当这三个分类器是多样的时,例如当分类错误时,而和()却是正确的,那么利用

25、投票法组合的最终结果就是下确的更精确地来讲,如果每一个基分类器的分类错误概率都为,如果使用投票法组合分类器,那么只有在超过一半的基分类器分类错误时,分类器组合的分类结果才会错误即分类器组合的分类错误概率为”)”(其中),显然这个概率值的大小要小于,所以其分类精度要大于任何一个单一的基分类器当然当基分类器的分类错误概率大于时,多分类器 组合的分类错误率就会增加因此,构建多分类器组合的一个关键就是:其包含的基分类器的错误率要小于,并且尽可能是多样的图为什么多分类器组合能比单分类器性能更好的三种原因那么到底能不能在实践中构建一个性能良好的多分类器组合昵?总结了以下三种原因,来说明在实际中为什么能构建

26、一个好的多分类器组合()第一个原因是从统计角度上出发的一个学习算法实际上可以看作在一个假设空间中搜索一个最好的,跟实际假设厂最接近的一个假设然而由于通常情况下的训练数据量相对于整个假设空间是不充分的,所以通常找到的在当前数据集合上比较准确的假设很可能并不接近真正的假设通过组合多个这样的假设,学习算法就可以“平均化”它们的结果,减少错误分类的概率,最后得到的最终假设可以更加接近真实的假设如图左上假 设空问所示()第二个原因是从计算的角度上出 发的 许多实际中的学习算法都是通过在局部假设空间中进行搜索来工作,这样它们就可能陷入局部最优的缺陷中例如,神经网络算法使用了梯度下降来减少其在训练集上的分类

27、错误率,决策树算法使用了贪心分裂规则来生成决策树这样即使训练集合非常充分,分类算法也只是在有限的局部假设空间内搜索,很难得到最好的假设而通过组合多个分类器,每个分类器在一个不同的局部空间内,可以从空间的不同点开始搜索最优假设这样,就有可能比任何一个单分类器搜索到一个跟真实的假设厂接近的假设如图右上假设空间所示()第三个原因是从表示的角度出发的在大多数的学习算法的实际应用时,搜索空间中的任何一个假设可能都不能用来表示真实的假设而通过组合多个从假设空 间得到的假设,有可能会扩展假设空间,得到一个空间之外的假设来更能接近实际的假设如图下方的假 设空间所示构建多分类器组合要解决哪些问题在上述两节中,已

28、 经给出了多分类器组合的概念和两个关键步骤而且,构造性能良好的多分类器组合的一个必要且充分的条件是:基分类器应该是准确且多样的因此,根据建立多分类器组合的步骤过程,目前在多分类器组合方面的研究问题大致可以从以下几个方面来分析()多分类器组 合的评价问题当生成了组合后, 应当如何评价该组合的质量,从而推测其是否具有较好的分类性能当前存在着多种评价标准,那 应该如何使用这些标准来评价组合?这些评价标准之间的关系是什么?更进一步,如何利用这些评价标准来指导多分类器组合的构建过程,使构建出来的组合具有良好的性能另外,组合的多样性是当前公认的影响多分类器组合分类性能的一个重要因素,但目前人们在多样性的定

29、义,如何度量多样性等问题上还没有达成共识】因此如何度量多样性,如何利用多样性来评价,指 导多分类器组合的产生是一个重要的研究方向()基分类器的生成多分类器组合是要组合多个基分类器,因此首先要考虑的问题是如何生成多个不同的基分类器,并且各基分类器应该尽可能是准确且多样的当前已经存在了多种生成方法,不同的生成方法产生的组合有着不同的分类性能这些分类性能上的差异到底是由什么原因引起的,是否存在一个标准来指导生产方法的设计,使产生的组合具有较好的性能?()基分类器的 选取问题当生成多个基分类器后,传统的方法只是简单地使用了所有的基分类器来参与分类,并未 对基分类器进行筛选但通常情况下有两个问题:一是当

30、生成过多的基分类器时,使用所有的基分类器来分类是一个非常耗时的过程;另一个更重要的问题是,使用经过某种方法挑选出来的基分类器子集形成的组合,跟使用全部的基分类器相比,可能具有更好的分类性能于是,人们提出了“过量产生选取”的方法来形成多分类器组合过量产生基分类器阶段,可以使用已有的多种方法实现,而如何从大量的基分类器中选择一个子集来形成分类性能良好的组合,就成了研究中的一个关键问题 选取问题就是在基分类器空间中进行搜索因此该问题 主要包含两个关键点:一个如何搜索的目标函数的确定,即以什么样的标准评判搜索到的基分类器:另外一个是搜索方法,即如何在基分类器空间内进行搜索,使最终得到的基分类器组合在当

31、前的目标函数下是最优的另外,并不是对所有的测试实例,当前的基分类器组合对其都有良好的分类性能因此还必须考虑到当前测试实例,根据其各属性的具体值动态地选择合适的基分类器形成组合,已达到更好的分类性能()基分类器的组合方法在确定了组合中包含的基分类器后,面对测试实例时如何组合基分类器的分类结果来形成对一个对实例类标的最终预测是研究的另一个重要问题当前存在着多种组合方法,如投票法等】那么这些组合方法间存在着什么关系?存不存在一种组合方法在任何情况下都比其他组合方法好?不同的组合方法和不同的生产方法之问有什么影响?是否存在一个通用的理论基础来指导新的组合方法的产生?此外,投票法等组合方法的前提假设是各

32、个分类器之间是独立的,而在实际的分类算法中可能不能满足这个条件,那如何设计新的组合方法使其能不受该假设的限制等等,都是需要解决的问题以上部分介绍了多分类器组合的基本概念和研究的主要问题,在本章接下来的部分将分别按照上述的几个研究方面,对当前已存在的理论基础和代表性的算法进行逐一阐述多分类器组合的评价标准一多样性的度量多样性被认为是制约多分类器组合性能的一个关键因素组合的多样性是指在对测试实例进行分类时,不同的分类器的分类结果是独立且不相同的这样即使有分类器做出错误的分类,其他的分类器也会纠正这个错误,这样就有可能提高分类器的分类性能然而,当前关于多样性并没有一个严格,统一的定义另外,在构建多分

33、类器组合中基分类器的下确率和组合的多样性这两个因素是互相制约的如果所有基分类器都有较高的正确率,分类器的分类趋向于统一,多样性就低;如果无限制的提高多样性就会降低基分类器的正确率,从而影响组合的下确率因此当前关于多样性研究的主要问题包括:()如何定义和度量多样性()如何确定组 合多样性和 组合的正确率之间的关系()如何平衡组 合的多样性和基分 类器的正确率之间的关系()如何利用多样性指导多分类器组合的生成多样性的定义及度量由于并不存在一个统一明确的多样性定义及度量方法,许多研究已经给出了众多的度量方法,这些定义大都是基于基分类器正确或错误的分类结果的设口,甜)为 已标明类别的数据集,为实例个数

34、;,)为组合中的基分类器集合, 为基分类器个数;,钞,执 为第个分 类器的分类结果,如果基分类助正确分类实例则朋为,否 则为;厶表示对实例正确分类的基分类器个数另外,利用分 类结果可以定义两个基分类器的相似度,如表所示表两个分类器之间的分类结果被毋正确分类铍毋错误分类被确分类被口错误分类煽和等人已经分别对当前的多样性度量方法进行了总结【,主要包括以下几种度量方法()统计 量这种统计方法是由提出的,如公式所示,万丽矿。苡两庐统计量用来测量两个分类器之间的相似度,由公式可以看出,的大小与两个分类器分类结果相同个数的大小成正比,并且在和之间变化对于独立的基分类器来说,度量的期望值应该是对整个分类器组

35、合的统计量是所有两两基分类器的统计量的均 值,如公式所示当统计量大时,说明基分类器问的相似程度比较高,即组合的多样性比较低口瓦三写否善。,()协方差对于两个基分类器来说,协方差的度量如公式所示 气丽丽稍篱筹而协方差尸与上述的统计量比较类似,也是用来统计两个基分类器之间的相似度的对整个分 类器组合的协方差口,是所有两两基分类器的协方差的均值,如公式所示当协方差大时,说明基分类器问的相似程度比较高,即组合的多样性比较低只。两备磊。最,()差异量的度量这种度量方法是由提出的一种用来利用两个基分类器之间的差异来度量多样性的方法,如公式所示 括而就在决策森林方法()中使用了这种度量方法来度量组合的多样性

36、【】这 种度量方法 简单地认为多样性的分 类器的分类结果在相同的训练集上应该尽可能不同其度量了相同训练集上,两个分类器分类结果不一致的实例个数与整个训练集中实例个数的比值对整个分类器组合的差异量的度量口,是所有两两基分类器的差异量的度量的均值,如公式所示当大时,说明基分类器间的差异量比较高,即组合的多样性比较高一瓯高善磊。坶,(“一)智每“()双重错误的度量这种度量方法是由和提出来的,是用来从基分类器集合中选出最不相关的基分类器的和认为分类器越不相关,它们同时分错的次数就会越少因此该度量方法被计算了被两个基分类器同时误分的实例个数,如公式所示嬲矿石式而对整个分类器组合的差异量的度量,是所有两两

37、基分类器的差异量的度量的均值如公式所示当小时,说明基分类器间的差异量比较高,即组合的多样性比较高魍丽矗善磊,暇,()方差方差的度量方法是由和在他们对分类器分类错误的分解公式中提出的,起源于分类器分类错误的偏差方差分解对一个实例,在某个具体的分类模型下,其类标的 预测的变化的表达式如公式所示,三(一言(少,)其中表示类标 的个数在只判断对错的情况下,并且爿尸”()因此,我们可以将上式推算成如公式所示(一(曲()()(曲然后在整个训练集上对所有实例计算该量并平均化,就可以得到多样性的方差度量方法,如公式所示当大时, 说明基分类器间的差异量比较高,即组合的多样性比较高上老(三一:)智”“一()基分类

38、器之 间的同意度足这是一种用来度量各个基分类器之问的可依赖度的方法如公式所示二(己一(,)(乃)(一)(一)其中上姜跏篇蒿叫。为基分类器的平均正确率()一般化的多样性这种度量方法是由和提出来的从组合中随机选出两个基本分类器对一个实例分类,和认为只有在其中一个基分类器错误分类而另外一个正确分类的情况下,类器都错误分类时,多 样性最小因此,多样性才能达到最大值而当两个基分对于一个从训练集中随机抽取出的测试实例,设乃表示厶可的概率,则一般化的多样性的度量方法如公式所示当大时, 说明基分类器间的差异量比较高,即组合的多样性比较高:一型塑一!一名手乃()困难度的测 量)这种度量方法是由和提出来的我们首先定义一个离散的随机变量石对一个从训练集中随机抽取的实例勿来说,仁缈亿这样困难度的测量就定义成在全体 训练 集上所有取值的方差,如公式所示()以上几种度量方法是目前为止比较典型的多样性度量方法,在不同的实际分类算法中都得到

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报