收藏 分享(赏)

利用集成分类器进行稀有类分类.doc

上传人:无敌 文档编号:151085 上传时间:2018-03-22 格式:DOC 页数:7 大小:92.50KB
下载 相关 举报
利用集成分类器进行稀有类分类.doc_第1页
第1页 / 共7页
利用集成分类器进行稀有类分类.doc_第2页
第2页 / 共7页
利用集成分类器进行稀有类分类.doc_第3页
第3页 / 共7页
利用集成分类器进行稀有类分类.doc_第4页
第4页 / 共7页
利用集成分类器进行稀有类分类.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、利用集成分类器进行稀有类分类 范梦瑶 上海市地震局应急救援保障中心 摘 要: 现实生活中存在很多稀有类的例子, 也就是我们所说的非平衡类数据, 即数据中的一类样本在数量上远多于另一类。占少数类的数据往往具有显著意义, 例如癌症检测, 它可以有效识别癌症患者, 对医生做出正确的诊断有实际意义。常用的分类方法一般会产生偏向多数类的结果, 因而对于少数类数据来说, 预测的性能会很差。在分析了非平衡类数据分类问题的基础上, 简要研究了利用集成分类器进行稀有类分类的相关内容, 以期为日后相关工作的顺利进行提供参考。关键词: 集成分类器; 数据库; 非平衡类数据; 召回率; 作者简介:范梦瑶 (1988)

2、 , 女, 主要从事地震应急方面的工作。1 背景阐述数据库中蕴藏大量信息, 对数据的有效分析可以帮助人们做出明智的决定。数据挖掘的分类方法被应用于多个领域, 典型应用有识别信用卡交易欺诈、预测视频设备故障以及对视频传输信号的分类、从卫星图像检测油井喷发和电信领域客户的流失预测等。统计学、机器学习、神经网络、破坏矩阵等领域的研究者提出了很多分类方法。在现实世界的数据分类中, 通常情况下, 数据集中标号不同的两类样本的数量是不等的, 甚至有着极大的差别, 即数据集中的两类是高度倾斜的或者说是非平衡的。这个问题可以描述为从一个分布极不平衡的数据集中标识出那些具有显著意义却很少发生的实例。例如, 在网

3、络入侵中, 一个计算机通过猜测一个密码或打开一个 ftp 数据连接进行远程攻击。虽然这种网络行为是不常见的, 但识别并分析出这种行为对网络安全的影响是很有必要的。从实例中不难看出, 稀有类实例数目很少, 较难提供完备的信息, 常用的分类方法在分类稀有类时往往失效, 这就使得分类稀有类问题变得更具有挑战性。本文既研究基于处理训练数据集的集成学习算法, 也研究基于处理输入特征的集成学习算法。基于处理训练数据集是采用取样技术选取不同的训练数据, 然后利用这些训练数据生成集成中的个体。这样做的目的是通过选取不同的数据集来获得个体间的差异。提升 (Ada Boost) 和装袋 (Bagging) 是基于

4、处理数据的典型方法。基于处理特征是通过输入特征的子集来形成每个训练集, 子集随机选择或由领域专家建议。随机森林 (Random Forest) 和旋转森林 (Rotation Forest) 是处理输入特征的组合方法, 它们都使用决策树作为基分类器。本文在分析非平衡类数据分类问题的基础上, 利用上述 4 种集成分类算法进行稀有类分类, 得出实验结论并进行比较。2 稀有类分类通常情况下, 数据分类的应用会遇到数据不平衡的问题, 即数据中的一类样本在数量上远多于另一类, 例如病患分类和欺诈检测问题等。其中, 少数样本具有巨大的影响力和价值, 这是我们主要关心的对象, 称为正类, 另一类则称为负类。

5、正类样本与负类样本可能数量上相差极大, 这就为训练非平衡类数据带来了挑战。常用的分类方法一般会产生偏向多数类的结果, 因而对于正类来说, 预测的性能会很差。2.1 影响稀有类分类的特征通常数据集中标号不同的两类样本的数量是不等的, 甚至有极大的差别。与不平衡类问题相关的例子很多, 通过卫星图像检测油井喷发的数据集就是非平衡数据的一个好例子。数据显示, 937 张卫星图像中只有 41 张包含浮油, 我们可以说包含浮油的图像是少数类样本。然而, 有时候少数类样本才是我们首要关心的。由于数量上的严重倾斜, 使用分类算法对非平衡的数据集进行分类时, 其性能往往不尽如人意。不平衡类问题分类是数据挖掘中的

6、难点问题, 主要表现在以下 5 个方面。2.1.1 不当的评估度量评估度量在数据挖掘中至关重要, 如果评估度量不能充分评估少数类样本, 则分类算法就可能对少数类样本处理不当。其中, 分类的准确率是指被正确分类的样本占数据集样本总数的比例, 是分类任务中最常用的评估度量, 它在度量少数类时的缺点是显而易见的。2.1.2 缺少数据缺少数据, 是指既存在绝对缺少, 又存在相对缺少。非平衡数据挖掘的根本问题是, 正类数据数量比较少, 以至于在少数类内部难以发现规律。有时候, 样本在绝对数量上并不少, 但是, 相对于其他类的样本来说所占的比例很小。2.1.3 数据分裂许多数据挖掘算法采用将最初的问题分解

7、得越来越小的方法, 这样做出现的结果就是样本空间被分解为越来越小的部分。数据规律只能在每个单独的数据块中找到, 这些数据块却只包含了较少的数据, 一些跨越数据块的规律可能因此丢失, 这就是数据分裂问题。这个问题在对少数类样本进行分类时尤为突出。2.1.4 不当的归纳偏移将特定样本一般化或归纳分类器, 都需要一种额外的偏移。数据挖掘系统的偏移对其性能来说是至关重要的。据了解, 许多训练系统就是利用偏移来实现分类器的通用化, 避免过度拟合的。但是, 这种偏移可能会使数据挖掘系统训练少数类样本的能力大打折扣, 产生不好的影响。2.1.5 噪声少数类样本数量比较少, 少量的噪声就可以影响被训练的子概念

8、, 这样训练系统就不能区分特殊样本和噪声。如果训练系统减小其通用性, 就会得到不希望得到的结果, 即将噪声数据也包含进来。因此, 噪声数据的存在使防止过度拟合技术成为必需技术之一, 但是, 这样就导致一些“真”的少数类样本没有被训练。由此可以看出, 噪声数据对少数类样本的影响大于普通类。2.2 可选度量可选度量, 即稀有类分类的评估标准。常用的分类算法的评估标准包括预测的准确率、可规模性和可解释性等。对于普通类来说, 我们通常使用分类器的总准确率来评价分类效果。但是, 在稀有类分类问题中, 我们更关注稀少目标类的正确分类率。然而对于稀有类分类问题来说, 由于关注的焦点不同, 仅用准确率是不合适

9、的。所以, 在评价稀有类分类时, 还应该采用其他的评价标准。通常情况下, 我们使用召回率 (Recall) 即 TPrate、精确率 (Precision) 即PPvalue 和 F-度量 (F-measure) 来评估稀有类分类。召回率公式为:精确率公式为:F-度量 (F-measure) 可定义为:式 (1) (2) (3) 中:TP 为真正类个数;FP 为假正类个数;FN 为假负类个数。总的来说, 召回率 (Recall) 和精确率 (Precision) 是信息检索和数据挖掘中常用的评价指标, 许多系统同时考虑这两者, 它们在分类器评测方面所作的贡献是很重要的。2.3 稀有类分类的研究

10、意义在实际应用中, 稀有类分类问题是非常常见的。有些问题的原始数据分布就存在不平衡的情况, 比如通过卫星雷达图片检测海面石油油污, 检测信用卡非法交易, 医学数据检测, 发掘基因序列中编码信息和地震应急基础数据分类等。这些问题都以稀有类的信息为关注焦点, 例如, 在信用卡非法交易记录的检测过程中, 非法交易记录是检测的目标。但是, 训练数据中包含大量正常的信用卡交易记录, 只有很少一部分是非法交易记录, 使用一般的模式分类方法, 非法交易记录的检测率很低。再比如, 地震应急基础数据是开展应急工作的基础, 是地震应急指挥技术系统的重要内容。基础数据包括历史地震灾害、强震目录、物资储备、道路交通等

11、, 它们属于非平衡类数据, 其准确性直接影响震时分析和救灾指挥的顺利进行。因此, 平时做好收集分类工作是十分重要的。以上种种情况都需要采用能够适应稀有类分类问题的分类器进行分类, 而常用的分类器往往不能胜任这项工作。所以说, 稀有类分类问题与每个人的生活息息相关, 做好这项研究有利于社会的平衡与和谐发展。3 比较实验文中使用的实验模拟工具为 weka 实验平台。为了比较 4 个学习算法的性能, 笔者选用 weka 平台中的 3 个不平衡数据集进行测试。这 3 个数据集分别为视频信号故障数据集 (video_signal_failure) 、强震数据集 (strong_earthquake) 和

12、网络侵入数据集 (network_intrusion) 。这些数据集的特征如表 1 所示。表 1 数据集的特征 下载原表 3.1 实验过程及数据为了验证基于数据技术和基于特征集的集成学习算法的性能, 对这 3 个数据集 (video_signal_failure, strong_earthquake 和 network_intrusion) 使用集成学习算法 (Ada Boost、Bagging、Rotation Forest、Random Forest) 进行分类实验研究, 同时, 选择决策树 (Random Tree) 作为基分类器。简单地说, 实验过程就是比较使用集成分类器与仅使用 Ra

13、ndom Tree 做分类器在分类结果上的差异。其中, 稀有类都用“*”标明。具体实验步骤如下: (1) 在 weka 软件的 classifier 中选择分类器 Random Tree 进行试验。实验数据如表 2 所示。 (2) 在 classifier 中依次选择 Ada Boost、Bagging、Rotation Forest、Random Forest 做分类器, 同时, 选择 Random Tree 作为基分类器进行实验。实验数据如表 3 所示。 (3) 修改实验数据集为 strong_earthquake, 再从 classifier 中选择 Random Tree 作为分类器开

14、始实验。实验数据如表 4 所示。 (4) 依次更改 classifier 为 Ada Boost、Bagging、Rotation Forest、Random Forest, 同时, 在每个分类器中选择 Random Tree 作为基分类器开始实验。实验结果如表 5 所示。 (5) 返回第 (3) 步, 选择数据集network_intrusion, 选择分类器 Random Tree 开始实验。实验结果如表 6 所示。(6) 具体步骤同实验步骤 (4) 一样, 实验数据如表 7 所示。至此, 实验结束。3.2 实验结果及分析对 3 个数据集使用集成分类器 (Ada Boost、Bagging

15、、Rotation Forest、Random Forest) 进行分类 (算法中的其他参数设置采用了 weka 系统中的默认值) , 分类前均选择 Random Tree 作为基分类器。实验结果分别记录每个类的 3 组度量数据, 即召回率 (Recall) 、精确率 (Precision) 和 F-度量。观察实验中的分类结果可以看出, 4 种集成学习算法的分类性能都要优于使用Random Tree 单独分类, 也就是说, 使用集成分类器分类稀有类的效果远远好于不使用集成分类器进行稀有类分类。同时, 相比之下, 基于处理输入特征得出的度量数据要高于基于处理数据得出的。另外, 在使用 Rando

16、m Tree 做基分类器的时候, Bagging、Rotation Forest 和 Random Forest 的精确率 (Precision) 比 Ada Boost 好, 说明分类更准确。表 2 数据集 video_signal_failure (Random Tree) 下载原表 表 3 数据集 video_signal_failure 下载原表 表 4 数据集 strong_earthquake (Random Tree) 下载原表 表 5 数据集 strong_earthquake 下载原表 表 6 数据集 network_intrusion (Random Tree) 下载原表

17、表 7 数据集 network_intrusion 下载原表 4 结束语集成学习是机器学习的研究热点之一, 它既要研究基于数据技术的集成学习方法, 又要研究基于处理输入特征的学习方法。研究表明, 对那些含有大量冗余特征的数据集, 集成学习算法的分类效果更好。本文通过对比 3 种度量数据, 针对 3 个不平衡的标准数据集分析研究了基于数据和基于特征的集成学习算法。同时, 为了统一起点, 设置 Random Tree 作为基分类器。结果表明, 集成分类器分类稀有类的效果远远好于不使用集成分类器进行稀有类分类, 而且 Bagging、Rotation Forest 和 Random Forest 这

18、 3 个分类器的分类精确率更高。参考文献1Han J, Kanber M.数据挖掘:概念与技术M.范明, 孟小峰, 译.北京:机械工业出版社, 2001. 2Yanmin, Mobamed S.Kamel, Andrew K.C.Wong, et al.Cost-sensitive boosting for classification of imbalanced dataJ.Patter Recognition, 2007 (10) :3358-3378. 3Agarwal R, Joshi M V.Pnrule:A new Framework for Learning Classifier

19、 Models in Data Mining (A Case-Study in Network Intrusion Detection) C/In Proc.of the First SIAM Conference on Data Mining, 2001. 4Ian H, Frank W E.Data Mining:Practical Machine Learning Tools and TechniquesM.2nd ed.San Francisco:Morgan Kaufmann, 2005. 5张勇, 陈婧, 范梦瑶.跨网段视频会议互联互通的设计与实现J.科技与创新, 2017 (17

20、) :30-31. 6Fan H, Ramamohanarao K.A Bayesian Approach to use Emerging Patterns for ClassificationC/In Proc of 14th Australasian Database Conference.Adelaide:Australian Computer Society, Inc, 2003:39-48. 7Liu Chenglin.Classifier Combination Based on Confidence TransformationJ.Pattern Recognition, 2005, 38 (1) :11-28. 8Aksela M, Laaksonen J.Using Diversity of Errors for Selecting Members of a Committee ClassifierJ.Pattern Recognition, 2006, 39 (4) :608-623. 9刘艳霞, 职为梅, 杨亮.稀有类分类问题研究J.微型机与应用, 2005, 24 (6) :54-56.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报