收藏 分享(赏)

决策树的剪枝策略研究_黎娅.pdf

上传人:精品资料 文档编号:8398518 上传时间:2019-06-24 格式:PDF 页数:4 大小:221.36KB
下载 相关 举报
决策树的剪枝策略研究_黎娅.pdf_第1页
第1页 / 共4页
决策树的剪枝策略研究_黎娅.pdf_第2页
第2页 / 共4页
决策树的剪枝策略研究_黎娅.pdf_第3页
第3页 / 共4页
决策树的剪枝策略研究_黎娅.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、文 章编号: 1004-3918( 2009) 03-0320-04决策树的剪枝策略研究黎 娅1, 郭江娜2( 1. 河南经贸职业学院 信息管理系,郑州 450053; 2. 郑州大学 计算机科学与技术系,郑州 450002)摘 要: 主要研究决策树的修剪策略 . 着重对决策树需要修剪的原因 、发展过程 、修剪算法的分类以及修剪过程中注意事项 、修剪程度的控制等进行了探讨 .关键词: 分类方法;决策树;修剪算法;剪枝中图分类号: TP 18 文献标识码: A决策树学习策略广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题 . 决策树方法主要研究 2 个问题:一是特征值选择问题,二是树

2、剪枝问题 .决策树方法,即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法 .采用决策树方法进行空间数据挖掘1的基本步骤如下:首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为对新实体进行分类的规则 .决策树方法是最适合用于数据采掘的 . 因为: 同其它方法相比,决策树方法构造树的速度快; 决策树模式简单,容易理解; 树能很容易地转换为 SQL 语句,从而可同数据库进行有效的连接; 决策树分类器同其它分类器相比,能获得相似甚至更好的精度 . 因此,在数据采

3、掘方法中,决策树方法受到了广泛的关注 .决策树归纳方法主要有 2 个问题:一是先从哪一属性往下分叉,即特征选择问题(或称偏向问题);二是如何构造一棵 “好 ”的树(树剪枝问题) . 为解决前一问题研究出许多方法;最有代表性的是 id3(改进的c45, c50),该方法用信息熵来找出最大增益( gain most information)作为构造树的依据 . 剪枝一般说来有两种策略:向前剪枝( forward pruning)和向后剪枝( backward pruning)2. 许多人给出各种剪枝方法,究竟采用什么剪枝法,视问题而定 .由于决策树方法最初是用来解决专家系统获取知识的 “瓶颈现象

4、”,当时的数据大多是人为准备的,数据较理想,数据库也相对较小,而现在进行数据采掘所面对的数据库要大得多,真实世界的数据一般不可能是完美的,其原因为: 可能某些属性字段上缺值( missing values); 可能缺少必须的数据而造成数据不完整;可能数据不准确含有噪声甚至是错误的 . 我们在此主要讨论噪声问题 . 因此处理的方法要作相应的改变 .基本的决策树构造算法没有考虑噪声,生成的决策树完全与训练例子拟合 . 有噪声情况下,完全拟合将导致过分拟合( Over Fitting)3,即对训练数据的完全拟合反而不具有很好的预测性能 . 决策树剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得

5、更容易理解 .修剪决策树的目的是为了消除决策树的过分拟合( Over Fitting)问题 . 许多树简化规则正在生成越来越简单和越来越小的决策树,树简化规则已经成为继预测精度之后的第二个研究焦点 . 树简化技术的关键问题在于解决方法的多样性 .1 原因及修剪算法介绍11 导致决策树异常庞大的原因一是特征描述不当 . 有些树特征描述方式不能精确的建立目标概念模型,当用这种描述方式时,目标模型非常复杂;二是噪声 . 当事例包含大量的特征噪声(即错误标签的特征值)或类噪声(即错误标签的类值)时,归纳运算会因为不相关的实力特征而将树扩展得漫无边际 .收稿日期 : 2009-01-05作者简介 : 黎

6、 娅( 1965-),女,河南许昌人,副教授,工学硕士,主要从事计算机应用技术 、对等网络及数据挖掘等研究 .第 27 卷 第 3 期2009 年 3 月河 南 科 学HENAN SCIENCEVol.27 No.3Mar. 2009DOI:10.13537/j.issn.1004-3918.2009.03.0282009 年 3 月12 决策树的修剪算法1)直接控制树大小 . 通过前期修剪( Public 算法,即在树扩展过程中强行增加一个停止规则),或后期修剪( Sprint 算法,在树生成后剪掉子树)完成,或逐渐调整树的大小 . 向前剪枝方法是,在生成树的同时决定是继续对不纯的训练子集进

7、行划分还是停机 . 向后剪枝方法是一种两阶段法:拟合 化简( fitting-and-simplifying),首先生成与训练数据完全拟合的一棵决策树,然后从树的叶子开始剪枝,逐步向根的方向剪 .剪枝时要用到一个测试数据集合( tuning set 或 adjusting set),如果存在某个叶子剪去后能使得在测试集上的准确度或其它测度不降低(不变得更坏),则剪去该叶子;否则停机 . 理论上讲,向后剪枝好于向前剪枝,但计算复杂度大 .2)扩展测试集 . 首先按特征构成是数据驱动还是假设驱动(即借助于以前建立的树预测构件特征)的差别,将建立的特征组合或分割,然后在此基础上引进多变量测试集 .3

8、)包括选择不同的测试集评价函数,通过改善连续特征的描述,或修改搜索算法本身实现 .4)数据库约束 . 即通过削减数据库或事例描述特征集来简化树 .5)将树转换成另一种数据结构(如决策表或决策图) .这些方法通常可以在同一种算法中相互结合,进而增强各自的功能 . 其中简化决策树最常用的方法是在树建立过程中控制其大小,包括前期修剪和后期修剪 .2 当前主要的 4 种事后剪枝方法21 CCP( cost-complexity pruning)方法CCP 方法主要包含 2 个步骤: 从原始决策树 T0开始生成一个子树序列 T0, T1, , Tn. 其中, Ti1从 Ti产生, Tn为根节点 . 从第

9、 1 步产生的子树序列中,根据树的真实误差估计选择最佳决策树 .22 REP( reduced error pruning)方法REP 方法由 Quinlan 首先提出,它需要一个分离数据集 D 用于剪枝 该方法的基本思路是,对于决策树T的每棵非叶子树 S,用叶子替代这棵子树 . 如果 S 被叶子替代后形成的新树关于 D 的误差等于或小于 S 关于 D 所产生的误差,则用叶子替代子树 S.23 PEP( pessimistic error pruning)方法4PEP 方法是 Quinlan 为了克服 REP 方法需要独立剪枝数据集的缺点而提出的,它不需要分离的剪枝数据集 . 为了提高对未来事

10、例的预测可靠性, PEP 方法对误差估计增加了连续性校正( continuity correction) .24 MEP( minimum error pruning)方法4MEP 方法由 Niblett 和 Bratko 首先提出,该方法使用了拉普拉斯概率估计来提高 ID3 方法在存在噪音数据问题中的性能 . Cestnik 和 Bratko 利用贝叶斯方法对这种算法做了一些改进,称之为 m概率估计 . 这种算法认为, m 可以根据问题域的不同进行调整,一般来说, m 越大,树剪裁程度越深 . 归纳起来, MEP 方法的基本思路是采用自底向上的方式,对于树中每个非叶节点,首先计算该节点的误差

11、 Er( t),然后计算该节点每个分枝的误差 Er( Tt),并且加权相加,权为每个分枝拥有的训练样本比例 如果 Er( t)大于 Er( Tt),则保留该子树;否则,剪裁它 .25 方法归纳独立剪枝集: CPP 使用 CV 方式不需要独立剪枝集; REP, PEP, MEP 均需要独立剪枝集 .剪枝方式: CPP, REP 和 MEP 采取自底向上的剪枝方式,而 PEP 则采取自顶向下的剪枝方式 .误差估计: CPP 的误差估计使用 CV 或标准误差, REP 利用剪枝集, PEP 使用连续性校正, MEP 采用基于m概率估计 .计算复杂性( n非叶节点数): CPPO( n2); REPO

12、( n); PEP( n); MEPO( n) .3 两种剪枝标准31 最小描述长度原则( MDL)5思想:最简单的解释是最期望的 .做法:对决策树进行二进位编码,编码所需二进位最少的树即为 “最佳剪枝树 ”.黎 娅等: 决策树的剪枝策略研究 321- -第 27 卷 第 3 期河 南 科 学32 期望错误率最小原则思想:选择期望错误率最小的子树剪枝5做法:对树中的内部节点计算其剪枝 /不剪枝可能出现的期望错误率,比较后加以取舍 .4 MDL 剪枝41 树编码的 3 种方案:Code 1 节点或者有 2 个子树或者没有子树 . 需要 1 个比特;Code 2 节点可有 2 个子树 、没有子树

13、、只有左子树或右子树 . 需要 2 个比特;Code 3 仅仅编码内节点,此时节点可能有 2 个子树 、左或右子树 . 需要 Log23个比特 .42 MDL 原理目的:寻找能最好描述训练集的子树对数据进行编码的最佳模型是用该模型描述数据和描述这个模型的代价的和为最小的模型 . 编码代价模型: Cost( M, D) Cost( DM) Cost( M),其中: Cost( M, D)为编码的总代价;Cost( M)为编码模型 M 的代价;Cost( DM)为用模型 M 编码数据 D 的代价;模型指剪枝初始决策树时得到的一系列子树;数据是训练集 .43 剪枝算法MDL 剪枝算法在决策树每个内节

14、点上评估编码的长度,决定是否将该节点转换为叶结点,或者删除其左(右)子树,还是保持结点不变 . 为了进行选择,编码长度 C( n)用下式计算:1) Cleaf( t) L( t) Errorst, 如果 t 是树叶;2) Cboth( t) L( t) LtestC( t1) C( t2), t 有 t1和 t22 个孩子;3) Cleft( t) L( t) LtestC( t1) C( t2), t 有 t11 个孩子;4) Cright( t) L( t) LtestC( t1) C( t2), t 有 t21 个孩子 .Ltest在内部节点上的任意测试的编码代价 .44 剪枝策略完全剪

15、枝:如果 Cleaf( t) Cboth( t),则删去左右结点,使得成为叶结点 . 此时编码采用 Code 1;部分剪枝:计算上述 4 种结果,选择具有最短编码长度的方案 . 此时编码采用 Code 2;混合剪枝:将剪枝分成 2 个步骤:首先使用完全剪枝选择出较小的树,然后仅仅考虑 2), 3), 4)作进一步的剪枝 .5 修剪程度的控制在精确度与简易性之间选择权衡值是决策树永远也逃避不了的主题 . 修剪方法在于确保精确程度的同时,提高可理解性 . 许多学者在研究决策树的精确度与简易性的最佳比例 . 剪枝并不是对所有的数据集都好,就像最小树并不是最好(具有最大的预测率)的树 . 当数据稀疏时

16、,要防止过分剪枝( over-pruning) .从某种意义上讲,剪枝也是一种偏向( bias),对有些数据效果好而有的数据则效果差 .6 结论决策树剪枝策略广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题 . 决策树剪枝的作用是简化决策树,提高决策树的泛化能力,避免对训练集的过适应,是决策树中的重要研究内容 . 决策树是通过对训练数据集重复分组来构造的 . 如果训练数据集中的数据能准确地反映分析对象的本质,则通过该训练数据集所得到的决策树将可以准确地对该问题进行分类 . 然而,由于实际问题中存在许多不确定的因素,当用决策树构造算法对这类数据分类时,所得到的决策树将会变得大而复杂,

17、由此得到的知识规则集也会变得大而复杂 . 然而,研究证明,大而复杂的决策树并不意味着可以得到更准确的规则集 . 因此,对决322- -2009 年 3 月策树进行剪枝非常必要 .参考文献 : 1 刘毅勇,何 雄,李金山,等 . 空间数据挖掘:变数据为知识 J . 计算机世界报, 2005, 32( 8): B12-B13. 2 陆玉昌 . 数据挖掘与知识发现 J . 中国计算机用户, 2000, 18: 29-32. 3 王黎明 . 决策树学习及其剪枝算法研究 D . 武汉:武汉理工大学, 2007. 4 魏红宁 . 决策树剪枝方法的比较 J . 西南交通大学学报, 2005, 1: 44-4

18、8. 5 徐向华,朱 杰,郭 强 . 语音识别中基于最小描述长度准则的决策树动态剪枝算法 J . 声学学报, 2006, 31( 4): 370-376.Research on Pruning Algorithm of Decision TreeLi Ya1, Guo Jiangna2( 1 Information Management Department, Henan Economy and Trade Vocational College, Zhengzhou 450053, China;2 Computer Science and Technology Department, Zhen

19、gzhou University, Zhengzhou 450002, China)Abstract: This article focuses on the pruning strategy of the decision tree pruning The reasons for the decisiontree pruning needs, the developing process of the decision tree pruning, the classification of the pruning algorithm,the remark of the pruning process, the control of pruning degree and so on are exploreKey words: classification; the decision tree; the pruning strategy; cutting黎 娅等: 决策树的剪枝策略研究 323- -

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报