收藏 分享(赏)

决策树方法.ppt

上传人:weiwoduzun 文档编号:5747235 上传时间:2019-03-15 格式:PPT 页数:23 大小:435KB
下载 相关 举报
决策树方法.ppt_第1页
第1页 / 共23页
决策树方法.ppt_第2页
第2页 / 共23页
决策树方法.ppt_第3页
第3页 / 共23页
决策树方法.ppt_第4页
第4页 / 共23页
决策树方法.ppt_第5页
第5页 / 共23页
点击查看更多>>
资源描述

1、决策树模型 Decision Trees沈炎峰 2015年8月,Decision Tree Modeling决策树是一种简单且应用广泛的预测方法,决策树简述,决策树(decision trees),是一个类似于流程图的树结构,其中每个内部节点表示在一个属性(自变量)上的分裂,每个分支代表一个分裂输出,而每个树叶节点代表判断结果。树的最顶层节点是根节点。 决策树是一种非线性的判别分析的方法,它通过自变量竞争分裂,把原始数据集分裂成一系列更小的子群。,回归树(Regression Tree),因变量-continuous ,叶子为因变量的预测值。,Boston Housing Data,Leave

2、s = Boolean Rules(布尔规则),Leaf 1 2 3 4 5 6 7 8,RM 6.5 6.5 6.5 6.5, 6.9) 6.9 6.9, 7.4) 7.4 6.9,NOX .51 .51, .63) .63, .67) .67 .67 .66 .66 .66,Predicted MEDV 22 19 27 27 14 33 46 16,If RM values & NOX values, then MEDV=value,分类树,A decision tree is so called because the predictive model can be represent

3、ed in a tree-like structure. the target is categorical, the model is a called a classification tree.,图3.1 常见的决策树形式,决策树主要有二元分支(binary split)树和多分支(multiway split)树。一般时候采用二元分裂,因为二元分裂在穷举搜索中更加灵活。,决策树形式,决策树分类,分类回归树(CART:Classification and Regression Tree) 其特点是在计算过程中充分利用二分支树的结构(Bianry Tree-structured),即根节点

4、包含所有样本,在一定的分裂规则下根节点被分裂为两个子节点,这个过程又在子节点上重复进行,直至不可再分,成为叶节点为止。,它首先对数据进行处理,利用归纳法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树技术发现数据模式和规则的核心是采用递归分割的贪婪算法。,决策树的基本原理,递归分割的分裂标准,决策树的建立从根节点开始进行分割(对于连续变量将其分段),穷尽搜索各种可能的分割方式,通过分裂标准(通常用结果变量在子节点中变异的减少的多少来作为标准)来决定哪个解释变量做为候选分割变量以及对应的分割点。根节点分割后,子节点会象根节点一样重复分

5、割过程,分割在该子节点下的观测一直到符合某种条件停止分割。,回归树的生成, 数据:N个观测,p个自变量,1个因变量(连续型) 目标:自动地选择分裂变量及其分裂点假设有一个分裂把自变量空间分成M个区域: 在每个区域,我们用一个常数来拟合因变量:,优化目标:误差平方和最小上最优的拟合解为,从根节点开始,考虑一个分裂变量j和分裂点s,得到2个区域: 最优的变量j和分裂点s,要满足对于给定的j和s,最里层的优化问题的解为而对于给定的j,分裂点s很快能找到. 这样,遍历所有的自变量,就能找到最佳的一对j和s.,递归分割-greedy algorithm,剪枝,最大的决策树能对训练集的准确率达到100%,

6、最大的分类树的结果会导致过拟合(对信号和噪声都适应)。因此建立的树模型不能很好的推广到总体中的其他样本数据。同样,太小的决策树仅含有很少的分支,会导致欠拟合。一个好的树模型有低的偏倚和低的方差,模型的复杂性往往在偏倚和方差之间做一个折中,因此要对树进行剪枝。这里介绍cost-complexity pruning。,最大树,决策树能长到每个叶子都是纯的。最大的分类 可以达到100%的准确,最大的回归树残差为0。,恰当的树,先生成一个大的树 考虑一个子树 子树就是由大树进行删减内部节点而得到. 用|T|表示树T 的叶节点(最终节点)的个数. 定义cost complexity criterion:

7、对于每个 ,寻找子树 使得 达到最小. 而 则起到了平衡树的大小和数据拟合好坏的作用. 较大会得到较小的树, 较小则会得到较大的树.,对于每个 ,可以证明存在唯一的最小的子树 使得 达到最小. To find we use weakest link pruning: we successively collapse the internal node that produces the smallest per-node increase in , and continue until we produce the single-node (root) tree. This gives a s

8、equence of subtrees, and this sequence must contains Estimation of is achieved by cross-validation: we choose the value to minimize the cross-validation sum of squares.,这里因变量为分类变量,取值1,2,K 算法的调整主要是在分裂标准上 设区域 包含 个观测,令即第m个节点上class k 观测出现的频率. 把第m个节点上观测分到 class即该节点上的最主流类别.,分类树,回归树里的误差平方和标准不再适用,分类树采用新的标准:

9、 分类错误率: Gini 指数: 信息熵:,决策树应用,决策树有很多的优点,可解释性、计算快捷、缺失值的处理、对于多值名义变量不需要建立哑变量、对输入变量异常值稳健。一些树模型作为最后模型并不合适。它经常作为很多熟悉模型(如回归模型)的辅助工具。标准的回归模型具有线性和可加性。他们需要更多的数据准备阶段:如缺失值的处理、哑变量编码。他们统计计算的有效性严重的被许多不相关和冗余的输入变量影响。,对数据的要求,进行分析时,决策树对变量的量纲的差异、离群值的存在以及有偏分布不太敏感,也就是说对数据准备要求不高。 当每一类的训练样本数较小时,决策树是容易出错的,有好多分支的树或者每个节点有太多枝的树最

10、有可能这样,决策树对输出结果的密度很敏感; 有的研究表明, regression模型样本量选择中,最好各组样本含量大于解释变量数的20倍。,决策树方法之所以经常被选用是因为它能理顺一些可以理解的规则。然而这些能力有时有些夸大,确实对于某一个已经分过类的记录来说,为了产生这种分类,很简单只要沿着从根到叶的路径走就可以了,然而一个较复杂的决策树可能包含成千上万的叶,这么一棵树从整体上很难提供有关问题可以理解的信息。 而回归模型的回归系数具有可解释性,在流行病学研究中,对致病因素的效应,常用一些危险度指标来衡量因素与发病(或死亡)的联系程度或对人群发病的致病作用的大小均可通过拟合该模型得出。,决策树所建立的算法把最胜任的拆分字段变量放在树的根节点(并且同一个字段在树的其他层也可以出现)。在用于预测时,重要的变量会漂浮到树的顶端,这种方式产生的一个有用的结果是使得我们很容易就能发现哪些解释变量最胜任预测工作。也可为regression模型变量的筛选和决策提供指导。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报