分享
分享赚钱 收藏 举报 版权申诉 / 46

类型分类预测-决策树方法..ppt

  • 上传人:Facebook
  • 文档编号:8921881
  • 上传时间:2019-07-16
  • 格式:PPT
  • 页数:46
  • 大小:1MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    分类预测-决策树方法.ppt
    资源描述:

    1、2019/7/16,数据库新技术 (数据挖掘),1 / 34,4. 建立模型之决策树,分类预测的概念 什么是决策树 决策树的核心问题 决策树的生长,模型建立 决策树的修剪 C5.0算法及其应用实例 信息熵和信息增益 修剪算法,2019/7/16,数据库新技术 (数据挖掘),2 / 34,4.1 分类预测概念,目的(通用) 学习模型建立的算法 了解该算法在相应数据挖掘问题中的应用 分类预测的含义 分类预测算法的类型,2019/7/16,数据库新技术 (数据挖掘),3 / 34,4.1 分类预测概念,目的(通用) 分类预测的含义 通过对现有数据的学习建立起拟合数据的模型 利用该模型对未来新数据进行

    2、分类,具备预测能力 分类预测算法的类型,2019/7/16,数据库新技术 (数据挖掘),4 / 34,4.1 分类预测概念,目的(通用) 分类预测的含义 分类预测算法的类型 分析新数据在离散型输出变量上的取值分类决策树 分析新数据在数值型(连续)输出变量上的取值 回归决策树,2019/7/16,数据库新技术 (数据挖掘),5 / 34,聚类、分类和模式识别,聚类 子集划分,把一个集合分割为无交集的子集; 模式分类 标识出样本归属的子集(标签) 模式识别 标识出样本对应的个体(样例)本身,或标识出样本所属子集本身(如考古、物种鉴别等) 【注】样本,只需是个体或集合的特征表示,2019/7/16,

    3、数据库新技术 (数据挖掘),6 / 34,从二分类问题开始,很多问题可以归结为 上课、习题,以及考试都不是目的,只是为一个结果:及格?通过?优秀 看电影:这是好人还是坏人 求职:多项测试之后,决定 喜欢还是不喜欢?满意还是不满意? 研究方向:Major in or out 在上述选择过程中,涉及到多个因素,如何比较不同因素重要性的差别?,2019/7/16,数据库新技术 (数据挖掘),7 / 34,在“虚度的日子”的判别中 最关键的是哪一个因素?,睡眠时间:6/7/8/9/10 成功事例数目:1/2/3 开心指数:快乐、忧伤、愤怒、平淡、无聊 人际交往:有成效、封闭 健康指数:生病、恢复、亚健

    4、康、正常 学思比数:10:1,3:1,2:1,1:2,2019/7/16,数据库新技术 (数据挖掘),8 / 34,基于树型结构的排序算法,树中节点的位置的确定和调整是通过对每一个节点中某个特定域的属性值排序决定, 通常,树中节点都具有该属性 二叉排序树 堆排序 如果树中节点没有现成的公共属性,无法据以比较节点以安排其在生成树中位置,怎么办?,2019/7/16,数据库新技术 (数据挖掘),9 / 34,2. 什么是决策树,决策树来自决策论, 由多个决策分支和可能的结果 (包括资源成本和风险) 组成,用来创建到达目标的规划; A Decision tree is a tree with bra

    5、nching nodes with a choice between two or more choices. 也可以用来表示算法。,分类预测:决策树表示 决策树学习结果:表示为决策树形式的 离散值(布尔)函数; Node, test attributes Branches, values Root Node, first attribute Leaf Nodes, discrete values 决策树的表示?,2019/7/16,数据库新技术 (数据挖掘),10 / 34,两类问题, 右图IF (Outlook = Sunny) (Humidity = High)THEN PlayTenn

    6、is =? IF (Outlook = Sunny) (Humidity = Normal)THEN PlayTennis = ?两步骤求解过程: Training examples: Day Outlook Temp. Humidity Wind Play Tennis D1 Sunny Hot High Weak No D2 Overcast Hot High Strong Yes 1. 归纳推理求得一般性结论(决策树生成学习) 2. 由决策树演绎推理得到新样例对应的结果;,2.1 决策树学习 和分类预测,2019/7/16,数据库新技术 (数据挖掘),11 / 34,决策树生成算法有指导

    7、学习,样本数据中既包含输入字段、也包含输出字段 学习阶段,生成决策树模型 基于特定属性值比较,放置样本在生成树上 修剪生成树的特定算法 分类预测阶段,判断分类结果 基于逻辑,即通过对输入字段取值的布尔逻辑比较实现对输出变量的(分类)值的预测,2019/7/16,数据库新技术 (数据挖掘),12 / 34,决策树分类算法基于逻辑,样本数据中既包含输入字段、也包含输出字段 学习阶段,生成决策树模型 分类预测阶段,判断分类结果 基于逻辑,即通过对输入字段取值的布尔逻辑比较实现对输出变量的(分类)值的预测 每个叶子节点对应一条推理规则,作为对新的数据对象进行分类预测的依据。,2019/7/16,数据库

    8、新技术 (数据挖掘),13 / 34,3. 决策树的核心问题,决策树的生成对训练样本进行分组 关键,确定树根节点和分支准则 停止生长时机 决策树的修剪解决过度拟合问题 预先修剪,限值决策树的充分生长,如:限制树的高度 滞后修剪,待决策树充分生长完毕后再进行修剪 当节点和分支数较多时,显然不合适,2019/7/16,数据库新技术 (数据挖掘),14 / 34,3.1 决策树表示法,决策树 通过把样本从根节点排列到某个叶子节点来分类样本 叶子节点即为样本所属的分类 树上每个节点说明了对样本的某个属性的测试, 如:湿度 节点的每个后继分支对应于该属性的一个可能值, High 决策树代表样本的属性值约

    9、束的合取的析取式,2019/7/16,数据库新技术 (数据挖掘),15 / 34,决策树例图的逻辑表达式,决策树代表实例属性值约束的合取的析取式。 从树根到树叶的每一条路径对应一组属性测试的合取 树本身对应这些合取的析取。(Outlook=Sunny Humidity=High) (Outlook=Sunny Humidity=Normal) (Outlook=Overcast) (Outlook=Rain Wind=Weak) (Outlook=Rain Wind=Strong),注意:右面的决策树中没有Temperature (温度)属性;而Outlook的属性值有三个。,2019/7/1

    10、6,数据库新技术 (数据挖掘),16 / 34,3.2 决策树学习的适用问题,适用问题的特征 实例由“属性-值”对表示(传统的数据库记录属性) 目标函数具有离散的输出值 可能需要析取的描述 训练数据可以包含错误/训练数据可以包含缺少属性值的实例 问题举例 分类问题 核心任务是把新(旧)样例分派到各可能的离散值对应的类别,2019/7/16,数据库新技术 (数据挖掘),17 / 34,3.2 决策树方法的适用问题,适用问题的特征 问题举例 根据疾病分类患者/根据起因分类设备故障 根据拖欠支付的可能性分类贷款申请(是否拒绝) 根据人员分类情形更新数据库记录数据创新点?大型稀疏库 分类问题 核心任务

    11、是把新(旧)样例分派到各可能的离散值对应的类别,2019/7/16,数据库新技术 (数据挖掘),18 / 34,4. C5.0算法,大多数决策树学习算法是一种核心算法的变体 采用自顶向下的贪婪搜索 遍历 可能的决策树空间 ID3 Iterative Dichotomiser 3是这种算法的代表, ID3C4.5C5.0 如何安排节点在树中的顺序 树(堆)结构排序,需要树中节点具有相同属性,比较其属性值大小;而后移动节点 如何定义这个可以在决策树中进行比较的属性? 换言之,该属性测度如何计算以便于比较?,2019/7/16,数据库新技术 (数据挖掘),19 / 34,4.1 ID3算法,算法思想

    12、:如何安排节点在树中的顺序 自顶向下构造决策树 从“哪一个属性将在树的根节点被测试”开始? 使用统计测试来确定每一个实例属性单独分类 训练样例的能力 ID3的算法执行过程 对样例集合S 分类能力最好的属性被选作树的根节点 根节点的每个可能值产生一个分支 训练样例排列到适当的分支 重复上面的过程,直到训练样例被安排到适当的叶子上确定对应的分类,2019/7/16,数据库新技术 (数据挖掘),20 / 34,4.1.1 最佳分类属性,信息增益 用来衡量给定的属性区分训练样例的能力,中间(间接)表示属性 ID3算法在生成 树 的每一步使用信息增益从候选属性中选择属性 用熵度量样例的均一性,2019/

    13、7/16,数据库新技术 (数据挖掘),21 / 34,4.1.1 最佳分类属性,信息增益 用熵度量样例的均一性 熵刻画了任意样例集合 S 的纯度 给定包含关于某个目标概念的正反样例的样例集S,那么 S 相对这个布尔型分类(函数)的熵为信息论中对熵的一种解释:熵确定了要编码集合S中任意成员的分类所需要的最少二进制位数;熵值越大,需要的位数越多。 更一般地,如果目标属性具有c个不同的值,那么 S 相对于c个状态的分类的熵定义为,2019/7/16,数据库新技术 (数据挖掘),22 / 34,4.1.1 最佳分类属性(2),用信息增益度量熵的降低程度 属性A 的信息增益,使用属性A分割样例集合S 而

    14、导致的熵的降低程度Gain (S, A)是 在知道属性A的值后可以节省的二进制位数 例子,注意是对当前样例集合计算上式,2019/7/16,数据库新技术 (数据挖掘),23 / 34,PlayTennis的14个训练样例,2019/7/16,数据库新技术 (数据挖掘),24 / 34,当前样例集合中的最佳分类属性,Gain (S, Outlook)=0.246,Gain (S, Temperature)=0.029,2019/7/16,数据库新技术 (数据挖掘),25 / 34,然后呢?,类别值较多的输入变量更容易成为当前最佳 GainsR(U,V)=Gains(U,V)/Entropy(V)

    15、 是不是再比较剩余的几个信息增益值?应该怎么办? 注意决策树每个分支上属性间的关系,2019/7/16,数据库新技术 (数据挖掘),26 / 34,根节点的左右孩子顺序,全正例、全负例,2019/7/16,数据库新技术 (数据挖掘),27 / 34,用于学习布尔函数的ID3算法概要,ID3(Examples, Target_attribute, Attributes) 创建树的root节点,整棵树的指针 如果Examples都为正,返回label=+的单节点树root; %原因在例子中说明 如果Examples都为反,返回label=-的单节点树root 如果Attributes为空,那么返回

    16、单节点root,label=Examples中最普遍的Target_attribute值 否则开始 AAttributes中分类examples能力最好的属性 root的决策属性A 对于A的每个可能值vi(当前子树,根节点的每一个孩子节点) 在root下加一个新的分支对应测试A=vi 令Examplesvi为Examples中满足A属性值为vi的子集 如果Examplesvi为空 在这个新分支下加一个叶子节点,节点的label=Examples中最普遍的Target_attribute值 否则在新分支下加一个子树ID3( Examplesvi,Target_attribute,Attribut

    17、es-A) 结束 返回root,2019/7/16,数据库新技术 (数据挖掘),28 / 34,ID3算法举例, 继续这个过程, 直到满足以下两个条件中的任一个 所有的属性已经被这条路经包括 与这个节点关联的所有训练样例都具有相同的目标属性值,2019/7/16,数据库新技术 (数据挖掘),29 / 34,Entropy and Information Gain,这个信息增益到底怎么来的? 在信息论中信息增益是什么含义? 二者存在确定的关系吗?譬如:等价;提示: 不是从Y到X的信息增益 而是从p(x) p(y)到p(x, y)的信息增益 Pattern recognition and mach

    18、ine learning pp:4858,2019/7/16,数据库新技术 (数据挖掘),30 / 34,决策树学习中的假设空间搜索,观察ID3的搜索空间和搜索策略,认识到这个算法的优势和不足 在假设空间中搜索一个拟合训练样例的最优假设 假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间,避免(有偏的)不完备假设空间不含目标假设的问题 维护单一的当前假设,不顾其它假设, 前向策略 不进行回溯,可能收敛到局部最优 每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强,2019/7/16,数据库新技术 (数据挖掘),31 / 34,决策树学习的深入话题,

    19、决策树学习的实际问题 确定决策树增长的深(高)度 处理连续值的属性 选择一个适当的属性筛选度量标准 处理属性值不完整的训练数据 处理不同代价的属性 提高计算效率 http:/ 为解决这些问题,ID3被扩展成C4.5,2019/7/16,数据库新技术 (数据挖掘),32 / 34,4.2 C4.5的修剪算法,滞后修剪 将生成树转换成规则再修剪,自己阅读 从叶子节点向上逐层修剪 误差估计,在训练样本集上估计误差 通常,估计生成的决策树在测试集上的预测误差 修剪标准 修剪示例,2019/7/16,数据库新技术 (数据挖掘),33 / 34,4.2.1 避免过度拟合数据,过度拟合 对于一个假设h,如果

    20、存在其他的假设对训练样例的拟合比它差,但在实例的整个分布上却表现得更好时,我们说这个假设h过度拟合训练样例 定义:给定一个假设空间H,一个假设hH,如果存在其他的假设hH,使得在训练样例上h的错误率比h小,但在整个实例分布上h的错误率比h小,那么就说假设h过度拟合训练数据。 图3-6的例子 ,说明树的尺寸(节点数)对测试精度和训练精度的影响避免过度拟合必须控制树尺寸!,2019/7/16,数据库新技术 (数据挖掘),34 / 34,Overfitting,2019/7/16,数据库新技术 (数据挖掘),35 / 34,避免过度拟合必须控制树尺寸,High accuracy, small err

    21、orLow accuracy, big error,2019/7/16,数据库新技术 (数据挖掘),36 / 34,避免过度拟合数据(2),导致过度拟合的原因 一种可能原因是训练样例含有随机噪声 当训练数据没有噪声时,过度拟合也有可能发生,特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系。,2019/7/16,数据库新技术 (数据挖掘),37 / 34,避免过度拟合数据(3),避免过度拟合的方法 及早停止树增长 后修剪法 两种方法的特点 第一种方法更直观,但是 精确地估计何时停止树增长很困难 第二种方法被证明在实践中

    22、更成功,2019/7/16,数据库新技术 (数据挖掘),38 / 34,避免过度拟合数据(4),避免过度拟合的关键 使用什么样的准则来计算最终决策树的尺寸 解决方法 使用与训练样例不同的一套分离的样例来评估 通过后修剪方法从树上修剪节点的效用。 使用所有可用数据进行训练,但进行统计测试来估计扩展(或修剪)一个特定的节点是否有可能改善在训练集合外的实例上的性能。 使用一个显式的标准来测度训练样例和决策树的编码复杂度,当这个测度最小时停止树增长。,2019/7/16,数据库新技术 (数据挖掘),39 / 34,避免过度拟合数据(5),方法评述 第一种方法是最普通的,常被称为训练和验证集法 可用的数

    23、据分成两个样例集合: 训练集合,形成学习到的假设 验证集合,评估这个假设在后续数据上的精度 方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动 验证集合应该足够大,以便它本身可提供具有统计意义的实例样本。 常见的做法是,样例的三分之二作训练集合, 三分之一作验证集合。,2019/7/16,数据库新技术 (数据挖掘),40 / 34,4.2.1 C5.0决策树的误差估计,针对决策树的每个节点,以输出变量的众数类别为预测类别; 设第i个节点包含Ni个观测样本值,有Ei个预测错误的观测,错误率,即误差 在误差近似正态分布的假设下,对第i个节点的真实误差 进行区间估计,

    24、置信度定位1- ,有悲观估计:,2019/7/16,数据库新技术 (数据挖掘),41 / 34,4.2.2 C5.0决策树的修剪标准,在误差估计的基础上,依据“减少误差”法判断是否修剪节点; 计算待剪子树中叶子节点的加权误差与父节点的误差进行比较 父节点的误差较小,则剪掉该子树 父节点的误差较大,保留该子树,2019/7/16,数据库新技术 (数据挖掘),42 / 34,修剪节点、降低错误率,将树上的每一个节点作为修剪的候选对象 修剪步骤 删除以此节点为根的子树,使它成为叶结点 把和该节点关联的训练样例的最常见分类赋给它 反复修剪节点,每次总是选取那些删除后可以 最大程度提高决策树在验证集合上

    25、的精度的节点 继续修剪,直到进一步的修剪是有害的为止 数据分成3个子集 训练样例,形成决策树 验证样例,修剪决策树 测试样例,精度的无偏估计 如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪,2019/7/16,数据库新技术 (数据挖掘),43 / 34,(C4.5)规则后修剪,从训练集合生成决策树,尽可能好地拟合训练数据,允许过度拟合发生 将决策树转化为等价的规则集合,对每一条从根节点到叶节点的路径创建一条规则 通过删除(泛化)前件来修剪每一条规则, 前提是该删除(泛化)能提高规则的估计精度 按照修剪后的规则的估计精度对规则排序,并按这样的顺序应用这些规则来分类新实例,2019/7

    26、/16,数据库新技术 (数据挖掘),44 / 34,(C4.5)规则后修剪,例子 右图的最左一条路径 if (outlook=sunny)(Humidity=High) then PlayTennis=No 考虑删除前件(outlook=sunny)和(Humidity=High) 选择使估计精度有最大提升的步骤 考虑修剪第二个前件,2019/7/16,数据库新技术 (数据挖掘),45 / 34,规则后修剪,规则精度估计方法 使用与训练集不相交的验证集 基于训练集合本身 被C4.5使用,使用一种保守估计来弥补训练数据有利于当前规则的估计偏置 过程 先计算规则在它应用的训练样例上的精度 然后假定此估计精度为二项式分布,并计算它的标准差 对于一个给定的置信区间,采用下界估计作为规则性能的度量 评论 对于大的数据集,保守预测非常接近观察精度,随着数据集合的减小,离观察精度越来越远 不是统计有效,但是实践中发现有效,2019/7/16,数据库新技术 (数据挖掘),46 / 34,规则后修剪,把决策树转化成规则集的好处 可以区分决策节点使用的不同上下文 消除了根节点附近的属性测试和叶节点附近的属性测试的区别 提高了可读性,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:分类预测-决策树方法..ppt
    链接地址:https://www.docduoduo.com/p-8921881.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开