收藏 分享(赏)

第9章-预测建模:分类和回归.ppt

上传人:天天快乐 文档编号:967937 上传时间:2018-05-09 格式:PPT 页数:52 大小:1.13MB
下载 相关 举报
第9章-预测建模:分类和回归.ppt_第1页
第1页 / 共52页
第9章-预测建模:分类和回归.ppt_第2页
第2页 / 共52页
第9章-预测建模:分类和回归.ppt_第3页
第3页 / 共52页
第9章-预测建模:分类和回归.ppt_第4页
第4页 / 共52页
第9章-预测建模:分类和回归.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

1、2018/5/9,1,五邑大学计算机学院何国辉,数据仓库与数据挖掘 Data Warehouse and Data Mining,2018/5/9,2,数据仓库与数据挖掘 Data Warehouse and Data Mining第九章 预测建模:分类和回归,2018/5/9,3,数据挖掘的任务:除模式挖掘以外,还包括描述建模和预测建模。预测建模的目的是建立一个模型,该模型允许人们根据已知的属性值来预测其它某个未知的属性值。当被预测的属性是范畴型时称为分类。当被预测的属性是数量型时称为回归。,9.0 基本概念,2018/5/9,4,在预测模型中,一个变量被表达成其它变量的函数。预测建模的过程

2、可以看作是学习一种映射或函数Y=f(X;)。其中f是模型结构的函数表达式,是f中的未知参数,X称为输入量,是一个p维向量,代表观察到的对象的p的属性值。Y通常被称为响应变量,代表预测的结果。如果Y是数量型变量,则学习从向量X到Y的映射的过程称为回归。如果Y是范畴型变量,则称之为分类。,9.1 预测建模简介,2018/5/9,5,预测建模的训练数据由n对(X,Y)组成。预测建模的过程就是根据训练数据拟合出模型Y=f(X;)。模型中的拟合过程由以下几步组成:确定模型f的结构。确定参数的值。值是通过在数据集上最小化(或最大化)一个评分函数确定的。如何搜素最佳值涉及到优化问题。,9.1 预测建模简介(

3、续),2018/5/9,6,9.1.1 用于预测的模型结构,人们通常事先并不知道f(X;)的形式,为f选择一个合适的函数形式是非常具有挑战性的工作。,2018/5/9,7,1. 用于回归的模型,主要包括:线性回归模型非线性回归模型分段线性模型,2018/5/9,8,(1) 线性回归模型,是最简单的回归模型。在这种模型中,响应变量Y是输入变量X的线性函数,即:=a0+a1X1+a2X2+.+apXp。其中:Xi(0ip)是输入向量X的分量,模型的参数=a0,a1,a2,.,ap代表模型的预测值,而Y代表实际观察到的值。拟合的质量由预测值和实际值Y之间的差来衡量。,2018/5/9,9,(1) 线

4、性回归模型(续),2018/5/9,10,(2) 非线性回归模型,通过在基本的线性回归模型上添加多项式项,可以得到非线性回归模型。几何意义:多维空间中的一个超曲面。举例:一个三次多项式回归模型:=a0+a1X1+a2X22+a3X33,2018/5/9,11,(2) 非线性回归模型(续),通过对变量进行变换,可以将非线性模型转换成线性的。令Z1=X1,Z2=X22,Z3=X33,可以将上述三次多项式回归模型转换成线性形式,结果为:=a0+a1Z1+a2Z2+a3Z3将线性模型扩展到非线性模型提高了模型的复杂度。线性模型是非线性模型的特例。,2018/5/9,12,(3) 分段线性模型,响应变量

5、Y是输入向量X的局部线性函数,该模型在p维空间的不同区域具有不同的函数形式。是基本的线性回归模型进行扩展的方法。当p=1时,该模型表示由k个不同的线段逼近的一条曲线。当p1时,该模型表示由多个超平面逼近的一个曲面。,2018/5/9,13,2. 用于分类的预测模型,主要有两种:判别模型概率模型,2018/5/9,14,(1) 判别模型,判别模型的输入是输入向量X,输出是响应变量Y。Y的取值为C1,C2,.,Cm,其中Ci表示类别。目的:只要知道各个类别的决策区域,根据输入向量X的取值,就可以确定响应变量Y的值,实现分类预测。,2018/5/9,15,(1) 判别模型(续),举例:当X的取值介于

6、0和a之间时,Y的取值为C1;X的取值介于a和b之间时,Y的取值为C2;X的取值大于b时,Y的取值为C3。,2018/5/9,16,(1) 判别模型(续),回归模型与判别模型比较在回归模型中,模型的函数形式表示的是Y如何与X关联,响应变量Y代表和第p+1维,关心的重点是输入X时Y的取值是什么。在判别分类中,响应变量Y同样代表和第p+1维,但它的取值早已确定,是C1、C2、.、Ck中的一个。在实际的分类问题中,类别之间的边界是不可能那么清晰的。,2018/5/9,17,(2) 概率模型,分类的概率建模是要针对每一个类别Ci估计一种分布或密度函数(X|Ci,i),其中i是该函数的参数,它反映了Ci

7、类的主要特征。如果各个均值离得足够远,而且方差足够小,则各个类在输入空间中可以被很好地分割开来,从而使得分类的准确性最高。主要代表:贝叶斯分类方法。,2018/5/9,18,9.1.2 用于预测的评分函数,给定训练数据D=(X(1),Y(1)),(X(2),Y(2)),.,(X(n),Y(n)),令(i)为模型f(X;)使用参数值根据输入向量X(i)做出的预测值,则评分函数应该为预测值(i)与实际值Y(i)间差值的函数。,2018/5/9,19,9.1.2 用于预测的评分函数(续),几种评分函数:对于回归,普遍使用的评分函数-误差平方和。对于分类,普遍使用的是-误分类率。 其中,当 时, ,否

8、则等于1。,2018/5/9,20,9.1.3 用于预测的搜索和优化策略,搜索和优化的目标是:确定预测模型f(X;)的形式f及其参数值,以使评分函数达到最小值(或最大值)常用的优化方法:爬山法、最陡峭下降法、期望最大化法。常用的搜索方法:贪婪搜索法、分支界定法、宽度(深度)优先遍历法等。,2018/5/9,21,决策树分类属于判别模型。决策树分类的主要任务是要确定各个类别的决策区域。在决策树分类模型中,不同类别之间的边界通过一个树状结构来表示。,9.2 决策树分类,2018/5/9,22,举例:下图给出了一个商业上使用的决策树的例子。它表示了一个关心电子产品的用户是否会购买PC(buys_co

9、mputer)的知识,用它可以预测某条记录(某个人)的购买意向。,9.2 决策树分类(续),2018/5/9,23,其中:内部节点(方形框)代表对记录中某个属性的一次测试,叶子节点(椭圆形框)代表一个类别。,9.2 决策树分类(续),2018/5/9,24,用决策树进行分类的步骤:第一步,利用训练集建立一棵决策树,得到一个决策树分类模型。第二步,利用生成的决策树对输入数据进行分类。对于输入的记录,从根节点依次测试记录的属性值,直至到达某个叶子节点,从而找到该记录所属的类别。,9.2 决策树分类(续),2018/5/9,25,构造决策树是采用自上而下的递归构造方法。以多叉树为例,如果一个训练数据

10、集中的数据有几种属性值,则按照属性的各种取值把这个训练数据集再划分为对应的几个子集(分支),然后再依次递归处理各个子集。反之,则作为叶结点。问题的关键是建立一棵决策树。这个过程通常分为两个阶段:建树(Tree Building):决策树建树算法见下,这是一个递归的过程,最终将得到一棵树。剪枝(Tree Pruning):剪枝的目的是降低由于训练集存在噪声而产生的起伏。,9.2 决策树分类(续),2018/5/9,26,9.2.1 建树阶段,递归处理过程采用分而治之的方法。通过不断地将训练样本划分成子集来构造决策树。假设给定的训练集T总共有m个类别,则针对T构造决策树时,会出现以下三种情况:如果

11、T中所有样本的类别相同,那么决策树只有一个叶子节点。如果T中没有可用于继续分裂的变量,则将T中出现频率最高的类别作为当前节点的类别。如果T包含的样本属于不同的类别,根据变量选择策略,选择最佳的变量和划分方式将T分为几个子集T1、T2、.、Tk,每个数据子集构成一个内部节点。,2018/5/9,27,9.2.1 建树阶段(续),对于某个内部节点继续进行判断,重复上述操作,直到满足决策树的终止条件为止。终止条件是:节点对应的所有样本属于同一个类别,或者T中没有可用于进一步分裂的变量。,2018/5/9,28,9.2.1 建树阶段(续),决策树构建算法:输入:训练集T,输入变量集A,目标(类别)变量

12、Y输出:决策树TreeGenerate_decision_tree(T,A,Y)1;如果T为空,返回出错信息;2;如果T的所有样本都属于同一个类别C,则用C标识当前节点并返回;,2018/5/9,29,9.2.1 建树阶段(续),3;如果没有可分的变量,则用T中出现频率最高的类别标识当前节点并返回;4;根据变量选择策略选择最佳变量X将T分为k个子集(T1、T2、.、Tk);如何选择分裂变量呢?5;用X标识当前节点;6;对T的每个子集Ti,生成新节点:7;NewNode=Generate_decision_tree(Ti,A-X,Y)8;生成一个分枝,该分枝由节点X指向NewNode;9;返回当

13、前节点。,2018/5/9,30,9.2.1 建树阶段(续),有两种比较流行的分裂变量选择方法:信息增益(Information Gain):指标的原理来自于信息论。1948年,香农(C. E. Shannon)提出了信息论。其中给出了关于信息量(Information)和熵(Entropy)的定义,熵实际上是系统信息量的加权平均,也就是系统的平均信息量。增益比(Gain_ratio),2018/5/9,31,1. 信息增益,由Quinlan在80年代中期提出的ID3算法是分类规则挖掘算法中最有影响的算法。该算法提出了使用信息增益作为衡量节点分裂质量的标准。信息增益最大的变量被认为是最佳的分裂

14、变量。,2018/5/9,32,1. 信息增益(续),计算信息增益的思路:首先计算不考虑任何输入变量的情况下,要确定T中任一样本所属类别需要的信息Info(T);计算引入每个输入变量X后,要确定T中任一样本所属类别需要的信息Info(X,T);计算两者的差Info(T)-Info(X,T),此即为变量X的信息增益,记为Gain(X,T)。,2018/5/9,33,1. 信息增益(续),计算熵Info(T) 如果不考虑任何输入变量,而将训练集T中的所有样本仅按照响应变量Y的值分到m个不相交的类别C1、C2、.、Cm的话,要确定任一样本所属的类别需要的信息为:,以2为底的原因是:信息按二进制位编码

15、,2018/5/9,34,1. 信息增益(续),计算熵Info(X,T) 如果考虑某个输入变量X,将训练集T按照X的值划分为n个子集T1、T2、.、Tn的话,要确定T中任一样本所属的类别需要的信息为: 其中: 注:Sj为Tj中属于类别Cj的样本子集。,2018/5/9,35,1. 信息增益(续),计算增益Gain(X,T) Gain(X,T)=Info(T)-Info(X,T) 所有变量的信息增益计算完后,可以根据信息增益的大小多所有输入变量进行排序,优先使用信息增益大的变量。,2018/5/9,36,1. 信息增益(续),举例:本例将如下表数据作为训练集。,2018/5/9,37,1. 信息

16、增益(续),2018/5/9,38,1. 信息增益(续),其中:有9个样本属于类1,有5个样本属于类2。因此分区前的熵为: Info(T) -9/14.log2(9/14) -5/14.log2(5/14) = 0.940比特,2018/5/9,39,1. 信息增益(续),根据属性1把初始样本集分区成3个子集(检验x1表示从3个值A,B或C中选择其一)后,得出结果: Infox1(T)5/14(-2/5 log2(2/5) -3/5 log2(3/5) ) + 4/14(-4/4 log2(4/4) -0/4 log2(0/4) ) + 5/14(-3/5 log2(3/5) -2/5 log

17、2(2/5) ) =0.694比特通过检验x1获得的信息增益是: Gain(x1) = 0.940 0.694 = 0.246比特,2018/5/9,40,1. 信息增益(续),类似地,根据属性3检验x2表示从真或假两个值选择其一),类似地有:Info x2(T)6/14(-3/6 log2(3/6) -3/6 log2(3/6) ) + 8/14(-6/8 log2(6/8) -2/8 log2(2/8) )=0.892比特通过检验x2获得的信息增益是: Gain(x2) = 0.940 0.892 = 0.048比特,2018/5/9,41,1. 信息增益(续),依次类推,计算出其它属性获

18、得的增益。通过获得的两个增益比较,按照增益准则,将选择x1作为分区数据库T的最初检验(作为根节点创建)。为了求得最优检验还必须分析关于属性2的检验,它是连续取值的数值型属性。ID3算法无法解决数值型属性,需要通过其改进型-C4.5算法。,2018/5/9,42,1. 信息增益(续),T1,检验X1:属性1=?,T2,T3,A,B,C,叶结点,根据属性1进行数据集划分,2018/5/9,43,1. 信息增益(续),在得到前面的第一次划分以后,再分别对划分后的T1、T2、T3三个子集继续分裂。其中T2对应的数据子集都属于同一个类别类1,无需继续分裂。,2018/5/9,44,1. 信息增益(续),

19、结合C4.5算法后,得到的决策树。,2018/5/9,45,1. 信息增益(续),决策树可以用伪代码的形式表示,这种伪代码用IF-THEN结构对决策树进行分枝。,If 属性1 = Athen if 属性2=70then 类别 = 类1;else 类别 = 类2;Else if 属性1 = B then类别 = 类1;else if 属性1 = C thenif 属性3 = 真 then类别 = 类2;else类别 = 类1.,结果,2018/5/9,46,2. 增益比,信息增益作为分裂变量选择标准时,比较倾向于选择那些取值比较多且均匀的变量,如:产品号、顾客号等。即:增益标准对紧凑型决策树的构

20、造有很好的效果,但也存在一个严重缺陷:对具有多输出的检验有严重的偏差。Quinlan在1993年对ID3算法进行了改进,提出了一种新的决策树分类算法C4.5。,2018/5/9,47,2. 增益比(续),C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2) 在树构造过程中进行剪枝;3) 能够完成对连续属性的离散化处理;4) 能够对不完整数据进行处理。,2018/5/9,48,2. 增益比(续),解决方法:根据info(S)的定义,指定一个附加的参数:其中:T1,T2,.,Tn为按照变量

21、X的值对T进行划分后的子集。含义:通过把集T分区成n个子集Ti而生成的潜在信息。 新的增益标准-增益率: Gain_ratio(X) = Gain(X)/ Split_Info (X),2018/5/9,49,2. 增益比(续),根据前面实例,求检验X1的增益比例。计算Split_Info (X1) Split_Info(X1) -5/14log2(5/14)-4/14 log2(4/14) -5/14 log2(5/14) =1.577比特计算Gain_ratio(X1) Gain_ratio(X1) = 0.246/1.577 = 0.156检验过程,将采用最大增益率代替增益标准值。,20

22、18/5/9,50,9.2.2 剪枝阶段,决策树的构造过程决定了它是与训练集中的数据完全拟合的。如果训练集中不存在噪声,按这种策略所生成的决策树准确度比较高。在实际情况下,往往存在噪声,完全拟合导致“过学习”的结果。所谓“过学习”,就是由于一些不具有代表性的特征也被反映到模型中。克服“过学习”问题通常采用的方法就是剪枝,即用一个叶子结点来替代一棵子树。,2018/5/9,51,9.2.2 剪枝阶段(续),剪枝常常利用统计学方法,去掉最不可靠、可能是噪音的一些枝条。提供两种基本的剪枝策略:子树替代法:用叶结点替代子树。子树上升法:用一棵子树中最常用的子树来代替这棵子树。结果:最终生成一个更简单、更容易理解的树,2018/5/9,52,下课了。,休息一会儿。,追求,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报