第9章-预测建模：分类和回归.ppt-道客多多

资源描述

1、2018/5/9,1,五邑大学计算机学院何国辉,数据仓库与数据挖掘 Data Warehouse and Data Mining,2018/5/9,2,数据仓库与数据挖掘 Data Warehouse and Data Mining第九章预测建模：分类和回归,2018/5/9,3,数据挖掘的任务：除模式挖掘以外，还包括描述建模和预测建模。预测建模的目的是建立一个模型，该模型允许人们根据已知的属性值来预测其它某个未知的属性值。当被预测的属性是范畴型时称为分类。当被预测的属性是数量型时称为回归。,9.0 基本概念,2018/5/9,4,在预测模型中，一个变量被表达成其它变量的函数。预测建模的过程

2、可以看作是学习一种映射或函数Y=f（X；）。其中f是模型结构的函数表达式，是f中的未知参数，X称为输入量，是一个p维向量，代表观察到的对象的p的属性值。Y通常被称为响应变量，代表预测的结果。如果Y是数量型变量，则学习从向量X到Y的映射的过程称为回归。如果Y是范畴型变量，则称之为分类。,9.1 预测建模简介,2018/5/9,5,预测建模的训练数据由n对（X，Y）组成。预测建模的过程就是根据训练数据拟合出模型Y=f（X；）。模型中的拟合过程由以下几步组成：确定模型f的结构。确定参数的值。值是通过在数据集上最小化（或最大化）一个评分函数确定的。如何搜素最佳值涉及到优化问题。,9.1 预测建模简介（

3、续）,2018/5/9,6,9.1.1 用于预测的模型结构,人们通常事先并不知道f（X；）的形式，为f选择一个合适的函数形式是非常具有挑战性的工作。,2018/5/9,7,1. 用于回归的模型,主要包括：线性回归模型非线性回归模型分段线性模型,2018/5/9,8,（1）线性回归模型,是最简单的回归模型。在这种模型中，响应变量Y是输入变量X的线性函数，即：=a0+a1X1+a2X2+.+apXp。其中：Xi（0ip）是输入向量X的分量，模型的参数=a0，a1，a2，.，ap代表模型的预测值，而Y代表实际观察到的值。拟合的质量由预测值和实际值Y之间的差来衡量。,2018/5/9,9,（1）线

4、性回归模型（续）,2018/5/9,10,（2）非线性回归模型,通过在基本的线性回归模型上添加多项式项，可以得到非线性回归模型。几何意义：多维空间中的一个超曲面。举例：一个三次多项式回归模型：=a0+a1X1+a2X22+a3X33,2018/5/9,11,（2）非线性回归模型（续）,通过对变量进行变换，可以将非线性模型转换成线性的。令Z1=X1，Z2=X22，Z3=X33，可以将上述三次多项式回归模型转换成线性形式，结果为：=a0+a1Z1+a2Z2+a3Z3将线性模型扩展到非线性模型提高了模型的复杂度。线性模型是非线性模型的特例。,2018/5/9,12,（3）分段线性模型,响应变量

5、Y是输入向量X的局部线性函数，该模型在p维空间的不同区域具有不同的函数形式。是基本的线性回归模型进行扩展的方法。当p=1时，该模型表示由k个不同的线段逼近的一条曲线。当p1时，该模型表示由多个超平面逼近的一个曲面。,2018/5/9,13,2. 用于分类的预测模型,主要有两种：判别模型概率模型,2018/5/9,14,（1）判别模型,判别模型的输入是输入向量X，输出是响应变量Y。Y的取值为C1，C2，.，Cm，其中Ci表示类别。目的：只要知道各个类别的决策区域，根据输入向量X的取值，就可以确定响应变量Y的值，实现分类预测。,2018/5/9,15,（1）判别模型（续）,举例：当X的取值介于

6、0和a之间时，Y的取值为C1；X的取值介于a和b之间时，Y的取值为C2；X的取值大于b时，Y的取值为C3。,2018/5/9,16,（1）判别模型（续）,回归模型与判别模型比较在回归模型中，模型的函数形式表示的是Y如何与X关联，响应变量Y代表和第p+1维，关心的重点是输入X时Y的取值是什么。在判别分类中，响应变量Y同样代表和第p+1维，但它的取值早已确定，是C1、C2、.、Ck中的一个。在实际的分类问题中，类别之间的边界是不可能那么清晰的。,2018/5/9,17,（2）概率模型,分类的概率建模是要针对每一个类别Ci估计一种分布或密度函数（X|Ci，i），其中i是该函数的参数，它反映了Ci

7、类的主要特征。如果各个均值离得足够远，而且方差足够小，则各个类在输入空间中可以被很好地分割开来，从而使得分类的准确性最高。主要代表：贝叶斯分类方法。,2018/5/9,18,9.1.2 用于预测的评分函数,给定训练数据D=（X(1)，Y(1)），（X(2)，Y(2)），.，（X(n)，Y(n)），令（i）为模型f（X；）使用参数值根据输入向量X(i)做出的预测值，则评分函数应该为预测值（i）与实际值Y(i)间差值的函数。,2018/5/9,19,9.1.2 用于预测的评分函数（续）,几种评分函数：对于回归，普遍使用的评分函数-误差平方和。对于分类，普遍使用的是-误分类率。其中，当时，，否

8、则等于1。,2018/5/9,20,9.1.3 用于预测的搜索和优化策略,搜索和优化的目标是：确定预测模型f（X；）的形式f及其参数值，以使评分函数达到最小值（或最大值）常用的优化方法：爬山法、最陡峭下降法、期望最大化法。常用的搜索方法：贪婪搜索法、分支界定法、宽度（深度）优先遍历法等。,2018/5/9,21,决策树分类属于判别模型。决策树分类的主要任务是要确定各个类别的决策区域。在决策树分类模型中，不同类别之间的边界通过一个树状结构来表示。,9.2 决策树分类,2018/5/9,22,举例：下图给出了一个商业上使用的决策树的例子。它表示了一个关心电子产品的用户是否会购买PC（buys_co

9、mputer）的知识，用它可以预测某条记录（某个人）的购买意向。,9.2 决策树分类（续）,2018/5/9,23,其中：内部节点（方形框）代表对记录中某个属性的一次测试，叶子节点（椭圆形框）代表一个类别。,9.2 决策树分类（续）,2018/5/9,24,用决策树进行分类的步骤：第一步，利用训练集建立一棵决策树，得到一个决策树分类模型。第二步，利用生成的决策树对输入数据进行分类。对于输入的记录，从根节点依次测试记录的属性值，直至到达某个叶子节点，从而找到该记录所属的类别。,9.2 决策树分类（续）,2018/5/9,25,构造决策树是采用自上而下的递归构造方法。以多叉树为例，如果一个训练数据

10、集中的数据有几种属性值，则按照属性的各种取值把这个训练数据集再划分为对应的几个子集（分支），然后再依次递归处理各个子集。反之，则作为叶结点。问题的关键是建立一棵决策树。这个过程通常分为两个阶段：建树（Tree Building）：决策树建树算法见下，这是一个递归的过程，最终将得到一棵树。剪枝（Tree Pruning）：剪枝的目的是降低由于训练集存在噪声而产生的起伏。,9.2 决策树分类（续）,2018/5/9,26,9.2.1 建树阶段,递归处理过程采用分而治之的方法。通过不断地将训练样本划分成子集来构造决策树。假设给定的训练集T总共有m个类别，则针对T构造决策树时，会出现以下三种情况：如果

11、T中所有样本的类别相同，那么决策树只有一个叶子节点。如果T中没有可用于继续分裂的变量，则将T中出现频率最高的类别作为当前节点的类别。如果T包含的样本属于不同的类别，根据变量选择策略，选择最佳的变量和划分方式将T分为几个子集T1、T2、.、Tk，每个数据子集构成一个内部节点。,2018/5/9,27,9.2.1 建树阶段（续）,对于某个内部节点继续进行判断，重复上述操作，直到满足决策树的终止条件为止。终止条件是：节点对应的所有样本属于同一个类别，或者T中没有可用于进一步分裂的变量。,2018/5/9,28,9.2.1 建树阶段（续）,决策树构建算法：输入：训练集T，输入变量集A，目标（类别）变量

12、Y输出：决策树TreeGenerate_decision_tree（T，A，Y）1；如果T为空，返回出错信息；2；如果T的所有样本都属于同一个类别C，则用C标识当前节点并返回；,2018/5/9,29,9.2.1 建树阶段（续）,3；如果没有可分的变量，则用T中出现频率最高的类别标识当前节点并返回；4；根据变量选择策略选择最佳变量X将T分为k个子集（T1、T2、.、Tk）；如何选择分裂变量呢？5；用X标识当前节点；6；对T的每个子集Ti，生成新节点：7；NewNode=Generate_decision_tree（Ti，A-X，Y）8；生成一个分枝，该分枝由节点X指向NewNode；9；返回当

13、前节点。,2018/5/9,30,9.2.1 建树阶段（续）,有两种比较流行的分裂变量选择方法：信息增益（Information Gain）：指标的原理来自于信息论。1948年，香农（C. E. Shannon）提出了信息论。其中给出了关于信息量（Information）和熵（Entropy）的定义，熵实际上是系统信息量的加权平均，也就是系统的平均信息量。增益比（Gain_ratio）,2018/5/9,31,1. 信息增益,由Quinlan在80年代中期提出的ID3算法是分类规则挖掘算法中最有影响的算法。该算法提出了使用信息增益作为衡量节点分裂质量的标准。信息增益最大的变量被认为是最佳的分裂

14、变量。,2018/5/9,32,1. 信息增益（续）,计算信息增益的思路：首先计算不考虑任何输入变量的情况下，要确定T中任一样本所属类别需要的信息Info(T);计算引入每个输入变量X后，要确定T中任一样本所属类别需要的信息Info（X，T）；计算两者的差Info(T)-Info（X，T），此即为变量X的信息增益，记为Gain（X,T）。,2018/5/9,33,1. 信息增益（续）,计算熵Info(T) 如果不考虑任何输入变量，而将训练集T中的所有样本仅按照响应变量Y的值分到m个不相交的类别C1、C2、.、Cm的话，要确定任一样本所属的类别需要的信息为：,以2为底的原因是：信息按二进制位编码

15、,2018/5/9,34,1. 信息增益（续）,计算熵Info（X，T）如果考虑某个输入变量X，将训练集T按照X的值划分为n个子集T1、T2、.、Tn的话，要确定T中任一样本所属的类别需要的信息为：其中：注：Sj为Tj中属于类别Cj的样本子集。,2018/5/9,35,1. 信息增益（续）,计算增益Gain（X,T） Gain（X,T）=Info（T）-Info（X，T）所有变量的信息增益计算完后，可以根据信息增益的大小多所有输入变量进行排序，优先使用信息增益大的变量。,2018/5/9,36,1. 信息增益（续）,举例：本例将如下表数据作为训练集。,2018/5/9,37,1. 信息

16、增益（续）,2018/5/9,38,1. 信息增益（续）,其中：有9个样本属于类1，有5个样本属于类2。因此分区前的熵为： Info(T) -9/14.log2(9/14) -5/14.log2(5/14) = 0.940比特,2018/5/9,39,1. 信息增益（续）,根据属性1把初始样本集分区成3个子集（检验x1表示从3个值A，B或C中选择其一）后，得出结果： Infox1(T)5/14（-2/5 log2(2/5) -3/5 log2(3/5) ） + 4/14（-4/4 log2(4/4) -0/4 log2(0/4) ） + 5/14（-3/5 log2(3/5) -2/5 log

17、2(2/5) ） =0.694比特通过检验x1获得的信息增益是： Gain(x1) = 0.940 0.694 = 0.246比特,2018/5/9,40,1. 信息增益（续）,类似地，根据属性3检验x2表示从真或假两个值选择其一），类似地有：Info x2(T)6/14（-3/6 log2(3/6) -3/6 log2(3/6) ） + 8/14（-6/8 log2(6/8) -2/8 log2(2/8) ）=0.892比特通过检验x2获得的信息增益是： Gain(x2) = 0.940 0.892 = 0.048比特,2018/5/9,41,1. 信息增益（续）,依次类推，计算出其它属性获

18、得的增益。通过获得的两个增益比较，按照增益准则，将选择x1作为分区数据库T的最初检验（作为根节点创建）。为了求得最优检验还必须分析关于属性2的检验，它是连续取值的数值型属性。ID3算法无法解决数值型属性，需要通过其改进型-C4.5算法。,2018/5/9,42,1. 信息增益（续）,T1,检验X1:属性1=？,T2,T3,A,B,C,叶结点,根据属性1进行数据集划分,2018/5/9,43,1. 信息增益（续）,在得到前面的第一次划分以后，再分别对划分后的T1、T2、T3三个子集继续分裂。其中T2对应的数据子集都属于同一个类别类1，无需继续分裂。,2018/5/9,44,1. 信息增益（续）,

19、结合C4.5算法后，得到的决策树。,2018/5/9,45,1. 信息增益（续）,决策树可以用伪代码的形式表示，这种伪代码用IF-THEN结构对决策树进行分枝。,If 属性1 = Athen if 属性2=70then 类别 = 类1;else 类别 = 类2;Else if 属性1 = B then类别 = 类1;else if 属性1 = C thenif 属性3 = 真 then类别 = 类2;else类别 = 类1.,结果,2018/5/9,46,2. 增益比,信息增益作为分裂变量选择标准时，比较倾向于选择那些取值比较多且均匀的变量，如：产品号、顾客号等。即：增益标准对紧凑型决策树的构

20、造有很好的效果，但也存在一个严重缺陷：对具有多输出的检验有严重的偏差。Quinlan在1993年对ID3算法进行了改进，提出了一种新的决策树分类算法C4.5。,2018/5/9,47,2. 增益比（续）,C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。,2018/5/9,48,2. 增益比（续）,解决方法：根据info(S)的定义，指定一个附加的参数：其中：T1，T2，.，Tn为按照变量

21、X的值对T进行划分后的子集。含义：通过把集T分区成n个子集Ti而生成的潜在信息。新的增益标准-增益率： Gain_ratio(X) = Gain(X)/ Split_Info (X),2018/5/9,49,2. 增益比（续）,根据前面实例，求检验X1的增益比例。计算Split_Info (X1) Split_Info(X1) -5/14log2(5/14)-4/14 log2(4/14) -5/14 log2(5/14) =1.577比特计算Gain_ratio(X1) Gain_ratio(X1) = 0.246/1.577 = 0.156检验过程，将采用最大增益率代替增益标准值。,20

22、18/5/9,50,9.2.2 剪枝阶段,决策树的构造过程决定了它是与训练集中的数据完全拟合的。如果训练集中不存在噪声，按这种策略所生成的决策树准确度比较高。在实际情况下，往往存在噪声，完全拟合导致“过学习”的结果。所谓“过学习”，就是由于一些不具有代表性的特征也被反映到模型中。克服“过学习”问题通常采用的方法就是剪枝，即用一个叶子结点来替代一棵子树。,2018/5/9,51,9.2.2 剪枝阶段（续）,剪枝常常利用统计学方法，去掉最不可靠、可能是噪音的一些枝条。提供两种基本的剪枝策略：子树替代法：用叶结点替代子树。子树上升法：用一棵子树中最常用的子树来代替这棵子树。结果：最终生成一个更简单、更容易理解的树,2018/5/9,52,下课了。,休息一会儿。,追求,

展开阅读全文