数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者王丽珍周丽华陈红梅第8章.ppt-道客多多

资源描述

1、1,在线教务辅导网：http:/,教材其余课件及动画素材请查阅在线教务辅导网,QQ:349134187 或者直接输入下面地址：,http:/,第八章分类与预测,3,第八章目录,8.1 分类过程 8.2 决策树分类 8.3 前馈神经网络分类 8.4 贝叶斯分类 8.5 回归分析 8.6 本章小结,4,引言（1）,分类的任务是通过分析由已知类别数据对象组成的训练数据集，建立描述并区分数据对象类别的分类函数或分类模型（也常常称作分类器）。分类的目的是利用分类模型预测未知类别数据对象的所属类别。,5,引言（2）,分类和聚类是两个容易混淆的概念，事实上它们具有显著区别。在分类中，为了建立分类模型而

2、分析的数据对象的类别是已知的，然而，在聚类时处理的所有数据对象的类别都是未知的。因此，分类是有指导的，而聚类是无指导的。,6,引言（3）,数据分类与数值预测都是预测问题，都是首先通过分析训练数据集建立模型，然后利用模型预测数据对象。但是，在数据挖掘中，如果预测目标是数据对象在类别属性（离散属性）上的取值（类别），则称为分类；如果预测目标是数据对象在预测属性（连续属性）上的取值或取值区间，则称为预测。例如，对100名男女进行体检，测量了身高和体重，但是事后发现，a和b两人忘了填写性别，c和d两人漏了记录体重。现在根据其他96人的情况，推断a和b两人的性别是分类，而估计c和d两人的体重是预测。,

3、7,8.1 分类过程（1）,分类过程分为两个阶段：学习阶段与分类阶段，如图8.1所示，图中左边是学习阶段，右边是分类阶段。图8.1 分类过程,8,8.1 分类过程（2）,1. 学习阶段（1）建立分类模型：通过分类算法分析训练数据集建立分类模型。训练数据集S中的元组或记录称为训练样本，每个训练样本由m+1个属性描述，其中有且仅有一个属性称为类别属性，表示训练样本所属的类别。属性集合可用矢量X=（A1, , Am, C）表示，其中Ai（1im）对应描述属性，可以具有不同的值域，当一个属性的值域为连续域时，该属性称为连续属性（Numerical Attribute），否则称为离散属性（Disc

4、rete Attribute）；C表示类别属性，C=（c1, c2, , ck），即训练数据集有k个不同的类别。,9,8.1 分类过程（3）,分类算法有决策树分类算法、神经网络分类算法、贝叶斯分类算法、k-最近邻分类算法、遗传分类算法、粗糙集分类算法、模糊集分类算法等。分类算法可以根据下列标准进行比较和评估。 1）准确率。涉及分类模型正确地预测新样本所属类别的能力。 2）速度。涉及建立和使用分类模型的计算开销。 3）强壮性。涉及给定噪声数据或具有空缺值的数据，分类模型正确地预测的能力。 4）可伸缩性。涉及给定大量数据，有效地建立分类模型的能力。 5）可解释性。涉及分类模型提供的理解和洞察的层次

5、。分类模型有分类规则、判定树等。,10,8.1 分类过程（4）,（2）评估分类模型的准确率：利用测试数据集评估分类模型的准确率。测试数据集中的元组或记录称为测试样本。分类模型正确分类的测试样本数占总测试样本数的百分比称为该分类模型的准确率。如果分类模型的准确率可以接受，就可以利用该分类模型对新样本进行分类。否则，需要重新建立分类模型。,11,8.1 分类过程（5）,评估分类模型准确率的方法有保持（holdout）、k-折交叉确认等。保持方法将已知类别的样本随机地划分为训练数据集与测试数据集两个集合，一般，训练数据集占2/3，测试数据集占1/3。分类模型的建立在训练数据集上进行，分类模型

6、准确率的评估在测试数据集上进行。 k-折交叉确认方法将已知类别的样本随机地划分为大小大致相等的k个子集S1, , Sk，并进行k次训练与测试。第i次，子集Si作为测试数据集，分类模型准确率的评估在其上进行，其余子集的并集作为训练数据集，分类模型的建立在其上进行。进行k次训练得到k个分类模型，当利用分类模型对测试样本或者新样本进行分类时，可以综合考虑k个分类模型的分类结果，将出现次数最多的分类结果作为最终的分类结果。,12,8.1 分类过程（6）,2. 分类阶段分类阶段就是利用分类模型对未知类别的新样本进行分类。数值预测过程：与数据分类过程相似。首先通过分析由预测属性取值已知的数据对象组成

7、的训练数据集，建立描述数据对象特征与预测属性之间的相关关系的预测模型，然后利用预测模型对预测属性取值未知的数据对象进行预测。数值预测技术主要采用回归统计技术，例如，一元线性回归、多元线性回归、非线性回归等。,13,8.2 决策树分类 8.2.1 决策树（1）,决策树：一棵决策树由一个根节点，一组内部节点和一组叶节点组成。每个内部节点（包括根节点）表示在一个属性上的测试，每个分枝表示一个测试输出，每个叶节点表示一个类，有时不同的叶节点可以表示相同的类。,14,8.2.1 决策树（2）,图8.2 判断顾客是否购买计算机的决策树,15,8.2.1 决策树（3）,建立一棵决策树，需要解决的问题主要有

8、： 1）如何选择测试属性？测试属性的选择顺序影响决策树的结构甚至决策树的准确率，一般使用信息增益度量来选择测试属性。 2）如何停止划分样本？从根节点测试属性开始，每个内部节点测试属性都把样本空间划分为若干个（子）区域，一般当某个（子）区域的样本同类时，就停止划分样本，有时也通过阈值提前停止划分样本。,16,8.2.2 建立决策树（1）,1. 算法思想及描述首先，在整个训练数据集S、所有描述属性A1, A2, , Am上递归地建立决策树。即将S作为根节点；如果S中的样本属于同一类别，则将S作为叶节点并用其中的类别标识，决策树建立完成（递归出口）；否则在S上计算当给定Ak（1km）时类别属

9、性C的信息增益G(C, Ak)，选择信息增益最大的Ai作为根节点的测试属性；如果Ai的取值个数为v（取值记为a1, a2, , av），则Ai将S划分为v个子集S1, S2, , Sv（Sj（1jv）为S中Ai=aj的样本集合），同时根节点产生v个分枝与之对应。其次，分别在训练数据子集S1, S2, , Sv、剩余描述属性A1, , Ai-1, Ai+1, , Am上采用相同方法递归地建立决策树子树（递归）。,17,8.2.2 建立决策树（2）,可能出现如下情况，需要停止建立决策（子）树的递归过程。 1）某节点对应的训练数据（子）集为空。此时，该节点作为叶节点并用父节点中占多数的样本类别标识。

10、 2）某节点没有对应的（剩余）描述属性。此时，该节点作为叶节点并用该节点中占多数的样本类别标识。,18,8.2.2 建立决策树（3）,算法：决策树分类算法Generate_decision_tree（S, A）输入：训练数据集S，描述属性集合A 输出：决策树步骤：（1）创建对应S的节点Node （2）if S中的样本属于同一类别c then 以c标识Node并将Node作为叶节点返回（3）if A为空 then 以S中占多数的样本类别c标识Node并将Node作为叶节点返回,19,8.2.2 建立决策树（4）,（4）从A中选择对S而言信息增益最大的描述属性Ai作为Node的测试属性（

11、5）for Ai的每个可能取值aj（1jv ）/设Ai的可能取值为a1, a2, , av （5.1）产生S的一个子集Sj /Sj（1jv）为S中Ai=aj的样本集合（5.2）if Sj为空 then 创建对应Sj的节点Nj，以S中占多数的样本类别c标识Nj，并将Nj作为叶节点形成Node的一个分枝（5.3）else 由Generate_decision_tree（Sj, A-Ai）创建子树形成Node的一个分枝,20,8.2.2 建立决策树（5）,2. 信息增益：在决策树分类算法中使用信息增益度量来选择测试属性。从信息论角度看，通过描述属性可以减少类别属性的不确定性。假设有蕃茄、茄子

12、、黄瓜三种蔬菜，现在对某蔬菜分类。在不给任何描述时，该蔬菜可能是蕃茄、茄子、黄瓜三种之一，不确定性大。在给出该蔬菜是“长的”形状描述时，该蔬菜可能是茄子、黄瓜两种之一，不确定性减小。在给出该蔬菜是“紫的”颜色描述时，该蔬菜只可能是茄子了，不确定性为零。,21,8.2.2 建立决策树（6）,离散型随机变量X的无条件熵定义为式中，p(xi)为X= xi的概率；u为X的可能取值个数。根据H(X)的极值性，当时，即当不确定性最大时，H(X)最大。根据H(X)的确定性，当时，即当不确定性为零时，H(X)=0。所以，H(X)反映X的不确定性。,22,8.2.2 建立决策树（7）,给定离散型随机变量Y

13、，离散型随机变量X的条件熵定义为式中，p(xiyj)为X=xi, Y=yj的联合概率；p(xi/yj)为已知Y=yj时，X= xi的条件概率；u，v分别为X，Y的可能取值个数。可以证明，H(X/Y)H(X)。所以，通过Y可以减少X的不确定性。,23,8.2.2 建立决策树（8）,假设训练数据集是关系数据表r1, r2, , rn，其中描述属性为A1, A2, , Am、类别属性为C，类别属性C的无条件熵定义为式中，u为C的可能取值个数，即类别个数，类别记为c1, c2, , cu；si为属于类别ci的记录集合，|si|即为属于类别ci的记录总数。,24,8.2.2 建立决策树（9）,给定描述

14、属性Ak（1km），类别属性C的条件熵定义为式中，v为Ak的可能取值个数，取值记为a1, a2, , av；sj为Ak=aj的记录集合，|sj|即为Ak=aj的记录数目；sij为Ak=aj且属于类别ci的记录集合，|sij|即为Ak=aj且属于类别ci的记录数目。,25,8.2.2 建立决策树（10）,不同描述属性减少类别属性不确定性的程度不同，即不同描述属性对减少类别属性不确定性的贡献不同。例如，假设有蕃茄、茄子、黄瓜三种蔬菜，现在对某蔬菜分类，形状描述与颜色描述的贡献是不同的。在给出该蔬菜的颜色描述时，如果颜色是红的，则该蔬菜是蕃茄；如果颜色是紫的，则该蔬菜是茄子；如果颜色是绿的，则该

15、蔬菜是黄瓜，不确定性减少为0。而在给出该蔬菜的形状描述时，如果形状是圆的，则该蔬菜是蕃茄；如果形状是长的，则该蔬菜可能是茄子，也可能是黄瓜，不确定性还是存在。,26,8.2.2 建立决策树（11）,采用类别属性的无条件熵与条件熵的差（信息增益）来度量描述属性减少类别属性不确定性的程度。给定描述属性Ak（1km），类别属性C的信息增益定义为 G(C, Ak)=E(C)-E(C, Ak) 可以看出，G(C, Ak)反映Ak减少C不确定性的程度，G(C, Ak)越大，Ak对减少C不确定性的贡献越大。,27,8.2.2 建立决策树（12）,例8.1 假设蔬菜数据表如表8.1所示，“颜色”、“形状”是

16、描述属性，“蔬菜”是类别属性，分别求给定“颜色”、“形状”属性时，“蔬菜”属性的信息增益。,28,8.2.2 建立决策树（13）,G(蔬菜，颜色)1.5850-0=1.5850 G(蔬菜，形状)1.5850-0.6667=0.9183,29,8.2.2 建立决策树（14）,例8.2 建立例8.1的决策树。因为G(蔬菜，颜色)G(蔬菜，形状)，所以选择“颜色”属性作为根节点的测试属性，得到的决策树如图8.3所示。图8.3 例8.1的决策树,30,8.2.2 建立决策树（15）,例8.3 假设顾客数据表如表8.2所示，“购买计算机”属性是类别属性，其余属性是描述属性，建立决策树。考虑根节点：

17、G(购买计算机，年龄)=0.246 G(购买计算机，收入)=0.029 G(购买计算机，学生)=0.151 G(购买计算机，信誉)=0.048 所以根节点的测试属性为“年龄” 考虑分枝“年龄=30”节点 G(购买计算机，收入)=0.571 G(购买计算机，学生)=0.971 G(购买计算机，信誉)=0.02 所以分枝“年龄=30”节点的测试属性为“学生”,31,8.2.2 建立决策树（16）, 考虑分枝“年龄=3140”节点因为所有记录属于同一类别是，所以分枝“年龄=3140”节点为叶节点。考虑分枝“年龄=41”节点 G(购买计算机，收入)=0.02 G(购买计算机，学生)=0.02 G(

18、购买计算机，信誉)=0.971 所以分枝“年龄=41”节点的测试属性为“信誉” 考虑分枝“学生=否”节点因为所有记录属于同一类别否，所以分枝“学生=否”节点为叶节点。,32,8.2.2 建立决策树（17）, 考虑分枝“学生=是”节点因为所有记录属于同一类别是所以分枝“学生=是”节点为叶节点。考虑分枝“信誉=优”节点因为所有记录属于同一类别否所以分枝“信誉=否”节点为叶节点。考虑分枝“信誉=中”节点因为所有记录属于同一类别是所以分枝“信誉=是”节点为叶节点。建立的决策树如图8.4所示。,33,8.2.2 建立决策树（18）,图8.4 例8.3的决策树,34,8.2.2 建立决策树（

19、19）,在数据挖掘中应用决策树分类算法递归地建立决策树时，需要考虑如下问题： 1）从信息增益的计算可以知道，决策树分类算法要求描述属性是离散属性。如果描述属性是连续属性，则需要离散化。可以采用基于概念层次树的离散化技术、基于熵的离散化技术等将连续属性离散化。,35,8.2.2 建立决策树（20）,2）由于决策树是在分析训练数据集的基础上建立的，决策树倾向于过分适合训练数据集。如果训练数据集含有噪声，那么可能决策树的某些分枝反映的是噪声而不是总体，应该剪去这些不可靠的分枝，以便提高决策树的分类准确率。有两种剪枝策略：先剪枝策略：在建立决策树的过程中，通过某度量标准判断每个内部节点是否需要进一步

20、划分，如果进一步划分将导致建立不可靠的分枝，则停止划分，从而达到剪枝。此时，该内部节点变成叶节点并用其中占多数的记录类别标识。后剪枝策略：首先，建立完整的决策树；然后，通过某度量标准判断哪些内部节点分枝是不可靠的，将这些内部节点变成叶节点并用其中占多数的记录类别标识，从而达到剪枝。,36,8.2.3 提取分类规则,建立了决策树之后，可以对从根节点到叶节点的每条路径创建一条IF-THEN分类规则，即沿着路径，每个内部属性-值对（内部节点-分枝对）形成规则前件（IF部分）的一个合取项，叶节点形成规则后件（THEN部分）。例8.4 沿着从根节点到叶节点的每条路径，图8.4的决策树可以转换成以下I

21、F-THEN分类规则： IF 年龄=30 AND 学生=否 THEN 购买计算机=否 IF 年龄=30 AND 学生=是 THEN 购买计算机=是 IF 年龄=3140 THEN 购买计算机=是 IF 年龄=41 AND 信誉=优 THEN 购买计算机=否 IF 年龄=41 AND 信誉=中 THEN 购买计算机=是,37,8.2.4 对新样本分类,假如现在来了一位新顾客，他是一名教师，年龄为45岁，收入较低但信誉很好。商场需要判断该顾客是否会购买计算机？即将该顾客划分到“购买计算机”类呢？还是将他划分到“不购买计算机”类？很显然，利用上面的分类规则，可以判定该顾客不会购买计算机。,38,8.

22、3 前馈神经网络分类 8.3.1 前馈神经网络（1）,前馈神经网络是分层网络模型，具有一个输入层和一个输出层，输入层和输出层之间有一个或多个隐藏层。每个层具有若干单元，前一层单元与后一层单元之间通过有向加权边相连。图8.5 两层前馈神经网络结构,39,8.3.1 前馈神经网络（2）,输入层单元的数目与训练样本的描述属性数目对应，通常一个连续属性对应一个输入层单元，一个p值离散属性对应p个输入层单元；输出层单元的数目与训练样本的类别数目对应，当类别数目为2时，输出层可以只有一个单元；目前，隐藏层的层数及隐藏层的单元数尚无理论指导，一般通过实验选取。,40,8.3.1 前馈神经网络（3）,在

23、输入层，各单元的输出可以等于输入，也可以按一定比例调节，使其值落在1和+1之间。在隐藏层、输出层，每个单元的输入都是前一层各单元输出的加权和，输出是输入的某种函数，称为激活函数。隐藏层、输出层任意单元j的输入为式中，wij是单元j与前一层单元i之间的连接权值；Oi是单元i的输出；为改变单元j活性的偏置，一般在区间1，1上取值。,41,8.3.1 前馈神经网络（4）,单元j的输出为 Oj=f(netj)如果f采用S型激活函数，即则,42,8.3.1 前馈神经网络（5）,图8.6 计算隐藏层、输出层任意单元j的输出的过程,43,8.3.1 前馈神经网络（6）,例8.5 定义例8.1的前馈神经

24、网络结构。因为离散属性“颜色”有三个取值、“形状”有两个取值，分别采用3位、2位编码，所以输入层有5个单元。因为类别属性“蔬菜”有三个取值，采用3位编码，所以输出层有3个单元。如果只用一个具有4个单元的隐藏层并且采用全连接，则两层前馈神经网络结构如图8.7所示。,44,8.3.1 前馈神经网络（7）,图8.7 例8.5的两层前馈神经网络结构,45,8.3.2 学习前馈神经网络（1）,确定了网络结构（网络层数，各层单元数）之后，应该确定各单元的偏置及单元之间的连接权值。学习过程就是调整这组权值和偏置，使每个训练样本在输出层单元上获得期望输出。学习目的就是找出一组权值和偏置，这组权值和偏

25、置能使所有训练样本在输出层单元上获得期望输出。,46,8.3.2 学习前馈神经网络（2）,误差后向传播的基本思想是：首先赋予每条有向加权边初始权值、每个隐藏层与输出层单元初始偏置；然后迭代地处理每个训练样本；输入它的描述属性值，计算输出层单元的实际输出；比较实际输出与期望输出（类别属性值），将它们之间的误差从输出层经每个隐藏层到输入层“后向传播”；根据误差修改每条有向加权边的权值及每个隐藏层与输出层单元的偏置，使实际输出与期望输出之间的误差最小。,47,8.3.2 学习前馈神经网络（3）,对于某个训练样本，实际输出与期望输出的误差Error定义为式中，c为输出层的单元数目；Tk为输出

26、层单元k的期望输出；Ok为输出层单元k的实际输出。,48,8.3.2 学习前馈神经网络（4）,首先考虑输出层单元k与前一层单元j之间的权值wjk的修改量wjk、单元k的偏置的修改量。式中，l为避免陷入局部最优解的学习率，一般在区间0, 1上取值。,49,8.3.2 学习前馈神经网络（5）,求解上式可以得到权值、偏置的修改量为式中，Oj为单元j的输出；Errk是误差Error对单元k的输入netk的负偏导数，即,50,8.3.2 学习前馈神经网络（6）,类似地，隐藏层单元j与前一层单元i之间的权值wij的修改量wij、单元j的偏置j的修改量j为式中，l为学习率；Oi为单元i的输出；Oj为单元

27、j的输出；Errk为与单元j相连的后一层单元k的误差；wjk为单元j与单元k相连的有向加权边的权值。,51,8.3.2 学习前馈神经网络（7）,权值、偏置的修改公式为权值、偏置的更新有两种策略： 1）处理一个训练样本更新一次，称为实例更新，一般采用这种策略。 2）累积权值、偏置，当处理所有训练样本后再一次更新，称为周期更新。,52,8.3.2 学习前馈神经网络（8）,一般，在训练前馈神经网络时，误差后向传播算法经过若干周期以后，可以使误差Error小于设定阈值，此时认为网络收敛，结束迭代过程。此外，也可以定义如下结束条件： 1）前一周期所有的权值变化都很小，小于某个设定阈值； 2）前一周期预

28、测的准确率很大，大于某个设定阈值； 3）周期数大于某个设定阈值。,53,8.3.2 学习前馈神经网络（9）,算法：误差后向传播算法输入：训练数据集S，前馈神经网络NT，学习率l 输出：经过训练的前馈神经网络NT 步骤：（1）在区间-1, 1上随机初始化NT中每条有向加权边的权值、每个隐藏层与输出层单元的偏置（2）while 结束条件不满足（2.1）for S中每个训练样本s,54,8.3.2 学习前馈神经网络（10）,（2.1.1）for 隐藏层与输出层中每个单元j /从第一个隐藏层开始向前传播输入（2.1.2）for 输出层中每个单元kErrk=Ok(1- Ok)( Tk - Ok)

29、,55,8.3.2 学习前馈神经网络（11）,（2.1.3）for 隐藏层中每个单元j /从最后一个隐藏层开始向后传播误差（2.1.4）for NT中每条有向加权边的权值wijwij= wij+lErrjOi （2.1.5）for 隐藏层与输出层中每个单元的偏置jj=j+lErrj,56,8.3.2 学习前馈神经网络（12）,误差后向传播算法要求输入层单元的输入是连续值，并对连续值进行规格化以便提高训练的效率与质量。如果训练样本的描述属性是离散属性，则需要对其编码，编码方法有两种： 1）p值离散属性：可以采用p位编码。假设p值离散属性的可能取值为a1, a2,ap，当某训练样本的该属性值为a

30、1时，则编码为1,0,0；当某训练样本的该属性值为a2时，则编码为0,1,0；依次类推。 2）二值离散属性：除采用2位编码外还可以采用1位编码。当编码为1时表示一个属性值；当编码为0时表示另一个属性值。,57,8.3.2 学习前馈神经网络（13）,例8.6 假设训练样本s的描述属性值与类别属性值分别为1, 0, 1与1，前馈神经网络NT如图8.8所示，NT中每条有向加权边的权值、每个隐藏层与输出层单元的偏置如表8.3所示，学习率为0.9。写出输入s训练NT的过程。,58,8.3.2 学习前馈神经网络（13）,图8.8 前馈神经网络NT,59,8.3.2 学习前馈神经网络（14）,60,8.3.

31、2 学习前馈神经网络（15）,61,8.3.2 学习前馈神经网络（16）,62,8.3.2 学习前馈神经网络（17）,63,8.3.3 神经网络分类,学习结束后，神经网络得到一组固定的权值及偏置。新样本到来后，将其描述属性值送入输入层各单元，从输入层到输出层正向传播，计算输出层各单元的值O1, O2, , On，令r=max(O1, O2, , On)，则第r个输出层单元所代表的类别就是该样本所属的类别。例如，在例8.6中，只有一个输出层单元，表示只有两个类别（A类、B类）。神经网络学习结束后，表8.6中的各权值和偏置都固定。将一个新样本X=（x1, x2, x3）送入输入层后可以计算出O6

32、，若O61，则表示X应属于A类；若O60，则表示X应属于B类；若O60.5，则拒绝分类。,64,8.4 贝叶斯分类 8.4.1 贝叶斯分类概述（1）,1. 贝叶斯公式式中，p(x)、p(y)为随机变量X=x、Y=y的概率；p(x|y)为已知Y=y时，X=x的条件概率；p(y|x)为已知X=x时，Y=y的条件概率。,65,8.4.1 贝叶斯分类概述（2）,根据贝叶斯公式，可以得到贝叶斯分类公式：式中，p(a1, , am)为m个描述属性A1=a1, , Am=am的联合概率；p(c)为类别属性C=c的概率，也称为类别c的先验概率；p(a1, , am|c)为已知C=c时，A1=a1, , Am=

33、am的条件概率，也称为类条件概率；p(c|a1, , am)为已知A1=a1, , Am=am时，C=c的条件概率，也称为类别c的后验概率。,66,8.4.1 贝叶斯分类概述（3）,贝叶斯分类的分类阶段就是给定新样本的描述属性值a1,am，根据上述公式，计算各个类别的后验概率，后验概率最大的类别就是新样本的类别属性值，即新样本的类别为：综合上述两式，得到新样本的类别为：贝叶斯分类的学习阶段就是根据训练样本，计算各个类别的先验概率、各个类条件概率。,67,8.4.1 贝叶斯分类概述（4）,例8.7 训练样本如例8.3中的表8.2所示，新样本为（3140，中，否，优），应用贝叶斯分类对新样本进行分

35、。一个贝叶斯网（Bayesian Network, BN）由一个有向无环图G和一组参数组成，记为BN(G，)。其中，有向无环图G中的节点表示随机变量，有向边表示随机变量之间的直接依赖关系；参数为节点X在已知父节点(X)时的条件概率分布P(|(X)，如果节点X没有父节点，即(X)，则P(X|(X)P(X)。,69,8.4.1 贝叶斯分类概述（6）,在贝叶斯网中，如果已知节点X的父节点(X)，则X和它的所有非后代节点nd(X)-(X)条件独立，即Xnd(X)-(X)|(X)，称为局部马尔可夫性。根据局部马尔可夫性，贝叶斯网节点X1, ., Xm的联合概率分布可以分解为条件概率分布的乘积，即,7

36、0,8.4.1 贝叶斯分类概述（7）,例如，在如图8.9所示的贝叶斯网中，X和Y在已知Z时条件独立，即XY|Z，并且P(X,Y,Z)=P(Z)P(X|Z)P(Y|Z)。图8.9 贝叶斯网示例,71,8.4.1 贝叶斯分类概述（8）,贝叶斯网可以用于计算贝叶斯分类中的类条件概率。然而，通过分析训练数据集，构造贝叶斯网是一个NP-complete问题。为了简化计算，一般应用条件独立假设，限定贝叶斯网结构。不同的条件独立假设形成了不同的贝叶斯分类。朴素贝叶斯分类树增强朴素贝叶斯分类,72,8.4.2 朴素贝叶斯分类（1）,朴素贝叶斯分类（Nave Bayesian Classifier）将类

37、别属性C和描述属性A1, ., Am放在不同的地位，C的取值决定了A1, ., Am的取值，C和A1, ., Am有直接依赖关系，也就是说，在贝叶斯网中，节点C和节点A1, ., Am有有向边相连，C是A1, ., Am的父节点。为了简化计算，朴素贝叶斯分类假设A1, ., Am在已知C时条件独立，也就是说，在贝叶斯网中，节点A1, ., Am之间没有有向边相连。因此，朴素贝叶斯分类限定贝叶斯网结构为：(C)，(Ai)C，如图8.10所示。,73,8.4.2 朴素贝叶斯分类（2）,图8.10 朴素贝叶斯分类的贝叶斯网结构,74,8.4.2 朴素贝叶斯分类（3）,在朴素贝叶斯分类中，类条件概

38、率可以通过下式估计综合公式，得到新样本a1,am的类别为：,75,8.4.2 朴素贝叶斯分类（4）,例8.8 训练样本如例8.3中的表8.2所示，新样本为（3140，中，否，优），应用朴素贝叶斯分类对新样本进行分类。图8.11 例8.8的贝叶斯网结构,76,8.4.2 朴素贝叶斯分类（5）,因为p(是)9/14； p(3140|是)4/9； p(中|是)4/9； p(否|是)3/9； p(优|是)3/9； p(是)p(3140|是)p(中|是)p(否|是)p(优|是) 9/144/94/93/93/98/567； p(否)5/14； p(3140|否)0； p(中|否)2/5； p(否|否)

39、4/5； p(优|否)3/5； p(否)p(3140|否)p(中|否)p(否|否)p(优|否) 5/1402/54/53/50；所以新样本的类别是是。,77,8.4.2 朴素贝叶斯分类（6）,算法：朴素贝叶斯分类参数学习算法输入：训练数据集S 输出：各个类别的先验概率p(c)，各个类条件概率p(a1, , am|c) 步骤：（1）for S中每个训练样本s(as1, , asm, cs)（1.1）增加类别cs的计数cs.count（1.2）for 每个描述属性值asi增加类别cs中描述属性值asi的计数cs.asi.count,78,8.4.2 朴素贝叶斯分类（7）,（2）for 每个类

40、别c （2.1）（2.2）for 每个描述属性Ai （2.2.1）for 每个描述属性值ai （2.3）for 每个a1, , am,79,8.4.2 朴素贝叶斯分类（8）,算法：朴素贝叶斯分类算法输入：各个类别的先验概率p(c)，各个类条件概率p(a1, , am|c)，新样本r( ar1, , arm ) 输出：新样本的类别cr 步骤：（1）,80,8.4.3 树增强朴素贝叶斯分类（1）,树增强朴素贝叶斯分类（Tree Augmented Nave Bayesian Classifier, TAN）在朴素贝叶斯分类的基础上，允许各个描述属性之间形成树型结构，从而削弱了各个描述属性在给

41、定类别属性时条件独立假设，增强了朴素贝叶斯分类，因此，称为树增强朴素贝叶斯分类。也就是说，在贝叶斯网中，节点C和节点A1, ., Am有有向边相连，C是A1, ., Am的父节点，此外，A1, ., Am之间有有向边相连并形成树，根节点的父节点只有C，其它节点的父节点除了C之外还有一个节点。,81,8.4.3 树增强朴素贝叶斯分类（2）,例如，一个包括5个描述属性A1, ., A5和1个类别属性C的树增强朴素贝叶斯分类的贝叶斯网结构如图8.12所示。图8.12 树增强朴素贝叶斯分类的贝叶斯网结构,82,8.4.3 树增强朴素贝叶斯分类（3）,在树增强朴素贝叶斯分类中，如果通过分析训练数据集，

42、得到了各个描述属性之间的树型结构，就可以估计类条件概率，从而可以得到新样本的类别。例如，在如图8.12所示的树增强朴素贝叶斯分类中，类条件概率可以通过下式估计：新样本a1, , a5的类别可以通过下式得到：,83,8.4.3 树增强朴素贝叶斯分类（4）,树增强朴素贝叶斯分类树型结构构造方法的基本思想是：首先，计算在给定类别属性C时，描述属性A1, ., Am之间的依赖强度，共得到个依赖强度；然后，根据从强到弱的原则选择m-1个依赖强度，添加相应描述属性之间的无向边，并使各个描述属性之间形成无向树；最后，选择根节点，为无向边添加方向形成有向树。其中，可以利用条件互信息描述在给定类别属

43、性C时，描述属性A1, ., Am之间的依赖强度。,84,8.4.3 树增强朴素贝叶斯分类（5）,在给定离散随机变量Z时，离散随机变量X和Y之间的条件互信息定义为式中，p(x,y,z)为X=x,Y=y,Z=z的联合概率；p(x,y|z)为已知Z=z时，X=x,Y=y的联合条件概率；p(x|z)为已知Z=z时，X=x的条件概率；p(y|z)为已知Z=z时，Y=y的条件概率。可以证明，X和Y在给定Z时条件独立当且仅当I(X;Y|Z)=0。,85,8.4.3 树增强朴素贝叶斯分类（6）,类似地，可以定义在给定类别属性C时，描述属性Ai和Aj之间的条件互信息I(Ai;Aj|C) 式中，p(ai, a

44、j, c)为Ai= ai, Aj=aj, C=c的联合概率；p(ai, aj|c)为已知C=c时，Ai=ai, Aj=aj的联合条件概率；p(ai|c)为已知C=c时，Ai=ai的条件概率；p(aj|c)为已知C=c时，Aj=aj的条件概率。,86,8.4.3 树增强朴素贝叶斯分类（7）,算法：树增强朴素贝叶斯分类结构学习算法输入：训练数据集S 输出：树增强朴素贝叶斯分类的贝叶斯网结构TAN 步骤：（1）扫描S，通过式（8.22）计算在给定类别属性C时，描述属性A1, ., Am之间的条件互信息（2）构造一个无向完全图，以描述属性为节点，以条件互信息为边的权重（3）构造上述无向完全图的

46、.0611 所以树增强朴素贝叶斯分类的贝叶斯网结构如图8.13所示。,88,8.4.3 树增强朴素贝叶斯分类（9）,图8.13 例8.9的贝叶斯网结构,89,8.4.3 树增强朴素贝叶斯分类（10）,因为p(是)9/14； p(3140 | 是)4/9； p(中 | 是，3140)1/4； p(否 | 是，中)2/4； p(优 | 是，3140)2/4； p(是)p(3140 | 是)p(中 | 是，3140)p(否 | 是，中)p(优 | 是，3140)9/144/91/42/42/41/56； p(否)5/14； p(3140 | 否)0； p(中 | 否，3140)0； p(否 | 否，

47、中)1； p(优 | 否，3140)0； p(否)p(3140 | 否)p(中 | 否，3140)p(否 | 否，中)p(优 | 否，3140)5/1400100；所以新样本的类别是是。,90,8.5 回归分析,事物之间的因果关系涉及两个或两个以上的变量，只要其中一个变量变动了，另一个变量也会跟着变动。表示原因的变量称为自变量，用X表示，它是固定的（试验时预先确定的），没有随机误差。表示结果的变量称为依变量，用Y表示。Y随X的变化而变化，有随机误差。如果两个变量间的关系属于因果关系，一般用回归来研究。一元回归：依变量Y在一个自变量X上的回归称为一元回归；多元回归：依变量Y在多个自变量X1, X2, , Xn上的回归称为多元回归。,91,8.5.1 一元回归分析（1）,1. 建立一元线性回归方程如果两个变量在散点图上呈线性关系，就可用一元线性回归方程来描述。其一般形式为Y=a+bX 式中，X是自变量；Y是依变量；a、b是一元线性回归方程的系数。,92,8.5.1 一元回归分析（2）,a、b的估计值应是使误差平方和Q(a, b)取最小值的、。式中，n是训练样本数目，(x1, y1), , (xn, yn)是训练样本。,

展开阅读全文

数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者 王丽珍 周丽华 陈红梅 第8章.ppt

数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者王丽珍周丽华陈红梅第8章.ppt