数据挖掘入门课件.ppt-道客多多

资源描述

1、数据挖掘,主要内容,数据挖掘概述数据预处理数据挖掘算法分类与预测数据挖掘算法聚类数据挖掘算法关联分析序列模式挖掘,一、数据挖掘概述,数据挖掘概念,数据挖掘-从大量的数据中，提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。数据挖掘的主要目的是提高决策能力，检测异常模式，在过去的经验基础上预言未来趋势等。例如，通过对大量气象资料和销售资料的处理及分析，德国的啤酒商发现，夏天气温每升高1，就会增加230万瓶的啤酒销量；而日本人则发现，夏季30以上的天气每增加一天，空调的销量便增加4万台。,5,沃尔玛超市建立数据仓库，按周期统计产品的销售信息，经过科学建模后提炼决策层数据

2、。发现每逢周末，位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大，而且单张发票中同时购买尿布和啤酒的记录非常普遍。分析人员认为这并非偶然，经过深入分析得知，通常周末购买尿布的是男士，他们在完成了太太交给的任务后，经常会顺便买一些啤酒。得出这样的结果后，沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售，结果尿布与啤酒的销售额双双增长。,数据挖掘概念,6,数据挖掘（Data Mining）：又称为数据库中的知识发现，是基于AI、机器学习、统计学等技术，高度自动化地分析原有的数据，进行归纳性推理，从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。

3、这些知识是隐含的、事先未知的有用信息，提取的知识表现为概念、规则、模式、规律等形式，以帮助管理者作出正确的决策。模式：它给出了数据特性或数据之间的关系，是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中，可以细分为关联模式、分类模式、聚类模式和序列模式等。,数据挖掘概念,数据挖掘的任务,分类预测（Prediction）利用一些变量来预测未知的或其他变量将来的值.典型的方法是回归分析，即利用大量的历史数据，以时间为变量建立线性或非线性回归方程。预测时，只要输入任意的时间值，通过回归方程就可求出该时间的状态。近年来，发展起来的神经网络方法，如BP模型，它实现

4、了非线性样本的学习，能进行非线性函数的预测,典型的分类型任务如下： 1、给出一个客户的购买或消费特征，判断其是否会流失； 2、给出一个信用卡申请者的资料，判断其编造资料骗取信用卡的可能性 3、给出一个病人的症状，判断其可能患的疾病 4、给出大额资金交易的细节，判断是否有洗钱的嫌疑； 5、给出很多文章，判断文章的类别（如科技、体育、经济等）,数据挖掘的任务,描述型任务：找到人们可以解释的，描述数据的模式. 描述性任务主要包括聚类、摘要、依赖分析等几种任务。聚类任务把没有预定义类别的数据划分成几个合理的类别，摘要任务形成数据高度浓缩的子集及描述，依赖分析任务发现数据项之间的关系。典型的描述型任务

5、如下： 1、给出一组客户的行为特征，将客户分成多个行为相似的群体； 2、给出一组购买数据，分析购买某些物品和购买其他物品之间的联系 3、给出一篇文档，自动形成该文档的摘要,数据挖掘的任务,数据挖掘的任务,分类预测性的聚类描述性的关联规则发现描述性的序列模式发现描述性的预测回归预测性的异常发现预测型的,分类,给定一组纪录 (训练集-training set ) 每一条记录都包含一组属性, 其中的一个属性就是类. 为类属性找到一个模型，这个模型就是其他属性值的函数. 目的：先前未见过的纪录应该被尽可能精确的分配一个类中.在分类预测任务中，数据集根据其在数据挖掘过程中扮演角色的不

6、同，可划分为训练集、测试集、验证集。,训练集：是在数据挖掘过程中用来训练学习算法，建立模型的数据集. 测试集：就是数据挖掘算法在生成模型后，用以测试所得到的模型的有效性的数据集，常被用来决定模型的精确性. 验证集：是在数据挖掘过程结束后，模型应用的实际数据集，验证集用于在实践中检验模型.,分类,例如：一个销售的顾客数据库（训练样本集合），对购买计算机的人员进行分类：字段为（年龄（取值：40);收入(高,中,低);学生否(Y,N);信用(一般,很好);购买计算机否(Y,N) 记录为14个,具体数据如下:X1=(40, 中, N, 一般,Y); X5=(40,低, Y, 一般,Y); X6=(4

7、0, 低, Y, 很好,N); X7=(3040,低, Y,很好,Y); X8=(40,中, Y,一般,Y); X11=(40,中,N,很好,N);利用贝叶斯法则预测，符合下列条件的人员购买计算机的可能性 X=（年龄30,收入=中,学生否=Y,信用=一般),分类,聚类,聚类是按照某个特定标准（通常是某种）把一个数据集分割成不同的类，使得类内相似性尽可能地大，同时类间的区别性也尽可能地大。直观地看，最终形成的每个聚类，在空间上应该是一个相对稠密的区域。聚类是对记录分组，把相似的记录在一个聚类里。聚类和分类的区别是聚类不依赖于预先定义好的类，不需要训练集。例子： a. 一些特定症状的聚类可能预

8、示了一个特定的疾病 b. 租VCD类型不相似的客户聚类，可能暗示成员属于不同的亚文化群,Illustrating Clustering,Euclidean Distance Based Clustering in 3-D space.,Intracluster distances are minimized,Intercluster distances are maximized,聚类方法主要包括划分聚类、层次聚类、基于密度的聚类和kohonen聚类等；进行划分聚类，一般用距离来度量对象之间的相似性，典型的是欧氏距离；距离越大，则相似性越小，反之亦然；聚集通常作为数据挖掘的第一步。例如，

9、“哪一种类的促销对客户响应最好？”，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。,聚类,预测回归,通常，预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。从这种意义上说，预测其实没有必要分为一个单独的类。预测其目的是对未来未知变量的估计，这种预测是需要时间来验证的，即必须经过一定时间后，才知道预测准确性是多少。例如(1)证券市场; (2)由顾客过去之刷卡消费量预测其未来之刷卡消费量。使用的技巧包括回归分析、时间数列分析及类神经网络方法。,关联规则,从所有对象决定那些相关对象应该放在一

10、起。例如超市中相关之盥洗用品(牙刷、牙膏、牙线)，放在同一间货架上。在客户营销系统上，此种功能系用来确认交叉销售(cross-selling)的机会以设计出吸引人的产品群组。,序列模式发现,定义：给定一个项集合，每一个项都和事件的时间有关系. 目的：找出规则来预测在不同时间点上很强的序列依赖性.Rules are formed by first disovering patterns. Event occurrences in the patterns are governed by timing constraints.,异常检测,从正常的行为中检测有意义的异常应用: 信用卡欺诈检测网络侵

11、扰检测,Typical network traffic at University level may reach over 100 million connections per day,数据挖掘的发展,1989 IJCAI会议：数据库中的知识发现讨论专题 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 KDD讨论专题 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-S

12、hapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD国际会议 (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2002 会议,以及SIGKDD Explorations 数据挖掘方面更多的国际会议 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.,数据挖掘系统,数据挖掘系统,第一代数据挖掘系统支持一个或少数几个数据挖掘

13、算法，这些算法设计用来挖掘向量数据（vector-valued data），这些数据模型在挖掘时候，一般一次性调进内存进行处理。许多这样的系统已经商业化。第二代数据挖掘系统目前的研究，是改善第一代数据挖掘系统，开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库，和它们具有高性能的接口，具有高的可扩展性。例如，第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式（data mining schema）和数据挖掘查询语言（DMQL）增加系统的灵活性。,数据挖掘系统,第三代数据挖掘系统第三代的特征是能够挖掘Internet/Extranet的分布

14、式和高度异质的数据，并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别（first class）的支持。第四代数据挖掘系统第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在（ubiquitous）计算设备产生的各种类型的数据。,数据挖掘与KDD,二、数据预处理,数据预处理,为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化,为什么要预处理数据？,现实世界的数据是“肮脏的”数据多了，什么问题都会出现不完整的：有些感兴趣的属性缺少属性值，或仅包含聚集数据含噪声的：包含

15、错误或者“孤立点” 不一致的：在编码或者命名上存在差异没有高质量的数据，就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成,数据质量的多维度量,一个广为认可的多维度量观点：精确度完整度一致性可信度附加价值可访问性跟数据本身的含义相关的内在的、上下文的、表象的,数据预处理的主要任务,数据清理填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果数据离散化数据归约的一部分，通过概念分层和

16、数据的离散化来规约数据，对数字型数据特别重要,数据预处理,为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化,空缺值,数据并不总是完整的例如：数据库表中，很多条记录的对应字段没有相应值，比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时，有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上,如何处理空缺值,忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。人工填写空缺值：工作量大，可行性低使用一个

17、全局变量填充空缺值：比如使用unknown或- 使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样的基于推断的方法,噪声数据,噪声：一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据,如何处理噪声数据,分箱(binning): 首先排序数据，并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等聚类：监测并且去除孤立点计算机和人工检查

18、结合计算机检测可疑数据，然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据,数据平滑的分箱方法,price的排序后数据（单位：美元）：4，8，15，21，21，24，25，28，34 划分为（等深的）箱：箱1：4，8，15 箱2：21，21，24 箱3：25，28，34 用箱平均值平滑：箱1：9，9，9 箱2：22，22，22 箱3：29，29，29 用箱边界平滑：箱1：4，4，15 箱2：21，21，24 箱3：25，25，34,聚类,通过聚类分析查找孤立点，消除噪声,回归,x,y,y = x + 1,X1,Y1,Y1,数据预处理,为什么要预处理数据？数据清理数据集成

19、数据变换数据归约数据离散化,数据集成,数据集成：将多个数据源中的数据整合到一个一致的存储中模式集成：整合不同数据源中的元数据实体识别问题：匹配来自不同数据源的现实世界的实体，比如：A.cust-id=B.customer_no 检测并解决数据值的冲突对现实世界中的同一实体，来自不同数据源的属性值可能是不同的可能的原因：不同的数据表示，不同的度量等等,处理数据集成中的冗余数据,集成多个数据库时，经常会出现冗余数据同一属性在不同的数据库中会有不同的字段名一个属性可以由另外一个表导出，如“年薪” 有些冗余可以被相关分析检测到仔细将多个数据源中的数据集成起来，能够减少或避免结果数

20、据中的冗余与不一致性，从而可以提高挖掘的速度和质量。,数据预处理,为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化,数据变换,平滑：去除数据中的噪声（分箱、聚类、回归）聚集：汇总，数据立方体的构建数据概化：沿概念分层向上汇总规范化：将数据按比例缩放，使之落入一个小的特定区间最小最大规范化 z-score规范化小数定标规范化属性构造通过现有属性构造新的属性，并添加到属性集中；以增加对高维数据的结构的理解和精确度,数据变换规范化,最小最大规范化z-score规范化小数定标规范化,其中，j是使 Max(| |)1的最小整数,数据预处理,为什么要预处理数据？数

21、据清理数据集成数据变换数据归约数据离散化,数据归约策略,数据仓库中往往存有海量数据，在其上进行复杂的数据分析与挖掘需要很长的时间数据归约数据归约可以用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果数据归约策略数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。,数据立方体聚集,最底层的方体对应于基本方体基本方体对应于感兴趣的实体在数据立方体中存在着不同级别的汇总数据立方体可以看成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据

22、的快速访问使用与给定任务相关的最小方体在可能的情况下，对于汇总数据的查询应当使用数据立方体,维归约,通过删除不相干的属性或维减少数据量属性子集选择找出最小属性集，使得数据类的概率分布尽可能的接近使用所有属性的原分布减少出现在发现模式上的属性的数目，使得模式更易于理解启发式的（探索性的）方法逐步向前选择逐步向后删除向前选择和向后删除相结合判定归纳树,数据压缩,有损压缩 VS. 无损压缩字符串压缩有广泛的理论基础和精妙的算法通常是无损压缩在解压缩前对字符串的操作非常有限音频/视频压缩通常是有损压缩，压缩精度可以递进选择有时可以在不解压整体数据的情况下，重构某个片断

23、两种有损数据压缩的方法：小波变换和主要成分分析,数值归约,通过选择替代的、较小的数据表示形式来减少数据量有参方法：使用一个参数模型估计数据，最后只要存储参数即可。线性回归方法：Y=+X 多元回归：线性回归的扩充对数线性模型：近似离散的多维数据概率分布无参方法：直方图聚类选样,直方图,一种流行的数据归约技术将某属性的数据划分为不相交的子集，或桶，桶中放置该值的出现频率桶和属性值的划分规则等宽等深 V-最优 MaxDiff,聚类,将数据集划分为聚类，然后通过聚类来表示数据集如果数据可以组成各种不同的聚类，则该技术非常有效，反之如果数据界线模糊，则方法无效数据可以分层聚类

24、，并被存储在多层索引树中聚类的定义和算法都有很多选择,选样,允许用数据的较小随机样本（子集）表示大的数据集对数据集D的样本选择：简单随机选择n个样本，不回放：由D的N个元组中抽取n个样本简单随机选择n个样本，回放：过程同上，只是元组被抽取后，将被回放，可能再次被抽取聚类选样：D中元组被分入M个互不相交的聚类中，可在其中的m个聚类上进行简单随机选择（mM）分层选样：D被划分为互不相交的“层”，则可通过对每一层的简单随机选样得到D的分层选样,选样SRS,SRSWOR (简单随机选样，不回放),SRSWR,选样聚类/分层选样,原始数据,聚类/分层选样,数据预处理,为什么要预处理数据？

25、数据清理数据集成数据变换数据归约数据离散化,离散化,三种类型的属性值：名称型e.g. 无序集合中的值(如颜色, 民族) 序数e.g. 有序集合中的值 (如职称) 连续值e.g. 实数离散化将连续属性的范围划分为区间有效的规约数据基于判定树的分类挖掘离散化的数值用于进一步分析,离散化和概念分层,离散化通过将属性域划分为区间，减少给定连续属性值的个数。区间的标号可以代替实际的数据值。概念分层通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来规约数据,数据数值的离散化和概念分层生成,分箱（binning）分箱技术递归的用于结果划分，

26、可以产生概念分层。直方图分析（histogram）直方图分析方法递归的应用于每一部分，可以自动产生多级概念分层。聚类分析将数据划分成簇，每个簇形成同一个概念层上的一个节点，每个簇可再分成多个子簇，形成子节点。基于熵的离散化通过自然划分分段,通过自然划分分段,将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为：51263.98, 60872.34 通常数据分析人员希望看到划分的形式为50000，60000 自然划分的3-4-5规则常被用来将数值数据划分为相对一致，“更自然”的区间,自然划分的3-4-5规则,规则的划分步骤

27、：如果一个区间最高有效位上包含3，6，7或9个不同的值，就将该区间划分为3个等宽子区间；(72,3,2) 如果一个区间最高有效位上包含2，4，或8个不同的值，就将该区间划分为4个等宽子区间；如果一个区间最高有效位上包含1，5，或10个不同的值，就将该区间划分为5个等宽子区间；将该规则递归的应用于每个子区间，产生给定数值属性的概念分层；对于数据集中出现的最大值和最小值的极端分布，为了避免上述方法出现的结果扭曲，可以在顶层分段时，选用一个大部分的概率空间。e.g. 5%-95%,3-4-5规则例子,(-$4000 -$5,000),第四步,分类数据的概念分层生成,分类数据是指无序的离散数据

28、，它有有限个值（可能很多个）。分类数据的概念分层生成方法：由用户或专家在模式级显式的说明属性的部分序。通过显示数据分组说明分层结构的一部分。说明属性集，但不说明它们的偏序，然后系统根据算法自动产生属性的序，构造有意义的概念分层。对只说明部分属性集的情况，则可根据数据库模式中的数据语义定义对属性的捆绑信息，来恢复相关的属性。,属性集的规格,根据在给定属性集中，每个属性所包含的不同值的个数，可以自动的生成概念分成；不同值个数最多的属性将被放在概念分层的最底层。,country,province,city,street,5个不同值,65 个不同值,3567 个不同值,674,339 个不同

29、值,三、数据挖掘算法分类与预测,分类 VS. 预测,分类：预测分类标号（或离散值）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测：建立连续函数值模型，比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测,数据分类：两步过程,第一步，建立一个模型，描述预定数据类集和概念集假定每个元组属于一个预定义的类，由一个类标号属性确定基本概念训练数据集：由为建立模型而被分析的数据元组形成训练样本：训练数据集中的单个样本（元组）学习模型可以用分类规则、判定树或数学公式的形式提供第二步，使用模型，对将来的或未知的对象进行分类首先评估模型的预测准确率

30、对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本百分比测试集要独立于训练样本集，否则会出现“过分适应数据”的情况,第一步：建立模型,训练数据集,分类算法,IF rank = professor OR years 6 THEN tenured = yes,分类规则,第二步：用模型进行分类,分类规则,测试集,未知数据,(Jeff, Professor, 4),Tenured?,准备分类和预测的数据,通过对数据进行预处理，可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声，处理空缺值，从而减少学习时的混乱相

31、关性分析数据中的有些属性可能与当前任务不相关；也有些属性可能是冗余的；删除这些属性可以加快学习步骤，使学习结果更精确数据变换可以将数据概化到较高层概念，或将数据进行规范化,比较分类方法,使用下列标准比较分类和预测方法预测的准确率：模型正确预测新数据的类编号的能力速度：产生和使用模型的计算花销鲁棒性：给定噪声数据或有空缺值的数据，模型正确预测的能力可伸缩性：对大量数据，有效的构建模型的能力可解释性：学习模型提供的理解和洞察的层次,决策树分类(Decision Tree),从属性-类别事例推理树状规则的分类方法。应用最为广泛，常用的有：ID3，C4.5 。,叶节点,生成决策树,步骤

32、：,修剪决策树,生成决策树的关键:选择合适的属性作为判断依据，信息增益，信息增益比等,生成决策树时未考虑噪声影响，出现过拟合，预测效果差：预先剪枝，后剪枝,20世纪七、八十年代，J.Ross Quilan 开发了决策树算法，称作ID3(Iterative Dichotomiser,迭代的二分器)，后又提出了C4.5(ID3的后继)。1984 年即位统计学家(L. Breiman, J. Friedman, R. Olshen和C. Stonr ) 出版了分类与回归树(CART),介绍了二叉决策树的产生。,决策树分类,ID3 算法和C4.5算法,决策树的基本思想,每个内部节点（非叶节点）表示一个

33、属性的测试；每个树叶节点代表一个类（输出）,归纳学习,buys_computer的决策树，表示AllElectronics顾客是否可能购买计算机,展示结果,规则集,决策树,AllElectronics顾客数据库类标记的训练样本,属性选择度量,增益率,信息增益,指标,纯，即划分后各组中所有样本都属于相同的类。,属性选择度量又称分裂规则，根据该准则分裂后的输出将样本集细化，理性情况下，每个划分是“纯”的。,信息熵,设数据集为，类属性具有个取值，定义个不同的类,设是中类的样本的集合, 和分别是和中的样本个数.,数据集D的信息熵:,其中, 是中任意样本属于类的概率,用估计.,使

34、用以2为底的对数函数,是因为信息用二进位编码.,应用式子(1),计算AllElectronics顾客数据库分类所需要的信息熵：,(1),假设按属性划分中的样本，且属性根据训练数据的观测具有个,不同值。如果是离散值，这些值直接对应于的属性。,可依属性将划分为个子集,其中，为中的样本，它们在上具有属性值,这些划分将对应于从该节点出来的分支。,基于按划分对的样本分类所需要的期望信息：,其中，充当第个划分的权重。,越小，,划分的纯度越高。,信息增益,信息增益定义式：,告诉我们知道的值而导致的信息需求的期望减少。,按照能做“最佳分类”的属性划分，使完成样本分类

35、需要的信息量最小。,选择具有最高信息增益的属性作为分裂属性,信息增益,信息增益,信息增益,信息增益,第一次迭代后形成的决策树,age,youth,middle_aged,senior,属性age具有最高信息增益，成为分裂属性,算法终止条件,buys_computer的决策树，表示AllElectronics顾客是否可能购买计算机,最终形成的决策树,递归,算法流程,优点：(1)原理简单，生成模式便于理解； (2)对噪声数据有很好的强壮性。,缺点： (1)只能处理离散值属性； (2)偏袒选择值较多的属性； (3)易产生过拟合（overfitting）,ID3算法优缺点,C4.5算法,1993年

36、由Quinlan提出，采用信息增益比(信息率)来选择属性。,克服偏向选择取值较多属性的缺点,用阈值对属性划分，即把训练集中该属性的所有值划分到不同的区间中。,用最常见值代替未知值,如：视为youth;视为middle_aged;视为senior.,增益率,增益率,增益率,其他属性的信息率可类似求出。,对数据源进行数据预处理，将连续性的属性变量进行离散化处理形成决策树的训练集；,计算每个属性的信息增益和信息增益率；对于取值连续的属性，分别计算不同分割点所对应的分类的信息增益率，选择最大信息增益率对应的阈值作为该属性分类的分割点；选择信息增益率最大的属性作为当前的属性节点，得到决策树的根节点

37、。,根节点属性每一个可能的取值对应一个子集，对样本自己递归地执行步骤2过程，知道划分的每个子集中的观测数据在分类属性上取值都相同，生成决策树。,根据构造的决策树提取分类规则，对新的数据及进行分类。,C4.5算法,Company Logo,连续属性的处理,设数据集T中，连续属性A的取值v1,v2,vm,则任何在vi和vi+1之间的任意取值都可以把实例集合分为两部分T1=t|Avi和T2=t|Avi；对属性A一共有m-1种分割情况；计算每种分割所对应的信息增益率gain_ratio(vi) 在m-1种分割中，Threshold(V)=vkgain_ration(vk)=maxgain_rati

38、on(vi) 连续属性A可以分割为：,A,AThreshold(V),AThreshold(V),连续属性的处理,根据上面的描述，我们需要对每个候选分割阈值进行增益或熵的计算才能得到最优的阈值，我们需要算N-1次增益或熵（对应温度这个变量而言就是13次计算）。能否有所改进呢？该图中的绿线代表可能的最优分割阈值点，根据信息论知识，像middle72,75（红线所示）这个分割点，72,75属于同一个类，这样的分割点是不可能有信息增益的,C45算法将分类范围从分类的属性扩展到数字属性。如果数据集中存在连续型的描述性属性(数字属性)，C45算法首先将这些连续型属性的值分成不同的区间，即“离散化”。通常

39、将连续型属性值“离散化”的方法为：寻找该连续型属性的最小值，并将它赋值给min，寻找该连续型属性的最大值，并将它赋值给max；设置区间min，max中的N个等分断点Ai，其中，i=1,2,N；分别计算把(min，Ai)和(Ai,max)(i=1,2,3, ,N)作为区间值时的信息增益率（Ratio）值，并进行比较；选取信息增益率最大的A。作为该连续型属性的断点，将属性值设置为min，A和(A，max)两个区间值。,连续属性的处理,离散化处理过程中，C4.5算法是对节点上的每个属性都要计算其信息增益率,然后从中选择信息增益率最大的属性断点。由于在信息增益率计算过程中涉及到对数函数的计算,在计算程

40、序中就得调用库函数,同时随着数据量的增大，计算量也随之增大。这样就增加了计算量时间。因此，在改进的C4.5算法中采用了 “Fayyad 边界点判定定理”,连续属性的处理,定义 : 属性A 中的一个值T 是一边界点, 当且仅当在按A 的值排序的实例序列中, 存在两个实例e1 , e2 S 具有不同的类, 使得A ( e1 ) T A( e2 ) , 且不存在任何其他的实例eS , 使得A( e1 ) A ( e) A ( e2 ) 。A ( e) 表示实例e 的A属性值。S 表示实例的集合。定理 : 若T 使得E ( A , T , S ) 最小, 则T 是一个边界点。其中, A 为属性, S

41、为实例集合, E表示平均类熵, T 为某一阈值点。定理表明, 对连续属性A , 使得实例集合的平均类熵达到最小值的T , 总是处于实例序列中两个相邻异类实例之间。,连续属性的处理,由Fayyad 边界点判定定理可知, 无需检查每一个阈值点, 只要检查相邻不同类别的边界点即可。为了保持与C4.5 的一致性, 这里边界点选为相邻不同类别的属性值中较小的一个。例如, 当排序后的实例属性值为 v1 , v2 , , v10 , 其中前3 个属于类别C1 , 中间4 个属于类别C2 , 最后3个属于类别C3 , 因此只需考察两个边界点v3 与v7 而无需检查其余7 个阈值点, 然后选择v3 与v7

42、中使得平均类熵最小的那个作为最优阈值。,连续属性的处理,示例高尔夫,我们分类的目的就是根据某一天的天气状态，如天气，温度，湿度，是否刮风，来判断这一天是否适合打高尔夫球。,最终生成的决策树,CART,指标( index)在CART中使用。,CART 生成二叉树。,指标考虑每个属性上的二元划分。,Gini指标,CART,如果属性是离散值，考察的属性值形成的可能子集,每个子集可以看作属性的形如,的二元测试。,给定一个样本，如果该样本的值出现在中，该测试满足。,Gini指标,AllElectronics顾客数据库类标记的训练样本,为了找出数据集的分裂准则，需要计算每个属性的指标。,CA

43、RT,以属性为例。,有三个属性值,子集有个分别是,和,由于集合,不代表任何分裂，基于属性的二元,和,划分，存在,种划分数据集的方法。,Gini指标,CART,基于该划分计算出的指标值为：,Gini指标,Gini指标,类似地，对其余子集分裂的指标值是：,0.458(子集和 ),0.450(子集和 ),同样的办法，评估节点，,得到 (或 ) 为的最好分裂.,CART,指标值为0.357；,属性和都是二元的，分别具有指标值0.367和0.429.,比较可知，属性和分裂子集产生最小,指标，因此被选作根节点，产生两个分支。,CART生成二叉树,CART生成二叉树,对分裂后的

44、子集，递归调用上述流程，即可完成建树。,决策树剪枝,由于数据中存在噪声，许多分支反映的是训练数据中的异常。剪枝来处理这种过分拟合问题。,决策树剪枝先剪枝,最直接的方法：事先限定树的最大生长高度,如果设为3，则如图剪枝,找出“完全”生长的树,树叶用被替换的子树最频繁的类标号。,决策树剪枝后剪枝,贝叶斯分类,贝叶斯分类利用统计学中的贝叶斯定理，来预测类成员的概率，即给定一个样本，计算该样本属于一个特定的类的概率。朴素贝叶斯分类：假设每个属性之间都是相互独立的，并且每个属性对分类问题产生的影响都是一样的。,后向传播分类,后向传播是一种神经网络学习算法；神经网络是一组连接的输入/输出单元，每个连接都

45、与一个权相连。在学习阶段，通过调整神经网络的权，使得能够预测输入样本的正确标号来学习。优点预测精度总的来说较高健壮性好，训练样本中包含错误时也可正常工作输出可能是离散值、连续值或者是离散或量化属性的向量值对目标进行分类较快缺点训练（学习）时间长蕴涵在学习的权中的符号含义很难理解很难根专业领域知识相整合,其他分类方法,k-最临近分类给定一个未知样本，k-最临近分类法搜索模式空间，找出最接近未知样本的k个训练样本；然后使用k个最临近者中最公共的类来预测当前样本的类标号基于案例的推理样本或案例使用复杂的符号表示，对于新案例，先检测是否存在同样的训练案例；如果找不到，则搜索类似

46、的训练案例遗传算法结合生物进化思想的算法,什么是预测？,预测是构造和使用模型评估无样本类，或评估给定样本可能具有的属性或值空间。预测和分类的异同相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点分类法主要是用来预测类标号（分类属性值）预测法主要是用来估计连续值（量化属性值）,回归方法,线性回归：Y = + X 其中和是回归系数，可以根据给定的数据点，通过最小二乘法来求得多元回归：Y = + 1X1 + 2 X2 线性回归的扩展，设计多个预测变量，可以用最小二乘法求得上式中的，1 和2 非线性回归：Y = + 1

47、X1 + 2 X22+ 3 X33 对不呈线性依赖的数据建模使用多项式回归建模方法，然后进行变量变换，将非线性模型转换为线性模型，然后用最小二乘法求解,评估分类法的准确性,导出分类法后，再使用训练数据评估分类法，可能错误的导致乐观的估计保持方法给定数据随机划分为两个集合：训练集(2/3)和测试集(1/3) 训练集导出分类法，测试集对其准确性进行评估随机子选样：保持方法的一个变形，将保持方法重复k次，然后取准确率的平均值 k-折交叉确认初始数据被划分为k个不相交的，大小大致相同的子集S1,S2Sk 进行k次训练和测试，第i次时，以Si做测试集，其他做训练集准确率为k次迭代正确分类数除

48、以初始数据集样本总数,提高分类法的准确性,Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2CT组合起来，从而创造一个改进的分类法C* Bagging技术对训练集S进行T次迭代，每次通过放回取样选取样本集St，通过学习St得到分类法Ct 对于未知样本X，每个分类法返回其类预测，作为一票 C*统计得票，并将得票最高的预测赋予X Boosting技术每个训练样本赋予一个权值 Ct的权值取决于其错误率,四、数据挖掘算法聚类,什么是聚类分析？,聚类（簇）：数据对象的集合在同一个聚类（簇）中的对象彼此相似不同簇中的对象则相异聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习：没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法（如：特征和分类）的预处理步骤,聚类分析的典型应用,模式识别空间数据分析在GIS系统中，对相似区域进行聚类，产生主题地图检测空间聚类，并给出它们在空间数据挖掘中的解释图像处理商务应用中，帮市场分析人员发现不同的顾客群万维网对WEB上的文档进行分类对WEB日志的数据进行聚类，以发现相同的用户访问模式,

展开阅读全文