华中科技大学谭毅华_数据挖掘4-分类.ppt-道客多多

资源描述

1、数据挖掘：分类,谭毅华,Y 华中科技大学图像识别与人工智能研究所,内容,分类和预测的基本概念关于分类和预测的问题分类的方法决策树分类器 Bayesian分类器后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,分类VS.预测,分类: 预测类标号基于训练集和值（类标号）构造数据分类模型，并对新的数据进行分类预测: 对连续函数建模, i.e., 预测未知或丢失的数据典型应用信用证明客户市场医学诊断目标识别,分类：两步骤,模型构造: 描述预定类别的样本每个样本属于预定义的类，由类标号属性确定模型构造的元组称为训练集模型表达

2、为分类规则、决策树或数学公式模型使用: 用于对未来或未知的对象分类模型的估计精度测试样本的已知标号和模型的分类结果进行对比准确率为测试样本由模型正确分类的百分比测试集独立于训练集, 否则会产生过拟合现象若准确率可接受, 以该模型对未知类标号的数据元组分类,分类过程1:模型构造,训练数据,分类算法,IF rank = professor OR years 6 THEN tenured = yes,分类器 (模型),分类过程2:应用模型,分类器,测试数据,未知数据,(Jeff, Professor, 4),Tenured?,内容,分类和预测的基本概念关于分类和预测的问题分类的方

3、法决策树分类器 Bayesian分类器后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,数据预处理和准备,数据清理消除或减少数据噪声，处理缺失值。相关分析去除不相关或冗余属性数据变换规范化或归一化数据,分类和预测方法的评价,精度分类器精度: 正确地预测数据类标号的能力预测器精度: 猜测数据的预测属性值速度构造模型的时间 (训练时间) 应用模型的时间 (分类/预测时间) 鲁棒性: 对存在噪声或缺失值的数据，分类器或预测器正确分类的能力可伸缩性: 大容量数据库，分类器或预测器的效率可解释性模型提供的理解和领悟能力其它度量,

4、e.g., 规则的好坏, 决策树大小或分类规则的紧致度,内容,分类和预测的基本概念关于分类和预测的问题分类的方法决策树分类器 Bayesian分类器后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,决策树归纳分类,算法种类多 Hunts Algorithm (one of the earliest) CART ID3, C4.5 SLIQ,SPRINT,训练样本：购买计算机的统计表,决策树的构造,age?,3140,student?,credit rating?,=30,40,fair,excellent,yes,no,no,yes,ye

5、s,yes,no,基本决策树算法,基本算法 (贪婪算法) 自顶向下的分治算法构造树开始, 所有的训练样本和树根相连属性为分类属性 (若是连续值，则离散化) 根据选定的属性递归地划分样本?如何选择基于启发式或统计度量选取测试属性 (e.g., 信息增益) 停止划分的准则所有样本均和属于同一类的节点连接无剩下的属性用于继续划分样本叶节点分类应用多数表决法无剩余的样本,划分示例,令 Dt 为到达节点 t，与之相连的所有样本集一般过程: 若Dt 包含的样本属于同一类 yt, 则t 标记为叶节点，其标号为 yt 若 Dt 为空, 则t 是标号为 yd的叶节点若Dt 包含的样本超过一类,

6、以属性测试将样本进一步划分. 递归地应用此过程划分样本数据。,Dt,?,划分示例,Dont Cheat,类标号,决策树方法的关键问题,贪婪策略下的问题如何划分数据怎样指定属性的测试条件,区分为几类? 怎样确定”最佳”划分? 何时停止划分,?,Dt,属性的测试条件,和属性的类型有关,A?,A1,A2,A3,A?,ATh,ATh,Income?,Low,Medium,High,Income?,2000,2000,AS?,yes,no,CarType Family,Sports,yes,no,测试条件,例子,离散值,连续值,离散值,决策树方法的关键问题,贪婪策略下的问题如何划分数据

7、怎样指定属性的测试条件,区分为几类? 怎样确定”最佳”划分? 何时停止划分,怎样确定最佳划分,非同质性, 不纯度高,同质性, 不纯度低,划分前: 类 0有10个样本, 类 1有10样本,类同质分布优先,需度量属性节点的impurity,哪个测试条件最优？,属性选择度量,属性选择度量划分规则划分属性：度量得分高的属性流行的属性选择度量信息增益(ID3， C4.5) 选取时，偏向于多值属性增益率(C4.5) 偏向不平衡划分 Gini指标(IBM IntelligentMiner) 偏向于多值属性类的数量很大时，计算较困难,信息增益(Information Gain),基于信息论“熵”，选

8、取具有最大信息增益的属性划分在属性节点A处，样本集D所具有的熵(p( j | D) 为类 j 在节点 t处的概率). 度量节点的均质性当所有的类均匀分布时，最大为 (log nc)，具有最多信息当只有所有样本属于一类时，最小为 (0.0) ，具有最少信息在属性A处，将样本分为v类的信息量通过在属性A，形成v个分支后，信息增益为,增益最大的选为划分属性,信息增益例子,类 P: buys_computer = “yes” 类 N: buys_computer = “no”,指 14个样本中有5个“age =30”, 两个属于类p，2个属于类N ,因此Similarly,决策树首层,age

9、?,=30,40,3040,增益率(Gain Ratio),C4.5 (ID3的后继算法) 应用增益率克服信息增益的偏斜性 (信息增益的规范化)Ex. GainRatio(income) = 0.029/0.926 = 0.031 具有最大增益率的属性选为划分属性,Gini指数,Gini指数:节点属性 A划分样本的不纯度，设样本集为D(NOTE: p( j | D) 类 j 在样本D中的概率).当所有样本均匀分布在不同类时，最大为(1 - 1/nc), 表示最小兴趣信息当所有的样本属于一类时，最小为(0.0)，表示最大兴趣信息,基于Gini指数的划分,用于CART算法在节点A，将训练集D

10、划分为k个子集(子节点Di )，则以划分的不纯度加权和度量其优劣ni = 子树的训练样本个数i,n = 节点p处训练样本个数.,Gini例子,P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Gini = 1 P(C1)2 P(C2)2 = 1 0 1 = 0,P(C1) = 1/6 P(C2) = 5/6 Gini = 1 (1/6)2 (5/6)2 = 0.278,P(C1) = 2/6 P(C2) = 4/6 Gini = 1 (2/6)2 (4/6)2 = 0.444,二值属性的Gini指数,划分为两个子集带权划分的效果: Gini指数越小越好寻求更大和更纯的划分,

11、B?,Yes,No,Node N1,Node N2,Gini(D1) = 1 (5/7)2 (2/7)2 = 0.174 Gini(D2) = 1 (1/5)2 (4/5)2 = 0.32,Gini(Children) = 7/12 * 0.174 + 5/12 * 0.32 = 0.204,决策树方法的关键问题,贪婪策略下的问题如何划分数据怎样指定属性的测试条件,区分为几类? 怎样确定”最佳”划分? 何时停止划分所有样本属于同一类，则中止所有的样本具有相同的属性其它的提前中止法,ID3算法,ID3(Examples, Class_no, Attributes) 创建树的根节点如果样

12、本属同一类C,返回该根结点，创建单节点树，并以C作为类标号如果Attributes为空，那么返回根节点，其类标号为样本集中的多数类否则开始 AAttributes中分类样本能力最好的属性（最大信息增益）以A作为节点分类属性对于A的每个可能值vi 在节点下加一个新的分支对应测试A=vi 令样本vi为样本集中中满足A属性值为vi的子集如果Examplevi为空在这个新分支下加一个叶子节点，节点的标号为样本中的多数类否则在新分支下加一个子树ID3（ Examplesvi,Class_no,Attributes-A）结束返回root,决策树方法分类实践时存在的问题,确定决策树增长的深

13、度处理连续值的属性处理属性值不完整的训练数据处理不同代价的属性提高计算效率,过拟合现象,噪声引起分类面扭曲,数据缺失，使得决策树使用其它分类任务的预测值进行分类,分支太多，由噪声或野值点产生异常分类未见数据时精度低,剪枝方法处理过拟合,前剪枝 (Early Stopping Rule) 在生成完全树之前中止典型的中止条件:所有的样本属于同一类所有的属性值相同更严格的条件:样本数少于用户指定的数量样本的类分布独立于已知特征 (e.g., using 2 test)如果继续划分当前节点并不会改善不纯度 (e.g., Gini or information gain).,剪枝方法处理过拟合,后

14、剪枝在生成完全树之后处理以自底向上的方式修剪节点如果修建后改善了泛化误差，则以叶节点代替子树叶节点的类标号以子树中大多数样本的标号代替可以使用 MDL 实现后剪枝,错误率的估计,重置换错误率: 训练错误率 ( e(t) ) 泛化错误率: 测试错误率 ( e(t)泛化错误率估计方法: 乐观方法: e(t) = e(t) 悲观方法: 对每个叶节点: e(t) = (e(t)+0.5) 总错误率: e(T) = e(T) + N 0.5 (N: 节点个数)对树有 30 叶节点，训练集有10个错误 (共1000个样本): 训练错误率 = 10/1000 = 1%泛化错误率 = (10 +

15、300.5)/1000 = 2.5% 减少错误率的剪枝 :使用验证数据集估计泛化错误,后剪枝方法实例,训练错误率(划分前) = 10/30 悲观错误率(划分前) = (10 + 0.5)/30 = 10.5/30 训练错误率 (划分后) = 9/30 悲观错误率(划分后) = (9 + 4 0.5)/30 = 11/30剪枝!,最短描述长度剪枝算法,L(Model,Data) = L(Data|Model) + L(Model) L为用于编码的比特数. 搜索具有最短长度比特树的模型. L(Data|Model) 对错分率编码. L(Model) 对节点编码 (分支数) 和划分条件编码,ID3的

16、扩展C4.5,简单的深度优先构造树合并具有连续值的属性可处理缺失属性值的样本未知值用常用值代替使用不同的剪枝技术以避免树的不平衡基于误分率的树叶节点代替子树使用增益比选取属性产生规则(if-then) K次迭代交叉验证可从以下网址下载: http:/www.cse.unsw.edu.au/quinlan/c4.5r8.tar.gz,分类树的增强,可使用连续值属性通过将连续值分为若干离散区间集，动态地定义新的离散属性处理缺失属性值赋以最常用的值给每个值赋以概率属性构造基于已有的属性，构造新的属性实现稀疏表达减少重复（多次测试）和复制（同样的子树）,内容,分类和预测的

17、基本概念关于分类和预测的问题分类的方法决策树分类器 Bayesian分类器后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,Bayesian Classifier,统计分类器: 实现概率预测, i.e., 预测类成员的概率理论基础: Bayes定理性能: 简单的贝页斯分类器, nave Bayesian classifier, 和决策树及神经网络性能相当可增量的: 在假设正确的前提下，每个训练样本可增加或减少其概率先验知识和数据混合使用标准: 尽管贝页斯方法计算上难以处理，但可提供标准的模型最优选择,贝页斯定理,给定训练样本 X,

18、假设H的后验概率, P(H|X), 服从贝页斯定理形式上可写为posteriori = likelihood x prior/evidence 若P(Ci|X) 的概率高于所有的其它k类P(Ck|X)，则预测 X 属于 Ci 类实际困难: 需要知道许多概率的先验知识, 这是很大的计算代价,朴素贝页斯分类的预备知识,令 D 为训练元组集及其类标号, 每个元组可表示为n维向量 X = (x1, x2, , xn) 假定共有m 类 C1, C2, , Cm. 分类过程是后验概率的求解过程, i.e., 令 P(Ci|X)最大从贝页斯定理由于P(X) 为常数, 故计算需令其最大化,贝页斯分类器

19、的推导,简单假设: 属性条件独立 (i.e., 属性间无依赖关系):大大降低了计算量: 只计算类内的分布若Ak 为分类属性, P(xk|Ci) 是D中属性Ak的值为 xk类属Ci 类的元组数除以D中Ci类的元组数|Ci, D| 若Ak 为连续值, P(xk|Ci) 通常假定服从均值为和标准差为的高斯分布而,分类实例：训练样本,Class: C1:buys_computer = yes C2:buys_computer = noData sample X = (age =30, Income = medium, Student = yes Credit_rating = Fair),朴素贝

20、页斯分类过程,计算先验概率 P(Ci): P(buys_computer = “yes”) = 9/14 = 0.643P(buys_computer = “no”) = 5/14= 0.357计算条件概率 Compute P(X|Ci) for each classP(age = “=30” | buys_computer = “yes”) = 2/9 = 0.222P(age = “= 30” | buys_computer = “no”) = 3/5 = 0.6P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444P(inco

21、me = “medium” | buys_computer = “no”) = 2/5 = 0.4P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4计算后验概率X = (age = 30

22、, income = medium, student = yes, credit_rating = fair)P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) = 0.028P(X|buys_computer = “no”) * P(buys

23、_computer = “no”) = 0.007Therefore, X belongs to class (“buys_computer = yes”),零概率问题,朴素贝页斯预测需要每个条件概率非零，否则整个预测概率为零假设数据有1000个数据集, income=low (0), income= medium (990), and income = high (10), Laplacian 校准 (or Laplacian估计器) 每个计数都加上1 Prob(income = low) = 1/1003 Prob(income = medium) = 991/1003 Prob(inc

24、ome = high) = 11/1003“校准” 概率估计非常接近 “未校准”概率估计,朴素贝页斯分类器的评价,优点容易实现大多数情况下结果令人满意缺点满足假设: 类条件独立，对实际分布的描述不准确实际上，不同的属性间是相关联的 E.g., 医院: 病人: 档案: 年龄, 家族史, etc. 症状: 发烧, 咳嗽等., 疾病: 肺癌, 糖尿病, etc. 这些属性间的关联无法由朴素贝页斯分类器建模如何处理这种相关性? Bayesian Belief Networks,Bayesian Belief Networks,贝页斯证据网络允许属性变量的子集条件独立因果关系的图模型表

25、达变量间的依赖性给出了联合概率的完全表示,节点: 随机变量连接箭头: 依赖性X 和 Y 为 Z的父节点, 而 Y 为 P的父节点 Z 和P间无依赖性是一个无环图,简单的贝页斯证据网络实例,Family History,LungCancer,PositiveXRay,Smoker,Emphysema,Dyspnea,LC,LC,(FH, S),(FH, S),(FH, S),(FH, S),0.8,0.2,0.5,0.5,0.7,0.3,0.1,0.9,Bayesian Belief Networks,变量 LungCancer 的条件概率表 (CPT),CPT 表示每个父节点不同组合的条件概

26、率,数据元组X由属性Y1,Yn描述的联合概率表示为,BPN的训练,几种情况: 给定网络结构和所有的观测变量 : 学习 CPTs 网络结构已知, 存在一些隐变量: 梯度下降法, 和神经网络的学习类似网络结构未知, 所有观测变量已知: 通过模型空间搜索构造网络拓扑结构未知, 所有都是隐变量: 没有办法学习？！,内容,分类和预测的基本概念关于分类和预测的问题分类的方法决策树分类器 Bayesian分类器基于规则的分类后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,基于规则的分类器,使用一系列“ifthen” 对数据集分类规则: (Cond

27、ition) y 此处 Condition 为多个属性值 y 为类标号 LHS(IF 部分): 规则前件或前提 RHS(then 部分): 规则结论分类规则例子:(血的类型=温血) (下蛋=Yes) 鸟(税收收入 50K) (退税=Yes) 逃税=No,规则的应用,若样本x的所有属性满足规则的前提，称规则 r 覆盖样本 x,R1: (Give Birth = no) (Can Fly = yes) Birds R2: (Give Birth = no) (Live in Water = yes) Fishes R3: (Give Birth = yes) (Blood Type = warm

28、) Mammals R4: (Give Birth = no) (Can Fly = no) Reptiles R5: (Live in Water = sometimes) Amphibians,规则 R1 覆盖 hawk = Bird 规则 R3 覆盖 grizzly bear = Mammal,规则的评价,ncovers = 规则R覆盖的样本数 ncorrect = 规则 R正确分类的样本数D: 数据样本集规则覆盖率: Coverage(R)= ncovers /|D| 规则准确率: Accuracy(R) = ncorrect / ncovers,(Status=Single) No

29、Coverage = 40%, Accuracy = 50%,规则的冲突,触发：规则被满足激活：该规则为唯一满足的,R1: (Give Birth = no) (Can Fly = yes) Birds R2: (Give Birth = no) (Live in Water = yes) Fishes R3: (Give Birth = yes) (Blood Type = warm) Mammals R4: (Give Birth = no) (Can Fly = no) Reptiles R5: (Live in Water = sometimes) Amphibians,A lemu

30、r triggers rule R3, so it is classified as a mammal A turtle triggers both R4 and R5 A dogfish shark triggers none of the rules,冲突解决,规模序(size ording): 要求最严格的规则赋予最高优先级 (i.e., 最多属性测试) 基于类的序: 按照类的频繁性或错分代价的降序排列基于规则的序 (决策表): 根据规则的质量度量或专家意见，规则组织为长的优先级列表,从决策树提取规则,规则易于理解从根到树的叶节点的每条路径创建一个规则沿每个划分准则的逻辑AND形成

31、规则的前提，存放类预测的叶节点形成规则后件规则间是互斥或穷举的,Example: 从 buys_computer 决策树提取的规则 IF age = young AND student = no THEN buys_computer = no IF age = young AND student = yes THEN buys_computer = yes IF age = mid-age THEN buys_computer = yes IF age = old AND credit_rating = excellent THEN buys_computer = yes IF age =

32、young AND credit_rating = fair THEN buys_computer = no,规则归纳：序贯覆盖算法,Sequential covering : 直接从数据抽取规则典型的序贯覆盖算法: FOIL, AQ, CN2, RIPPER 序贯地学习规则, 对每个给定的类 Ci 希望覆盖该类的许多元组，但不包括其它类的元组(或很少) 步骤: 一次学习一个规则每次学习规则时, 删除规则覆盖到的元组对剩余的元组重复此过程，直到满足中止条件.如无训练样本或规则质量低于用户指定的门限决策树归纳: 同时学习一组规则,顺序覆盖算法,while (还有足够的元组)产生一条规则删

33、除满足规则的元组,规则3覆盖的样本,规则覆盖的样本2,规则1覆盖的样本,Positive examples,Learn One Rule算法,从空规则开始: 条件= 空深度优先贪婪算法增加新的变量选择提高规则质量最多的变量规则质量度量: 覆盖率和准确率 Foil信息增益 (in FOIL & RIPPER): 扩展前提来估计 info_gain 适合于有较高准确率，并且覆盖很多正元组的规则基于独立测试集的规则剪枝Pos/neg 为规则R覆盖的正/负元组数若规则R剪枝后的 FOIL_Prune更高, 则对 R剪枝,产生规则,Positive examples,Negative exam

34、ples,A3=1,A3=1&A1=2,A3=1&A1=2 &A8=5,产生规则 while(true)搜索最优预测 p若 FOIL_Gain(p) threshold 则将 p 加入当前规则否则 break,内容,分类和预测的基本概念关于分类和预测的问题分类的方法决策树分类器 Bayesian分类器基于规则的分类后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,Back Propagation,一种神经网络学习算法：对多层前馈神经网络的学习人工神经网络心理学家和神经学家开创，用于测试神经元的计算模拟神经网络：一组连接的输入/输出

35、单元，每个连接和一个权系数关联学习阶段：调整权系数，使其正确预测输入元组的类标号又称为连接者学习,Neuro (Perceptron),由多个互连的节点和权系数连接输出节点为输入节点的加权和根据输入的门限，定义相应的函数f最后，n维输入矢量X映射为变量y,Perceptron Model,or,多层前馈神经网络,将类预测作为输入的非线性组合,给定足够多的隐藏单元和训练样本，多层神经网络可逼近任意函数,若权系数不返回到前一层，则称前馈神经网络,定义神经网络拓扑,设计网络拓扑: 输入层单元数, 隐藏层单元数 (若多于 1层), 每个隐藏层的单元数, 输出层的单元数将训练元组中每个属性的观测值

36、进行归一化，如：使其落入 0.01.0 每个域值一个输入单元, 初始化为 0 输出, 若分类时有两类以上, 每类一个输出单元若神经网络经训练后发现准确度不高, 以不同的神经网络拓扑或不同的初始权系数集训练,后向传播算法学习,迭代地处理训练元组数据集，比较器网络预测值和已知的目标值(类标号或连续预测值) 对每个训练元组, 权系数对网络预测值和实际目标值之间的MSE最小后向进行修正 : 从输出层, 经每个隐藏层,最后到首层步骤初始化权系数 (赋以很小的随机数) ，每个单元一个偏差度前向传播输入 (应用激励函数) 后向传播误差 (通过更新权系数和偏差度) 中止条件 (当误差很小时, etc.

37、),后向传播和可解释性,后向传播的效率: 给定|D|个元组和w个权系数，每个周期 (对训练集的一次迭代) 需要化的时间为O(|D| * w), 在最坏的情况下，周期数为可能是输入数n的指数从网络抽取规则: 网络剪枝删除对训练后的网络影响最小的加权连接以简化网络结构对连接、单元或活跃值聚类对输入值和活跃值进行学习，导出描述输入和隐藏单元层的关系灵敏度分析: 评估给定的输入变量对网络输出的影响。. 这种形式的分析得到的知识可用“IF x 减少5% THEN Y增加8%”的规则表达,内容,分类和预测的基本概念关于分类和预测的问题分类的方法决策树分类器 Bayesian分类器基于规

38、则的分类后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,一个简单的例子,哪个分类更优? B1 or B2? 怎样定义更优?,SVM的简介,适用于线性和非线性可分数据的新分类方法通过非线性映射，将原始训练数据变换到更高维空间在新的维度下, 搜索线性可分的超平面 (i.e., “决策边界”) 通过合适的高维映射, 来自两类的数据总可被超平面分开 SVM 以支持向量搜索超平面 (“基本” 训练元组) 和边缘 (由支持向量定义),SVM的基本思想,边缘和支持向量,SVM-线性可分情况,m,令 D 为数据集 (X1, y1), , (X|D|, y|D

39、|), 此处Xi 为和类标号 yi相关联的训练元组存在无数条线 (超平面) 分开两类，但我们期望找出最佳的分类 (对未见数据具有最小的分类误差) SVM 搜索最大的边缘, i.e., maximum marginal hyperplane (MMH),SVM-线性可分,SVM-线性可分,目标是最大化:等价于最小化:满足以下约束:约束的二次优化问题数值方法求解 (e.g., 二次规划) 训练后的决策边界,SVM-问题线性不可分,问题是线性不可分，怎么办？引入松弛变量最小化:约束条件下:,SVM-决策面分线性,将原始输入数据变换到高维的空间例6-10在新的空间搜索线性可分平面,SVM-核

40、函数映射,利用核函数K(Xi, Xj)对原始数据映射，如K(Xi, Xj) = (Xi) (Xj) 典型的核函数SVM 可用于多类分类 ( 2两类) 和回归分析 (使用附加的用户参数),SVM相关链接,SVM Website http:/www.kernel-machines.org/ 实现的代码 LIBSVM: SVM的高效实现, 多类分类, 两类分类等 SVM-light: 简单但性能劣于 LIBSVM, 只支持两类分类， c语言 SVM-torch: 用 C语言实现.,Lazy VS. Eager Learning,Lazy vs. eager learning Lazy learnin

41、g (e.g., 基于实例的学习): 简单地存储样本 (或小的预处理) ，一直等到给定测试元组 Eager learning (前面提到的方法): 给定训练集, 在检验元组到来之前，构造泛化的分类模型 Lazy: 训练时间少，但在预测时需花费更多时间准确率 Lazy learning : 更有效地利用假设空间，因为使用很多的局部函数隐式地逼近全局函数 Eager: 必须归结于单个假设，覆盖整个实例空间,K-最近邻法,基本思想：类比学习走路像鸭子，叫声像鸭子，则该动物是鸭子,K-最近邻法算法,所有的实例对应 n-维空间根据欧式距离定义邻近性, dist(X1, X2) 目标函数可为离散或实

42、值函数对离散值, k-NN 返回未知元组xq k个最近邻训练集中的最普遍的值 Voronoi 图: 对训练样本的典型集，1-NN的决策面,Voronoi Diagram,关于k-NN算法,k-NN 是对给定的未知元组，预测其实值返回 k 最近邻的均值权距离最近邻算法根据k近邻对未知元组xq的距离贡献，计算预测值距离近，则权系数大，w = 1/d2 k近邻平均后，对噪声鲁棒维数灾难: 相邻的距离可能由不相关的属性主导通过轴拉伸删除最不相关的属性,K-NN例,名词属性的距离: d(Single,Married) = | 2/4 0/4 | + | 2/4 4/4 | = 1 d(Si

43、ngle,Divorced) = | 2/4 1/2 | + | 2/4 1/2 | = 0 d(Married,Divorced) = | 0/4 1/2 | + | 4/4 1/2 | = 1 d(Refund=Yes,Refund=No) = | 0/3 3/7 | + | 3/3 4/7 | = 6/7,K-NN例续,元组 X 和 Y的距离:,其中:,若X 大多数情况下预测准确，wX 1 若X 预测不可靠，则wX 1,Case-based reasoning,储存案例使用训练数据预测未见数据的类标号,内容,分类和预测的基本概念关于分类和预测的问题分类的方法决策树分类器 Ba

44、yesian分类器基于规则的分类后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,Case-based reasoning,CBR: 使用问题解数据库解决新问题储存符号描述 (元组 or案例)而不是欧式空间中的点应用: 客户-服务 (产品故障诊断), 法律裁决方法案例表达为符号描述 (e.g., 函数图) 搜索相似空间, 多个搜索到的案例可综合案例搜索, 基于知识的推理和问题求解的紧耦合挑战寻找最优相似度基于句法相似度的索引，当搜索失效时，回溯或自适应地附加案例,内容,分类和预测的基本概念关于分类和预测的问题分类的方法决

45、策树分类器 Bayesian分类器基于规则的分类后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,Genetic algorithm,遗传算法: 模拟生物进化创建由初始规则组成的初始种群每个规则由一个二进位串表示 E.g., if A1 and NOT A2 then C2 可编码为 100 若属性有k个值( k 2 ), 则可用k比特对该属性编码基于“适者生存”的原则, 形成由当前种群中最适合的规则及其后代组成新的种群规则的适应度由其对训练样本的分类精度表示后代通过交叉和变异产生该过程继续，直到种群进化到每个规则均满足预先指定的适应

46、度速度较慢，但易于并行,Rough Set Approach,用于“近似的”或“粗糙的”定义等价类给定类 C的粗糙集由两个集合逼近: a lower approximation (一定属于 C) 和 an upper approximation (不可能认为不属于C) 寻找属性的最小子集(特征简化）是NP难题，但识别矩阵(discernibility matrix )存放每对数据元组的属性值之间的差别，降低计算强度,模糊集方法,模糊逻辑使用 0.0 和 1.0 间的真值表示成员的隶属度 (如模糊隶属度图) 属性值转换为模糊值 e.g., 通过计算模糊值，将收入映射到离散类别 low, m

47、edium, high 给定新的样本, 可给出多个模糊值每个可适用的规则为类成员贡献一票典型地, 对每个预测类的真值求和，并组合这些和,内容,分类和预测的基本概念关于分类和预测的问题分类的方法决策树分类器 Bayesian分类器基于规则的分类后向传播分类器 SVM分类器惰性学习法分类其它分类方法预测的方法分类和预测方法的评估,什么是预测,(数值) 预测和分类类似构建模型针对给定的输入，使用模型预测连续或顺序值预测和分类的不同点分类指预测分类标号预测模型使用连续函数预测的主要方法: regression 对一个或多个独立变量（或预测变量）和一个因变量(或响应

48、变量）之间的关系建模回归分析线性回归和多元线性回归非线性回归其它的回归方法: 广义线性模型, Poisson 回归, 对数线性模型, 回归树,Linear Regression,线性回归: 单个因变量 y 和单个预测变量 x y = w0 + w1 x w0 (y斜距) 和 w1 (斜率) 为回归系数最小二乘方法: 估计最佳拟合直线多元线性回归: 包含多个预测变量训练数据形如 (X1, y1), (X2, y2), (X|D|, y|D|) Ex. 对2D数据, 可形如: y = w0 + w1 x1+ w2 x2 扩展最小二乘法求解，或使用 SAS, S-Plus等软件系统求解,

49、Nonlinear Regression,一些非线性模型可用多项式建模多项式回归模型可变成线性模型 y = w0 + w1 x + w2 x2 + w3 x3 可转换成新的模型，通过: x2 = x2, x3= x3 y = w0 + w1 x + w2 x2 + w3 x3 其它函数, 如幂函数, 也可变成线性模型有的模型是难以处理的非线性 (e.g., 指数项和的形式) 可通过更复杂的公式进行综合计算，得到最小二乘估计,其它的回归方法,广义线性模型: 提供了用于分类因变量建模的理论基础因变量 y的方差是 y均值的函数, 而非常数 Logistic 回归: 某个事件的发生概率为预测变量集的线性函数Poisson 回归: 对数据建模为Poisson分布对数线性模型: (对分类数据) 逼近离散的多维概率分布对数据平滑和压缩有用回归树和模型树用于预测连续值而非类标号,

展开阅读全文