1、分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题,分类是数据挖掘中重要的任务,分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。 分类可用于预测。从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。 分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。 分类器的构造依据的方法很广泛: 统计方法:包括贝叶斯法和非参数法等。 机器学习方法:包括决策树法和规则归纳法。 神经网络方法。 其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。,分类的基本概念与步骤,分类方
2、法的类型,从使用的主要技术上看,可以把分类方法归结为四种类型: 基于距离的分类方法 决策树分类方法 贝叶斯分类方法 规则归纳方法。 本章将选择一些有代表性的方法和算法来介绍这四类分类方法。,分类问题的描述,定义4-1 给定一个数据库 D=t1,t2,tn和一组类 C=C1,Cm,分类问题是去确定一个映射f: DC,使得每个元组ti被分配到一个类Cj中。一个类Cj 包含映射到该类中的所有元组,即Cj= ti | f(ti) = Cj,1 i n,而且ti D。 例如,把学生的百分制分数分成A、B、C、D、E五类,就是一个分类问题: D是包含百分制分数在内的学生信息, C=A、B、C、D、E 。
3、解决分类问题的关键是构造一个合适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。,数据分类的两个步骤,1建立一个模型,描述预定的数据类集或概念集 数据元组也称作样本、实例或对象。 为建立模型而被分析的数据元组形成训练数据集。 训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。 通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。 2使用模型进行分类 首先评估模型(分类法)的预测准确率。 如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。,看个例子。给定一个顾客信用信息的数
4、据库,可以根据顾客的信誉度(优良或相当好)来识别顾客。首先需要学习分类规则,之后分析现有顾客数据.学习得到的分类规则可以被用来预测新的或未来顾客的信誉度。,训练数据,If age=“3140” and income=high Then credit_rating= excellent,分类规则,分类算法,利用训练集进行学习,测试数据,分类规则,新数据,excellent,评估分类规则,分类,评估分类规则:用测试数据评估规则的准确率,如果准确率可以接受,则规则可以用于新数据的分类,基于距离的分类算法的思路,定义4-2 给定一个数据库 D=t1,t2,tn和一组类C=C1,Cm。假定每个元组包括一
5、些数值型的属性值:ti=ti1,ti2,tik,每个类也包含数值性属性值:Cj=Cj1,Cj2,Cjk,则分类问题是要分配每个ti到满足如下条件的类Cj: sim(ti,Cj)=sim(ti,Cl) ,ClC,ClCj, 其中sim(ti,Cj)被称为相似性。 在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。 距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。,基于距离的分类算法,基于距离分类算法的一般性描述,算法 4-1通过对每个元组和各个类的中心来比较,从而可以找出其最近的类中心,得到确定的类别标记。,算法 4-1 基于距离的分类算法 输入:每个类的中
6、心C1,Cm;待分类的元组t。 输出:输出类别c。 (1)dist=;/距离初始化 (2)FOR i:=1 to m DO (3) IF dis(ci,t)dist THEN BEGIN (4) c i; (5) distdist(ci,t); (6) END.,基于距离的分类方法的直观解释,例:有A,B,C三个类;有18个待分类的样例;通过计算每个类代表区域的中心来确定每个类的分类中心CA,CB,CC;通过计算待分类的样例到每个分类中心的距离就可以找出最相似的类。,(a)类定义,(b)待分类样例,(c)分类结果,k-近邻分类算法,k-近邻分类算法(k Nearest Neighbors,简称
7、kNN)通过计算每个训练数据到待分类元组的距离,取与待分类元组距离最近的k个训练数据,k中哪个类别训练数据占多数,则待分类元组就属于哪个类别。,算法 4-2 k-近邻分类算法 输入: 训练数据T;近邻数目k;待分类的元组t。 输出: 输出类别c。 (1)N=; (2)FOR each d T DO BEGIN (3) IF |N|k THEN (4) N=Nd; (5) ELSE (6) IF u N such that sim(t,u)sim(t,d) THEN BEGIN (7) N=N-u; (8) N=Nd; (9) END (10)END (11)c=class to which t
8、he most uN.,kNN的例子,假如只用“高度”参于距离计算,k=5, k-近邻分类算法对分类的过程如下: 对样本数据T前k=5个记录,得到N=、和。 对第6个记录d=,得到N=、和。 对第7个记录d=,得到N=、和。,使用下表中的样本数据,对进行分类。,kNN的例子,对第8个记录d=,得到N=、和。 对第9和10个记录,没变化。 对第11个记录d=,得到N=、和。 对第12到14个记录,没变化。 对第15个记录d=,得到N=、和。最后的输出元组是,在这五项中,四个属于矮个、一个属于中等。最终kNN方法认为Pat为矮个。,决策树表示与例子,决策树(Decision Tree)的每个内部结
9、点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。 buys_computer的决策树示意,决策树分类算法,决策树分类的特点,决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝,在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。 基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要用户了解很多背景知识(这同时也是它的最大的缺点),只要训练例子能够用属性-结论式表示出来,就能使用该算法来学习。 决策树分
10、类模型的建立通常分为两个步骤: 决策树生成 决策树修剪。,决策树生成算法,算法 Generate_decision_tree(samples, attribute_list) /*决策树生成算法*/ 输入:训练样本samples,由离散值属性表示;候选属性的集合attribute_list。 输出:一棵决策树。 (1) 创建结点N; (2) IF samples 都在同一个类C THEN 返回N 作为叶结点,以类 C标记; (3) IF attribute_list为空 THEN 返回N作为叶结点,标记为samples中最普通的类;/多数表决 (4) 选择attribute_list中具有最高
11、信息增益的属性test_attribute; (5) 标记结点N为test_attribute; (6) FOR each test_attribute中的已知值ai 由结点N长出一个条件为test_attribute=ai的分枝; (7)设si是samples 中test_attribute =ai的样本的集合;/一个划分 (8)IF si 为空 THEN 加上一个树叶,标记为samples中最普通的类; (9)ELSE 加上一个由Generate_decision_tree(si, attribute_list-test_attribute)返回的结点;,构造好的决策树的关键在于如何选择好
12、的逻辑判断或属性进行树的拓展。研究结果表明,一般情况下树越小则树的预测能力越强。由于构造最小的树是NP-难问题,因此只能采取用启发式策略来进行。 属性选择依赖于各种对例子子集的不纯度度量方法,包括信息增益、信息增益比、Gini-index、距离度量、J-measure、G统计、2统计、证据权重、最小描述长度、正交法、相关度和 Relief等。,决策树修剪算法,基本的决策树构造算法没有考虑噪声,因此生成的决策树完全与训练例子拟合。在有噪声情况下,将导致过分拟合,即对训练数据的完全拟合反而使对现实数据的分类预测性能下降。 现实世界的数据一般不可能是完美的,可能某些属性字段上缺值、数据不完整、不准确
13、、含有噪声甚至是错误的。 剪枝是一种克服噪声的基本技术,同时它也能使树得到简化而变得更容易理解。,有两种基本的剪枝策略: 预先剪枝:在生成树的同时决定是继续对不纯的训练子集进行划分还是停机。 后剪枝:是一种拟合+化简(fitting-and-simplifying)的两阶段方法。step1:生成与训练数据完全拟合的一棵决策树;step2:从树的叶子开始剪枝,逐步向根的方向剪。剪枝时要用到一个测试数据集合(Tuning Set或Adjusting Set)。如果存在某个叶子剪去后能使得在测试集上的准确度或其他测度不降低(不变得更坏),则剪去该叶子;否则停机。 理论上讲,后剪枝好于预先剪枝,但计算
14、复杂度大。 剪枝过程中一般要涉及一些统计参数或阈值(如停机阈值)。要防止过分剪枝(Over-Pruning)带来的副作用。,ID3算法,ID3是J.R.Quinlan提出的一个著名决策树生成方法: 决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。 每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。 采用信息增益来选择能够最好地将样本分类的属性。,信息增益的计算,信息增益基于信息论中熵的概念。ID3总是选择具有最高信息增益的属性作为当前结点的测试属性。该属性使得对结果划分的样本分类所需的信息量最小。这种
15、信息论方法使得对一个对象分类所需的期望测试数目达到最小,并尽量确保找到一棵简单的数来刻画相关的信息。,设S是s个数据样本的集合,假定类标号属性具有m个不同的值,定义m个不同类Ci(i=1,2,m),设si是Ci类中的样本数。对给定的样本S所期望的信息值由下式给出:其中pi是任意样本属于Ci的概率: si / s 。,设属性A具有v个不同值a1, a2, , av ,可以用属性A将样本S划分为v个子集S1, S2, , Sv ,其中: Sj包含S中这样一些样本,它们在A上具有aj的值。如果A作为测试属性,则这些子集对应有包含集合S的结点生长出来的分支。 设sij 是Sj中Ci类的样本数,则由A划
16、分成子集的熵由下式给出:,其中,期望信息:,由期望信息和熵值可以得到对应的信息增益值。对应在A上分支将获得的信息增益值为:ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定集合S的测试属性。对被选取的测试属性创建一个结点,并以该属性标记,对该属性的每个值创建一个分支,并据此划分样本。,ID3算法例子,例子中有6个样本,5个属性,每个属性取值为0或1。 假设目标分类属性是lays_eggs,有4个样本取值为1,2个样本取值为0。 为计算每个属性的信息增益,首先计算样本按lays_eggs分类所需的期望信息:,类似的,Gain(feathers)=0.459;Gain(fur)=0
17、.316;Gain(swims)=0.044。,这种划分的信息增益是:,接下来计算每个属性的熵。观察warm_blooded的每个样本值的分布: 当warm_blooded=1时,有3个lays_eggs =1,2个lays_eggs =0,即:,当warm_blooded=0时,有1个lays_eggs =1,0个lays_eggs =0,即:,因此,如果样本按warm_blooded划分,对一个给定的样本分类对应的熵为:,由于feathers在属性中具有最高的信息增益,所以它首先被选作测试属性。并以此创建一个结点,数据集被划分成两个子集。,T1,=0,Feathers?,T2,=1,根据f
18、eathers的取值,数据集被划分成两个子集 对于feathers=1的所有元组,其目标分类属性lays_eggs均为1。所以,得到一个叶子结点。 对于feathers=0的右子树,计算其他属性信息增益: Gain(warm_blooded)=0.918 Gain(fur)=0.318 Gain(swims)=0.318 根据warm_blooded的取值, 左右子树均可得到叶子 结点,结束。,ID3算法的性能分析,ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。 ID3算法
19、在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。 ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。 ID3算法只能处理离散值的属性。 信息增益度量存在一个内在偏置,它偏袒具有较多值的属性。例如,如果有一个属性为日期,那么将有大量取值,这个属性可能会有非常高的信息增益。假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树,这棵树可以理想地分类训练数据,但是对于测试数据的分类性能可能会相当差。 ID3算法增长树的每一个分支的深度,直到恰好能
20、对训练样例完美地分类。当数据中有噪声或训练样例的数量太少时,产生的树会过渡拟合训练样例。,C4.5算法对ID3的主要改进,C4.5算法是从ID3算法演变而来,除了拥有ID3算法的功能外,C4.5算法引入了新的方法和增加了新的功能: 用信息增益比例的概念; 合并具有连续属性的值; 可以处理具有缺少属性值的训练样本; 通过使用不同的修剪技术以避免树的过度拟合; K交叉验证; 规则的产生方式等。,信息增益比例是在信息增益概念基础上发展起来的,一个属性的信息增益比例用下面的公式给出:其中假如以属性A的值为基准对样本进行分割的化,Splitl (A) 就是前面熵的概念。,合并具有连续值的属性,对于连续属
21、性值,C4.5其处理过程如下: 根据属性的值,对数据集排序; 用不同的阈值将数据集动态的进行划分; 当输出改变时确定一个阈值; 取两个实际值中的中点作为一个阈值; 取两个划分,所有样本都在这两个划分中; 得到所有可能的阈值、增益及增益比; 在每一个属性会变为取两个取值,即小于阈值或大于等于阈值。,简单地说,针对属性有连续数值的情况,则在训练集中可以按升序方式排列。如果属性A共有n种取值,则对每个取值vj(j =1,2, ,n),将所有记录进行划分:一部分小于vj;一部分则大于或等于vj 。针对每个vj计算划分对应的增益比率,选择增益最大的划分对属性A进行离散化 。,处理含有未知属性值的训练样本
22、,C4.5处理的样本中可以含有未知属性值,其处理方法是用最常用的值替代或者是将最常用的值分在同一类中。具体采用概率的方法,依据属性已知的值,对属性和每一个值赋予一个概率,取得这些概率,取得这些概率依赖于该属性已知的值。 规则的产生 一旦树被建立,就可以把树转换成if-then规则。规则存储于一个二维数组中,每一行代表树中的一个规则,即从根到叶之间的一个路径。表中的每列存放着树中的结点。,C4.5算法例子,样本数据,Outlook(离散属性) Temperature(离散属性) Humidity(连续属性) Wind(离散属性) PlayTennis(类别属性),(1)首先对Humidity进行
23、属性离散化,针对上面的训练集合,通过检测每个划分而确定最好的划分在75处,则这个属性的范围就变为(75)。 (2)计算目标属性PlayTennis分类的期望信息:接下来计算属性Outlook的SplitI值:,对于Outlook=Sunny,有,对于Outlook= Overcast,有,对于Outlook=Rain,有,对于决策属性PlayTennis来说,计算Outlook属性每个分布的期望信息,选取最大的GainRatio,根据Outlook的取值,可以得到三个分支。再扩展各分枝节点,得到最终的决策树。,因此,可得到Outlook属性的熵:,对应的信息增益为:,最后得到信息增益比例为:,
24、同理,可计算出,对于第一棵子树,,,选择Humidity作为决策属性,得到两个叶结点。,对于第二棵子树,所有样本都属于同一类(PlayTennis=Yes),直接得到叶结点,对于第三棵子树,,,选择Wind作为决策属性,得到两个叶结点。,最终生成的决策树:,贝叶斯方法提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。这个分析过程开始是先给出一个待分析数据集的概率分布。因为这个概率分布是没有考虑任何数据而给出的,所以称先验分布。这个新的数据集将先验分布修正后得到后验分布。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验
25、概率,给定假设下观察到不同数据的概率以及观察到的数据本身先验概率和后验概率。,贝叶斯分类,定义 设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我们希望确定P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法:P(H)是先验概率,或称H的先验概率。P(X|H)代表假设H成立的情况下,观察到X的概率。P(H|X)是后验概率,或称条件X下H的后验概率。,例如,假定数据样本域由水果组成,用它们的颜色和形状来描述。假定X表示红色和圆的,H表示假定X是苹果,则P(H|X)反映当我们看到X是红色并是圆的时,我们对
26、X是苹果的确信程度。 贝叶斯分类器对两种数据具有较好的分类效果:一种是完全独立的数据,另一种是函数依赖的数据。,朴素贝叶斯分类,朴素贝叶斯分类的工作过程如下: (1) 假设有一组m个元素的样本S= S1, S2, , Sm(训练样本集),其中每个数据样本Si用一个n维特征向量X= x1, x2, , xn表示,分别与样本属性A1, A2, ,An相对应。 (2) 假定有k个类C1, C2, , Ck,每个样本属于其中一个类。给定一个数据样本X(它的类是未知的),可以用最高的后验概率(条件X下)来预测X的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1ik)当且仅当P(Ci|X)P(Cj
27、|X),对任意的j=1,2,k,ji。这样,最大化P(Ci|X)。其P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理,(3) 由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即可。如果Ci类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=P(Ck),因此问题就转换为对P(X|Ci)的最大化(P(X|Ci)常被称为给定Ci时数据X的似然度,而使P(X|Ci)最大的假设Ci称为最大似然假设)。否则,需要最大化P(X|Ci)*P(Ci)。注意,类的先验概率可以用P(Ci)=si /m计算,其中si是类Ci中的训练样本数,而m是训练样本总数。,(4)
28、给定具有许多属性的数据集,计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定(零假设),假定样本属性值之间条件独立,即在属性间,不存在依赖关系。利用这个假定,可以用下式来计算P(X|Ci),其中xt是样本X的属性值,概率P(xt|Ci)可由训练样本集来估算。,(5) 对未知样本X分类,也就是对每个类Ci,计算P(X|Ci)*P(Ci)。样本X被指派到类Ci,当且仅当P(Ci|X)P(Cj|X),1jm,ji,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。,例:已知7个四元样本训练数据集,预测新样本X=1,2,2,C=?;对于每个样本, A1
29、 ,A2 ,A3是输入元,C是输出分类,在本例中,仅有两个类,C=1或C=2,故只需找出P(X|Ci)*P(Ci) (i=1,2)中的最大值。 先计算每个类的先验概率P(Ci): P(C=1)=4/7=0.5714; P(C=2)=3/7=0.4286 用训练集计算所给新样本X=1,2,2,C=?的每个属性值的条件概率P(Xt|Ci): P(A1=1|C=1 )=2/4=0.50; P(A1=1|C=2 )=1/3=0.33 P(A2=2|C=1 )=1/4=0.25; P(A2=2|C=2 )=2/3=0.66 P(A3=2|C=1 )=1/4=0.25; P(A3=2|C=2 )=2/3=
30、0.66 在零假设下,条件概率P(X|Ci)为: P(X|C=1)= P(A1=1|C=1 )* P(A2=2|C=1 )* P(A3=2|C=1 )=0.03125 P(X|C=2)= P(A1=1|C=2 )* P(A2=2|C=2 )* P(A3=2|C=2 )=0.14375,最后,用相应的条件概率P(X|Ci)乘以先验概率P(Ci) : P(C1|X) P(X|C=1)*P(C=1)=0.03125*0.5714=0.0179 P(C2|X) P(X|C=2)*P(C=2)=0.14375*0.4286=0.0616 最大值为P(C2|X) =0.0616,于是预测新样本X=1,2,
31、2,C=?属于类C=2。,朴素贝叶斯分类举例,数据样本用属性age,income,student和credit_rating描述。 类标号属性buys_computer具有两个不同值(即yes,no)。设C1对应于类yes,而C2对应于类 “no”。 希望分类的未知样本为:X=(=30,medium,yes,fair,C=?)。,朴素贝叶斯分类举例,(1) 需要最大化P(X|Ci)*P(Ci),i=1,2。每个类的先验概率P(Ci)可以根据训练样本计算:P(buys_computer=”yes”)=9/14=0.643,P(buys_computer=”no”)=5/14=0.357。(2)
32、为计算P(X|Ci),i=1,2,我们计算下面的条件概率:P(age=30|buys_computer=”yes” )=2/9=0.222,P(age=30”|buys_computer=”no” )=3/5=0.600,P(income=”medium”|buys_computer=”yes” )=4/9=0.444,P(income=”medium”|buys_computer=”no” )=2/5=0.400,P(student=”yes”|buys_computer=”yes” )=6/9=0.677,P(student=”yes”|buys_computer=”no” )=1/5=0
33、.200,P(credit_rating=”fair”|buys_computer=”yes” )=6/9=0.667P(credit_rating=”fair”|buys_computer=”no” )=2/5=0.400。 (3) 假设条件独立性,使用以上概率,得到: P(X|buys_computer=”yes” )=0.222*0.444*0.667*0.667=0.044 P(X|buys_computer=”no” )=0.600*0.400*0.200*0.400=0.019P(X|buys_computer=”yes” )*P(buys_computer=”yes” ) =0.
34、044*0.643=0.028 P(X|buys_computer=”no” )*P(buys_computer=”no” )= 0.019*0.357=0.007。因此,对于样本X,朴素贝叶斯分类预测buys_computer=”yes”。,常见的采用规则表示的分类器构造方法有: 利用规则归纳技术直接生成规则 利用决策树方法先生成决策树,然后再把决策树转换为规则; 使用粗糙集方法生成规则; 使用遗传算法中的分类器技术生成规则等。本节将只讨论规则归纳方法。我们这里讨论的规则归纳算法,可以直接学习规则集合,这一点与决策树方法、遗传算法有两点关键的不同。 它们可学习包含变量的一阶规则集合:这一点很
35、重要,因为一阶子句的表达能力比命题规则要强得多。 这里讨论的算法使用序列覆盖算法:一次学习一个规则,以递增的方式形成最终的规则集合。,规则归纳,规则归纳有四种策略:减法、加法,先加后减、先减后加。 减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广),使推广后的例子或规则不覆盖任何反例。 加法策略:起始假设规则的条件部分为空(永真规则),如果该规则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。 先加后减策略:由于属性间存在相关性,因此可能某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前
36、面的条件。 先减后加策略:道理同先加后减,也是为了处理属性间的相关性。 典型的规则归纳算法有AQ、CN2和FOIL等。,AQ算法,AQ算法利用覆盖所有正例,排斥所有反例的思想来寻找规则。比较典型的有Michalski的AQ11方法,洪家荣改进的AQ15方法以及洪家荣的AE5方法。 AQR是一个基于最基本AQ算法的归纳算法,采用了基本AQ算法,和其它方法比较而言,AQR更加简单一些。,CN2算法描述,CN2使用一种基于噪音估计的启发式方法,可不用对所有的训练样本进行正确的区分,但是规约出的规则在对新数据的处理上有很好的表现。 CN2结合了ID3算法处理数据的效率和处理噪音数据的能力,以及AQ算法
37、家族的灵活性。,分类数据预处理,分类的效果一般和数据的特点有关,有的数据噪声大,有的有空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。因此,在分类以前需要做一些数据的预处理。数据清理 主要是消除或减少数据噪声和处理空缺值。,与分类有关的问题,分类数据预处理,特征选择 从已知一组特征集中按照某一准则选择出有很好的区分特性的特征子集 或按照某一准则对特征的分类性能进行排序,用于分类器的优化设计。,数据变换 就是通过平滑、聚集、数据概化、规范化、特征构造等手段将数据转化为适合于挖掘的形式。 平滑:去掉数据中的
38、噪声 聚集:对数据进行汇总和聚集。 数据概化:使用概念分层,用高层次的概念替换低层次的“原始”数据。 规范化:将属性数据按比例缩放,使之落入一个特定的区间。 特征构造:构造新的属性值,帮助数据挖掘过程。,分类数据预处理,分类器性能的表示,对同样的数据,不同的分类器算法可能产生不同的分类结果。,分类器性能的表示,分类器性能的评价方法类似信息检索系统的评价方法,可以采用OC曲线和ROC曲线、混淆矩阵等。 定义4-3 给定一个类Cj和一个数据库元组ti,ti可能被分类器判定为属于Cj或不属于Cj,其实ti本身可能属于Cj或不属于Cj,这样就会产生如下一些情况: 真正: 判定ti在Cj中,实际上的确在
39、其中。 假正: 判定ti在Cj中,实际上不在其中。 真负: 判定ti不在Cj中,实际上不在其中。 假负: 判定ti不在Cj中,实际上的确在其中。 在上述定义的基础上,人们经常使用OC曲线和ROC曲线表示“假正”和“真正”的关系。OC曲线通常用于通信领域来测试误报率。OC曲线的水平轴一般表示“假正”的百分比,另外一个轴表示“真正”的百分比。,混淆矩阵是另外一种表示分类准确率的方法。假定有m个类,混淆矩阵是一个 mm 的矩阵,Cij表明了D中被分到类Cj但实际类别是Ci的元组的数量。显然地,最好的解决方案是对角线以外的值为全零。 假定分类结果1是实际情况,而分类结果2是某分类算法的结果,下表给出了
40、对它评价的混淆距阵。 混淆矩阵示例,分类器性能的评估,分类器的性能与所选择的测试集和训练集有直接的关系。一般,先用一部分数据建立模型,再用剩余的数据来测试和训练该模型。如果使用相同的训练和测试集,则模型的准确度就很难令人信服。保持法和交叉验证是两种基于给定数据随机选样划分的、常用的评估分类方法准确率的技术。 (1)保持法把给定的数据随机地划分成两个独立的集合:训练集和测试集。通常,三分之一的数据分配到训练集,三分之二分配到测试集。使用训练集得到分类器,其准确率用测试集评估。,(2)交叉验证先把数据随机分成不相交的n份,每份大小基本相等,训练和测试都进行n次。比如,如果把数据分成10份,先把第一份拿出来放在一边用作模型测试,把其他9份合在一起来建立模型,然后把这个用90%的数据建立起来的模型用上面放在一边的第一份数据做测试。这个过程对每一份数据都重复进行一次,得到10个不同的错误率。最后把所有数据放在一起建立一个模型,模型的错误率为上面10个错误率的平均。,