1、第 3 章 判决函数与树分类器,决策区域与判决函数线性判决函数与线性可分超平面的某些几何性质多类问题的线性判决规则广义线性判决函数树分类器(决策树),引言,决策区域与判决函数 假定c个类型,用 表示,所有样本经过模式采集和特征选择/提取等操作已映射到特征空间里,特征空间维数用d表示,即Rd,每个样本即特征空间里的一个点,点的位置由各特征值决定。分类器的任务就是按各个类别将特征空间划分为对应区域,这些区域被称为决策区域。,判决面(决策面),其函数表示即判决函数 。将称为决策面方程或判决方程。在二维空间里,退化为判决线,在一维空间退化为判决点。 根据判决函数的数学表示,有线性判决函数和非线性判决函
2、数。而非线性判决函数一般可转换为线性判决函数称广义线性判决函数。因此我们仅讨论线性判决函数。,线性判决函数与线性可分,线性判决函数与线性可分 判决函数 g(x) 为特征向量 x 的一次多项式; 对于二维特征空间(d=2), ,g(x) 一般表达式:在 d 维特征空间, :令 则:线性可分:【定义一】对于两类分类问题,在特征空间里能被一个超平面区分时,则这两类为线性可分。显然,多类问题的线性可分性也是类似的。简单地说,不同类之间的决策面是超平面时,它们线性可分。,称为权系数,称为增广权向量和增广特征向量,超平面的某些几何性质1,超平面的某些几何性质 不同类是否线性可分,取决于其特征空间里的决策面
3、是否为超平面,因此, 有必要研究超平面的某些几何性质。,p和x是超平面上两点,u 是超平面的单位法向量,u指向超平面正向侧,且|u|=1,o为坐标原点。则超平面可由下式给出:(向量式,向量内积),令原点到超平面距离为D0,则有:,若 w0 0,则 D0 0 , 原点在超平面正侧; 若 w0 = 0,则 D0 = 0 , 原点在超平面上。,超平面的某些几何性质2,现在考察特征空间里的任一点 y向量,它到分类超平面的距离为 ,,可见,特征空间里任一点 y 到超平面的距离 Dy 等于该点判决函数值g(y) 除以权向量的模 |w| 。但由于 |w| 是个正标量,不改变 Dy 正负,仅是一个距离比例系数
4、,对分类没影响。因此,可简单定义一点 y 的判决函数值 g(y) 作为该点到分类超平面的距离Dy 。显然有:,多类问题的线性判决函数,多类问题的线性判决函数讨论内容以两类问题展开,但一般情况是多类问题。用线性判决函数 解决多类问题时,可把多类问题分成三种情况。针对不同情况,建立不同的判决函数(规则),根据不同的判决规则,完成不同的功能。不管哪一种情况,两类问题所得基本结论仍然适用,例如线性可分性和分类超平面的几何性质,以及 后面讨论的二分法和二分能力等。设有 c = 3 个类别,为把所有类分开,有三种不同技术途径。 第一种情况:绝对可分建立一个判决函数,能把一个类别与其他所有类别区分开来。对于
5、c 个类别,需建立 c 个判决函数。即:每个判决函数具有如下功能:这些判决函数把 c 类问题转换为 c 个属于i 和不属于i 的两类问题。又称 二分法。,绝对可分,决策域(判决规则):,图中阴影部分决策区的判决规则:,例:已知三个判决函数:,问:判别样本 的类别。 解:分别计算各个判决函数值,根据判决规则:,成对可分,第二种情况:成对可分在某些情况下,绝对线性可分不能达到,但各个类可以象如图所示的那样成对(两两)线性可分。从 c 类中任取 2 类的组合 所以,共需建立 个判决函数才能分开所有的类:,判决函数:,判决函数性质:,这些判决函数把 c 类问题转换为 c(c-1)/2 个 的两分问题。
6、,判决规则:,决策域:,成对可分举例,例:已知三个判决函数:,问:判别样本 的类别。 解:分别计算各个判决函数值,根据判决规则有:(i = 3),成对可分举例:,决策域:,第三种情况,第三种情况:最大值判决对 c 类的每一个类建立一个判决函数:用 其中 k 个判决函数构成判决规则:(不同的类,k 取值可能不同)判决规则:绝对可分需 c 个判决函数,成对可分需 c(c-1)/2 个。若c 3,成对可分需要的判决函数个数 c(c-1)/2 c 。 最大值判决规则:k 个判决函数的选择:取决于所考察的类与哪几个类相邻。如考察1类,它与2、3、4、5类相邻,取 k = 4,取相邻类判决函数。如此,第三
7、种情况转换为 二分问题。,广义线性判决函数1,广义线性判决函数 线性判决函数理论和分类法,简单易行。但实际应用中常遇到非线性判决函数,如果能把非线性判决函数转变为线性判决函数,那么线性判决函数理论和分类法应用会更广泛。事实上,非线性判决函数可以转变为线性判决函数,称广义线性判决函数。只要各类别没有重叠,总能在Rd空间找到一个广义决策函数,把 从全体 c 类中分离。 举例:,一维x空间中非线性判别函数例,作非线性变换:,通过非线性变换,非线性判决函数转变成了线性判决函数;特征空间也由一维x空间映射成二维y空间。执行非线性变换,特征空间维数的增长往往不可避免。,广义线性判决函数2,二维 y 空间决
8、策方程:,判决函数的正负侧:,正侧区,g(y) = 0,二维 y 空间中广义性判决函数,广义线性判决规则,变量代换,广义线性判决函数3,广义线性判别函数的一般式:,c 类线性成对可分问题决策规则:,阈值,强调一点,我们只关心最后的分类结果,所以选取任何关于g(x)的单调函数所得结果都一样。选单调变换更简单。,对原二次分类器作单调对数变换,原二次分类器:,因此,在 y 特征空间可线性表示一个非常复杂的 x 空间的决策函数,广义线性函数.,广义线性判决函数4,x 空间决策函数:(二次),圆心在 (a, b) 处方程 本例圆形决策域,圆心 (1, 1),半径:,【 变换到 y 空间 】作如下非线性变
9、换(变量代换):,y 空间决策函数:(一次),y 空间决策域,本例变换后,特征空间的维数降低,易于寻找到更简单分类面,利于分类。,树分类器,树分类器 树分类器,或称判决树、决策树、分层(多级)分类器,这是近年来讨论得较多的一种分类法,较为实用。由于树分类器涉及问题较多,本节只介绍原理,以及一些不太复杂的方案。树分类器原理及主要问题 一般情况,高维特征空间Rd中多类判决问题。分类任务可以概括为:利用某种规则把Rd划分成一些互不相交的子空间其中 c 是类数;如果某个样品点落在 中,判决它属于第 i 类 ,i = 1, 2, , c。各 间分界面称为分类曲面或判决曲面。高维空间中,最小距离法、连续亨
10、明法和贝叶斯法等所构造的空间判决曲面分别为超平面、超球面和超二次曲面等。具体判别时,我们往往不直接使用判决曲面方程,而是给出相应于这些曲面的某种规则。 实际问题中,构造判决曲面时常遇到两种困难:第一、各分类面形状较特殊,难以用平面、球面或二次曲面描述。如果试图构造更复杂的曲面或规则,工作量会大大增加。第二、各类样品点互相混淆,难以用一个判决曲面把它们截然分开。,树分类器原理及主要问题,为克服这些困难,采用分层即多级判决法,分几步进行分类。第一步:利用某一判决规则把待分类样品分到某几个大组之一。每个大组包含几个不同的类。(粗分类)第二步:对分到各组的样品进一步判别,直到把它分到某个确定的类为止。
11、(细分类)这种判决法可用一棵树来描述其各个分类步,故称树分类器。,每个节点称为一个“状态”。表示模式处于某一种情况。,树分类器特点,树分类器是分步进行的,所以,精确度应当比一次判决要高。此外,它有几个特点:(1) 因树分类器为分步进行,故每一步的判别归则可取简单些;(2) 每一分类步上不用全部特征,而只用少量的有效特征。这样可降低问题的难度,减轻每一步分类的工作量。(3) 对复杂模式常用统计结构分类法,对模式进行层层分解与组合,构成多层分类体系,由粗到细,逐步求精,这也是树分类器。 采用树分类器时,主要时间花费在建立分类器上。当分类器建成后,对未分类样品的分类不会用太多时间,因每一步上的判决都
12、较简单。 建立树分类器时会遇到的几个问题:(1) 怎样确定树结构;(2) 每一步分类应选取哪些特征;(3) 每一步分类应采用什么算法;库卡尔尼(Kukarni, A.V.)曾经证明,最优方案在理论上是存在的。但由于可供选择的方案极多,所以在实际上很难求得最优解。下面,对常用的方法和策略作一介绍。,二叉树与多叉树,树结构 二叉树与多叉树:二叉树:除叶节点外,每个节点都带有左右两个分支,通向左右两棵子树,每个节点上的分类都是一个两类问题。多叉树:除叶节点外,每个节点带有若干个分支,均通向若干棵子树,每个节点上的分类是一个多类问题。若每个节点的出度或者入度相同,均为 k ,称为 k 叉树。出 度:除
13、叶节点外,该节点的子节点个数;(直接后继)入 度:除根节点外,该节点的父节点个数;(直接前驱),平衡(均衡)二叉树,平衡(均衡)二叉树:,从根节点出发,到每一个叶节点步数(边数)相同的二叉树称为平衡二叉树。,考虑树分类器结构时,常采用二叉树,因为相应的分类规则较简单(两类问题)。至于是否采用平衡二叉树,有不同方案。平衡二叉树优点是:保证对每个待分类样品的判决次数相同,不致出现判决过多。现有平衡树设计算法如程民德、沈缨昌等方法。但考虑问题须从实际出发,根据具体要求选择平衡树或非平衡树(实际应用更多)、二叉树或非二叉树。,选择非平衡树的两点考虑: 一、简单节点可尽快排除; 二、复杂节点可逐步细分。
14、,分类步中的特征选择,分类步中的特征选择现在讨论在每个非叶节点上选择哪些特征。已知的前提是:一、下一步应把全体样品分成哪两个组是已知的,记作G1 和 G2 ;二、全部 d 个特征中所选特征数上限是确定的。例如只能选择不超过k 个特征(由实际问题而定,k d)。 特征选择时主要考虑两个问题:一、计算量问题;(要考虑时间效率)二、分类算法的设计复杂性及算法有效性问题。考虑计算量,从 d 个特征中选出 k 个特征的取法有 种,如果两者都较大时,采用穷举法是不可取的, 因此,常采用以下几种方案。(一)分类能力选择法利用第二章中的各种方法都可对每个特征的分类能力作出评价。选取分类能力最强的前 k 个特征
15、作当前分类特征,可达到选择特征目的。对于两类问题除第二章评价法外,还可用下面方法评价:任一特征 x 的分类能力():表示第 i 组全体样本第 k 个特征的均值, 表示其均方差。,利用序贯选入和剔除法选取特征,(二)序贯选入剔除法(判别效率法)我们已经知道使用单个特征选择法可得到前 r 个最有效特征,但它们放在一起并不一定最有效。因此,有时需采用稍复杂些的方法,以便选出 k 个特征的最佳组合。其中一种方法如下(丁小浩):用费歇判别法时,任意 k 个特征构成的特征向量的 判别效率 可表示为:具有以下性质:(叶节点上,组别分解为类别) (1) ;当且仅当 时, 。表明 越大,分类效果越好。即,选取的
16、这组特征对区分两组模式的效果越好。 (2) 若某组特征的判别效率为 ,如果增加一个特征后有,则判别效率没有降低。依据判别效率选取特征最佳组合的算法,如下:,上标:组别,协方差矩阵,均值,依据判别效率选取特征最佳组合的算法,(1) 分别计算每个特征的判别效率 ,记最大的为。这时, 为第一个入选特征。(余下取大原则) (2) 假如已选入 k 个特征 ,计算选入每个余下特征(每次取余下判别效率最大的特征)的判别效率增量:求出使效率增量 达到最大值 的特征 。如果, T 为预设阈值,那么也把这个特征选入。否则,表示没有特征可以选入了。若选入了新特征,转(3); (3) 假定已选入了 k 个特征,现考察
17、是否出现了这样的情况:由于上一步新入选了某个特征,使原有特征组合中某个或某几个特征的作用已被削弱到了不重要程度。分别计算:新特征组合中删去一个特征所引起判别效率增量的变化,同理使:(4) 重复(2)(3),直到没特征可选入或者入选特征数超过允许数目时为止。这就找到了一个相对最佳的特征组合。,特征选入,特征剔除,分类算法的选择与设计,与上面方法类似的还有很多。例如,改用其他判据代替 ,也可以使用那些自身具有特征选择功能的分类算法,例如逐步回归法,参看张尧庭、方开泰的著作。(三)分枝定界法在更复杂情况下,用运筹学分枝定界(Branch-and-Bound)法选择最佳特征组合。限于课时,本节不再介绍
18、这一专门方法,感兴趣者可参阅程民德、熊范纶有关著作。最后强调一点:无论哪种方法,绝大多数情况下得到的都是特征组合的局部(非全局)最优解。分类算法的选择与设计 根据需要选用任何一种方法,首选简单算法。 建立树分类器一般步骤:(1) 决定分类法;(2) 大体确定树结构;(3) 按设想结构逐步确定分类器各方程或参数,同时作持征选择。逐层确定分类器具体形式时,若发现原设想的树结构不合理,应对树结构作相应调整,有时甚至需要增加分类层数即树“高度”,以使最终得到合理结果。完成树分类器建立后,有时还需对所得“初始树”修改完善。最后,得到更为合理的“优化树”。另外,也已提出一些完全自动化的设计法,参阅石青云有关论著。,