1、,模式识别 第五章非线性判别函数,信息工程学院袁立,5.1 引言,对实际的模式识别问题来说,各类在特征空间中的分布往往比较复杂,因此无法用线性分类函数得到好的效果。这就必须使用非线性的分类方法。,第五章 非线性判别函数,由于样本在特征空间分布的复杂性,许多情况下采用线性判别函数不能取得满意的分类效果。非线性判别函数 例如右图所示两类物体在二维特征空间的分布,采用线性判别函数就无法取得满意的分类效果。在这种情况下,可以采用分段线性判别或二次函数判别等方法,效果就会好得多。, 5.1 引言,在对待非线性判别分类问题,有三种不同的方法: 第一:传统的模式识别技术,侧重于使用分段线性判别函数。 第二:
2、对基于错误修正法的感知准则函数进行扩展,人工神经元网络(多层感知器等网络)能够实现复杂的非线性分类,以及非线性函数拟和,非线性映射等。 第三:支持向量机则提出了一种基于特征映射的方法,也就是使用某种映射,使本来在原特征空间必须使用非线性分类技术才能解决的问题映射到一个新的空间以后, 使线性分类技术能继续使用。,一种特殊的非线性判别函数分段线性判别函数 决策面由若干超平面段组成,计算比较简单 能逼近各种形状的超曲面,适应能力强, 5.1 引言,5.2基于距离的分段线性判别函数,出发点:如果两类样本可以划分为线性可分的若干子类,则可以设计多个线性分类器,实现分段线性分类器。 基本思想:用均值作为各
3、类的代表点,用通过均值连线中点的垂直线对样本集进行分类,第五章 非线性判别函数,把i类可以分成li个子类,或者说,把属于i 类的样本区域Ri分为li个子区域。 现在定义mil表示第i类第j个子区域中样本的均值向量,并以此作为该子区域的代表点。定义判别函数如下:(在同类的子类中找最近的均值。) 判别规则:这是在M类中找最近均值。则把x归于j类完成分类。,基于与类心距离的分段线性判别函数, 5.2 基于距离的分段线性判别函数,例:未知x,如图: 先与1类各子类的均值比较,即 ,找一个最近的 与2各子类均值比较取最近的 因g2(x) g1(x) ,所以x2类 。, 5.2 基于距离的分段线性判别函数
4、,利用均值代表一类有时有局限性,如下图所示。若用线性判别函数代表一类,就会克服上述情况。, 5.2 基于距离的分段线性判别函数,设 1, 2 ,m。而每一类又可以分为 子类。 对每个子类定义一个线性判别函数:,定义i类的线性判别函数为:,在各子类中找最大的判别函数作为此类的代表,则对于M类,可定义M个判别函数gi(x),i=1,2,M,因此,决策规则为:, 5.2 基于距离的分段线性判别函数,基于与分界面距离的分段线性判别函数,对未知模式x, 把x先代入每类的各子类的判别函数中; 找出一个最大的子类判别函数,M类有M个最大子类判别函数; 在M个子类最大判别函数中,再找一个最大的; 则x就属于最
5、大的子类判别函数所属的那一类。,5.3 每类的子类数目已知错误修正算法,在感知准则函数中定义过:ai与aj代表两类增广权向量,y则代表增广权向量。,一般来说点积值比较大则表示这两个向量在方向上比较一致,换句话说向量间的夹角较小。,如果某一类样本比较分散,但是能用若干个增广权向量表示,使同一类增广样本向量能够做到与代表自己一类的增广权向量的点积的最大值,比与其它类增广权向量的点积值要大,就可以做到正确分类。,因此这种算法就是要用错误提供的信息进行叠代修正。,第五章 非线性判别函数,当每类的子类数目已知时,可以采用假设初始权向量,然后由样本提供的错误率信息进行迭代修正,直至收敛。,该算法的基本要点
6、是:,对每个类别的子类赋予一初始增广权向量,然后对每次迭代所得增广权向量用样本去检测,如发生错误分类,则利用错误分类的信息进行修正。其做法是:,1)在第k次迭代时,将第j类的某个增广样本向量yj,与该类所有增广权向量 求内积,找到其中的最大值, 5.3 错误修正算法,求内积,并将这些内积值与 作比较,,2)另一方面将该yj与其它类(如i类)的权向量,3)但是如果存在某个或几个子类不满足上述条件,譬如某个子类 的现有权向量 使得这表明yj将错分类,而有关权向量需要修正。如何修正呢?, 5.3 错误修正算法,首先找到导致yj错分类的所有权向量中具有与yj内积最大值的权向量接着对 和 作相应修正。然
7、后利用权向量的新值重复以上过程,直到收敛或迫使其收敛。 这种算法在样本确实能被分段线性判别函数正确划分的条件下是收敛的。, 5.3 错误修正算法, 5.3 错误修正算法, 5.3 错误修正算法, 5.3 错误修正算法, 5.3 错误修正算法, 5.3 错误修正算法, 5.3 错误修正算法, 5.3 错误修正算法,5.4 非线性可分条件下的支持向量机,1维空间,作非线性变换:,通过非线性变换,非线性判决函数转变成了线性判决函数;特征空间也由一维x空间映射成二维y空间。执行非线性变换,特征空间维数的增长往往不可避免。,此时g(x)被称为广义线性判别函数,a称为广义权向量。,广义线性判别函数,二维
8、y 空间决策方程:,判决函数的正负侧:,正侧区,g(y) = 0,二维 y 空间中广义性判决函数,广义线性判决规则,变量代换,广义线性判别函数的一般式:,因此,在 y 特征空间可线性表示一个非常复杂的 x 空间的决策函数,广义线性函数.,按照上述原理,任何非线性函数g(x)用级数展开成高次多项式后,都可转化成广义线性判别函数来处理。 wTy=0在Y空间确定了一个通过原点的超平面。这样我们就可以利用线性判别函数的简单性来解决复杂的问题。 这样一来,线性分类方法就可以直接采用。这条路子在传统的模式识别技术中并没有持续研究下去,因为一个突出的问题是维数会急剧增加,在高维的空间中进行计算是传统方法所忌
9、讳的。但支持向量机方法的提出者们对这个问题进行了更深入一步的研究,他们坚持了利用特征映射的方法,从而保留了线性划分的计算框架。,通过特征映射,非线性可分的数据样本在高维空间有可能转化为线性可分。,SVM问题求解,对非线性问题, 可以通过非线性变换转化为某个高维空间中的线性问题, 在变换空间求最优分类面. 这种变换可能比较复杂, 因此这种思路在一般情况下不易实现。.,核:,例如,2维向量x=x1 x2; 非线性映射(x) = 1 x12 2 x1x2 x22 2x1 2x2 设 K(xi,xj)=(1 + xiTxj)2,;我们看看是否K(xi,xj)= (xi) T(xj)? K(xi,xj)
10、=(1 + xiTxj)2,= 1+ xi12xj12 + 2 xi1xj1 xi2xj2+ xi22xj22 + 2xi1xj1 + 2xi2xj2 = 1 xi12 2 xi1xi2 xi22 2xi1 2xi2T 1 xj12 2 xj1xj2 xj22 2xj1 2xj2= (xi) T(xj),这样,我们通过核函数将原始空间的样本映射到高维特征空间,而根本就不用知道映射函数的具体形式。 核函数实际上等价于样本在高维特征空间中的内积。 常用的核函数有:,例题2:XOR问题的SVM,解:,本章小结,非线性判别函数与分段线性判别函数 基于距离的分段线性判别函数 分段线性分类器的设计 支持向量机,