收藏 分享(赏)

支持向量机算法设计与分析7-9章.doc

上传人:HR专家 文档编号:6264353 上传时间:2019-04-03 格式:DOC 页数:80 大小:3.78MB
下载 相关 举报
支持向量机算法设计与分析7-9章.doc_第1页
第1页 / 共80页
支持向量机算法设计与分析7-9章.doc_第2页
第2页 / 共80页
支持向量机算法设计与分析7-9章.doc_第3页
第3页 / 共80页
支持向量机算法设计与分析7-9章.doc_第4页
第4页 / 共80页
支持向量机算法设计与分析7-9章.doc_第5页
第5页 / 共80页
点击查看更多>>
资源描述

1、 1 / 80第七章 模糊支持向量机在实际应用中,数据集常常带有孤立点或噪声。针对这种数据集,如何设计健壮的学习机是机器学习和模式识别领域中的重要研究课题。针对标准支持向量机对噪声点或孤立点敏感的问题,2002 年,Lin 和 Wang 提出了单边加权模糊支持向量机(Fuzzy Support Vector Machine, FSVM) 1,Suykens 等人提出了加权最小二乘支持向量机(Weighted Least Squares Support Vector Machines, WLS-SVM)2。2003 年,为了解决带噪声的回归问题,Leski 提出了基于 不敏感学习和最大间隔的模糊

2、系统3-5。2004 年,Leski提出了基于模糊 if-then 规则的 间隔非线性分类器6,Tao 和 Wang 提出了基于加权间隔的模糊支持向量机7。2005 年,Jayadeva 等人提出了模糊近边界支持向量机(Fuzzy Proximal Support Vector Machine, FPSVM)8,Wang 等人提出了双边加权模糊支持向量机9,张讲设和郭高提出了基于噪声软剔除的加权稳健支持向量回归方法10。目前,模糊支持向量机在实际中得到了广泛的应用,但是权重的设置问题是这个领域中的公开问题。在这一章中,我们首先介绍模糊支持向量机的一些主要模型,然后讨论权重的设置问题,最后给出基

3、于模糊 -均值聚类的一些模糊支持向量机。c7.1 单边加权模糊支持向量机在这一节中,我们考虑单边加权模糊支持向量机模型,所用的训练集为:(7-1)12(,),(,),(,)llTysysysxx其中 ,对于二分类问题, ,对于回归问题, , ,niRx,iRi1i为充分小的正数。i7.1.1 基于标准模型的模糊支持向量机2002 年,Lin 和 Wang 通过对不同的样本赋予不同的误差权重,提出了解决二分类问题的模糊支持向量机(Fuzzy Support Vector Machine, FSVM)1,其相应的数学模型为下列优化问题:(7-2)lkbwsCJ1T, 2),(mins.t.(7-3

4、)lbykkTk ,2,)(x(7-4)0,.,1l优化问题(7-2)-(7-4)的拉格朗日函数为:(7-5) lklkkTklkT bysCbL 111 )(2),( xww其 KKT 条件为:(7-6)1(,)0(),lkkLbyx2 / 80(7-7)1(,)00,lkLbyw(7-8)(,), 12,kkkCsl从而其对偶问题为:(7-9)lilij jiji Ky11),(2maxxs.t.(7-10)10,lky(7-11), 12,ksCl给定了样本的模糊隶属度 后,我们就可以用求解标准支持向量机的算法解优化问题(7-9)-(7-11)。得到超平面参数 和 之后,我们就可以用判别

5、函数b(7-12),(sgn)(1bKyyjjlj xx对新的样本 进行识别。x7.1.2 加权最小二乘支持向量机为了解决带噪声的回归问题,2002 年,Suykens 等人提出了加权最小二乘支持向量机(Weighted Least Squares Support Vector Machines, WLS-SVM)2。其数学模型为:(7-13)lkTebw esJ12, 2),(minws.t.(7-14)(),Tkkkybex.,l优化问题(7-13)-(7-14)的 KKT 条件为:(7-15)00T1YZR其中: 1(),(), TTlZx 1, TlyY 1, T 1,Tl, 为正则化

6、因子。,21lssdiagR3 / 80记 ,其中 ,则(7-15)变为:TZ(,)ijijKx(7-16)00Tb1YR求解(7-16)得到 和 ,则可得判别函数:b(7-17)1()(,)lkkybxx对于二分类问题,相应的加权最小二乘支持向量机模型为:(7-18)lkTebw esJ12, 2),(minws.t.(7-19)(),Tkkkybex.,l优化问题(7-18)-(7-19)的 KKT 条件为:(7-20)00TYR1其中 。(,)ijijijyKx对于新的样本 ,可以用判别函数(7-21)1()(,)lkkysgnybxx进行识别。7.1.3 模糊近边界支持向量机由于原始支

7、持向量机不是严格凸二次规划,Mangasarian 和 Musicant 通过在目标函数中增加 ,把它转化成一个严格凸二次规划 11:21b(7-22)lkb CbJ122T, )(1),(minwws.t.(7-23)lykkT ,)( x通过用等式约束代替不等式约束(7-23),Fung和Mangasarian提出了近边界支持向量机(Proximal Support Vector Machine, PSVM)12,其相应的数学模型为:4 / 80(7-24)lkb CbJ122T, )(1),(minwws.t.(7-25)lykkT ,)( x为了处理噪声问题,Jayadeva等人提出了

8、模糊近边界支持向量机(Fuzzy Proximal Support Vector Machine, FPSVM)8,其相应的数学模型为:(7-26)lkb sCbJ122T, )()(1),(minwws.t.(7-27)lykkT ,)( x由于等式约束(7-27)可以转化为下式: (7-28)lsbskkTk ,21,)( w所以,优化问题(7-26)-(7-27)的拉格朗日函数为: (7-29) lk kkTklkT sbyssCbbL 1122 )()()(1),( xww其 KKT 条件为:(7-30)1(,)0,lksywx(7-31)1(,),lkLbb(7-32)(,)0, 2

9、,kkkslsC(7-33)lksbybLkkTkk ,21,0)(),( xww上述 KKT 条件可以写成下列线性代数方程组(7-34)11TSRZSY其中: 1(),(),TTllsysyZxx 1 ,Tly , T 1,Tl, 。2,ldiagS 12,)ldiagCsR5 / 80记 ,其中 ,则(7-34)变为:TZ(,)ijijijsyKx(7-35)101TSRSYb7.2 双边加权模糊支持向量机考虑到在实际问题中,一个样本可能以不同的隶属度属于不同的类,Wang 等人提出了双边加权模糊支持向量机9。对于训练集(7-36)111222(,)(,),(),(,1),(),(,1)l

10、lllTyssysyssxxx其中 为输入, 为 所属的类别, 为输入 属于 的隶属度,其nkR,kkkkk数学模型为:(7-37)lkkkbw ssCJ1T, )(w21),(mi s.t.(7-38)lbkkT ,2,)(x(7-39)1(7-40)0,k.,l(7-41)上述优化问题的拉格朗日函数为: lk kkTlkkkT bssCbL 11 )1)()(2),( xwww(7-42)lklklkkTb111 )( x其 KKT 条件为:(7-43)1(,)0()(,lkkLbwwx(7-44)1(,)()0,lk(7-45)(,)0, 12,kkkLbsClw(7-46)(,)(1)

11、, ,kkk l6 / 80(7-47)lkbkTk ,21,0)1)( xw(7-48)k(7-49), ,kl(7-50)012(7-51)0, , , , ,0,12,kkkkkkl从(7-45) , (7-46)和(7-51)中,我们可以得到:(7-52)0, 12,ksCl(7-53)()由(7-45)和(7-49)可知:(7-54)()0, 12,kksl由(7-46)和(7-50)可知:(7-55)(1), ,kkCl从而,我们可以得到优化问题(7-37)-(7-41)的对偶问题为:(7-56),1 1max ()(,(),2l liijjijiiij i xs.t.(7-57)

12、1()0,lk(7-58)0, 12,ksCl(7-59)(),k对于这个优化问题,我们可以用 SMO 算法进行求解13。得到拉格朗日乘子 和 之后,k我们就可以用下述决策函数对新的样本 进行决策x(7-60),()(sgn)(sgn)( 1bkbylkT xwx7.3 基于加权间隔的模糊支持向量机为了解决带噪声的分类问题,2004 年,Tao 和 Wang 提出了基于加权间隔的模糊支持向量机7。设模糊二分类问题的训练集为:(7-61)12(,),()lTssxx7 / 80其中 是输入, 是样本 属于第一类的隶属度。niRxisix令(7-62)21, ,iiysl则训练集(7-61)可写成

13、:(7-63)12(,),(,)lTyxx为了推导加权间隔模糊支持向量机的公式,我们先给出几个定义。定义 7.1 如果存在参数对 ,使得(,)nbRw(7-64)0,ikTiybx成立,那么我们就称模糊二分类问题是线性模糊可分的, 为线性模糊分()TfbxwA类器。在模糊分类器中,如果 ,那么我们就把 归为第一类;否则,我们就把 归为i0yi ix第二类。定义 7.2 设训练集(7-63)是线性模糊可分的, 为线性模糊分类器。我()TfbxwA们把(7-65)iTyb),(和(7-66)liyiT,21,min),( xw分别称为样本 关于分类器 的间隔和分类器 的模糊间隔。ixbfTx bf

14、Txw)(定义 7.3 设训练集(7-63)是线性模糊可分的。如果存在参数对 ,使得0(,)nR(7-67) liybbbiT,21,minax),(ax),(0 w则称 为模糊最优超平面, 为模糊最大间隔。0Txw0,)假设 , ,显然,在线性可分的情况下,1liybiT,21,minx,从而寻求最大间隔等价于解下述优化问题08 / 80(7-68)maxs.t.(7-69)1w(7-70)0,iiiTybx(7-71)iii由文献14可知,上述优化问题等价于(7-72)21minws.t.(7-73)liybyiTi ,21,)(x对于近似线性模糊分类问题和非线性模糊分类问题,其优化问题分

15、别为(7-74)2=1min+Cliws.t.(7-75)liybyiiTi ,21,)(2x(7-76)0,i1,l和(7-77)2=1min+Cliws.t.(7-78)liybyiiTi ,21,)(2x(7-79)0,i1,l考虑到优化问题(7-72)-(7-73)和优化问题(7-74)-(7-76)都是优化问题(7-77)-(7-79)的特殊情况,下面,我们仅给出优化问题(7-77)-(7-79)的对偶问题。优化问题(7-77)-(7-79)的拉格朗日函数为:(7-80) liili iiiTiliT ybyCbL 11 2)(21),( xww其 KKT 条件为:(7-81)1(,

16、)0(),liiLby9 / 80(7-82)1(,)00,liLbyw(7-83)2(,), 1,iii Cl(7-84)liybyiiiTi ,),)(2xw(7-85)0, 12,i l(7-86),ii由(7-83)和(7-86)可知 。把(7-81)-(7-83)代入 的表达式(7-20, 1,iiCly L80),然后取 的最大值,我们就得到优化问题(7-77)-(7-79)的对偶问题:L(7-87)21 1max (,),2l lijiijiijkyxs.t.(7-88)10,liy(7-89)2, ,iiCl在解上述问题之前,我们必须给出隶属度值 。对于模糊二分类问题,Kell

17、er 和 Hunt 给is出了下列计算公式15:如果 属于+1 类,则 属于+1 类的隶属度为ixix(7-90)011000ep()()/exp().52xiii CddCs如果 属于-1 类,则 属于+1 类的隶属度为ixix(7-91)011000ep()()/exp().52xiii ddsC在公式(7-90)-(7-91)中, 是 到正类中心的距离, 是 到负类中心的距离,1()idxi 1()ii是正类中心和负类中心之间的距离, 是控制隶属度函数的常数。d07.4 模糊支持向量机中的隶属度设置10 / 80在模糊支持向量机模型中,隶属度的设置是最关键的问题。如果隶属度设置不合理,那

18、么有可能模糊支持向量机模型的推广能力比原始的支持向量机都差。目前,隶属度的设置问题仍然是一个公开问题。在这一节中,我们详细介绍已有的隶属度设置方法。7.4.1 基于原空间类中心的隶属度设置方法基于原空间中每个样本点和所在类中心点的距离,Lin 和 Wang 提出了一种模糊隶属度函数来降低孤立点和噪声点的影响1。假设给定带有模糊隶属度的训练集为(7-1) 。定义 类样本的均值为 , 类样本1m1的均值为 ,即m(7-92)1iiylmx(7-93)1iiyl其中 为 类中的样本点数目, 为 类中的样本点数目。则 1类的半径为:l1l(7-94):1maxiiyr类的半径为:(7-95):1iiy

19、rx训练样本的模糊隶属度 is可以表示为样本到类中心距离的线性函数1或非线性函数16:(7-96)1,1,ii iyrsmx(7-97) 1,)exp(12,iiiii ysxm其中 0是为避免出现 is=0 的情况, 。1,07.4.2 基于特征空间类中心的隶属度设置方法2006 年,Jiang 等人提出了基于高维特征空间类中心的模糊隶属度函数17,它是文11 / 801中的模糊隶属度函数在高维特征空间中的自然推广。定义 类样本在特征空间中的均值为 , 类样本在特征空间中的均值为 ,即11(7-98)1()iiylx(7-99)1()iiyl其中 为 类中的样本点数目, 为 中的样本点数目。

20、则 1类在特征空间中的半径为l1l(7-100):1max()i iyr类在特征空间中的半径为(7-101):1()i iyrx模糊隶属度 is为(7-102)221,1,iiiiidyrs其中 22()iidx 121 )()(ijj yjiyjiii ll xx(7-103)2112(,)(,)(,)j iji ij ijyykkkllx22iid 121 )()()( ijj yjiyjiii ll xxx (7-104)2112(,)(,)(,)j iji ij ijyykkkll(7-105)2:maxiiyrd12 / 80(7-106)22:1maxiiyrd7.4.3 基于启发

21、式函数的隶属度设置方法2005 年,通过引入置信因子和无用因子,Lin 和 Wang 提出了模糊隶属度的自动生成方法18。假设 为和概率密度函数 高度相关的启发式函数( 为 不是噪声点的()hx()px ()px概率密度函数) ,在此假设下,建立概率密度函数 和启发式函数 之间的关系如()pxh下:(7-107)1, ()()(),CTdCThpx x其其中 为置信因子, 为无用因子。则样本的隶属度 。ChTh(iispx至于启发式函数 ,一方面,可以取下列函数()x(7-108)1()(,)ljjjhykx另一方面,若设 是样本 在其 近邻中与其同类的样本个数,则它也可取inix(7-109

22、)()ihn7.4.4 基于样本到超平面距离的隶属度设置方法2010 年,Batuwita 和 Palade 根据样本到超平面的距离设置隶属度16。其详细的步骤如下(算法 7-1):(1)用训练样本集解标准支持向量机模型,得到初始超平面。(2)计算训练样本到初始超平面的距离(7-110)bdiTi )(xw(3)样本的模糊隶属度 表示为距离 的线性或非线性函数isi(7-111)max(1iii ds13 / 80(7-112)exp(12ii ds其中 是正类样本和负类样本分别到超平面的最远距离。)max(id7.5 加权稳健支持向量回归方法为了解决支持向量机对噪声敏感的问题,张讲设和郭高1

23、0提出了一种噪声软剔除的加权稳健支撑向量回归方法(Reweighted Robust Support Vector Regression, WRSVR)。其详细的过程如下(算法7-2):(1)选择支持向量机中的超参数;(2)对于给定的学习集,用SVR方法得到一个近似支持向量回归函数;(3)用Shevade等人所提出的改进序列极小化方法19求解加权SVR问题(113)li iib bysC12, )(minxww的对偶问题(114) liiiliiilij jijjii yk111, )()(),()(2n xs.t.(115)0)(1liii(116)iiCs0(117)ii(4)如果相邻两次

24、获得的回归函数(118)bkfli jiii 1),()xx相同, 结束,输出计算结果;否则计算出每个训练样本的离差 。(119)yeiii)(w(5)计算(120)1psiies转(3) 。 其中 1p, ,014 / 80. (119)iisiee ,0从算法的执行过程可以看出,该算法实际上是加权最小二乘支持向量机思想的推广。7.6 基于 不敏感学习的模糊系统2003 年,为了解决带噪声的回归问题,Leski 提出了对一种基于 不敏感学习和最大间隔的模糊系统3-5。其详细的算法过程如下(算法 7-3):(1)用模糊 -均值聚类把训练点集合聚为 类 15,设模糊分割矩阵cc),21,() c

25、iA为 ,由此得到 个模糊规则:)(ikuU:如果 属于 ,则 (7-120)()iRx()i cibyTi ,21,)(xw其中 为输入向量, 为输出变量, 是第 个规则的后件参数向量,nxyniR)(是第 个规则的前件模糊集,其隶属度函数为 。如果我们使用高()iA ():0,1inAx斯函数作为隶属度函数, 范作为代数乘积,那么模糊前件可定义为t(7-121)()2 ()21( (2()1expexpi itkjj kjjjxc xct s sikjA x其中:(7-122)()11likjijlikuxc(7-123)()2()211(l iikjjij likuxcs(2)求解第 个

26、规则的后件参数向量 。i ()iw(3)对于新的输入 ,模糊模型的总体输出可以通过对单个规则的加权平均得到: x15 / 80(7-124)ci Tiiciici Tiii AAfy 1)()(1)(1)()()(, xwxwwx下面,我们讨论第 个规则的后件参数向量 的求解。记 ,基i ()i ()()iikkd于 不敏感学习和最大间隔规则,Leski 提出了下述无约束优化问题:(7-125)cibydITilk kTikiinRi ,21,)()()(m)(1)()( wxww令 ,则优化问题(7-125)等价于约束优化问题:1(7-126) lkkiiTiiR dIni 1*)()()(

27、)( )221)( wws.t.(7-127)lkybkkTi ,2,)( x(7-128)lykkTik ,1,*)( w(7-129)lkk ,2,0,*优化问题(7-126)-(7-129)的拉格朗日函数为 lkkklkkiiTii dbL 1*1*)()()(*)( )()221), ww(7-130) lk kTikkklk kTikkk byby1 )(*1 )( )( xwx相应的 KKT 条件为(7-131)()*()1,) ),i likkL0(7-132)()*1,(0,i lkbw(7-133)()*,)0, ,2ii kkdL l(7-134)()()*, , 1,ii

28、 kkb l(7-135)( bykTikkk xw(7-136)lkTikkk ,21,0)(* 16 / 80(7-137)lkk ,21,0(7-138)lk ,*(7-139)lkkkkkkk ,21,0,0,0, * 从而其对偶问题为:(7-140) lklkkjklkj jjk y111, )()()()(2min xs.t.(7-141)1()0lk(7-142)()0, 12,ikdl(7-143)(), ,ikl该对偶问题可以用 SMO 算法进行求解。7.7 基于模糊 if-then 规则的 -间隔非线性分类器2004 年,基于模糊 if-then 规则,Leski 提出了

29、间隔非线性分类器来解决带孤立点或噪声点的分类问题6,其详细的算法步骤如下(算法 7-4):(1)用模糊 -均值聚类分别把正类 中的数据和负类 中的数据聚为 类。cTTc(2) 和 的模糊分割矩阵元素分别用 和 表示,如果模糊隶属度函数服从高T )1(iku)2(i斯分布,则每类的均值和方差可以用下式计算:(7-144)()(,)1()jjlikijlikuxv(7-145)()(,)2(,)1()jjl ijikijlikusxv其中 。2,1,21jci17 / 80(3)找最近的 对类(每对中两个类分别属于 和 ) 。c T(3.1) , ,记重复指标 。,T,21)1( c,21)2(

30、c1t(3.2) 1),(),(,),(),( )2()1(1 miniiTjtt vv(3.3) , , , ,21t1t)(2)()2(tT。t(3.4)如果 ,转(3.2) ,否则终止。c(4)由 对类得到 个模糊规则c如果 属于 ,则 (7-146):)(iRx)(iA()(),12,iTiybcwx(5)求解第 个规则的后件参数向量 。i ()i(6)对于新的输入 ,模糊模型的总体输出可以通过对单个规则的加权平均得到:(7-147)()()()() ()()()1()11,ciiTici iiTiiciiiAbyf Abwxxxw下面,我们讨论第 个规则的后件参数向量 的求解。记 ,

31、基i ()i ()()iikkd于 间隔,Leski 提出了下述无约束优化问题:(7-148)()()()()()2()()1min , 1,2liiiTi iTikkRIdyb cwwxw显然,优化问题(7-148)与下述优化问题是等价的。(7-149)()()()()2()(), 1in, , 1,2,liii iTikbIdekcw s.t.(7-150)()(), 1,2,iTikkkybecx令 ,则优化问题(7-149)-(7-150)可转化为下列约束优化问题:1(7-151)()() ()()()2, 11min, , 1,2liiiTi ikbI decwws.t.18 / 8

32、0(7-152)()(), 1,2,iTikkkybecwx上述优化问题的拉格朗日函数为:(7-153)()()()()2()()111,2lli iTii iTik kkkkLbedeybewx相应的 KKT 条件为:(7-154)lkkiikii yeb1)()()()( 0, xw(7-155)lkikbL1)( 0,(7-156)kikki ede)()(0,(7-157)() ()(), 0i iTikkkkLbybewwx写成矩阵形式为(7-158)1DY00)(iT其中 , , ,Tly),(21Y),(jijikyx )1,()(2)1ilii ddiag。解方程组(7-158

33、)之后,我们可以利用(7-154)得到 。T), )(iw7.8 基于核模糊 -均值聚类和最远对策略的模糊支持向量机分类器c为了解决带噪声和孤立点的分类问题,2011 年,我们提出了基于核模糊 -均值聚类和c最远对策略的模糊支持向量机(KFCM-FSVM)20。详细的算法步骤如下(算法 7-5):(1)选择核函数 K 和相应的参数 、 和 。C(2)根据聚类有效性,用模糊 -均值聚类算法分别对正类 和负类 在高维特征空k间中聚类,得到最优聚类,设 和 的最优聚类数分别为 和 。 C(3)在 和 中分别寻找一个聚类,使得这两个类中心的距离最远。(4)首先用(3)所得到的聚类对构成一个带样本隶属度

34、的训练集,然后用模糊支持向量机训练该数据集得到一个非线性分类器 。),(sgn)(1bKyyjjlj xx19 / 80(5)对测试数据 ,我们可以用决策函数 对其进行x ),(sgn)(1bKyyjjlj xx判别。聚类有效性是聚类分析中的一个重要问题。模糊 -均值聚类的一个可靠的有效性指标c必须要综合考虑模糊 -分割的紧密度和分离度。最优分割应使类内紧密度达到最小,类间c分离度达到最大。对于模糊 -均值聚类一些有效性指标已经建立 21-26,在KFCM-FSVM算法中,我们用Xie和Beni提出的有效性指标21。当 时,此有效性指标定义如下:2q(7-159)21,(,)mincnijij

35、j ijjudsxv我们的目标是找到使 达到最小的模糊 -分割。c由于模糊 -均值聚类的计算复杂度是 ,寻找最远对的计算c )(22lCtltO复杂度是 ,解模糊支持向量机的计算复杂度是 ,因此)(lCO )(2.OKFCM-FSVM算法的计算复杂度为 。其中 和( .22 llltlCt t分别是寻找正、负类最优聚类的迭代次数。t为了验证 KFCM-FSVM 对噪声点和孤立点的健壮性,我们用 6 个 UCI 数据集(见http:/www.ics.uci.edu/mlearn)和 4 个人工数据集做实验,并同 SVM 和 FSVM 算法的性能进行了比较。在算法实现的过程中,核函数采用径向基函数

36、,最优超参数通过网格剖分寻找,剖分的网格为: , ,分类器求解用 SMO 算法352, 0192,C27,FSVM 算法中的模糊隶属度设置采取17中的策略,其中参数 。程序运行的01.硬件环境是双核 2.0GHz Intel Xeon CPU, 内存 4.0GB 的服务器,软件环境是 CentOS Linux 5.3 M 系统/ GCC 4.2 编译器,编程语言是 C+。实验用的数据集的详细情况如下:(1)Ripley28:此数据集为两类问题,其中数据为 2 维,每一类所含数据服从由两个正态分布混合而成的双峰分布。训练集 250 个样本,测试集 1000 个样本。其数据分布见图7-1。(2)P

37、IMA 数据集: 此数据集为真实数据,总样本 768 个。按照数据集文件中的说明,我们随机选取 576 个样本训练,剩余 192 个样本测试。(3)Waveform 数据集: 此数据集是 21 维的两分类数据集,总共有 400 个训练样本,4600个测试样本。(4)Banana 数据集: 此数据集是二维两分类数据集,总共有 400 个训练样本,4900 个测试样本。其数据分布见图 7-2。(5)MONK: MONK 问题是国际上学习算法比较的基础,比较结果总结见文献12,MONK 问题有三个,本文我们采用第三个,其中含有随机添加的噪声点,数据为 6 维,训练集 122个样本,测试集 432 个

38、样本。(6)The Statlog (Landsat Satellite) Data Set (Sat 数据集): 此数据集是 36 维的 6分类问题,总共有 4435 个训练样本,2000 个测试样本。我们把 类指派给正类,5,21指派给负类,从而得到一个二分类问题。7,4320 / 80(7)人工数据集 1: 此数据集是二维二分类问题,总共有 279 个训练样本,281 个测试样本。数据的分布见图 7-3。(8)人工数据集 2: 此数据集是二维二分类问题,总共有 630 个训练样本,630 个测试样本。数据的分布见图 7-4。(9)人工数据集 3: 此数据集是二维二分类问题,总共有 344

39、 个训练样本,336 个测试样本。数据的分布见图 7-5。(10)人工数据集 4: 此数据集是二维二分类问题,总共有 221 个训练样本,219 个测试样本。数据的分布见图 7-6。为了说明 KFCM-FSVM 算法从统计的角度给出了合理的隶属度,我们采用 5-折交叉认证策略在 10 个数据集上运行三个算法。测试精度和相应的最优超参数列在表 7-1 中。考虑到聚类算法对初始点敏感,我们运行 KFCM-FSVM 算法 10 次,表 7-1 中的测试精度是 10 次中的最好测试精度。(a) 训练集 (b) 测试集图 7-1 Ripley 数据集 (a) 训练集 (b) 测试集图 7-2 Banan

40、a 数据集 21 / 80(a) 训练集 (b) 测试集图 7-3 人工数据集 1 (a) 训练集 (b) 测试集图 7-4 人工数据集 2 (a) 训练集 (b) 测试集图 7-5 人工数据集 3 (a) 训练集 (b) 测试集图 7-6 人工数据集 4表 7-1 SVM, FSVM 和 KFCM-FSVM 在 10 个数据集上的测试精度比较Dataset Algorithm TestingAccuracySVM 0.5 32 0.880FSVM 0.5 256 0.892RipleyKFCM-FSVM 0.125 1 0.89222 / 80SVM 2 256 0.773913FSVM 0

41、.5 8 0.761739PIMAKFCM-FSVM 2 64 0.784348SVM 1 8 0.920000FSVM 0.5 512 0.920000WaveformKFCM-FSVM 1 16 0.925000SVM 0.25 4 0.905000FSVM 0.25 64 0.902500BananaKFCM-FSVM 0.25 64 0.930000SVM 4 256 0.925000FSVM 2 16 0.900000MONKKFCM-FSVM 2 8 0.925000SVM 32 32 0.980383FSVM 32 512 0.980383SatKFCM-FSVM 32 64 0

42、.980609SVM 0.25 512 0.989091FSVM 0.5 256 0.974545人工数据集 1KFCM-FSVM 0.25 512 0.989091SVM 2 4 0.944444FSVM 1 4 0.942857人工数据集 2KFCM-FSVM 4 128 0.947619SVM 1 128 0.961765FSVM 0.5 512 0.961765人工数据集 3KFCM-FSVM 0.25 2 0.964706SVM 4 512 0.968182FSVM 2 512 0.968182人工数据集 4KFCM-FSVM 0.0625 1 0.972727从表 7-1 可以看出

43、,KFCM-FSVM 算法在所有的数据集上都给出了最好的结果,这说明新算法给出的样本模糊隶属度是合理的,能够有效提高带噪声和孤立点的二分类问题的预测精度。产生这种结果的主要原因在于:一方面,高维特征空间中的模糊 -均值聚类降低c了孤立点对决策函数的影响;另一方面,最远对策略降低了噪声点对决策函数的影响。需要说明的是,由于核模糊 -均值聚类需要利用有效性指标寻找最优的聚类数,对于c大的数据集,它可能要花费大量的时间。因此,KFCM-FSVM 算法不适合大规模的分类问题。参考文献1 Lin, C. F., Wang, S. D., Fuzzy support vector machines, IE

44、EE Transactions on Neural Networks, 2002, 13(2): 464-471.2 Suykens, J. A. K., De Barbanter, J., Lukas, L., Vandewalle, J., Weighted least squares support vector machines: robustness and sparse approximation, Neurocomputing, 2002, 48(1-4): 85-105.3 Leski, J. K., Neuro-fuzzy system with learning toler

45、ant to imprecision, Fuzzy Sets and Systems, 2003, 138(2): 427-439.4 Leski, J. K., TSK-fuzzy modeling based on -insensitive learning, IEEE Transactions on Fuzzy Systems, 2005, 13(2): 181-193.5 Leski, J. K., On support vector regression machines with linguistic interpretation of the kernel matrix, Fuzzy Sets and Systems, 2006, 157:10921113.23

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报