1、_* ) 本文研究得到国家自然科学基金资助 ( #60275025, #60121302) 王泳, 男, 1975 年生, 博士研究生, 主要研究方向为模式识别、知识发现、数据挖掘. Email: . 胡包钢, 男, 博士, 研究员, 博士生导师, 主要研究方向为智能系统、模式识别、植物生长建模第 1 页 共 27 页应用统计方法综合评估核函数分类能力的研究 *)王 泳 1,2 胡包钢 1,21(中国科学院自动化研究所模式识别国家重点实验室 北京 100190)2(中国科学院研究生院 北京 100049)摘 要 本文应用统计方法对支持向量机方法中核函数选择问题进行了研究.文中将“纠正重复取样
2、t 测试”引入到核函数选择中,通过其与 k-折交叉验证、配对 t 测试等多种统计方法的综合应用,对九个常用核函数的分类能力进行了定量研究.同时,文中还提出了基于信息增益的评估核函数模式识别能力的定量评估准则,证明了该准则是传统评估准则的非线性函数.数值实验表明,不同模型评估准则之间存在差异,但应用统计方法可以从这些差异中发现一些规律.同时,不同统计方法之间也存在显著差异,且这种差异对模型评估的影响要大于由于评估准则的不同而产生的影响.因此,只有应用综合的评估方法和准则才能对不同核函数的分类能力进行客观评估.关键词 核函数选择;模式识别;纠正重复取样 t 测试;信息增益;非线性函数中图法分类号
3、TP391第 2 页 共 27 页1 引言在支持向量机(Support Vector Machines,SVMs) 1方法中,核函数选择十分重要.研究表明 1,针对同一分类问题,选择不同的核函数,分类性能可能会相差很大.这主要是因为构成核函数 的非线性映射 是隐函数,且这些隐函数的类型是多样可变的.所yx,Kx以当人们对特定问题没有任何先验知识的时候,很难确定应该选择哪一类核函数进行计算.虽然利用泰勒级数展开和傅立叶级数展开的方法,已经证明了存在一类最优核,它所对应的特征映射可以确保任意两个不连接的有界闭集在特征空间中线性可分 2,但如何构造这类最优核至今却还缺乏行之有效的方法.众多学者从不同
4、的角度对核函数选择 3,4和构造 5-8问题进行了有益的探讨,但综合性的评估研究仍是缺乏的.一般说来,核函数的评估指标可以分为两大类:一类来自实际数据的实验验证结果;一类来自理论分析所给出的界.根据统计学习理论,核函数推广能力的强弱与由该函数计算得到的分类超平面集合的 VC 维(Vapnik-Chervonenkis dimension)相关, VC 维 ,泛化h误差 和特征空间中训练样本集与超平面的最短距离 之间存在以下关系 1 , (1)1,min2Rh2mRO是特征空间中包含所有训练样本的最小超球的半径, 是训练样本的个数, 是特征空R n间的维数.因此,VC 维越小,函数的推广能力越强
5、.但遗憾的是,目前尚没有关于如何计算任意函数集的复杂性(VC 维)以及推广性界的一般性理论,能够得到的只是一些估计值 1,7 .所以在解决实际问题时,通常还是以实际数据的实验验证结果作为核函数评估的数量指标.根据有限数据的实验验证结果进行分类预测性能评估是机器学习领域的一个存在较多争议的研究领域,这不仅是因为在分类模型预测性能评估体系中存在很多模型评估准则,而且还存在许多不同的模型评估方法(图 1).在实践中,应用 k-折交叉验证方法(k- fold Cross-Validation)和准确率准则对分类模型进行预测性能评估是最为常规的方法,但需要注意的是交叉验证技术是一个启发式技术,未必对各种
6、情况都适用 9,尤其是当确定一个学习模型对某个具体问题的解决是否真的优于另一个学习模型,就需要证明模型之间的这第 3 页 共 27 页种性能差别不只是评估过程中所产生的偶然结果,这通常是一项给出置信边界的统计实验工作.模 型 评 估 方 法 k |折交叉验证 配对 t测试 纠 正重 复取 样 t 测 试 模 型 评 估 准 则 准确率 精确率 召回率 F测量 信息增益 分 类 模 型 预 测 性 能 评 估 体 系 图 分类模型预测性能评估体系文章的其它章节组织如下:第 2 节对模型预测性能评估的三种统计方法 k-折交叉验证、配对 t 测试(paired t-test) 10、纠正重复取样 t
7、 测试(corrected resample t-test) 11进行了对比分析,引入并讨论了纠正重复取样 t 测试对模型预测性能评估的适用性;第 3 节提出了基于信息增益 12的评估核函数模式识别能力的定量评估准则,并证明了该准则在一定程度上可以弥补其它评估准则的不足;第 4 节是实验与分析;第 5 节对文章内容进行了总结并对进一步研究的方向进行了展望.2 模型预测性能评估方法k-折交叉验证其基本思想是把样本集 (其中 )随机划分为 k 个不相miiyxD1,Ryxini,交的子集 ,且每个子集都有 个样本点.分类器 T 要迭代训练 k 次,每k,21 k/次都用集合 中的数据进行训练,而用
8、集合 中的数据进行验证.k-t,tD折交叉验证估计出的分类器 T 的泛化误差率 是 k 次验证误差率 的TErCV, ttEr,平均值.令 代表包含样本 的子集, 代表分类器 T 对样本 进iDiiyxv,iv, iv第 4 页 共 27 页行分类的结果,则 k-折交叉验证估计出的分类器 T 的泛化误差率是:(2)Dv iikiiiCVi yvTmErEr ,1,(3)jiji0,定理 1. 给定样本集 D 和分类器 T,分类器 T 真实但未知的分类误差率是 p,如果在k-折交叉验证中删除 D 中任意的样本并不影响估计出的分类器 T 的泛化误差率,则 k-折交叉验证评估出的泛化误差率是真实误差
9、率的无偏估计.证明: 因为删除 D 中任意的样本并不影响 的取值,所以 D 中样本是从ErCV,样本空间 中随机选取且与 T 相互独立,所以 是满足二项分布的随iiyvDT机变量,因此 01,pmpyvTEDTErDv iiCVi证毕但通常情况下,D 中样本有限,因此很难保证分类器 T 与 D 相互独立,所以直接将交叉验证估计出的泛化误差率当作模型的真实误差率对模型预测性能进行评估是有误差的,但可以用置信区间(confidence interval)估计的方法对这种误差进行估计.根据中心极限定理,当 且 时,随机变量 可以用 ,5mp51pTErCV,p的正态分布近似.所以,为了得到 的 置信
10、区间,m 的/12 %10a最小取值应满足下式:第 5 页 共 27 页(4)mWpzzaaa124/2/2/是标准正态分布右尾被分割出 面积的分割点处的 z 值, 是置信区间的宽2/az /度.配对 t 测试虽然,增加样本数 m 可以增加 k-折交叉验证的置信度,但这种数量的增加是有限度的.研究表明 13,单纯增加 m 会导致交叉验证的渐进有偏.所以,要想保证 k-折交叉验证方法的有效性,关键是增加样本集 D 和分类器 T 之间的独立性.另外,应用 k-折交叉验证对学习模型进行评估仅考察了模型之间的均值差异,模型评估的另一个重要考察指标是模型之间的方差差异 10,11,这可以用统计学中的配对
11、 t 测试方法实现 10.设第一组样本 是学习模型 X 根据某种性能评估准则在不同的数据集上得kx,21到的估计值(所有数据集大小相同,且来源于同一个领域) ,第二组样本 是学ky,21习模型 Y 根据同样的性能评估准则在同样的数据集上得到的估计值,即 和 是使用相同x的数据集产生的, 和 也是如此,依此类推.第一组样本的平均值用 来表示,第二2xy 1组样本的平均值用 来表示,因此学习模型 X 和 Y 的比较就是要判定 和 是否有显著 2的差别,由于实验中两种学习模型在每个数据集上的实验都能获得配对的结果,因此这种统计测试被称为配对的 t 测试 .表 1 列出了在小样本情况下配对 t 检验方
12、法.当 时就是对“两个均值相等”这一零假设的检验方法,即比较模型 X 和模型0DY 学习性能是否一样的检验方法.表 1 小样本情况下配对 t 检验方法第 6 页 共 27 页双侧检验 左侧检验 右侧检验假设形式 0210:DH021:DH021:DH检验统计量 ,自由度:k -1sdkdta 与拒绝域 12/kta 1ta1ktaP 值决策准则 ,拒绝P0H假定条件1. 差值总体的相对频数分布接近正态分布2. 配对差由差值总体随机选出:第 i 个配对样本数据的差值,即 ;id kiyxdii ,1,:配对样本数据差值的平均值,即 ;211ki:配对样本数据差值的准则差,即 ;ds kiidds
13、12:配对样本数据差值的总体准则差,即 ;d kd2121( 表示第一组样本数据的总体准则差, 表示第二组样本数据的总体准则差, 表示1 2两组样本的相关程度)a:置信度(显著性水平) ;P:观察到的显著性水平.改进的配对 t 测试标准配对 t 检验方法的假定条件 1 要求差值总体的相对频数分布接近正态分布,而配第 7 页 共 27 页对数据越多,其差值总体的相对频数分布越接近正态分布,因此数据来源越多,检验所获得的结果越可靠.但在实践中,通常只有一个容量有限的数据集可用,虽然通过增加交叉验证的次数可以增加配对样本的数目,但重复利用原始数据集得出的交叉验证估计不是独立的,因此使得配对数据之间具
14、有很强的相关性,造成配对 t 检验方法的假定条件 2 无法满足.实际上,通过增加交叉验证次数来增加样本数目,最终将导致产生明显差异,因为 t 统计量在毫无限制的增加着,而这种差异的产生是由于样本的重复使用造成的,并没有真实反映出样本总体的性质.近年来提出的纠正重复取样 t 测试方法 11可以很好地解决这个问题.该方法使用重复旁置法来代替交叉验证法,此时 k-折交叉验证只是一个特例 .它将数据集进行不同的随机分割 k 次,每次用 个样本训练,用 个样本测试,差值 则根据在测试数据上的性能计1n2nid算得出.纠正重复取样 t 测试使用经修改后的统计量:(5)120120nksDdnkdt可以看出
15、,此时 t 统计量不再容易随着 k 值的增加而快速增长了.对于重复的 10 次 10 折交叉验证,k100, , 则基于 100 个差值计算得到.9/12nd3 模型预测性能评估准则信息增益准则定义 1. 假设数据集 (其中 )中包含的 w 个样本属于wiiyxD1,Ryxini,不同的 K 类,由每类样本构成的集合 中包含有 wi 个样Kiwjiji ,21,本,则数据集 D 的信息量(熵) 为:entropy第 8 页 共 27 页(6)Ki ii KKwentropyDentropyD122121lg, , 是对数据集 D 的不确定性的度量 .当数据集中样本都属于同一类别 k 时,ent
16、ropy,属于其它类别的样本数都为 0,此时数据集 D 完全确定,wk(因为 ,所以定义 ).当属ketryetry 0logim2pp 0log2于不同类别的样本数都相等时,不确定性最大,所以对含有 K 类样本的数据集 D 来说:(7)Dntropye2lg0定义 2. 假设通过分类模型 f 对数据集 D 进行分类,由分类结果可以构成新的数据集(其中 与 不一定相等).根据分类结果中每类样本的分布情况,将数wiiyxD1,iyi据集 划分为 K 个子集合,其中第 i 个子集合 由被分为第 iKiKjii ,21类的样本组成, 表示由原本是第 j 类但却被分为第 i 类的样本组成的集合,集合中
17、的样ij本数是 wij 个.此时数据集 的信息量(熵) 为:DDentropyKtentropy,21jKjjt 1121,Ki KjijijDentropyw1 1第 9 页 共 27 页Ki KjijijKjijijjij ww11j 12log(8)Kij Kjijijijw112log定义 3. 信息增益(information gain) 度量的是分类模型 f 从数据集 D 中挖掘fIG出的知识多少,其定义为:(9)DentropyentropyfI任意分类数据集都可以看成是具有一定不确定性的系统,一个好的分类器 f 应该表现出最大程度上减少了这个系统的不确定性,而这种不确定性的减少
18、,从信息学的角度看就是 f 具有最大的信息增益,由此可以得出定义 4.定义 4. 对于分类模型 f1 和 f2,如果 ,则 f1 比 f2 更能减少分类数据集21IGIff的不确定性.信息增益准则与其它准则的对比针对模式识别问题,实际中常用的模型评估准则有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F 测量(F-measure)等 14.对一个 yes 和 no 的二类分类问题,一个预测可能产生四种不同的结果(表 2) ,正确的肯定 TP(True Positive) 、正确的否定 TN(True Negative) 、错误的肯定 FP(False Pos
19、itive)和错误的否定 FN( False Negative).表 2 二类分类预测的不同结果预测类第 10 页 共 27 页Yes No正确的肯定 TP 错误的否定 FN Yes错误的肯定 FP 正确的否定 TN No真实类准确率、精确率、召回率和 F 测量分别是根据它们的数值计算获得:准确率: FNPTA(10)精确率: (11)召回率: FNTPR(12)F 测量: (13)FNPT2RP例 1. 应用不同分类模型解决二类分类问题,样本总量是 100 个,其中肯定类是 50 个,否定类是 50 个.根据不同模型的分类结果计算信息增益,并分析信息增益与准确率、精确率、召回率和 F 测量的
20、关系.表 3 根据不同模型的分类结果计算各种评估准则(基于例 1 正负样本比例相等的数据)Model TP FP TN FN Accuracy Precision Recall F Information GainI 25 5 45 25 0.7 0.8333 0.5 0.625 0.1468II 30 10 40 20 0.7 0.75 0.6 0.6667 0.1245III 15 5 45 35 0.6 0.75 0.3 0.4286 0.0468IV 15 45 5 35 0.2 0.25 0.3 0.2727 0.2958V 12 26 24 38 0.36 0.3158 0.24
21、0.2727 0.0611VI 26 12 38 24 0.64 0.6842 0.52 0.5909 0.0611第 11 页 共 27 页00.20.40.60.810 0.2 0.4 0.6 0.8 1准 确 率信 息 增 益00.20.40.60.810 0.2 0.4 0.6 0.8 1精 确 率信 息 增 益(a) 信息增益与准确率 (b) 信息增益与精确率00.20.40.60.810 0.2 0.4 0.6 0.8 1反 馈 率信 息 增 益00.20.40.60.810 0.2 0.4 0.6 0.8 1F测 量信 息 增 益(c) 信息增益与召回率 (d) 信息增益与 F
22、测量 图 2 信息增益准则与其它准则的对比(基于例 1 正负样本比例相等的数据)例 2. 应用不同分类模型解决二类分类问题,样本总量是 100 个,其中肯定类是 20 个,否定类是 80 个.根据不同模型的分类结果计算信息增益,并分析信息增益与准确率、精确率、召回率和 F 测量的关系.表 4 根据不同模型的分类结果计算各种评估准则(基于例 2 正负样本比例不相等的数据)Model TP FP TN FN Accuracy Precision Recall F Information GainI 5 35 45 15 0.5 0.125 0.25 0.1667 0.0177II 8 38 42
23、12 0.5 0.1739 0.4 0.2424 0.0026III 16 76 4 4 0.2 0.1739 0.8 0.2857 0.0287IV 16 80 0 4 0.16 0.1667 0.8 0.2759 0.0979V 8 30 50 12 0.58 0.2105 0.4 0.2759 0.0003VI 1 5 75 19 0.76 0.1667 0.05 0.0769 0.0003第 12 页 共 27 页00.20.40.60.810 0.2 0.4 0.6 0.8 1准 确 率信 息 增 益00.20.40.60.810 0.2 0.4 0.6 0.8 1精 确 率信 息
24、增 益(a) 信息增益与准确率 (b) 信息增益与精确率00.20.40.60.810 0.2 0.4 0.6 0.8 1反 馈 率信 息 增 益00.20.40.60.810 0.2 0.4 0.6 0.8 1F测 量信 息 增 益(c) 信息增益与召回率 (d) 信息增益与 F 测量 图 3 信息增益准则与其它准则的对比(基于例 2 正负样本比例不相等的数据)例 1 和例 2 说明,不同模型在某个评估准则下的评估结果可能相同,但同时,总可以运用其它评估准则来分辨它们的优劣.同时,从图 2 和图 3 中还可以看出信息增益与准确率、精确率、召回率和 F 测量之间存在着复杂的非线性函数簇的关系.
25、定理 2. 针对两类分类问题,信息增益是准确率、精确率和召回率的非线性函数.证明: 根据公式(10)(12)可知(14)TPFNR1(15)(16)TPTNA1PR-第 13 页 共 27 页根据公式(8)和(9)可知两类分类问题中的信息增益可表示为(17)FNTFPTNFPTFPTNFNPTFPTN222222loglloglloglIG将公式(14)(16)带入公式(17)得(18)2PRA2 APRP2A1P2R12 PRloglPoglR1PPlogIG所以,针对两类分类问题,信息增益是准确率、精确率和召回率的非线性函数. 证毕性质 1. 一般情况下,只有当准确率、精确率和召回率三个变
26、量值全部给定后,信息需要特别说明的是,定理 2 的证明是在 TP、TN、FP 和 FN 都不为零的一般情况下进行的.它们中有为零的情况是特殊情况,可以证明结论依然成立。文献1516对信息增益与传统模型评估准则之间的关系及其在分类问题中的应用做了进一步的论述.第 14 页 共 27 页增益值才可唯一确定.性质 2. 当准确率为 1 或 0 时,信息增益的值被唯一确定,且是最大值.不同于应用分类精度为单一准则,信息增益给出了更为综合的模型预测性能评估指标,它相当于以非线性方式平衡了各种准则,因此它可以反映出模型更多的信息,例如: 信息增益准则可以反映出其它评估准则的评估能力.精确率和召回率可以反映
27、出模型较多的信息,因此精确率和召回率评估模型的能力较强,而准确率反映出的模型的信息最少,所以将准确率当作模型评估的单一准则是不恰当的; 信息增益准则的适用范围更广.F 测量准则适用于样本比例严重不平衡的数据集(即针对小概率事件的数据集) ,而信息增益准则能够反映出它的这种特性,因此也同样适用于这种情况. 所以信息增益在一定程度上可以弥补其它单一评估准则的不足.4 实验与分析为了阐明不同统计方法和不同模型评准则之间的差异,本文在 Weka14软件平台上,对九个常用核函数(表 5,取默认参数)在 21 个标准数据集(表 6)上进行了 10 次 10 折交叉验证,并对实验结果进行统计分析 .表 6
28、参与实验的数据集数据集 特征数 数据量 数据来源Breast-Cancer-Wisconsin 9 699 UCI 数据库 17DUPA-Liver-Disorders 6 345 UCI 数据库 17Diabetes_Pima 8 768 UCI 数据库 17Heart-Statlog 13 270 UCI 数据库 17Hepatitis 19 155 UCI 数据库 17Ionosphere 34 351 UCI 数据库 17Monks-Problems-1 6 432 UCI 数据库 17Monks-Problems-2 6 432 UCI 数据库 17Monks-Problems-3
29、6 432 UCI 数据库 17Musk-Clean-1 166 476 UCI 数据库 17 需要特别说明的是,实验中得出的关于核函数分类能力的结论只针对参与实验的数据,并非一般意义下关于核函数分类能力的结论。第 15 页 共 27 页Sonar 60 208 UCI 数据库 17CPS_85_Wages 10 534 Statlib 数据库 18Plasma_Retinol 13 315 Statlib 数据库 18Prnn_Crabs 7 200 Statlib 数据库 18Prnn_Synth_TE 2 1000 Statlib 数据库 18Prnn_Synth_TR 2 250 St
30、atlib 数据库 18Schizo 14 340 Statlib 数据库 18Veteran 7 137 Statlib 数据库 18Nonlineardata100 2 100 基准测试数据 19Nonlineardata1000 2 1000 基准测试数据 19Two-Spirals 2 194 基准测试数据 20实验 1: 对模型预测性能评估的三种统计方法(交叉验证、配对 t 测试和纠正重复取样 t测试)进行对比分析.图 4图 8 分别显示了在准确率、精确率、召回率、F 测量和信息增益准则下 RBF 核函数与其它核函数进行对比时,不同统计方法所得到的统计结果.图中符号(V、和 L)代表
31、对比核函数的分类结果好于(V ) 、等于(=)还是差于(L)RBF 核函数,图中数据代表相应的次数,统计显著性水平5%.0510152025Cross-Validation 8 0 13 6 0 15 1 0 20 6 0 15 10 0 11 6 0 15 8 1 12 1 0 20Paired T-Test 7 5 9 5 3 13 1 0 20 6 2 13 6 4 11 5 7 9 2 9 10 1 2 18Corrected Resampled T-Test 2 17 2 1 14 6 0 2 19 2 13 6 1 11 9 2 16 3 0 15 6 0 9 12V = L V
32、= L V = L V = L V = L V = L V = L V = LCF HSF HTF LF Linear Poly SSCF STF(图中符号(V、和 L)代表对比核函数的分类结果好于(V) 、等于( =)还是差于(L)RBF 核函数,数据代表相应的次数,统计显著性水平 5%)图 4 在准确率准则下对比三种统计方法0510152025Cross-Validation 7 2 12 9 1 11 1 0 20 7 1 13 6 2 13 4 3 14 2 6 13 2 0 19Paired T-Test 5 5 11 7 4 10 1 0 20 7 4 10 6 3 12 5 5
33、11 3 7 11 1 1 19Corrected Resampled T-Test 1 18 2 1 17 3 0 2 19 3 14 4 1 10 10 1 16 4 0 17 4 1 7 13V = L V = L V = L V = L V = L V = L V = L V = LCF HSF HTF LF Linear Poly SSCF STF第 16 页 共 27 页(图中符号(V、和 L)代表对比核函数的分类结果好于(V) 、等于(= )还是差于(L)RBF 核函数,数据代表相应的次数,统计显著性水平 5%)图 5 在精确率准则下对比三种统计方法0510152025Cross
34、-Validation 7 6 8 5 4 12 1 0 20 7 1 13 8 2 11 7 5 9 7 4 10 6 0 15Paired T-Test 4 11 6 5 6 10 1 0 20 6 2 13 5 5 11 7 6 8 7 6 8 6 1 14Corrected Resampled T-Test 2 16 3 0 16 5 0 4 17 3 11 7 1 12 8 4 13 4 0 16 5 4 8 9V = L V = L V = L V = L V = L V = L V = L V = LCF HSF HTF LF Linear Poly SSCF STF(图中符号(
35、V、和 L)代表对比核函数的分类结果好于(V) 、等于(= )还是差于(L)RBF 核函数,数据代表相应的次数,统计显著性水平 5%)图 6 在召回率准则下对比三种统计方法0510152025Cross-Validation 7 6 8 8 1 12 1 0 20 5 2 14 4 5 12 5 3 13 5 6 10 0 0 21Paired T-Test 7 7 7 4 6 11 1 0 20 5 2 14 4 4 13 5 4 12 3 9 9 0 1 20Corrected Resampled T-Test 2 15 4 1 15 5 0 3 18 2 13 6 2 8 11 3 15
36、 3 0 16 5 0 9 12V = L V = L V = L V = L V = L V = L V = L V = LCF HSF HTF LF Linear Poly SSCF STF(图中符号(V、和 L)代表对比核函数的分类结果好于(V) 、等于(= )还是差于(L)RBF 核函数,数据代表相应的次数,统计显著性水平 5%)图 7 在 F 测量准则下对比三种统计方法0510152025Cross-Validation 8 2 11 5 4 12 0 1 20 6 1 14 5 1 15 6 1 14 4 4 13 2 0 19Paired T-Test 7 7 7 4 6 11
37、0 3 18 5 4 12 4 3 14 4 9 8 2 11 8 2 2 17Corrected Resampled T-Test 1 18 2 1 15 5 0 10 11 2 13 6 1 11 9 2 16 3 0 16 5 0 8 13V = L V = L V = L V = L V = L V = L V = L V = LCF HSF HTF LF Linear Poly SSCF STF(图中符号(V、和 L)代表对比核函数的分类结果好于(V) 、等于(= )还是差于(L)RBF 核函数,数据代表相应的次数,统计显著性水平 5%)第 17 页 共 27 页图 8 在信息增益准
38、则下对比三种统计方法从图 4图 8 的统计结果中可以看出,三种统计方法之间存在较大差异.例如,图 4 中,在准确率准则下,交叉验证的统计结果表明,Linear 的分类能力接近于 RBF,但配对 t 测试方法和纠正重复取样 t 测试的统计结果表明, Linear 的分类能力远远不如 RBF.又例如,图 5 中,在精确率准则下,交叉验证和配对 t 测试方法的统计结果表明,CF 的分类能力不如 RBF,但纠正重复取样 t 测试的统计结果表明,CF 的分类能力接近 RBF.当不同统计结果出现矛盾时,需要在应用多种统计方法的基础上,综合考评多种评估准则,然后根据大多数评估结果做出最后评判,真正好的分类模
39、型在所有评估准则下所获得的结果都应当是最好的.所以,综合图 4图 8 的统计结果可以得出以下结论:(1) Linear、HTF 和 STF 的分类能力都远远不如 RBF(取默认参数) ;(2) CF 的分类能力最接近 RBF(取默认参数).而这一结论与图 8 在信息增益准则下的统计结果最为相符,由此看出,信息增益准则最接近综合考评得出的结果.实验 2: 对模型预测性能评估的多种评估准则(准确率、精确率、召回率、F 测量和信息增益)进行对比分析.表 7 显示了应用纠正重复取样 t 测试方法(统计显著性水平5%)进行核函数两两对比时,根据不同评估准则所得到的统计结果.第一列Criteria 是评估
40、准则,第二列到第十列是参与评估的九个核函数, 、表中数据代表核函数两两对比的获胜次数与失败次数之差,括号内的数字指明该核函数在当前评估准则下的排名.表 7 应用纠正重复取样 t 测试方法对比五种评估准则Criteria RBF CF HSF HTF LF Linear Poly SSCF STFAccuracy 55 (1) 44 (2) 27 (5) -146 (9) 34 (3) 0 (7) 31 (4) 18 (6) -63 (8)Precision 51 (1) 46 (2) 37 (4) -133 (9) 39 (3) -21 (7) 31 (5) 22 (6) -72 (8)Rec
41、all 44 (1) 33 (3) 16 (4) -123 (9) 16 (4) -11 (7) 38 (2) 12 (6) -22 (8)F Measure 54 (1) 45 (2) 31 (4) -132 (9) 31 (4) -16 (7) 39 (3) 22 (6) -74 (8)Information Gain 47 (1) 40 (2) 21 (4) -61 (8) 18 (5) -15 (7) 31 (3) 6 (6) -87 (9)(表中数据代表核函数两两对比的获胜次数与失败次数之差,括号内的数字指明该核函数在当前评估准则下的排名)第 18 页 共 27 页从表 7 的统计结
42、果中可以得出以下结论:(1) 虽然根据核函数两两对比的获胜次数与失败次数之差对核函数分类能力进行排序时,不同评估准则在具体数值上存在差异,但应用统计方法所获得的核函数排序是大体一致的;(2) 对核函数分类能力的评估结论与实验 1 中结论一致.5 讨论核函数选择的准则和方法作为核方法及其应用的核心内容之一,目前在国际上还没有形成一个统一的模式,在解决实际问题时,人们往往只能是凭借经验,并采用试凑方式,由此产生较大的随意性.因而有必要对各种常用的核函数进行分类能力的综合评估.有关评估结论对于在没有先验知识情况下选择核函数具有重要的指导意义.本文尝试将纠正重复取样 t 测试的统计方法应用到核函数选择
43、中,提出了通过多种评估准则的综合应用来选择核函数的方法.数值实验表明不同模型评估准则之间存在差异,但应用统计方法可以从这些差异中发现一些规律.同时,不同统计方法之间也存在差异,且这种差异对模型评估的影响要大于由于评估准则的不同而产生的影响.所以,判断核函数分类能力要在应用多种统计方法的基础上,综合考评准确率、精确率、召回率、F 测量和信息增益等多种评估准则,真正好的核函数分类模型在所有评估准则下所获得的结果都应当是优良的,如针对本文中的实验数据发现 RBF 核函数在各种准则与方法考察中总体最优.但需要指出的是, 统计方法是计算密集型的方法,为了缩短运算时间,可以考虑数据压缩以减少参加运算的数据
44、量.第 19 页 共 27 页表 5 实验中使用的核函数 8 英文名称 缩写 数学表达式 参数定义 参考函数Linear Function Linear yx,K xLinearPolynomial Function PF d1, ,default 30dPoly1Radial Basis Function or Gaussian Function RBF 2yx,x,ge,default 1g2)(gxeRBFSymmetric Triangle Function STF ,May,default 3 0,MaxSTCauchy Function CF 21yx,x,Kg,default 3
45、0g21gxCLaplace Function LF ,y,e,default 3 eLFHyperbolic Secant Function HSF yx,yx, gg2,default 30gxxHS2Squared Sin Cardinal Function or Squared Sinc Function SSCF22sin,K,default 3 2sinCFHyperbolic Tangent Function or Sigmoid Function HTF yx,yx, gge,default 10gxexHT第 20 页 共 27 页参考文献1 Vapnik V The nat
46、ure of statistical learning theory, Second Edition, New York: Springer-Verlag, 2000.2 Steinwart I On the influence of the kernel on the consistency of support vector machines. Journal of Machine Learning Research, 2002, 2: 67-93.3 Chalimourda A., Schlkopf B., Smola A Experimentally optimal v in supp
47、ort vector regression for different noise models and parameter settings. Neural Networks, 2004, 17(1): 127-141.4 Liu X.-D., Luo B., Chen Z.-Q Optimal model selection for support vector machines. Journal of Computer Research and Development, 2005, 42(4): 576-581 (in Chinese)(刘向东, 骆斌, 陈兆乾. 支持向量机最优模型选择的研究 . 计算机研究与发展, 2005, 42(4): 576-581)5 Wang L., Bo L.-F., Liu F., Jiao L.-C Least squares hidden space support vector machines. Chinese Journal of Computers, 2005, 28(8): 1302-13