1、复杂决策表的特征提取方法研究第 23 卷第 l()期20O2 年 10 月小型微型计算机系统MIN 卜一 MICR0SYSTEMVo1.23No.100ct.2002文章编号:l0001220(2002)10124104复杂决策表的特征提取方法研究赵卫东李旗号(复旦大学管理学院.上海 200433)(合肥工业大学机械汽车学院,安徽合肥 230009)摘要:特征提取是机器学习和决策表分析的重要步骤 ,直接关系到学习和决策质量.文中对目前特征提取的几种主要方法,即动态约简,神经网络,超平面,模板和作者提出的决策表分解,ITII,算法进行了评述,指出这些方法存在的不足,为特征提取的进一步研究指明了方
2、向.关键词:决策表;特征提取;粗集中国分类号:FP18 文献标识码:A1 引言示例学习是机器学习研究的焦点之一,其目的是从大量的实例中获取能分辨各种类别的概念.从实用的观点看,从中提取数目少而覆盖度大的模式是符合决策要求的,所以特征的提取是示例学习的关键步骤.从特征提取的分析出发,示例学习可以转化为一些最优化问题:生成最优覆盖一覆盖决策表的最少数目的模板;生成最简模板一选择子数目最少且属性取值最少的模板;生成由最简模板组成的最优覆盖.这些问题都是Phard 问题.作为一种示例学习方法,粗集基于等价关系分类.是分析含噪声,不完整和不精确信息的有效处理方法.它能够有效去除决策表的冗余.约简是粗集理
3、论应用的关键.决策表的所有约简和最优约简问题同样被证明是Phard 问题,目前有关粗集的约简研究基本上局限于启发式算法的比较.存在的突出问题是这些算法主要针对小容量,完全,相容决策表而言的.与之对应的粗集分析软件对决策表的规模都有限制.实际决策表往往数据量大且包含各种噪声,由小样本组成的决策表难以代表全体的性质,从而导致决策表的约简带有局部色彩,最终得到的规则泛化能力也就非常有限.针对这个问题,Bazan 等人.提出了 (广义)动态约简方法,在某种程度上可以得到决策表最稳定的约简,这种方法的实质是对决策表的多次取样,把复杂的大型决策表的约简问题转化为若干子决策表的最优约简的交集问题.尽管降低了
4、Phard 问题的难度,但多个子决策表是相交的,其最优决简的总体计算量仍是可观的,采用近似算法对动态约简的复杂性只能有所缓解.HNguyen分析了从决策表中提取模板(Templates)的近似算法,以便用模板分解决策表,效率较高但其解的最优性值得进一步讨论.类似的例子很多.从中可见,评价约简算法的好坏,除考虑上述最优化的目标以外.还应对算法的效率作一个折中.噪声是特征提取较棘手的问题.决策表的噪声常表现为不相容对象(条件属性相同,而决策相同).其中不相容对象有两种情况:(D 数据噪声引起.一般采用删除处理方法.描述对象的条件属性信息不足.这种情况利用广义决策分析.即利用下面的广义决策概念把不相
5、容决策表转化为相容决策表.再利用研究比较成熟的相容决策表粗分析方法约简,仍可以挖掘许多具有参考价值的规则,只是规则的后件不只包含一个结论,这也反映了信息不完全导致的不确定.决策表 D=(,AUd),决策属性 d 的值域为.BA,广义决策函数:一 2d 定义为:(U)=dVljU U.(,U) IND(B)andd(“):IND(B)=(“,“)lVaB.a(“)=a(“)本文针对决策表特征提取研究存在的问题,结合动态约简和模板等概念,分析了几种典型的特征提取方法.最后提出一种新的决策表的特征分析方法.2 几种复杂决策表的特征提取述评对于复杂决策表,一方面直接运用目前的启发式算法得到近优解效率较
6、低,也不易得到所有的约简.应用模拟退火或遗传算法等全局优化方法虽然可提高解的质量,但其速度慢.一般情况下很难得到最优解.决策表的分解和解的合成是一种好办法,决策表的噪声预处理也是不可缺少的步骤.另一方面,考虑到不相容决策表含有噪声,决策表的约简没有必要追求适用全局的最优解,否则会因为过拟合而影响约简的效果,得到的规则泛化能力差.在一定错误率条件下,将某些对象视为异常或例外,不仅使得到的特征少而精,同时也不会降低决策分析的质量.其次.从实用的观点看,盲目追求基数最小的特征约简组合一最优特征,而不考虑特征提取的实际费用(用提取时间,困难度等因素衡量)也不足取.特征的提取需要兼顾分辨能力和提取的代价
7、等多种因素.这在模式识别,医疗诊断,实时故障诊断等领域是不可忽视的问题.收稿口期 20010402 作者简介:赵卫东,博士.研究方向为粗集 ,知识工程,智能决策理论和企业建模等1242 小型微型计算机系统 2002 正2.1 动态约简下面分析动态约简方法的不足.设 P(D)是决策表 D 的子集集合,FP(D),Eo,1,Fe 动态约简定义为:D 尺(D,F):CERED(D):J|三墨 1 一(1)其中 RED()为决策表的最优约简,ll 表示集合的基.从(1)式可知,(广义)动态约简针对大型不相容决策表的整体分析困难,采用统计学抽样的思想,从决策表随机抽取若干对象样本组成较小的决策表.抽取的
8、子决策表应该具有代表性,否则难以获得满足(】)式的约简.动态约简需要解决的关键问题是抽取样本的数量和子决策表的数量问题.Bazan采用统计学的理论给出了近似解.如子决策表的数目下界为:式中 f 是系数,P.(尺)表示 F 的约简同时也是其它 BF 约简的概率,彳 LE(P(尺)表示是,G( 尺)的最大可能估计MLE(P.(R)的可接受估计误差.从式(2) 可见,F 的数量通常是很大的,每个 F 求得的约简还需判断其稳定性系数,以判断约简的通用性.上面步骤的总体计算量仍较大,为此需要采用近似算法.动态约简存在的主要问题是:动态约简对决策表的抽样 ,并不是下述的决策表的分解.这种对同一对象的多次取
9、样纯粹是统计理论的需要,计算量大也是难以避免的.2.2 决策表分解通常对大型决策表(属性,属性取值或对象数较多)的处理,分解是一种降低复杂度,效率较高的方法.其中包括属性集的分解和决策表对象域的分解“.前者用于决策表属性较多的情况,而后者用于决策表的对象数较多的情况.通过分解的方式分析决策表,求取最佳约简,效果的好坏主要取决于分解方法,它直接影响分解后子决策表相关部分的合成.无论是哪种分解方式,寻找某种意义上的最佳分解是重要的.目前分解的最佳性主要考虑计算复杂性,存储空间等因素.作者在文献 8 提出一种基于属性重要性的决策表属性集分解方法:根据属性的重要程度把决策表分成两个子决策表 ,其中一个
10、子决策表的条件属性由原决策表的核 C.组成(当 lC.l2时),决策属性 d.由其分类关系确定.另一个子决策表的条件属性由(=A 一(,.,即包括核以外的属性和 d.组成,决策属性为原决策表的决策属性.即有下列分解分解方式:D 一(,AUd)一 DUD2 一(,C.Ud.)U(,(CUd.)Ud)若决策表的核为空或 lC.12,可利用公式(3)计算各属性的 S(n)值,从而比较它们的重要程度.决策表的条件属性分解可以通过设置阈值或由专家结合问题的先验知识确定.即把比较重要的一组属性视为(,.,另一组 C 也随之确定.上述分解方法不一定是最优的.5(口)一 H(fR)一 H(i 尺 U“)(3)
11、式中口A,R/1,H(dfR)和 H(dIRUd)分别表示已知 R 和 RUn时,d 的条件熵.决策表对象域的分解模式为:D=(U,AU)=(U,AU)U(2,AU),U=UUUHSNguyen.通过发现决策表的模板,然后分解决策表对象域构造决策树.目前这种方式较少有人问津.因为决策表的容量本身就有限,分解后的子表能否代表总体.有待深入研究.决策表的最佳分解是一个 Phard 问题,目前这方面的研究较少.有关合成也有两种方式:第一种是知识合成 ,即将各子决策表的分析结果综合,去除不一致的地方.第二种是推理合成,即各子决策表的分析结果分布存储,而在对新的情况分类时,综合局部推理结论得到最后结果.
12、决策表的分解方法存在的主要问题是难以获得决策表的最佳分解和结果的合成,分解的评价也缺乏统一的理论基础.2.3 超平面对于由连续值属性组成的决策表,超平面.是一种压缩数据,抑制噪音和提取组合特征的方法.连续值属性的离散化是粗集应用的薄弱点,尽管目前已出现了多种离散化算法,如单规则离散器(onerulediscretizer)方法,统计检验方法,信息熵方法和布尔推理等方法,大都有一定的适用范围,还缺乏一种公认的理论基础.超平面的提出避免了连续值属性的直接离散化.由于连续值属性最易受测量等误差的影响,尽管离散化后在一定程度上抑制了数据偏差的影响,但单一属性的分辨能力毕竟有限.多种属性的组合可以构造效
13、果更好的新属性.事实上,决策属性常受多个独立连续属性某种非线性函数关系的影响.超平面的构造思想很简单.存在连续条件属性组成的决策表 D=(u,AU),A 为实连续属性集 ,设基数为,决策(一般为名词性属性) 的个等价类为d,d.,d.超平面定义为:H=(1.2.,z)R:口 o+口 ll+一 0),n,R,i=1,2,.,l超平面 H 将 d 类分为两部分:P 一“d:H(“)0,P=“d:H(“)01,2.,通常,决策表的对象并不是线性可分的.单一超平面难以区分所有的异类对象,这就需要迭代构造其它的超平面,每一个超平面都可看作一个新的特征.超平面为构造新属性提供利用一种思路.其不足有以下几点
14、:(1)忽略了连续条件属性的相关性,使得构造的超平面往往维度较大.这实质上是属性的相关性分析和选择问题,可用 KL 检验等统计方法解决.(2)决策属性多数情况并非连续条件属性的线性组合关系.用超平面划分决策表效果并非最好,分辨异类对象会导致过多的超平面,即过多的特征.此处可以选择合适的决策属性与条件属性的非线性组合构造超曲面,以便构造更少,分辨力更强的属性.这实质上是一个非线性回归问题.2.4 神经网络10 期赵卫东等:复杂决策表的特征提取方法研究 1243神经网络具有并行处理的特点,它能够拟合输入和输出量的非线性关系,并把这种关系隐含在网络权中.权值的大小反映了网络中某些单元的重要程度.Ru
15、dySetiono“在乳腺癌的分类规则提取中,用神经网络作为特征(条件属性)选择的工具.其基本过程是一个三层前馈网(隐层和输出层的节点数均为 1)用样本训练后,在保持训练集分类精度不变的前提下.进行网络的删枝(输入层和隐层的连接).最后在输入层剩下的属性即为分类所需的重要特征.这种方法存在的问题较多:(1)网络的结构是否合理.网络训练后的删枝是去除冗余的有效方法,但为特征选择的需要.隐层只选择一个神经元.网络的训练效果值得进一步讨论.(2)上述方法选择特征对网络的初始化敏感.即不同的初始化可能得到不同的特征集,为保证所选特征的质量,就需要训练,删枝许多网络,如 RudySetiono 在乳腺癌
16、的分类特征选择中就用了 5O 个网络实验,然后从上述网络选择的特征中选择出现频率较大的若干种.这种方法的总体计算量较大,有时不一定能选择合适的特征.2.5 扩张矩阵扩张矩阵是洪家荣教授提出的示例学习理论体系,主要研究示例学习的最优学习问题,而最优概念的获取实质上也是最优特征的提取过程.扩张矩阵主要借助一个很关键的概念一正例集在反例集背景下的扩张矩阵.通常.将某类(对应一个概念)作为正例集.而其它类别的示例当作反例集.这个矩阵的元素表示正例和反例相对某一特征的分辨关系一不同值为 1,否则为 O(死元素).扩张理论证明:最优特征问题等价于在扩张矩阵找一条由 l 组成的路(覆盖),该路覆盖最少数目的
17、列.当然.最优特征选择是 NPhard 问题,目前研究的成果主要是一些启发式算法 “.李敏强还利用扩张矩阵将最优特征的选择问题转化为整数规划.用扩张矩阵求解最优特征的不足:(1)扩张矩阵的规模较大,存在许多冗余的,对区分正反例没有作用的死元素.增加了存储空间.为克服上述缺点,作者在文献 14 和 15 中提出了一种特征矩阵及其启发式算法.特征矩阵的元素仅由区分正例和反例的特征子集组成.可求解较大型决策表的近似最优特征集,效率较高.(2)许多算法都没有考虑决策表的数据噪声.实际决策表中,噪声是不可避免的,因此没有必要追求完全一致性特征子集.一定错误率条件下的特征子集可以避免不相容和异常样本的影响
18、.获得的特征子集基数较小.对应的规则泛化能力强.(3)对于大型决策表,由于对应的扩张矩阵较大,许多贪心启发式算法为提高效率,往往难以得到所有的约简,更不用提到最优解.而文献 13 把整数规划用遗传算法求解,追求所有的约简和最优约简,对大型决策表效率难免较低.2.6 决策模板(广义)模板是形为 T=anza=B 的关系算子,长度为:len(T)=k,a.为决策表第 i 个属性.a=(dV)称为选择子.考虑类别归属的模板叫决策模板.从决策模板的角度而言,最优特征的提取问题,实质上是最优决策模板的求解问题.SHNguyen 已证明最优决策模板是Phard问题.最优模板的近似算法,借用了数据挖掘领域中
19、关联规则支持度和信任度的概念.决策与决策类为 d:U-.Dom():1,2.,U/d 一D,D.,D)模板和决策模板的支持度定义为:sup(丁)=Iz UVaBa(z)VI,supv(丁)=I(z(,!d(z)一 i(VaBa(z)V)l决策模板的信任度为:confD.(丁)=supD( 丁 )/sup(丁).决策模板丁的类质量是 k,supc0,.的函数:qD(丁)=f(k,supconfv),其中 k 越小,supD.,confo.越大.最优决策模板的提取已有了启发式算法.其不足是难以得到最优特征约简.所得的约简往往是局部最优的.3 一种新的特征(属性) 选择方法本文从认识论的角度出发,提
20、出一种新的特征选择方法,并将之用于决策规则的提取.在粗集理论中,决策表条件属性的重要性用其与决策属性的依赖性概念度量,但其语义不很明确,而知识的代数表示和信息表示是等价的“,用信息熵度量属性的重要性易于理解.根据信息论,某条件属性相对于决策属性的重要性,体现在它引起的互信息的增量上.具体地说,设 PCC,属性nC 对决策属性的重要性,体现在它引起的互信息的增量上.具体地说.设 PCC,属性 aC 对决策 P 的作用用其增加的信息量评价:S()一 I(,Ua);D)一 I(P;D)=H(DIP)一 Hl,)Ua)(4)当 P=时,S.(d)=H(D) 一 H(Dla)式中 S 表示属性 n 的重
21、要性 ,和 H 分别表示互信息和条件熵.S(d)或 S.(口)越大,说明属性 a 越重要.下面提出一种将特征提取与规则学习同步进行的算法ITIL(Informationtheorybasedinductionlearning).该算法的依据是最短描述长度原理(MDLP,MunimumDescriptioLengthPrinciple),提出的归纳学习方法基于重要的属性特征,从较少的属性数目开始,提取隐藏在决策表中的有用模式.当属性数目不足以做决策时,才引入其它的次重要属性.这样归纳出来的规则,不仅前件简单,而且是最小确定的.,J 归纳学习的主要步骤如下:(1)设决策属性 d 的等价类:U/d=D,D,D,用公式(4)或(5)计算各属性的重要性 ,取满足:S()=maxSo(d)=rainH(Dl(a)(6)的属性 z.设属性的等价类为 U/ind()=c,(,:,.为方便理解? 此处将特征和属性作为同义词 .决策表的约简与特征提取也视作同义词l244 小型微型计算机系统 2002 焦(2)找出 fD,i=l,2,n,J 一 1,2,的等价类c,并提取对应的规则后删除对应的对象(对应决策表的一