1、一种提高 Kernel PCA 特征提取性能的核优化算法摘 要: 基于核的主分量分析(Kernel PCA)能够提取数据的非线性特征,但其性能受核参数的影响非常大。本文提出一种新的基于特征空间中非高斯分布估计的核参数优化算法。该方法基于 Kernel PCA 中最优的参数应能导致特征空间中数据具有高斯分布的思想,通过对特征空间中数据的非高斯性结构进行分析,从反面估计其对高斯分布的逼近程度。采用该方法对各种数据进行实验都有很好的效果,表明了该方法的有效性。关键字: 基于核的主分量分析;特征子空间;独立分量分析;最大熵原则An optimizing kernel algorithmfor impr
2、oving Kernel PCA feature extractionAbstract: Kernel PCA can effectively extract nonlinear features of data set. Its performance, however, is strongly influenced by parameter of kernel. In this paper, we propose a novel parameter optimizing algorithm based on the nongaussian distribution estimation i
3、n feature space. Based on the idea that the optimized parameter can lead to the mapped data in feature space to be Guassian, our method analyses the nongaussian structure of the mapped data, and then inversely estimates the degree of mapped datas distribution close to the Gaussian one in feature spa
4、ce. The experiments, on every data, demonstrate excellent results which show effectiveness of the method proposed in this paper.key words: Kernel PCA; sub-feature space; ICA; maximum-entropy principle1 引言基于核的主分量分析法(Kernel PCA)1是利用核技巧对 PCA 的一种非线性推广,能有效地捕捉数据的非线性特征,但是其性能受核函数影响很大。最优核函数应能导致数据在特征空间中具有高斯分布
5、,但由于特征空间中映射数据的不可表示特点,导致我们无法直接估计数据在特征空间中的分布,所以没有非常有效的方法解决 Kernel PCA 的核优化问题。本文提出了一种新的核优化方法,通过定义特征子空间,并对特征子空间中数据的非高斯结构进行分析,进而估计特征空间中数据的分布,巧妙地回避了数据在特征空间中的不可表示问题,并给出目标函数来确定最优的核参数。大量实验验证了方法的有效性。2 Kernel PCA 已知一组观测样本 。我们首先通过一个非线性函数 将样本映射到特征空间 ,NkkxMxR,.,1 F。假设 中的映射样本是已中心化了的,即 。计算协方差矩FR:N)(F 01Mkx)(阵 。我们需要
6、求 的特征值 及相应的特征向量 ,满足 。由TjMjjx()C1 C0FVVC于特征值非零的特征向量都落在数据的张集上,即 ,所以存在一组系数)(),.(spanVMx1使得),.(i(1) Miix1)(由此,我们得到, (2))()()()(ijjjkiiMik xx 111 k,.1通过定义一个 的核矩阵 ,(2)式可写为 ,K, jiijx(3)M所以,为确定特征向量 而求取系数 的问题就仅依赖于特征值分解核矩阵 。V),.(i K我们需要在 中归一化特征向量 ,这等于 ;而为了放宽 的假设,根据1只FV1)(kk 01Mkx)(需简单地将核矩阵替换成 ,其中 。MMKIIKij(I对
7、于任一测试样本 ,它在 中的映射点为 ,则xF)x((4)iikk1)()(称为它相应于 的非线性主分量,它描述了 在特征向量 上的投影坐标值。 kV3 最优化核参数算法Kernel PCA 的目的是将输入空间中非高斯分布的数据映射到特征空间 ,使之在 中尽量服从高斯F分布。所以,最优核参数 就定义为:具有非高斯分布的观测数据 通过 所隐含的 映射,使得 xK最逼近高斯分布。因为我们讨论的是在核函数形式已确定情况下的参数优化问题,而非最优化核函)x(数形式及参数的选择问题,所以这里 是最逼近高斯分布,而非高斯分布。)x(3.1 在特征子空间中分析数据的结构按照以上对最优参数的定义,显然我们需要
8、估计 在特征空间 的分布情况,但却存在 无法直)x(F)x(接求得而无法分析其结构的问题。所以,我们将定义特征子空间,并且易知数据的分布在特征空间 和F在特征子空间中具有不变性。Kernel PCA 首先对 空间坐标系做正交变换,得到新的坐标轴 , 是观测样本个数。F V,.M21若(3)式中非零特征值按降序排列 ,则相应的 个特征向量 就构成了021p. p,.p21空间的一个子空间 ,称为特征子空间。据1知, 都落在 的张集上且它们是特Fp ,.V21)(x征空间的基矢量集的一个子集,所以任意 可由以 为基的一组坐标 近似表)x(p ,.p21示为 ,即)x(5)pkx1)(由上式可知,数
9、据集 可近似表示为 ,而)(x)(x是一组正交基,所以 在 中的投影 与 V,.p2 )(pF)(同分布(见图 1)。基于此,为了估计特征空间中 的)x(分布,我们等价地分析特征子空间 中 的分布。注意到p就是 的主分量在各特征方向上投影坐标构成的矢量,是我们唯一能求得的量,这也使得我们的思路切实可行。图 1 特征子空间保持数据原有分布示意图 3.2 基于结构分析的核参数优化算法现在的问题是:如何评价 中数据 的分布对高斯分布的逼近程度。本文提出一种新的思路,即pF)x(找到集合 的这样一组方向 , 为特征子空间维数: 在 方向上的投影是最不高)x(A,.p21 )x(1A斯的,在 方向上的投
10、影是次不高斯的,。我们称 为最不高斯方向, 为次不高斯方向, ,2A12构成 的非高斯方向簇;利用“最大熵原则”计算 在各非高斯方向上投影的非高斯,.p1)( )(值,以表示 在该方向上的非高斯程度;最后,给出数据集总的非高斯性的衡量标准,该标准综合考)x(虑非高斯方向及该方向上的非高斯值,以评价数据集整体的非高斯性,并选择使该标准值达到最小的核参数为最优参数。3.2.1 用 ICA 求非高斯方向簇在统计理论中,有许多技术研究如何寻找多维数据的“有意义”的方向。在本文的应用背景下,“有意义”的方向 ,就是使 的投影 的非高斯性最大的方向。下面介绍的 ICA 技术可以帮助w)x(x)wT)(x2
11、V1 11pF2V11131F)(x我们找到这样的方向。主分量分析(Independent Component Analysis -ICA)是一种提取观测数据的独立分量的技术,它将观测数据表示成尽可能独立的分量的线性变换。目前有许多关于 ICA 的研究及应用,其中 Hyvarinen和 Oja,基于独立分量非高斯性测度(或峭度),给出一类快速定点训练算法(Fast-ICA)3,4。若将作为观测数据,我们可以将该模型表示为:)x((6)As)(x其中, 是独立分量构成的向量, 是一未知的线性变换矩阵。Fast-ICA 的基本思想是,Tps,.s21找这样的投影方向 ( 逆的行向量),使得 i,.
12、w1(7))x(wysTiii要使 尽可能独立也就是要使得 的非高斯性最大化6。换句话说,ICA 就是要找这样pi,.s1的方向:在该方向上 的投影最不高斯。所以,我们就可以利用 ICA 技术找 的非高斯方向簇,以)x( )(x分析子空间 中数据的非高斯结构。F3.2.2 基于最大熵原则的非高斯性测度我们需要某种非高斯性测度来定量的描述映射数据在非高斯方向 上的投影 的非高斯性。文献5介iAiy绍了一种基于最大熵原则的非高斯性估计,并证明比传统的测度精确的多,它采用以下形式:(8)2EG(v)(y)J(ii其中 是标准的高斯变量; 是非二次函数,在我们的实验中取 。vG)exp()y(2ii3
13、.2.3 最优核参数测度一般地,核参数 不同,其相应的特征子空间 的维数 就可能不同,可表示成 。针对不同的pF)(特征子空间,我们得到不同数目的非高斯方向 , ,以及数据在其上投影的非高斯性测度值iA)(,.1, 。基于本文的分析,我们给出以下测度 描述特征子空间 中数据集 整体非)y(Ji )(,.p1 TpFx高斯性(9))()J(y)(Tpp1ii的物理意义可表述为:以非高斯方向 为边,非高斯性测度 为长度的矢量簇求合矢量以描述)(TA)y(Ji数据整体非高斯性,并用该合矢量长度除以特征子空间维数 ,使不同维数的特征子空间中的非高斯性测度具有可比性。 值越大,就说明 的分布越不高斯,所
14、以使 达到最小值的参数 就是最优)()x(T核参数,即 (10)Tmin采用测度(9)的理由可解释如下:根据式(6), ,即 是独(x)sA,.(x)s()A(x) p21)(立分量 的线性组合。根据定理:有限个相互独立的正态随机变量的线性组合仍然服从正态分布,ps,.21显然,若 在其非高斯方向簇上的投影 越趋近于正态分布,那么 的分布越类似于高)(x ps,.21 )(斯。从另一个方面来说,若 在其最不高斯的方向上的投影也比较高斯的话,也不难理解 的分)(x )(x布逼近高斯分布。最后,将本文提出的最优化核参数算法概括描述如下:首先,对于某给定核参数,用Kernel PCA 提取输入数据
15、的主分 ;然后在特征子空间 中对映射数据集 进行独立分量分析得到非高斯方() pF)(x向簇,并用式(8)度量 在各方向上投影的非高斯程度,最后根据式(9)描述 整体非高斯性,x )(x选择使得 非高斯性最小的参数为最优参数。)(x4 实 验为了将本文的方法应用于实际,我们解决了USPS手写体数字数据库的降噪实验中的核参数优化问题。Muller, Scholkopf 等人7提出了以特征空间中重构误差最小为原则的Kernel PCA降噪算法,其针对USPS数据库的降噪实验也具有较好的效果。但对核函数的参数选择并没有给出指导,我们将用本文提出的算法确定最优的核参数,可以看到在本文算法确定的核参数的
16、条件下,USPS数据库的降噪效果远优于原文中的实验效果。USPS数据库包含了手写体数字09的训练集和测试集,每个样本256维。我们针对双数数字做降噪实验,每个数字随机选取300个训练样本,50个测试样本,并对测试数据按如下方式加噪声(1)均值为0,方差为0.2的高斯噪声;(2)概率为0.3的椒盐噪声。我们先用训练样本做特征提取,并保留前16个特征向量(相应的特征值按降序排列)。然后,对噪声测试样本做降噪处理(详细算法见7)。其中,核函数采用高斯形式 , 为输入空间维数。)(yxep()yk(x, nc2在文献7中,核参数 。而我们针对每一个数字用本文的优化算法搜索 的最优取值。从图2中50.c
17、 c可看到,当 在0.11之间变化时,使每个数字的特征提取效果最好的核参数均为0.1,即 是最优核c 10.参数。同时,对噪声测试样本的降噪结果(见图3)也表明 条件下的降噪效果远优于 。图3的左10.c 5.半部分:第一行是原测试样本,第二行为加了高斯噪声的样本,下面的4行分别是核参数 取1,0.5和0.1c时对第二行样本的降噪结果。右半部分则是对椒盐噪声的降噪结果。显然, 并不是最好的选择,50.c导致许多数字边缘很模糊, 使降噪效果最好。这进一步验证了本文方法的有效性。10.c图 2 非高斯性测度(USPS双数数字)随 变化的曲线 图 3 不同核参数下USPS数据的降噪结果c5 结 语本
18、文分析了核参数如何影响Kernel PCA特征提取的性能,论证了在特征子空间和特征空间分析映射数据结构的等价性,提出一种基于分析特征子空间数据的结构的核参数优化方法,并用试验验证了该方法的可行性和有效性。核参数的优化问题是所有基于核技巧的方法共有的问题。许多较成熟的方法(如 SVM、KFD)以及许多新方法都利用核技巧来提高方法的使用范围及性能,但是至关重要的核参数的选择却往往依赖于经验。本文提出的基于分析特征子空间中数据结构的核参数优化算法有助于我们对该类方法的继续研究。参考文献:1. B Scholkopf, A Smola, K-R Muller. Nonlinear component
19、ananlysis as a kernel eigenvalue problemJ. Neural Computation, 1998; 10(6):1299-1319.2 B.Boser, I.Guyon, and V. Vapnik. Atraining algorithm for optimal margin classifiers. In D. Haussler, editor, Proc. COLT, pages144-152, Pittsburgh, 1992. ACM Press.3 A. Hyvarinen, “A family of fixed-point algorithm
20、s for independent component analysis,” in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, Munich, Germany , 1997, pp. 39173920.4 A. Hyvarinen and E. Oja. A fast fixed-point algorithm for independent component analysis. Neural Comput, vol. 9, pp. 14831492, 1997.5 A. Hyvrinen. New appr
21、oximations of differential entropy for independent component analysis and projection pursuit. In Advances in Neural Information Processing Systems, volume 10, pages 273279.MIT Press, 1998.6 A. Hyvrinen. Gaussian Moments for Noisy Independent Component Analysis. IEEE Signal Processing Letters, VOL.6,NO.6, JUNE 19997 S Mike, B Scholkopf, A Smola. Kernel PCA and De-Noising in Feature Space. Advances in Neural Information Processing Systems, Vol. 11,PP.536-524,1999.8 王毅娜. 基于非高斯估计的 Kernel PCA 核优化方法及应用D. 西安电子科技大学,2006