1、核方法(3)-核方法的稳定性分析Y.Q. Wang2016年2月28日1摘要本章将重点分析核方法的稳定性:如何分析模型的抗噪性,以及抵抗训练数据的噪音使得模型不会出现过拟合现象。“集中度”是分析具体函数的抗噪性的评价方法。通过对某一随机变量做随机扰动,观察具体函数的误差上界。McDiarmid不等式是集中度评价的常用方法。本章会详细介绍McDiarmid不等式,并提供对应的证明方法以便理解。推论Hoeding不等式是Mcdiarmid不等式的简化分析分析方法。通过采用核方法的质心估计这一应用问题,希望能够较为形象地帮助理解集中度分析的作用。进一步的,知道一类函数对应用问题的capacity(即
2、抗噪性,函数对测试集的鲁棒性)也是一个关键问题。在传统的机器学习中,利用VC维分析是计算capacity的一种常见方法。本章介绍Rademacher复杂度,并用Rademacher复杂度来评价一类函数的capacity。利用Rademacher复杂度,可以直接从给定的训练集上计算函数的capacity。接着以分类问题为例,考虑kernel-based linear function作为分类函数,具体分析这类函数的Rademacher复杂度。根据计算结果,提高函数的capacity可以通过两类基本途径:正则化或增加训练样本数量。训练样本通常不能掌控,因此正则化是一种更为有效的途径。在核方法中,正
3、则化一般指限制 K 的规模,对其引入范数进行约束。对具体的问题,核方法的稳定性分析会视其场景变化而稍有不同(未来就具体问题逐个分析)。最后本章介绍了Rademacher复杂度的7个基本性质,以便扩展到具体应用问题中去。另外,掌握核方法的稳定性分析并不是应用核方法的必要环节,如无特殊需求,只需记住其中的若干结论即可:-)。2集中度不等式(Concentration inequality)在机器学习中,确定任一通过有限的训练集所获得的固定函数是否是稳定的,一个关键的方法就是对数据做变换(与由变换前的数据同源)使用同一函数,判断函数输出的前后差异。Concentration(集中度)是这类评价方法的
4、一个重要属性:对某一随机变量做变换,考察函数的前后差异。在集中度测试中,我们需要对选定的随机变量做一个非常小的扰动(通常可以是一个服从1指数族分布的扰动),并认为这种扰动所带来的数据变换能够保证新数据依旧与原数据是同源的。集中度测试结果所满足的不等式情况称之为concentration inequation。下面就集中度评价中最为出名的McDiarmid inequality做展开说明:McDiarmids inequality令X1;:;Xn为从集合X中取值的n个独立的随机变量。假设函数f : Xn ! R满足supx1;:;xn;xi2Xjf(x1;:;xn) f(x1;:; xi;xi+
5、1;:;xn)j ci;1 i n: (1)则对所有的 0都有Prf Ef exp( 22mi=1 c2i): (2)证明:证明该不等式需要掌握以下几点内容。Markovs inequality对任一非负随机变量X,PrX t EX/t。(可以由期望的定义EX =x xPrX = x推导证明)Law of iterated expectation对随机变量X;Y;Z,EEXjY;ZjZ = EXjZ。(可以由期望的定义以及条件概率公式直接证明)Hoedings lemma令X为取值区间为a;b的随机变量,其期望EX = 0。则对t 0,满足EetX exp(t2(b a)2/8)。(证明见wi
6、kipedia:Hoedings lemma)正式开始:令 Xi是随机变量X1;:;Xi的序列表示,定义随机变量Zi = Zi(X1;:;Xi) = Ef(X)j Xi。则Z0 = Ef;Zn = f(X)。令Ui = supu Zi(X1;:;Xi 1;u);Li = infl Zi(X1;:;Xi 1;l),可知Li Zi(X1;:;Xi) Ui。则有jUi Lij =jEfjX1;:;Xi 1;Xi = u EfjX1;:;Xi 1;Xi = lj=Xn if(X1;:;Xi 1;u;xi+1;:;xn)dPi+1(xi+1):dPn(xn)Xn if(X1;:;Xi 1;l;xi+1;
7、:;xn)dPi+1(xi+1):dPn(xn)Xn idPi+1(xi+1):dPn(xn)jf(X1;:;Xi 1;u;xi+1;:;xn)f(X1;:;Xi 1;l;xi+1;:;xn)jjcij因此,Eexp(t(Zi Zi 1)j Xi 1exp(t2c2i/8)(Hoedings lemma)。2则Prf Ef = Pret(f Ef) et e tEet(f Ef) (Markovs inequality)= e tEetmi=1(Zi Zi 1)= e tEEetmi=1(Zi Zi 1)j Xm 1(Iterative expectation)= e tEetm 1i=1 (
8、Zi Zi 1)Eet(Zm Zm 1)j Xm 1e tet2c2m8 Eetm 1i=1(Zi Zi 1)重复上述步骤后可得,Prf Ef exp(t + t28 mi=1 c2i)。优化t使得 t + t28 mi=1 c2i取得最小值,则最小值情况为 22/mi=1 c2i,代入上式可得,Prf Ef exp( 22mi=1 c2i):证毕。另外,当函数形式简化为f = 1n ni=1 Xi时,可以得到McDiarmids inequality的推论Hoedings inequality。Hoedings inequality对n个独立的随机变量Xi 2 ai;bi,在McDiarmi
9、ds inequality的条件中,令f = 1n ni=1 Xi;ci = bi ain,则Prf Ef exp( 22m2mi=1(bi ai)2): (3)应用:质心估计在Hoedings inequality中,函数形式f是n个随机变量的平均值。倘若将输入空间的X通过映射到高维空间,(X)的均值是否仍然保持原函数的性质?以下将做质心估计来评价这一问题。令训练集S = fx1;:;xng,其在高维空间中真实的期望质心为Ex(x) =X (x)dP(x)。根据训练集S所得实际质心为S = 1n ni=1 (xi)。则实际质心与真实的期望质心的差异为g(S) = S Ex(x) (4)3应用
10、McDiarmid inequality,计算g(S) g(S)=S Ex(x) S Ex(x)S S = 1n (x) (x) 2Rn ;其中R = supx(x)(x是x的微小扰动,因此可认为两者上界相同)。则Prg(S) ESg(S) exp( 2n24R2 ): (5)上式,期望的估计误差ESg(S)对问题无用,进一步的需要将其消除。计算Eg(S)ESg(S) = ESS Ex(x) = ESS E S( S)= ES E SS S ES S S S triangle inequation= E S S1nni=1i(xi) ( xi)2E S1nni=1i(xi)triangle i
11、nequation= 2nE S24 ni=1i(xi);ni=1i(xi)1/2352nE S24ni;j=1i jk(xi;xj)351/2Jensens inequation= 2nES24ni;j=1k(xi;xj)351/22Rpn:其中,计算第三行所引入的变量 是Rademacher变量(以概率0.5的方式取+1或-1的Rademacher分布变量);第四行中使用到了“样本S和 S的产生方式一致”的假设;倒数第二行用到了核矩阵的对称性质;最后一行的不等式用到了定义R = supx(x)。假设 等于公式5的右侧,并将ESg(S)一并代入公式(5)中可知,在质心估计问题中,能够以概率1
12、 的方式获得误差不大于g(S) Rpn(2 +2ln 1 )(6)4的估计效果。从公式(6)中可知,在质心估计问题中,估计的好坏与输入变量的维度无关(特征空间维度)。3 Capacity简单的理解:当训练数据多到足够反应数据的分布时,可以较为简单的获得对数据分布的估计。而当数据体量不足时,尽力拟合数据往往会导致过拟合问题。因此定义capacity:一类函数对不同数据的拟合能力。在机器学习中,通常采用VC维(Vapnik-Chervonenkis dimension)来估计。这里引入Rademacher复杂度来估计capacity。Rademacher complexity样本S = fx1;:
13、;xng是由定义在集合X上的分布D所产生,对于定义在X上的实值函数F而言,其经验的Rademacher复杂度为Rn(F) = E supf2F2nni=1if(xi)jx1;:;xn; (7)其中 i是相互独立的Rademacher变量。函数F的Rademacher复杂度为Rn(F) = ES Rn(F) = E supf2F2nni=1if(xi)jx1;:;xn; (8)通过Rademacher复杂度引出对函数估计误差精确界的形式化。定理1:固定 2 (0;1),令F为一类从输入空间Z到0;1的函数。令(zi)ni=1是从分布D独立采样所得。则随机采样n次,函数f 2 F以不小于1 的概率
14、满足EDf(z) Ef(z) + Rn(F) +ln(2/ )2nEDf(z) Ef(z) + Rn(F) + 3ln(2/ )2n :(9)其中E指在某一采样上的经验期望值(由Rademacher复杂度以及Mcdiarmids inequality证明,无力完全理解,从略)。虽然没有给出定理1的证明,但定理1明确了函数的capacity可以直接由Rademacher复杂度从给定的训练集上估计获得。接下来将定理1应用到基于核的线性函数类(Kernel-based linearclasses)中。54正则化(Regularization)以分类问题为例分析基于核的线性函数类的稳定性。令分类函数为
15、L(x;y) = H( yg(x); (10)其中H为越阶函数(Heaviside function)H(z) =1, if z 0;0, otherwise ; (11)g是输入为x的分类函数,y为取值为f 1g的分类标签。因此,可以定义函数类FF = f(x;y) ! yg(x) : g 2 Fg: (12)定义这类函数的损失为EDH( yg(x) = EDH(f(x;y) = PrD(y = h(x): (13)由此确定目标,考察H F = fHf : f 2 Fg的Rademacher复杂度。首先,引入辅助损失函数A,满足H(f(x;y) A(f(x;y)。辅助损失函数A是一个满足Li
16、pschitz条件的函数,其定义如下:定义1:Lipschitz函数A:R ! 0;1满足jA(a) A(a)j Lja aj8a;a 2 R: (14)其中L称为Lipschitz常量。记(:)+为函数(x)+ =x, x 0;0, otherwise : (15)可以定义函数A为hinge lossA(f(x;y) = (1 + f(x;y)+ = (1 yg(x)+。考虑kernel-based linear function,定义具体的分类函数为x !ni=1ik(xi;x) : K B2x ! w;(x) : w B = FB: (16)其中B为边界范数(bounded norm)。
17、注意:公式16的左侧集合是定义在具体的训练集上的。而FB是不针对具体训练集的函数类。6定理2:若k : X X ! R是一个核,S = fx1;:;xng是从X中采样的点集,则函数类FB的经验Rademacher复杂度满足Rn(FB) 2Bnvuut ni=1k(xi;xi) = 2Bntr(K): (17)证明:Rn(FB) = E supf2FB2nni=1if(xi)= E supw Bw; 2nni=1i(xi) 2Bn E ni=1i(xi)= 2Bn E 24( ni=1i jk(xi;xj)1/2352Bn E ( ni=1i jk(xi;xj)1/2= 2Bn (ni=1k(x
18、i;xi)1/2(18)证毕。由定理2可知,要提高基于核的线性函数类capacity,可以通过减小范数B或是增加样本数n达到。减小范数B这一方法称作正则化(regularization)。推广:(不做详述)介绍一下经验Rademacher复杂度的7条性质。定义conv(F)是由属于向量空间F的元素的凸组合(convex combinations)所构成的集合。令F;F1;:;Fl和G都是实函数类。则若F G,则Rn(F) Rn(G); Rn(F) = Rn(conv(F);对所有c 2 R,Rn(cF) = jcjRn(F);若A : R ! R是常量为L的Lipschitz函数,满足A = 0,则Rn(AF) 2L Rn(F);对任意函数h,Rn(F + h) Rn(F) + 2Eh2/n;7对任意1 q 1,令LF;h;q = fjf hjqjf 2 Fg。若f h1 1对所有f 2 F成立,则Rn(LF;h;q) 2q(Rn(F) + 2Eh2/n); Rn(li=1 Fi) li=1 Rn(Fi)。8