1、SPARSE INVERSE COVARIANCE ESTIMATIONWITH THE GRAPHICAL LASSO基于 graphical Lasso 法对逆稀疏协方差矩阵的估计现 代科技的快速发展带动了高维数据的广泛应用。在许多实际问题中,高维稀疏矩阵的研究处理起到了至关重要的作用。在 2011年, Jianqing Fan等对稀疏矩阵进行了定义,且提出了在金融、稀疏矩阵在金融行业中的处理高维度数据的普遍性与所遇到的困难。所谓稀疏矩阵,即矩阵中非零元素的个数远远小于矩阵元素的总数,并且非零元素的分布没有规律。图 论,作为数学的一个分支,以图为研究对象,将若干给定的点及连接这些点之间的连
2、线来构成的一些图形。这些图形通常用来描述事物之间的某种特定关系。图论的核心思想即为用点来代表事物,并用连接两点的线来表示相应的这两个事物间具有的关系。随 着计算机的出现,图论得到了快速的发展。图论的应用范围覆盖面很广,从自然科学到社会科学等的广阔的领域,包括电信网络计算机程序设计、人工智能情报检索、社会结构、运筹学、经济学、遗传学 等 。 由 于图论丰富的内容以及广泛的应用,在解决实际问题和理论问题中,图论都是一个有力的工具 。高斯图模型 :假定 1,2,3,4, 是一组 p维的随机变量,它服从 p元正态分布 (,)111 1 11 111,ppp pp p pppuwwUwwu 如果记 1
3、= 1,2 , 2 = 3, , = 1,如果给定 2 = 3, 的值,那么在此条件下1* * * *11 12 22 21* * * * * * *11 22 12 2121 22 12 111w w w ww w w ww w w w * 12 |( 34 ) 1212 1211 22*( * * )p www 称之为相关系数12 |( 34 ) 120 * 0p w 12111 2 12 11 22( X ) A , A ( dia g( ) ) ,( X ) R ( X ) A( X , X )TTRApc or Apc or w 密度矩阵( concentration matrix)
4、如 果 120w 称 1, 2,关于 3 , 4, 条件独 立 。在图模型中记作1 | 2 |(3 , 4, )当 P=3时,那么1 | 2 |3如果用他们的偏相关系数是否为 0来表示边,此时的无向图为,132高斯图模型LASSO算法的引入在大数据的时代下 ,选择合适的变量建立模型是重中之重,因此多 元线性回归算法显得至关重要 ,目前,“ LASSO( The Least absolute shrinkage and selection operator )”和逐步回归法 是两 种被理论证明很有效的 算法,他们都是由一种计算简单的方法所演变出来的“ LARS( Least angle Regr
5、ession Selection )”比 如 在 多元 回 归中常用的逐步回归法。我 们只 知道向前回归,向后回归还有二者的结合的一些最基本的想法。比如向前回归,就是先选择和响应最相关的变量,进行最小二乘回归。然后在这个模型的基础上,再选择和此时残差相关度最高的(也就是相关度次高)的变量,加入模型重新最小二乘回归。之后再 如 此 法 继续,直到在某些度量模型的最优性准则之下达到最优,从而选取一个最优的变量子集进行回归分析,得到的模型是相比原模型更加简便,更易于解释的 。这 种方法,牺牲了模型准确性(预测有偏),但是提高了模型的精确度(方差变小)。大多数本科生对逐步回归的理解也就如此了。 Efr
6、on看待这个问题时,比起常人更高了一个层次。他首先指出,逐步向前回归,有可能在第二步挑选变量的时候去掉和 X1相关的,但是也很重要的解释变量。这是因为它每次找到变量,前进的步伐都太大了,侵略性太强 。LARS的算法实际执行步骤如下:1. 对自变量 进 行标准化(去除不同尺度的影 响),对 Y进 行中心化(去除截距项的影响),初始的所有系数都设为 0,此时残差 r 就等于中心化后 的 Y2. 找出和残差 r相关度最高的变量 3. 将 的系数 从 0开始沿着 LSE(只有一个变量 的最小二乘估计)的方向变化,直到某个新的变量 与残差 r的相关性大于 时4. 和 的系数 和 ,一起沿着新的 LSE(
7、加入了新变量 的最小二乘估计)的方向移动,直到有新的变量被选 入5. 重复 2, 3, 4,直到所有变量被选入,最后得到的估计就是普通线性回归的 OLS从 上面这个算法可以看出, LARS这个东西明显和 OLS, Ridge Regression等给出了 Closed-form solutions的模型不同,而是给出了一套对计算机来说非常友好的算法。这也说明了随着计算机能力的强大,现代统计基本上越来越靠近算法,而和模型无关。因此在这个基础上, Efron提出 了 LARS(least angle regression selection):LARS算法,保证了所有入选回归模型的变量在 solu
8、tion path上前进的时候,与当前残差的相关系数都是一样的。这一点,比起 Forward stagewise要捷径一些,走得更快一些 。这 种算法是一种自动进行模型构建的方法。它和传统的Forward selection在本质上是一样的,都是选择一个变量,然后选择一个继续进行的 solution path,在该方向上前进。这两种方法的 solution path的选择方法是一样的,唯一的区别就是前进的步伐不一样, Forward selection的前进步伐很大,一次到头,而 stepwise则是一小步一小步前进。这样比Forward selection要谨慎一些,会免于漏掉一些重要的变
9、量。LASSO算法:The Least absolute shrinkage and selection operator, Tibshirani(1996) 是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。其想法可以用如下的最优化问题来表述:在 =1 的条件下, 求残差平方和 2 达到最小的回归系数的估值此处,我们可以写如下等价形式: 2 + 1我们叫 做 L1型的 lasso回归Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而
10、能够产生某些严格等于 0 的回归系数,得到可以解释的模型 。 我 们熟悉如何求解限制条件为等号时,回归方程的求解。也就是用lagrange乘子法求解。但是对于这种,限制条件是不等号的情况,该如何求 解。比 较倾向于的方法,是利用计算机程序,对 从 0 开始,不断慢慢增加它的值,然后对每 个 t ,求限制条件为等号时候的回归系数的估计,从而可以 以 t 的值为横轴,作出一系列的回归系数向量的估计值,这一系列的回归系数的估计值就是 lasso estimation。已有学者已经证明,对LARS的算法进行一定的修改,可以得到相应条件下, LASSO的全部解。假 设 维观测量 1,2,3,4, , =
11、 1,2,3,,服从 (,)的正态分 布。当 远大于时 ,已知样本中心二阶距,我 们如何通过较少的计算量来得到 。极大似然法:11/2/211 11111( , ) ( , , )11e xp ( ) ( )2( 2 )11l n ( , ) l n( 2 ) l n ( ) ( )2 2 211l n( 2 ) l n ( )2 2 21( ) ( )1l n ( , ) l n( 2 )22niiniinpniniiiniiiL U f X UX U X UnL U pn X U X Unpn tr ASe t S X U X UnnL U pn 1111l n ( S )2l n ( S
12、 )22ntrnnC tr 1 1 1 11l n ( , ) l n( 2 ) l n ( S ) l n ( S ) .( 1 )2 2 2 2 2n n n nL U pn tr C tr 我们借用 lasso算法的模式,加入一个惩罚函数,令 X=1那么( 1)式我们可以写成1 10a r g m in l n de t ( ) .( 2)X X tr SX X 其中, X为正定矩阵, tr( x)指的是矩阵 X的迹,此处的范数指的是矩阵的 1-范数,即矩阵中元素绝对值之和。 控制罚函数的大小,而罚函数标记着,矩阵中非零元素的个数。当 S为正定矩阵时,且 为 0的时候,此时( 2)式就是
13、经典极大似然估计。然而,当数据的个数 n远小 于变量数 p时,二阶距矩阵可能会出现不可逆的现象。但是当 0的时候 ,我们的估计式可以使得估计量 总是可逆的,无论 N/P的比值是多么小。即使有些时候,我们拥有足够的样本使得 S正定,但是 1可能不是稀疏的,又有时候,存在很多对变量是条件独立的,通过尽可能将指数似然函数稀疏性的最大化后,我们希望可以找到一个非常稀疏的解,使得可以很好的解释数据变量之间的关系。 因为 的值越大,会使得解很稀疏,无法很好的解释数据,反而 的值 越小,能够解释了数据,却保证不了解的稀疏性。针对( 2)的问题, Yuan 返回( 1)Step 3.当 i遍历所有列时,检验收
14、敛条件:21211 11m in W 2 b 12 11 22 22,w W w s ( k) ( k 1 )1 W W ( 为预设精度)如果满足条件,停止迭代,返回 W,并求出其逆。否则继续 step 2.迭代直至最大迭代次数 k。Graphical LASSO模拟试验1.稠密矩阵 1生成:令 ii1 = 2, 其他元素为 1。2.稀疏矩阵 1生成:令 ii1=1, i1 ,i1 = ,11 =0.5,其余为 0.根 据 1求 出 协方差矩阵 ,定义数据维度为 P,样本个数 N=10,从而产生符合分布的随机数,代入算法,设定最大迭代次数为 30次,收敛精度为 0.01。模拟结果如下算 法评价
15、:算法时间复杂度: O( KP3), K为迭代次数,一次遍历需要 O( P3)优点:( 1)创新之处:将回归的算法用到极大似然估计上,简单易理解便于实现,且逼近速度快。( 2)迭代法可以利用原始矩阵的稀疏结构,保持逆协方差矩阵的稀疏结构,为分析数据的相关性提供很好的条件。( 3)在数据量大(数据样本 n大于 104)条件下有很好的表现,收敛精度可控,以及迭代旋转次数可以选择,便于在不同的条件下的使用。( 4)利用 LASSO 算法对 1的估计,好处是解是稀疏的,并且在回归的过程中,不会因为模型变量选择错误,使得结果缺少精度。为了证明这种算法在高维度的数据条件下是可行的, Fredman借用了
16、Sachs et al的数据,数据是研究人体主要的免疫系统细胞内 11种磷酸蛋白质和磷脂的数据,总共 11个变量, 7466个 细胞。根 据 Graphical Lasso 算法,对数据进行了处理。根据 12个不同的 值 ,最后得到的图模型也不一样。Figure 4: Cell-signaling data: profile of coefficients as the total L1 norm of the coefficient vector increases, that is, as decreases. Profiles for the largest coefficientsar
17、e labeled with the corresponding pair of proteins.美国议员投票数据从 http:/www.senate.gov 可以看到 senators每次投票的结果 。数 据选取美国第 111届议会( 2009年、 2010年) roll-call vote数据,涉及 110位参议员 696个议案的投票结 果。 利用图模型 ,结合我们前面提到的 罚极大似然法 ,我 们可以对议员投票行为作图。下图中,每个点代表一个议员,每条边表示两个议员的投票行为“很相似” 他们常常同时投赞成票或反对票。图中,两派阵营的状态很明显。绿色的是Democrat,红色的是 Rep
18、ublican,蓝色的是Independent。一般认为,民主党在政治上偏左,主张社会自由与进步;而共和党偏右,“ reflects American Conservatism”。可以从图中获得很多信息,下面我们对此图做一点深究。While she(Cantwell) scores high on a progressive chart from ProgressivePunch.org. Cantwell has made several controversial votes during her time in the Senate that have created friction
19、between her and members of the Democratic Party.Enzi was ranked by National Journal as the sixth-most conservative U.S. Senator in its March 2007 conservative/liberal rankings.Despitehis strong support of the War in Iraq, he was one of 14 U.S. Senators to vote against the Iraq War funding bill in May 2007 because he opposes the clauses of the bill which increase domestic spending.请各位批评指正!