1、流形学习算法研究,勇于开始,才能找到成功的路,汇报提纲,研究背景,一,理论基础,二,典型算法分析,三,总结,四,勇于开始,才能找到成功的路,3,一、研究背景,信息冗余 维数灾难 任务需求,维数约简,勇于开始,才能找到成功的路,维数约简:假设 个维数为 的高维数据点 降 维 后 得 到 维 数 为 ( )的 低 维 结 果,,若存在映射 ,使得,则把 到 的过程称为维数约简。,若 为 的线性函数,则 称为线性降维;否则,称为非线性降维。,为嵌入映射。,线性维数约简: PCA(Principal Component Analysis):主分量分析(Jolliffe, 2002; Turk and
2、Pentland, 1991) LDA(Linear Discriminant Analysis, )(Duda et al., 2001):线性判别分析,线性维数约简方法: 优点: 1.对线性结构分布的数据集有较好的降维效果; 2.在压缩、降噪以及数据可视化等方面非常有效的。 3.计算简单,易于理解 缺点:对呈现出结构非线性或属性强相关性的数据集,无法发现复杂的非线性数据的内在本质结构。,1999,人工神经网络(Artificial Neural Networks,ANN)的发展与兴起; 20 世纪 90 年代中期,基于核的非线性方法的提出 (Boser et al., 1992; Cris
3、tianini and Shawe-Taylor, 2000; Schlkopf and Smola, 2002)。,勇于开始,才能找到成功的路,2000,Seung 等, Science,The manifold ways of perception,视觉感知的流形结构假说。,流形学习可能是人类认知中一种自然的行为方式。,流形是感知的基础,人类的视觉记忆是以一种稳定的流形形式存贮在大脑中,人类具有捕获流形结构的能力;,勇于开始,才能找到成功的路,2000,Science,一种非线性维数约简的全局几何框架, 局部线性嵌入的非线性维数约简 等距特征映射算法(Isometric Feature M
4、apping ,ISOMAP)(Tenenbaum et al., 2000),局部线性嵌入算法(Locally Linear Embedding,LLE)(Roweis and Saul, 2000)。高维数据的学习实质上可以理解为对嵌入在高维空间的低维流形的学习(Roweis and Saul, 2000; Tenenbaum et al., 2000)。,勇于开始,才能找到成功的路,二、理论基础,流形 流形学习,勇于开始,才能找到成功的路,12,1.流形,流形是线性子空间的一种非线性推广 拓扑学角度:局部区域线性,与低维欧式空间拓扑同胚,勇于开始,才能找到成功的路,13,流形的数学定义
5、设 是一个Hausdorff拓扑空间,若对每一点 都有 的一个开邻域 和 的一个开子集同胚, 则称 为 维拓扑流形, 简称为 维流形.,1.流形,The view angles of pedestrian postures change along the coordinate v, and the body configurations change along the coordinate b.,勇于开始,才能找到成功的路,15,一些基本数学概念 拓扑,Hausdorff 空间,坐标卡,微分结构 光滑函数,光滑映射,切向量,切空间 参考文献 陈省身, 陈维桓, 微分几何讲义. 北京大学出版
6、社, 1983 M Berger, B Gostiaux. Differential Geometry: Manifolds, Curves and Surfaces, GTM115. Springer-Verlag, 1974 陈维桓, 微分流形初步(第二版). 高等教育出版社, 2001,1.流形,勇于开始,才能找到成功的路,2.流形学习,流形学习(Manifold Learning), 2000年科学杂志Science首次提出。用于从高维采样数据恢复低维流形结构,是一种非线性降维方法(另一种是核方法)。,勇于开始,才能找到成功的路,17,2.流形学习的数学定义,设 是一个低维流形, 是一
7、个光滑嵌入,其中 Dd 。数据集 是随机生成的, 且经过f 映射为观察空间的数据 。流形学习就是在给定观察样本集 的条件下重构 f 和 。,勇于开始,才能找到成功的路,18,非线性降维,高维数据空间 data / observation space,低维嵌入空间 embedding / coordinate space,保持一定几何拓扑关系,如测地距离/邻域线性重构关系,2.流形学习示例,三、典型算法分析,流形学习方法: 全局特性保持方法 局部特性保持方法,全局特性保持方法基于低维流形的全局几何特性,构造所有数据点对之间的全局度量矩阵,然后运算得到数据集的内在低维表示。局部特性保持方法基于保持
8、流形的局部几何特性,即外围观测空间邻域数据所具有的局部几何特性在内在低维空间得以保持, 然后运算以构造全局唯一的低维坐标。,三、典型算法分析,勇于开始,才能找到成功的路,21,三、典型算法分析-ISOMAP,全局特性保持方法基本步骤,思想核心:较近点对之间的测地距离用欧式距离代替较远点对之间的测地距离用最短路径来逼近,测地距离:测地线的长度(测地线: 流形上连接两个点的最短曲线),勇于开始,才能找到成功的路,23,三、典型算法分析-ISOMAP,测地距离反映数据在流形上的真实距离差异,勇于开始,才能找到成功的路,24,算法流程,1、构造近邻图G计算每个样本点与所有其他样本点之间的欧式距离。如果
9、样本点 和 的欧式距离 小于一个阈值 ,或者点 是点 的 近邻点,那么判定这两点彼此相邻,在图G 中用边连接,边的权重为 ; 2、计算最短路径对于相邻样本点 和 ,设置其初始最短路径为 ,否则为 。对 分别设置为 , 为样本点数,计算,得到最短路径距离矩阵,勇于开始,才能找到成功的路,25,算法流程,3、 计算d维嵌入 用MDS算法应用到 ,通过极小化下列目标函数来获得全局低维坐标Y表示低维嵌入坐标的欧式距离矩阵表示L2矩阵范数,矩阵操作算子是平方距离矩阵 , 是中心化矩阵 设 和 分别是矩阵 的第p个特征值和相应的特征向量,当低维嵌入坐标Y取矩阵 的前d个最大特征值对应的特征向量时,即,目标
10、函数达到全局最小。,算法分析,时间复杂度:计算DG矩阵为O(kn2logn)(k为近邻数,dijkstra算法);应用MDS的特征分解为O(n3)。优点:保持全局几何特性;缺点:样本数量n 较大时,算法的计算效率低;使用场合:适用于学习内部平坦的低维流形; 不适于学习有较大内在曲率的流形。,勇于开始,才能找到成功的路,27,三、典型算法分析-LLE,局部特性保持方法-保局流形算法,利用流形在局部可看作欧氏空间的观点,建立局部模型,然后整合排列局部几何模型,以构造全局唯一的低维坐标-分而治之。,勇于开始,才能找到成功的路,28,LLE (Locally linear embedding) 前提假
11、设 采样数据所在的低维流形在局部是线性的 每个采样点均可以利用其近邻样本进行线性重构表示 学习目标 低维空间中保持每个邻域中的重构权值不变 在嵌入映射为局部线性的条件下,最小化重构误差 最终形式化为特征值分解问题,三、典型算法分析-LLE,勇于开始,才能找到成功的路,29,三、典型算法分析-LLE,LLE 算法基本步骤,勇于开始,才能找到成功的路,30,LLE算法流程,1.计算每一个点 的近邻点, 一般采用K 近邻或者 邻域; 2.计算权值 使得把 用它的K个近邻点线性表示的误差最小, 即通过最小化 来求出 ;3.保持权值 不变, 求 在低维空间的象 , 使 得低维重构误差最小。,勇于开始,才
12、能找到成功的路,31,LLE算法的求解,1.根据欧氏距离,计算每一个点 的近邻点; 2.对于点 和它的近邻点的权值 , 3.令 , 低维嵌是M的最小的第2到第d1个特征向量。,勇于开始,才能找到成功的路,33,计算复杂度:选择邻域为O ( Dn2 ),计算重构权值矩阵O ( D + k ) k2 n),求解低维嵌入Y 为O ( dn2 )。 优点 算法可以学习任意维的局部线性的低维流形 算法归结为稀疏矩阵特征值计算,计算复杂度相对较小,LLE算法的分析,缺点 算法所学习的流形只能是不闭合的 算法要求样本在流形上是稠密采样的 算法对样本中的噪声和邻域参数比较敏感,勇于开始,才能找到成功的路,34
13、,LE (Laplacian Eigenmap) 2002年,Belkin 和Niyogi 基本思想:在高维空间中离得很近的点投影到低维空间中的象也应该离得很近。 求解方法:利用流形上Laplacian-Beltrami算子的特征函数,三、典型算法分析-LE,勇于开始,才能找到成功的路,35,流形Laplacian-Beltram算子:一般记作 (delta),定义:设 M 是光滑的黎曼流形,f是 M 上的光滑函数, (nabla算子)是f的梯度, 则称为 M 上的拉普拉斯算子, 其中div是散度算子。,函数 的梯度为:,梯度的负散度函数,f 的拉普拉斯算子是笛卡儿坐标系中的所有非混合二阶偏导
14、数:,二维空间,三维空间,根据谱图理论,如果数据均匀采样于高维空间中的低维流形,那么可以用图的Laplacian矩阵去逼近流形上Laplacian-Beltrami算子,进而可以用图的Laplacian的特征向量去逼近流形上Laplacian-Beltrami算子的特征函数(Belkin and Niyogi, 2003)。,勇于开始,才能找到成功的路,37,Laplacian Eigenmap 算法流程,1.构建近邻图, (K近邻或 邻域)。 2.给每条边赋予权值 3.LE的目标函数为极小化如下损失函数,即确保原来相邻的样本点投影后仍为近邻4.对任何Y有 ,其中Y为Laplacian矩阵,D为对角矩阵,元素为权值矩阵的列和,即,LE算法的优化问题转化为 低维嵌入Y取Laplacian矩阵的最小d+1个特征值对应的特征向量,即,边i和边j相连,边i和边j不相连,勇于开始,才能找到成功的路,38,代表性算法-3,LE (Laplacian Eigenmap) 优点 算法是局部非线性方法,与谱图理论有很紧密的联系. 算法通过求解稀疏矩阵的特征值问题解析地求出整体最优解,效率非常高 算法使原空间中离得很近的点在低维空间也离得很近, 可以用于聚类 缺点 同样对算法参数和数据采样密度较敏感 不能有效保持流形的全局几何结构,总结,研究背景 理论基础 典型算法,