收藏 分享(赏)

混杂数据的多核几何平均度量学习.doc

上传人:无敌 文档编号:167025 上传时间:2018-03-22 格式:DOC 页数:16 大小:267.50KB
下载 相关 举报
混杂数据的多核几何平均度量学习.doc_第1页
第1页 / 共16页
混杂数据的多核几何平均度量学习.doc_第2页
第2页 / 共16页
混杂数据的多核几何平均度量学习.doc_第3页
第3页 / 共16页
混杂数据的多核几何平均度量学习.doc_第4页
第4页 / 共16页
混杂数据的多核几何平均度量学习.doc_第5页
第5页 / 共16页
点击查看更多>>
资源描述

1、混杂数据的多核几何平均度量学习 齐忍 朱鹏飞 梁建青 天津大学计算机科学与技术学院 摘 要: 在机器学习和模式识别任务中, 选择一种合适的距离度量方法是至关重要的.度量学习主要利用判别性信息学习一个马氏距离或相似性度量.然而, 大多数现有的度量学习方法都是针对数值型数据的, 对于一些有结构的数据 (比如符号型数据) , 用传统的距离度量来度量两个对象之间的相似性是不合理的;其次, 大多数度量学习方法会受到维度的困扰, 高维度使得训练时间长, 模型的可扩展性差.提出了一种基于几何平均的混杂数据度量学习方法.采用不同的核函数将数值型数据和符号型数据分别映射到可再生核希尔伯特空间, 从而避免了特征的

2、高维度带来的负面影响.同时, 提出了一个基于几何平均的多核度量学习模型, 将混杂数据的度量学习问题转化为求黎曼流形上两个点的中心点问题.在 UCI 数据集上的实验结果表明, 针对混杂数据的多核度量学习方法与现有的度量学习方法相比, 在准确性方面展现出更优异的性能.关键词: 几何平均; 多核学习; 度量学习; 混杂数据; 作者简介:齐忍 (1993-) , 女, 河北晋州人, 硕士生, 主要研究领域为度量学习, 集成学习.作者简介:朱鹏飞 (1986-) , 男, 博士, 副教授, 主要研究领域为机器学习, 计算机视觉.E-mail:作者简介:梁建青 (1990-) , 女, 博士生, 主要研究

3、领域为半监督学习, 距离学习.收稿日期:2017-05-13基金:国家自然科学基金 (61502332, 61732011) Multiple Kernel Geometric Mean Metric Learning for Heterogeneous DataQI Ren ZHU Peng-Fei LIANG Jian-Qing School of Computer Science and Technology, Tianjin University; Abstract: How to choose a proper distance metric is vital to many mac

4、hine learning and pattern recognition tasks. Metric learning mainly uses discriminant information to learn a Mahalanobis distance or similarity metric. However, most existing metric learning methods are for numerical data, and it is unreasonable to calculate the similarity between two heterogeneous

5、objects (e.g., categorical data) using traditional distance metrics. Besides, they suffer from curse of dimensionality, resulting in poor efficiency and scalability when the feature dimension is very high. In this paper, a geometric mean metric learning method is proposed for heterogeneous data. The

6、 numerical data and categorical data are mapped to a reproducing kernel Hilbert space by using different kernel functions, thus avoiding the negative influence of the high dimensionality of the feature. At the same time, a multiple kernel metric learning model based on geometric mean is introduced t

7、o transform the metric learning problem of heterogeneous data into solving the midpoint between two points on the Riemannian manifold. Experiments on benchmark UCI datasets show that the presented method shows promising performances in terms of accuracy in comparison with the state-of-the-art metric

8、 learning methods.Keyword: geometric mean; multi-kernel learning; metric learning; heterogeneous data; Received: 2017-05-13中文引用格式:齐忍, 朱鹏飞, 梁建青.混杂数据的多核几何平均度量学习.软件学报, 2017, 28 (11) :2992-3001.http:/ R, Zhu PF, Liang JQ.Multiple kernel geometric mean metric learning for heterogeneous data.Ruan Jian Xue

9、 Bao/Journal of Software, 2017, 28 (11) :2992-3001 (in Chinese) .http:/ 在许多机器学习和模式识别任务中起着重要作用.例如在分类中, K 近邻分类器1使用距离度量来识别最近的邻居;许多聚类算法, 如 K-means2也依赖于数据点之间的距离度量;在信息检索中, 文档通常根据其与给定查询的相似性或相关性进行排名.有些距离度量被广泛使用, 包括欧几里德距离和特征向量的余弦相似度等.距离度量对方法的性能有极大的影响, 针对不同的任务和不同类型的数据选择合适的距离度量, 是度量学习的主要任务.2002 年, Xing 等人3开创性的

10、工作意味着度量学习的真正发展, 他们把度量学习定义为凸优化问题.度量学习的目标是从给定的样本对约束中学习到一个期望的度量, 使得相似的样本间的距离越小越好, 不相似的样本之间的距离越大越好, 二元组约束一般表示为三元组的约束一般表示为R= (xi, xj, xk) :xi应该比 xk更接近 xj.度量学习在模式识别和计算机视觉任务中发挥着重要作用, 它在 2011 年被Shaw 等人4应用于网络中的链路预测, 被 Taylor 等人5用于强化学习中的状态表示, 在 2012 年被 Mc Fee 等人6用于音乐推荐等.在计算机视觉任务中, 存在着大量的度量学习研究工作, 如人脸识别7、图像分类8

11、、视觉跟踪9等.生物信息学中的许多问题涉及比较 DNA、时间序列等.这些比较基于结构化度量, 例如将距离度量用于时间序列的字符串或动态时间扭曲距离的编辑, 又如 Xiong 和 Chen10在工作中对度量学习的应用.对于纯数值型数据集, 距离计算是容易处理的, 因为已经提出了大量数值型数据的度量学习方法可以直接应用.而混杂数据的出现, 使得之前的算法不再适用, 尽管使用数值型度量学习方法也得到了不错的实验结果, 但其结果仍是不合理的.举例来说, 若数字 1 代表黄色, 2 代表紫色, 3 代表蓝色, 用“3-1”表示黄色与蓝色的距离、“3-2”表示紫色与蓝色的距离显然是不合理的.因此, 提出一

12、种对于混杂型数据的度量学习方法是很有必要的.目前, 针对符号型数据最直接的距离度量是 Esposito 等人11使用的汉明距离.更多的研究人员试图通过考虑名义属性值的分布特征来度量距离.例如, Cost 等人12提出了一种用于监督学习任务的修正值差分度量 (MVDM) .Ienco 等人13提出了上下文的概念, 基于来自当前属性的上下文的属性值来测量属性的两个值之间的距离.数值实验和分析发现:如果给定数据集的属性之间不相互独立, 这 3 种间接定义的距离度量14-16无法起作用.所有这些相似度度量单独地对待名义属性, 并忽略变体属性关系.核度量学习对于处理具有特殊结构的数据独具优势, 此外也可

13、以解决维度灾难问题.对于度量学习中的高维度挑战, 通常在学习度量之前进行降维17.虽然研究显示降维有助于降低过拟合风险, 但缺少理论支持.目前已有许多基于核的度量学习方法, He 等人18提出了基于概率的距离测度核密度度量学习, 虽然可以处理数值型与符号型数据, 但却一概而论.核化的判别成分分析方法 (KDCA) 19、核化的大间隔成分分析方法 (KLMCA) 20和核化的基于信息理论的度量学习 (KITML) 21都直接使用内核技巧将线性算法对应扩展到核度量学习.在本文中, 我们提出了一种基于几何平均的混杂数据度量学习算法.该算法通过拉近相似样本对之间的距离和推远不相似样本对之间的距离来进行

14、度量学习.首先, 将数据集拆分为符号型与数值型, 其中, 符号型数据用汉明距离处理;然后, 通过高斯核函数将其分别映射到可再生核希尔伯特空间;之后, 将计算所得核矩阵代入目标函数, 为充分利用不同类型数据性质, 我们为核矩阵分配了权重, 为保持相似矩阵和不相似矩阵的平衡, 我们在测地的视角来分配矩阵的权重, 从而将混杂数据的度量学习问题转化为求黎曼流形上的两个点的中心点的问题, 最终分别计算出对应的矩阵 A, 求得马氏距离.与现有的度量学习方法相比, 基于几何平均的混杂数据度量学习具有高度可扩展性和高效性.UCI 数据集的实证结果验证了我们的算法在分类精度上有较大的性能提升.本文第 1 节简要

15、回顾度量学习的相关工作.第 2 节介绍所提出的核化几何平均度量学习和多核几何平均度量学习.第 3 节给出优化和算法.第 4 节分析在数值型数据、符号型数据和混杂数据上的 3 组实验结果.第 5 节总结我们的研究.1 相关工作这一节我们介绍几种经典的有监督的马氏距离度量学习算法.MMC 是 Xing 等人3开创的第 1 种马氏距离学习方法.它建立在一个没有正则项的凸公式上, 目标是最大化不相似点之间的距离总和, 同时保持相似点之间的距离总和尽可能地小.为了求解公式 (1) , Xing 等人3使用梯度下降算法结合投影半正定矩阵进行优化, 需要在每次迭代时对 M 进行全特征值分解.这通常对高维问题

16、是难处理的.LMNN 是 Weinberger 等人22提出的, 它是使用很广泛的一种马氏距离学习方法.其约束以如下方式定义:该方法的距离度量使用如下的凸公式:其中, 0, 1决定着是“拉近”还是“推远”, ijk为松弛变量.LMNN 虽然由于没有正则项有时候会过拟合, 但结果一般很好, 特别是在高维的情况下.ITML 是 Davis 等人21提出的, 它用布雷格曼散度衡量亲密度:D ld (M, M0) =tr (MM0) -log det (MM0) -d, 其中, d 是论域的维度, M 0是正定矩阵.同时, 正则项用来保持学习的距离尽可能地接近欧式距离.当且仅当 M 是正定的, Log

17、 Det 主要特征才是有限的.因此, 最小化 Dld (M, M0) 有一个条件是:M 至少是半正定的.ITML 公式如下:其中, u 和 v 是阈值参数, 用来控制相似点间距离小和不相似的点间距离大的程度;r 为惩罚因子.最小化 Dld (M, M0) 等价于最小化两个由 M 和 M0参量化的多变量高斯分布, 最终能够达到收敛到全局最小值的结果.Doublet-SVM 是王法强等人23提出的方法.该方法将度量学习问题变成一个样本对分类问题.它首先忽略半正定约束, 并使用 SVM 来学习初始度量 M, 然后将M 映射到半正定矩阵的空间上.目标函数如下所示.目标函数的正则项为 , Hinge 损

18、失惩罚项为 SVM () =C l l, 其中, C 为惩罚因子, l为松变量.它可以利用现有的 SVM 工具箱来解决, 比如 Lib SVM24.GMML (geometric mean metric learning) 是由 Pourya 等人25提出的算法.该方法的主要创新点是在目标函数中加入了不相似点的项.与最原始的度量学习方法 MMC 类似, 他们提出找到一个 A, 使得所有相似点间的距离总和尽可能地小.与之前方法不同的是, 提出了用 A 测量不相似点之间的距离, 这样就很巧妙地可以仅通过一个目标函数而取得既满足使相似点距离小又满足使不相似点距离大的效果.他们提出的新目标函数为其中,

19、 S 为相似点样本对组成的集合, D 为不相似点样本对组成的集合.2 混杂数据度量学习2.1 核化几何平均度量学习核函数是用来计算两个向量在映射过后的空间中的内积函数.它可以解决维度爆炸的问题, 在处理维度高的样本时会节省大量的时间.假设学习样本为 X:nd, x , y R 分别代表着矩阵的第 x 列和第 y 列. (x) 是把 x 映射到特征空间的函数.我们选择了高斯核函数 , 因此在再生核希尔伯特空间中的马氏距离被重新定义为 dM ( (x) , (y) ) = ( (x) - (y) ) M ( (x) - (y) ) .式中 M0 为半正定矩阵.Jain 等人26证明了马氏距离度量的

20、最优解形式为 M=I+ (X) A (X) , 其中, I 是单位矩阵, A 为半正定矩阵, 为常数.由于现有的度量学习方法 常设为 0, 在这里, 我们只考虑 为 0 的优化情况.我们将 M 进一步优化表示为 M= (X) A (X) , (X) 为学习样本.由上节讨论可知, 原目标函数为公式 (6) , 在核空间中重新定义相似点间距离为 dA= (Kx-Ky) A (Kx-Ky) , 其中, K 为通过核函数求得的核矩阵, Kx和 Ky分别表示核矩阵的第 x 列和第 y 列.用 A 矩阵计算不相似点的距离总和.因此, 核化的几何平均度量学习算法的目标函数为我们进一步简化公式 (7) , 用

21、迹函数来重写马氏距离, 将公式 (7) 变为优化问题:我们定义下面两个重要的矩阵 S 和 D.这里的 S 表示相似矩阵, D 表示不相似矩阵.通过公式 (9) 即可形成我们最终优化的目标函数.代价函数 (10) 有很多重要的性质可以帮助我们去求得其最小值, 首先, F h (A) 既是严格凸的, 又是严格测地凸的.因此, 当F h (A) =0 有解时, 该解即为全局最小值.半正定矩阵的集合形成了一个非正曲率的黎曼流形27.半正定矩阵A 和 B 在流形上的中点为 A#1/2B=A (ABA) A.在整个半正定矩阵集合上, 测地凸函数的定义28如下.定义 1.若黎曼流形的测地凸子集上的函数 f

22、是测地凸的, 那么该子集上的任意两点 A, B 满足:定理 1.在半正定流形上的代价函数 (10) 有既是严格凸的又是严格测地凸的性质, 由此可得其全局最小值:实际上, 公式 (13) 的唯一解是 D 和 D 测地线的中点:从上面 A 的定义很容易看出, A 是满足半正定的.2.2 多核几何平均度量学习为了解决混杂数据的问题, 我们提出了多核几何平均度量, 不同的核对应不同种类的数据.本文实验混杂数据体现为数值型和符号型的混杂, 将数据拆分之后, 对于符号型数据, 我们通过汉明距离对其进行处理.首先, 通过 Esposito 等人11使用的汉明距离将其转化为汉明矩阵.汉明距离定义如下:然后,

23、将得到的汉明矩阵当作新的样本特征矩阵.符号型数据和数值型数据会通过高斯核函数得到两个不同的核矩阵.假设样本集为 X=x1, x2, , xN, 每个样本 xi有 h 种数据, 则 h 即为我们多核几何平均度量学习算法中核的数目.使用不同的核求出马氏距离, 同时乘以为其分配的权重系数, 最终将多个核计算的加权距离相加, 得到两个样本的度量距离.多核几何平均度量学习的目标函数为为了充分利用不同类型数据的性质, 我们设置了参数 g, 它决定着在目标函数中第 g 种数据所占的权重.A g是第 g 种数据要学得的对称正定矩阵.然后, 依次将计算所得核矩阵代入目标函数.我们的实验数据都是给定标签的, 由此

24、, 可以为每种数据形成样本对集合:3 优化和算法3.1 优化现在我们的目标函数如下所示:这里, 我们使用迹函数来重写, 公式 (15) 变为然后, 我们定义第 g 种数据的相似点矩阵 Sg和不相似点矩阵 Dg:因此, 我们可以得到多核几何平均度量学习的优化后函数:因为 Sg可能是不可逆的, 我们对目标函数加入了一个正则项20:这里的 A0是先验矩阵, 在后面实验部分会详细说明;D sld是对称的 Det Log 散度:另外, 我们需要注意另一个变量是 g.为了确保距离是正的, 我们要求 g是非负的.然而, 由于距离和偏差都是非负的, 所以当每个 g等于 0 时, 目标函数获得最小值.由于我们希

25、望每种数据都能参与到目标函数中, 所以我们使 g的和为一个常数.进而目标函数成为一个线性规划, 由此可能导致大多数权重接近 0.为了避免过度拟合, 我们对 g也引入一个正则项, 最终, 正则化的多核几何平均度量学习目标函数为= 1, 2, , h为一个 h 维向量, 等于 .3.2 求解下面对公式 (21) 进行求解, 观察可知, 公式中唯一的约束 Ag是正定的, 为方便起见, 用 Q 来代替公式 (21) , 即Q 对 Ag的导数为令其为 0, 得到 g=0 或者 .又因为 , 所以只能是由此解得 Ag= (Sg+A 0) #1/2 (Dg+A 0) .由几何平均的形式, 我们可以知道 A是

26、半正定的.一旦 A 确定了, 目标函数 (21) 就转为如下形式:其中, c 1g和 c2g均为常数, c 1g=tr (Ag Sg) +tr (AgDg) , c2g=Dsld (Ag, A0) .然后, 我们就可以通过二次方程来解得最优的 g组合向量.3.3 加权在测地的视角来分配相似矩阵和不相似矩阵的权重, 对多核几何平均度量学习方法求解同样也是很重要的.因为仅通过一个常数来放缩 A 的解来保持 S 和 D 的平衡是没有意义的.我们根据多核几何平均度量学习方法的性质, 加入了对称正定矩阵的黎曼几何上的非线性的一项, 等价于下面的优化问题:其中, R是对称正定矩阵上的黎曼距离:因为权重值是

27、正的且固定的, 相似和不相似矩阵也是已知的, 所以, 公式 (26) 等价于执行 h 次下面的任务:每一次的唯一解为加权的几何平均 Ag=Sg#tDg, 因此正则化的解为3.4 时间复杂度分析与讨论我们假设样本的数目为 N, 样本对数目表示为 T.几何平均度量学习方法的时间消耗主要有两部分:计算 S, D, A, 花费时间为 O (TN) ;求矩阵的幂和乘法, 花费时间为 O (N) .因此, 几何平均度量学习方法花费总时间为 O (TN+N) .而多核几何平均度量学习方法的两部分时间消耗分别为 O (h TN) 和 O (h N) , 额外的二次方程带来的时间消耗为 O (h) .因为 h

28、是远小于 N 的, 多核几何平均度量学习方法的时间为 O (h TN+h N) .通过以上分析不难看出, 我们的方法不仅在扩展性方面优于几何平均度量学习方法, 而且对于高维度数据的处理更高效.以上就是我们提出的针对于混杂数据的多核几何平均度量学习方法, 总体而言, 我们提出的算法框架将多种混杂的数据投射到可再生核希尔伯特空间中, 然后利用加权组合来整合相应的度量.交替策略用于解决度量和权重的联合目标, 通过第 4 节的实验结果证明算法是有效的.4 实验在本节中, 我们通过实验分析基于几何平均的混杂数据度量学习方法的性能.我们首先对数据集以及评估标准进行描述;然后, 我们详细地对比较方法进行说明;最

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报