1、半监督学习综述 半监督学习综述 klrxbest 摘要: 近年来,半监督学习 技术 成为了机器学习领域的一个热点研究方向。 本文首先简单地介绍了半监督学习的发展历史,然后从经典的半监督学习算法、关于半监督学习的理论分析和半监督学习在实际问题中的应用三个方面对近年来半监督学习研究的进展进行了简单介绍 ,最后指出了目前半监督学习领域存在的一些亟待解决的问题 。 关键字: 半监督学习 Abstract: In recent years, semi-supervised learning technology has become a hot area of machine learning rese
2、arch. This article first briefly describes the history of development of semi-supervised learning, and then gives a brief introduction to some classic semi-supervised learning algorithms, theoretical analysis on semi-supervised learning and applications of semi-supervised learning techniques, and po
3、ints out some existing problems to be solved in semi-supervised learning. Keywords: semi-supervised learning 1.引言 自从 1946 年第一台电子计算机 ENIAC 诞生至今,计算机技术得到了迅猛的发展,这使得人类采集、存储数据的能力空前的提高,利用计算机对收集到的数据进行分析提取有价值信息的技术(机器学习 技术 )也随之而生,并得到了很快的发展。传统的机器学习技术一般只利用有标记样本集或者只利用无标记样本集进行学习 ,而在实际问题中大多是有标记样本与无标记样本并存,为了更好地利用这些
4、数据,半监督学习技术应运而生 ,近年来,半监督学习技术更成为机器学习领域一个被广泛研究的热点方向。 传统的机器学习技术可以分为两类,一类是 无监督学习, 另一类是 监督学习。 无监督学习 一般基于这样的 数据 设置 : 假设 数据 集 X 包含 n 个样本 点 12, , , nX x x x,其中 ix ( 1,2, )in ,一般假设 ix 独立同分布 (i.i.d., independently and identically distributed)地取样于分布 。 无监督学习技术 的基本目标即是根据这些样本点估计出分布 的密度, 这类技术的典型代表有聚类、降维等。 监督学习 有别于
5、无监督学习 的是 数据不仅包含样本点 本身 , 而且还包含这些样本点所对应的类别标记(label),一个样本点的表述形式为 ( , )iixy ,其中 iy 为样本点 ix 的类别标记。 监督学习的目标即是 从这些数据中学习 建立一个从样本点到标记的映射。 特别地, 监督学习技术 当 iy 为实数值的时候称为回归 (regression)技术 , 否则 ,称为分类 (classification)技术。 这类技术的典型代表有支持向量机 (SVM, Support Vector Machine)等 。 半监督学习则是介于两者之间的学习技术,它同时利用有标记样本与无标记样本进行学 习 。它所利用的
6、数据集 12, , , nX x x x ()n l u, 可以分为两部分,一部分是有标记的数据集 1 , , llX x x ,这部分数据集中的样本点 ix 的类别标记 iy 已经给出, 另一部分是无标记数据集 1 , , u l l uX x x ,这部分数据集中样本点的类别标记未知。 与实际情况 相符一般假设 ul,即无标记数据远远多于有标记数据。 在实际问 题中,往往无标记数据集的样本点数目会远远多于有标记数据集的样本点数目 , 这是因为对半监督学习综述 某些数据进行标记的代价会很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定可能会花上生物学家很多年的工作 , 而无标记的样本却
7、是 随手可得。 由于解决实际问题的需要,对半监督学习技术的研究变得尤为重要。 本文对机器学习领域中的半监督学习技术的研究现状进行了简单介绍。 其中,第 2 部分对半监督学习技术的发展历史进行了简单的回顾,第 3 部分简单地介绍了半监督学习中的常用假设,第 4 部分从经典算法、理论分析、实际应用三个方面对近年来的半监督学 习进行介绍,第 5 部分总结并提出了现有方法存在的一些问题,第 6 部分感谢。 2.半监督学习 技术的 历史 最早利用到半监督学习思想的算法应当是自训练 (self-training)方法 1,出现于 20 世纪 60-70 年代的某些文献中(如, 1965 年 Scudder
8、 的文献 2、 1967 年 Fralick 的文献 3, 1970 年 Agrawala 的文献 4) 。自训练方法的基本思想 2是首先利用监督学习技术对有标记的数据进行学习,然后利用学习到的结果对未标记数据进行标记,再将新标记的数据加入到有标记的数据中去再学习,如此 迭代。 然而这种方法的性能依赖于其中的监督学习技术,而且当利用 0-1 代价函数经验风险最小化进行学习时,未标记样本将失效 1。 之后出现的则是与半监督学习技术十分相关的直推 (transductive)学习技术, 直推学习技术由 Vapnik 在1974 年根据著名的 Vapnik 原理 (不要通过解决更复杂的问题来解决问题
9、 )提出 的学习技术,他认为很多学习任务只需要将当前数据集中的未标记样本进行标记,不需要对样本空间中的所有样本进行标记 。 直推学习技术与半监督学习技术的本质不同就在于,直推学习技术学习到的结果只需对当前数据中 的未标记样本进行标记,半监督学习的学习目标则需是对 于 整个样本空间中的所有样本都可 预测其标记 。 Z.H. Zhou29给出了形象化的描述,直推学习技术是基于封闭世界假设,而半监督学习是基于开放世界假设的。 而关于半监督学习技术与直推学习技术的异同点在学术界依然是一个开放式的话题,存在着争论 1。 半监督学习技术 开始 发展是 由于 20 世纪 70 年代 对 利用未标记数据学习
10、Fisher 线性判别规则 的研究 。这段时间 利用 EM 算法结合高斯混合模型 或者多项式分布模型 的半监督学习技术被广泛提出来。 根据 D.J. Miller 和 H.S. Uyar5的看法,由于很难利用未标记数据对训练诸如前馈神经网络等当时主流学习技术进行提高,所以半监督学习研究在那个时候没有能够迅速发展开来。 而到了 20 世纪 90 年代,由于自然语言处理的发展,对利用未标记数据帮助提高学习性能的需求越来越强烈,半监督学习才成为了机器学习领域中的研究热点方向。 根据 O. Chapelle 等人 1的看法,半监督学习这个术语最早是在 Merz 等人 6在 1992 年使用 的。 3.
11、半监督学习 中的基本 假设 目前的机器学习技术大多基于独立同分布假设,即数据样本独立地采样于 同一分布 。 除了独立同分布假设, 为了学习到泛化的结果, 监督学习 技术 大多 基于平滑 (smoothness)假设,即相似或相邻的样本点的标记也应当相似。 而在半监督学习中这种平滑假设则体现为两个较为常见的假设:聚类 (cluster)假设与流型 (manifold)假设。 下面对半监督学习中两个常用的假设做简单的介绍。 聚类假设 是指同一聚类中的样本点很可能具有同样的类别标记。 这个假设可以通过另一种等价的方式进行表达,那就是决策边界所穿过的区域应当是数据点较为稀疏的区域 ,因为如果决策边界穿
12、过数据点较为密集的区域那就很有可能将一 个聚类中的样本点分为不同的类别这与聚类假设矛盾 。 流型假设 是指 高维中的数据存在着低维的特性。 Z.H. Zhou 在文献 29中给了另一种类似的表述,“处于 一个很小的局部邻域 内的示例具有相似的性质”。 关于这两者的等价性没有严格的证明,但是高维数据中半监督学习综述 的数据的低维的特性是通过局部 邻域相似性体现的,比如一个在三维空间卷曲的二维 纸 带 ,高维的数据全局的距离度量由于维度过高而显得没有区分度,但是如果只考虑局部范围的距离度量,那就 会 有一定意义 。 这两种假设一般是一致的 ,属于监督学习中平滑假设的 在半监督学习中的 推广 。 Z
13、.H. Zhou29认为流型假设比聚类假设更为一般,因为根据他的描述流型假设是相似的样本点具有相似的性质而不是聚类假设所认为的相同的标记 ,对于聚类假设无法成立的回归问题上流型假设却可以成立。 4.半监督学习现状 4.1 半监督学习算法 介绍 监督学习风范 (paradigm)可以分为生成式 (generative)风范与诊断式 (diagnostic)风范。生成式风范是通过估计 ( | )pxy ,得出 x 的产生方式,然后再利用贝叶斯 法则 估算 ( | )pyx , 从而对未标记样本的标记进行预测, 而诊断式风范是直接估计 ( | )pyx 而不 关心 x 的生成方式。 对于半监督学习这
14、两种风范区别就变得模糊了 1, 所以本文不按照这样的分类方式对算法进行介绍 ,而根据基于假设的不同进行分类介绍 。 同时,对于机器学习领域中的经典算法如 EM、 SVM 等不 作赘述。 4.1.1 生成式模型 这类 算法基于聚类假设。 假设数据模型为 ( ) ( ) ( | )p x p y p x y ,其中 ( | )pxy 一般表示为 “ 可确认 的 ”(identifiable)混合模型,混合模型的各个组成成分 可以通过大量的未标记数据 获得,然后再通过少量的标记样本 的标记信息 即可 确定整个混合模型。 离散概率混合模型是假设一个随机变量 X 的概率密度函数由 n 个 随机变量的概率
15、密度函数12 , , , nY Y Y 组 合而 成 ,可以表示为这些分 量的线性组合 (最原始的混合模型的定义只需是凸组合即可) 的形式。 如下式: 1( ) ( )inX i Yif x a f x其中, 01ia,1 1n ii a 混合模型较为重要的性质就是“可确认性” (identifiability),反映的就是给定 ()px 的分布,并且给定各个混合分量的分布是不是可以唯一确定的给出分量的系数 ia 的性质 ,如果 可以唯一确定 。关于离散概率混合模型的“可确认性”的 充要 条件在 1963 年 H. Teicher 的文献 7中已经给出并证明。现仅将定理列出。 定理: 对于有穷
16、混合模型11 ( ) : 0 , 1nni i i iiia F x a a 为可确认的,当且仅当存在 n 个实数值 12, , , nx x x 使得对于由 ( ),1 ,ijF x i j n所构成的行列式 ( i 为行数, j 为列数 ) 不为 0。 这个定理 结合 H. Teicher 文献 7中的另一个定理 有一个简单的推论,就是所有的有穷正态分布的混合模型是“可确认的”。 鉴于 上述 良好的数学性质 , 在半监督学习 的生成式模型 中,高斯混合模型是被 用 得 最多的混合模型。一般的混合模型可以表示为 ( ) ( ) ( | )iiip x p y p x y,其中 iy 为类别标
17、记。 聚类假设即是体现于此。 这类算法一般采用 EM 算法 利用未标记样本 进行 对 模型中 ( | )ipxy 组成成分的 参数进行 估计 , 再利用少量的未标记样本确定各分量所代表的类别 , 这类算法 比较经典 的 是 Nigam 等人在 2000 年的工作 8。 半监督学习综述 这类算法简单, 但是 存在 着 较难解决的问题 ,如克服 EM 算法的局部最优解的问题, Nigam 在 2001年的工作 9在这方面做出了尝试; 除了使用混合模型以外,很多算法还需要首先对未标记样本进行聚类,然后再利用已标记样本给这些聚类的结果赋予类别标记,尽管在 模型与数据磨合很好的情况下,这类算法可以有很好
18、的性能, 但这类算法很难分析 1。 4.1.2 低密度分割算法 低密度分割 就是要尽量让分类边界通过密度较低区域。 这类算法即是对聚类假设的第二种描述的很好的应用。 下面简单介绍一下比较经典的工作。 4.1.2.1 半监督 支持向量机 (S3VM, Semi-Supervised SVM) 支持向量机 (SVM, Support Vector Machine)是 Vapnik 领导的 Bell 实验室小组提出来的一种分类算法,这种分类方法通过引入核函数,将原本在低维空间线性不可分的数据映射到高维空间 ( SVM 算法中被称为RKHS, Reproducing Kernel Hilbert Sp
19、ace) ,从而 变得 线性可分 ,而分类界面 即是采用最小经验风险与最大“间隔” (marginal)的标准 来确定 。 将聚类假设运用到 支持向量机中, 即是要分类边界绕过数据密集的区域。 将 SVM 改进应用到半监督学习中的也是 Vapnik, S3VM 其本质上是直推式的 , Vapnik 本人提出时也称之为 TSVM(Transductive SVM),直推支持向量机 。 图 1 直推支持向量机的分类结果示意图 1 就是对样本中的所有的数据包括标记的与未标记的建立一个分类界面, 在学习过程中,调整分类界面,使得“间隔”最大,而且尽量避过数据较为密 集的区域 (通过修改分类边界两侧的未
20、标记样本的类别标记迫使分类界面调整至稀疏区域) ,如 上 图所示 ,实线为调整后分类边界 。 形式化定义 : 对数据集 12, , , nX x x x(包括标记与未标记数据),需要学到的 分类边界为 :0b x w x ,最大化到最近的样本点的“间隔”,则得到优化目标: 1 min | |i iin b y wxw Vapnik 同时也给出了 TSVM 的错误率上界这使得 TSVM 在理论上有很好的保证。 4.1.2.2 使用半定规划的半监 督学习算法 解 TSVM 的优化目标 是一个 NP-难的问题,因为除了分类界面未标记样本的标记也是未知 ,导致了损半监督学习综述 失函数 非凸 10。
21、很多研究人员尝试放松 TSVM 的优化目标 以期使得问题可解。 其中较为经典的工作就是De Bie 和 Cristianini11提出的将 TSVM 的优化目标放松成为半定规划问题,而半定规划问题是凸 优化问题 ,从而使得问题 对于稍大数据集 可解 。 这里 只对放松后的优化问题作简单介绍, 对问题如何转化以及转化后与半定规划问题的等价性的证明不作详细介绍 ,可以参考原文 1。 定义 标记矩阵 : TTll lu l l l uu l u u u l u uY Y Y YY Y Y Y 其中 lY 为已标记数据的标记向量, uY 为未标记数据的标记向量。 则 TSVM 的优化目标可以放松为:
22、m in m a x 2 ( )TT K 1 0istC ()diag1 0 其中 i 为i i ii cwx所决定。 De Bie 和 Cristianini 证明了这个优化目标是凸的,而且等价于一个半定规划问题。 但是实验的结果并没有十分的好,因为解半定规划问题所需要的计算开销依然很大。 除此之外, N.D. Lawrence 和 M.I. Jordan12通过修改高斯过程的噪音模型来进行半监督学习 ,对类的标记除了正负类之外,他们还引入了标记 0,并且规定未标记的数据的类别标记不可以标记为 0,这样迫使分类边界避开数据密集区域 ,这与 TSVM 的想法类似 ;使用正则化项使学习结果具 有
23、某种所需要的特性是机器学习领域中的惯用手法, Grandvalet 和 Bengio13通过在优化目标中将未标记样本的熵作为正则化项加入到优化目标中去进行学习,从而使得熵最小化,进而使得分类界面尽量不要切分数据密集区域,因为切分了数据密集区域则使得其不确定性增加,从而使得熵变大。 4.1.3 基于图的 半监督 算法 这类算法基于流型假设。假设 所有的样本点(包括已标记与未标记)以及之间的关系可以表示为一个无向 图的形式 ,g VE 。其中图的结点为数据样本点,而边则体现了两个样 本点之间的相似度关系。 基于图的 半监督算法 的优化目标就是要保证在已标记点上的结果尽量符合而且要满足流型假设。 很
24、多基于图的算法都使用到图的拉普拉斯 (Laplacian)矩阵。这些算法给予图的边赋予权值, 然后计算其拉普拉斯矩阵。假设定义图的结点之间的边的权值矩阵为 W ,其中ijw表示两个结点之间边的权值,当两点之间无边时, 0ijw,边的权值可以有多种定义方式,较常见的定义为 k 近邻或者高斯核矩阵的形式。 k 近邻定义:如果结点 ix 是结点jx的 k 个最邻近结点中的一个,那么 1ijw,否则 0ijw。 高斯核矩阵: 22| |2ijxxijwe 。 特别地, 0iiw 半监督学习综述 令 i f :0 . .ijjij w i jd ow D,则 图的 非规范化 拉普拉斯矩阵定义为 DW,图
25、的规范化拉普拉斯矩阵定义为 1122I D WD 。 下面以 Zhu 和 Ghahramani14在 2002 年提出的一种基于图的算法为例,解释如何使用图的拉普拉斯矩阵将图中已标记点的标记传播到未标记结点 。 算法一 标记传播算法( Zhu 和 Ghahramani, 2002) 利用高斯核矩阵定义图的权值矩阵 W 计算 i f :0 . .ijjij w i jd ow D初始化样本点的标记向量 ( 0 ) 12 ( , , , 0, 0)lY y y y 迭代计算 1. 2. 直至收敛 1. ( 1) 1 ( ) ttYYDW 2. ( 1)tllYY 其中步骤 1 是对所有样本点(包括
26、已标记与未标记)的类别标记进行更新,步骤 2 是保证所有已标记点的标记为原始的标记,在整个过程中已标记 点的标记始终不会改变。 与该算法类似的是 Zhou 等人 15与 2004 年提出的标记“扩散” (spreading)算法,与算法一不同点在于,步骤 1 的更新方式为 ( 1) ( ) ( 0 ) (1 )ttY Y Y L ,其中 L 为规范化图的拉普拉斯矩阵。 上述两种算法的收敛性与拉普拉斯矩阵的特征值有关,而计算代价最差情况下为 2()Okn ,其中 k 为平均的样本点的邻居数目,当图接近完全 图的时候计算代价高达 3()On 。 与以上两种算法不同,但同样是标记传播算法, Szum
27、mer 和 Jaakkola17于 2002 年提出了基于马尔可夫随机游走 (Markov Random Walk)策略的给图中未标记点进行标记的算法。其中权值矩阵 W 同样由高斯核矩阵给出 ,然后利用权值矩阵定义两点之间标记传播的概率ijijikkwp w 。然后假设从一个正类的点出发,经过 t 步的随机游走,到达结点 kx ,结点 kx 为正类的概率为 :()1( 1 | ) ( 1 | ) ( | )nt s t a r t k i i kiP y x P y x p x x ,如果该式大于 0.5 则判定为正类,否则为负类, 其中 ( | )ikpx x 的概率可以通过ijp计算出,而
28、 ( 1| )iPy x 可以通过 EM 算法计算得出。 以上的这些算法其实都是属于同 一个框架下的算法特例,根据流型假设,可以通过计算点之间的类别标记的差异性来定义优化目标的代价函数,尤其在将权值矩阵引入到代价函数中去之后,这种想法变得很自然, 根据高斯核矩阵定义的权值矩阵,邻近点的权值 较大,那么就迫使邻近点的类别标记的差异性减小。代价可以写成如下形式 : 半监督学习综述 22, 1 1 1 , 111 ( ) 2 222n n n ni j i j i i j i j i ji j i i i jw y y y w w y y ()TTY Y Y Y D W L 其中 L 为非规范化拉普
29、拉斯矩阵 。 同时考虑到为了让已标记点的标记的预测结果要与其真实 标记一致,以及 处理 在图中某一个连通分量没有 已标记的情况,可以在这三者之间做一个权衡,写出如下的代价函数: 22 ( ) | | | |TllC Y Y Y Y Y Y L 其中第一项是为了让已标记结点的预测结果与真实标记一致,第二项就是第一个代价函数,第三项即是为了处理图中某一个连通分量没有已标记样本的情况。 当然求解最小化这个代价的问题等价于求图的最小切割问题,这是一个 NP-难的问题 1。 Zhu 等人 16在 2003 年的利用高斯随机场与谐波函数进行半监督学习的工作 中,通过将代价函数中 lY 的取值从离散的放松到
30、实值,这使得问题变得简单了许多。 基于图的算法其计算开销都很大,很难应用到较大 数据集中去,这使得降低计算开销成为了研究这类算法的重要目标 ,很多研究者在这 方面做了很多工作,鉴于 篇幅问题,这里不作介绍 。 4.1.4 协同训练 标准 协同训练算法是 Blum 和 Mitchell18在 1998 年提出的。他们提出了 标准 协同训练算法的三个基本假设: (1)属性集可以被划分为两个集合; (2)每一个属性集的子集合都足以训练一个分类器; (3)在给定类标签的情况下,这两个属性集是相互独立的。 其中每个属性集构成一个“视图” (view),满足上述假设的 “ 视图 ” 被称为充分冗余 “ 视
31、图 ” 。 然后分别 对已标记的样本 在这两个属性集 上训练分类器,这样得到两个分类器, 将这两个分类器应用到未标记样本上,然后选择每个分类器对分类结果置信度高的未标记样本以及该样本的预测标记加入到另一个分类器已标记样本集中进行下一轮的训练,如此迭代 (如算法二所示) 。 协同训练算法其实是通过引入未标记数据缩减假设空间来提高学习算法的性能的 1。 算法二 标准协同训练算法( Blum 和 Mitchell, 1998) 随机从未标记样本集中选择 u 个样本,建立一个未标记样本池( pool) U 进行 k 次迭代: 1. 利用已标记样本集 L,分别于 x 的两个子属性集 x1,x2上训练两个
32、分类器 h1,h2 2. 用分类器 h1,h2对 U 中的 p 个正类与 n 个负类进行标记 3. 将这些被标记的样本加入到已标记样本集 L 中 4. 再从未标记样本集中随机选取 2p+2u 个未标记样本,投入到未标记样本池 U 中 Blum 和 Mitchell 的那三个假设很强,正如 Z.H. Zhou 在文献 29中所说,在真实的问题中,满足充分冗余的要求往往很难达到。 Z.H. Zhou 举 Blum 和 Mitchell 当年所举的网页分类的例子来说明,“因为网页本身的信息这一视图与超链接上的信息这一视图很难满足条件独立性”,而且“大多数问题不具有充分大的属性集”。很多研究人员就尝试
33、放松这三个假设。 Goldman 和 Zhou19在 2000 年提出了使用不同的分类器在整半监督学习综述 个属性集上训练的方法,训练时,首先利用已标记样本对两个不同的分类器在整个属性集上进行训练,再用这两个分类器互相将自己在未标记样本上置信度较高的标记加入到对方的训练集中去再训练。在这个工作之后他们二人在 2004 年 20又将集成学习的思想加入到他们的方法中 去提高算法性能,基于整个属性集训练一组分类器,利用投票机制对未标记样本进行标记,加入到已标记样本集中再训练,最后的分类结果由加权投票机制的一个变种决定。 但是由于 Goldman 和 Zhou 的算法“在挑选未标记示例进行标记的过程中
34、以及选择分类器对未见示例进行预测的过程中频繁地使用 10 倍交叉验证”,使得其计算开销很大, Z.H. Zhou 和 M. Li21在 2005 年提出了 tri-training 的算法,使用三个分类器,如果两个分类器分类结果一致,那么就将该未标记样本加入到已标记样本中去,这样的做法避免了频繁地计 算 10 倍交叉 验证,节省了计算开销,同时他们的算法不需要基于不同的视图,甚至不需要基于 不同的分类器。 并且他们基于噪音学习理论给出了“以较高概率确保这一做法有效的条件”,在引入大量 未标记样本的情况下,噪声所带来的负面影响可以被抵消。此后,他们还将tri-training 算法扩展为 Co-
35、Forest 算法。 除此之外 Balcan22等人在 2005 年放宽对独立性的假设,并调整了协同训练算法的迭代过程,取得较好的结果。 与 Balcan 的工作类似, Johnson 和 Zhang 在 2007 年同样放宽了对独立性的假设,提出了一 个二视图模型。 以上的算法讨论的都是半监督分类问题, Z.H. Zhou 和 M. Li23在 2005 年最先利用协同训练算法进行半监督回归,他们的算法利用流型假设,放宽了对置信度高的标记的判定准则,使得其可以对连续值 (而不是离散的类别标签) 进行判定。 他们的判定准则如下: 2211( ) ( )iiu i i i ix L x Ly h
36、 x y h xll 其中 ()ihx 为对未标记样本的预测标记, ()ihx 是将预测标记加入到已标记数据集中进行再训练以后的预测标 记。 他们利用这样的判定准则提出了 COREG 算法 , COREG 利用两个基于不同范式的距离度量的 k近邻回归模型进行协同训练, 最后的预测结果是两个 k 近邻回归模型的预测结果的平均 。 4.2 半监督学习理论分析 对于半监督学习的理论分析一般是为了解决这样的问题: (1)半监督学习技术如何奏效: 未标记样本是否可以提高学习性能?在什么样的情况下,未标记样本又会损害学习性能? (2)半监督学习的样本复杂度:多少的未标记样本是足够的 ?还需要多少已标记样本
37、? 半监督学习是近年来才成为机器学习领域的热点方向,关于它的理论分析比较少,关于这点我们认为还有原因就是半监督学习技术种类较多,差异性大,建立一个统一的理论分析的模型较为困难,而且半监督学习从一定意义上讲,其实际应用价值大于其理论价值,它是随着实际应用需求的日益强烈而产生的。 关于半监督学习的理论分析的工作,较为经典的是 Balcan 和 Blum24在 2005 年的工作,他们为半监督学习提出了一个扩展的 PAC(probably approximately correct)学习 模型 ,是对 监督学习的 PAC 学习模型的扩展,他们引入了“ 相 容性” (compatibility)的概念
38、 ,他们将 相容 性定义为一个从假设 (hypothesis)以及数据分布到 0,1区间的一个映射,这个映射反映的是我们所相信的 一个假设与当前数据分布的 相容 程度 。 与传统的 PAC 学习模型类似, 他们 假设数据来自一个分布为 D 的样本空间 X ,数据的 类别标记由一个目标函数 *c 给出,假设空间 则是一组样本空间 X 上的给予类别标记的函数的集合。 对于假设空间 中的一个假设 f ,其与分布 D 的 相容 性定义为函数 : 0,1X 半监督学习综述 ( , ) ( , )xDf D f x E ,即 ( , )fx 在整个分布 D 上的期望。 其中 ( , )fx 的定义, 根据
39、不同的半监督学习技术而不同 ,体现了学习目标所需要满足的性质 ,即相关的假设 。 比如在 TSVM 中,我们可以定义一个样本点 x 到 f 所决定的分界面的距离大于某个给定的“间隔” ,则 ( , )fx 为 1,否则为 0,当然也可以定义为 关于样本点 x 到 f 所决定的分界面的距离的平滑函数 ,这样的定义体现了分类见面须经过数据较为稀疏区域的聚类假设 ;在标准的协同训练算法中, 学习的数据 样本点的表示 是 12,xx代表同一个数据的两个视图,学习的目标是一个函数对 12,ff,那么这个函数对与 12,xx的 ( , )fx 可以定义为 12, 1 1 2 2Pr ( ) ( )x x
40、D f x f x ,即两者学习的预测结果应当经量相同 。其他半监督学习技术的 ( , )fx 可以有类似的定义。 通过对各个算法 相容 性的研究,并加上一些适当的假设 Balcan 和 Blum 得到了一些关于样本复杂度的结果 , 这些结果反映了这样一个直觉意义上的结论,就是 在零训练误差以及高 相容 性的情况下,只需要很少的已标记样本就可以得到一个很好的假设 。 Blum 和 Mitchell18也对他们提出的标准协同训练算法进行了分析,其中也用到了相容性的概念,并以一个形象化的二部图的形式展示了他们的研究结果。 除了 以上 的工作, Leskes25和 Kaariainen26对半监督学
41、习的泛化错误率上界进行了研究。 最近, Singh 等人 27在“ 两个 聚类 的密度是 Lipschitz 连续的 ”强 假设 条件下,对未标记样本对学习性能的影响进行了 研究,他们得出 的结论 是 : 当 两个 聚类 很远的 情况下未标记样本对学习 没 有 帮助 ; 靠近 但不是 十分 近 的情况下未标记样本 能帮助 对分类边界 的 确定 ; 但是 很近重叠的不够多 的情 况下未标记样本 没有帮助;重叠 足够 多以至于密度不连续 的情况下 又有帮助。 4.3 半监督学习应用 半监督学习应日益强烈的解决实际问题的需求而产生,在实际问题中,半监督学习有着很广泛的应用,这样的实际问题都存在着本文
42、引言中所阐述的背景,对于样本标记的获得需要花费很昂贵的人力劳动,然而未标记样本却是随手可得,比如在语音识别领域,现在的音频很多,而对这些音频加上标记,需要人去听并辨别这些音频再加上标记,相比于未标记的音频有标记的音频少之又少。 下面就对半监督学习的两个典型的应用做简单介绍。 比较典型的应用就是在自 然语言处理领域的应用。更由于互联网的日益发达,指数级增长的网络资源,能进行人工标记的网页等的资源是微乎其微,半监督学习技术在这方面得到了很广泛的应用。 前面介绍的Nigam 等人 8关于生成式模型方面的工作就是利用 EM 算法进行半监督的文本分类。 半监督学习还有一个典型的应用,就是生物学领域 对蛋
43、白质序列的分类问题 (蛋白质结构预测) 。 对一种蛋白质的结构进行预测或者功能鉴定需要耗费生物学家很长时间的工作,知道了一个蛋白质表示序列 ,如何利用少有的有标记样本以及大量的蛋白质序列来预测蛋白质的结构, 而半监督学习技术则是 为了解决这类问题而设计的, 这使得半监督学习在这个问题上被广泛研究。 比如 Weston 等人 28利用聚类核方法对蛋白质的序列进行半监督分类; Shin 和 Tsuda1利用基于图的半监督学习算法对蛋白质的功能进行预测。 5.结束语 本文 从 半监督学习的 发展历史、 经典 算法、理论分析和实际 应用四个方面 对 近年来半监督学习方面的研究工作进行了简单的介绍。由于
44、各方面的原因,半监督学习起步较晚 ,目前的研究还不成熟。 在应用方面,半监督学习 技术 存在很多需要解决的问题 , 对半监督学习技术的研究 不仅 需要关注 如何半监督学习综述 利用未标记样本提高学习 结果的准确率 ,而且更 需要关注 的是 如何 解决“大量”的未标记样本的计算代价问题,目前很多的算法只能对于很小的数据集奏效,而对于具有大量的 未标记样本的实际问题计算开销过大 。 各个算法本身也存在着很多问题,如生成式模型中 利用 EM 算法的局部解的问题 。 如果半监督学习算法的假设与实际问题不一致,那引入未标记样本也许对学习的性能会有降低 ,如何更好地为实际问题选择适合的半监督学习算法也是很
45、重要的课题, Chapelle 等人 1做出了一些尝试, 邀请了一些半监督学习算法的提出者让他们利用他们的算法对一系列的数据集做实验,并对结果进 行了分析 。 在理论分析方面,对于 未标记样本对学习性能的影响的研究还不够深入,对半监督学习的理论研究还很少 ,已有的研究也是建立在很强的假设基础上的,然而对于一些实际的问题,可能并不满足这些假设,但是半监督学习算法依然奏效,这需要研究人员给出 对半监督学习 的更一般的情况进行分析研究 。 6.感谢 感谢 XX 老师对我的指导! 感谢 XX 对我 的 细心 解答! 感谢 XX 其他成员对我的帮助! References: 1 O. Chapelle,
46、 B. Schlkopf and A. Zien. Semi-Supervised Learning. Cambridge, MA:The MIT Press, London, England, 2006 2 H. J. Scudder. Probability of error of some adaptive pattern-recognition machines. IEEE Transactions on Information Theory, 11:363371, 1965 3 S. C. Fralick. Learning to recognize patterns without
47、 a teacher. IEEE Transactions on Information Theory, 13:5764, 1967 4 A. K. Agrawala. Learning with a probabilistic teacher. IEEE Transactions on Information Theory, 16:373379, 1970 5 D. J. Miller and H. S. Uyar. A mixture of experts classifier with learning based on both labelled and unlabelled data. In: M. Mozer, M. I. Jordan, T.