1、一种基于语义空间谱聚类的自动图像标注方法郭玉堂 1,2,韩昌刚 21合肥师范学院计算机科学与技术系,合肥 2306012安徽大学计算机科学与技术学院,合肥 230039摘 要 : 由于“语义鸿沟” 的存在,低层特征相同或相似的图像,其语义有可能完全不同。如何挖掘图像的高层语义与低层特征之间的内在联系是当前图像标注领域研究的难点之一。在详细分析现有的图像标注方法优缺点的基础上,提出了一种基于语义一致性的谱聚类图像标注方法。该方法首先在语义 空间内, 对训练图像先按语义 聚类,使得语义相同或相近的图像处于同一类中,再对每个 语义类按区域特征聚类,把相似区域聚类到同一个块中,然后运用多伯努利模型求出
2、语义类中每个块与语义间的联合概率分布,利用该联合概率分布模型为未标注图像进行标注。实验结 果表明所提出的方法明 显提高了标注准确度。能有效地建立图像的低层特征与语义特征间的一致性。关键词: 图像标注 K-调和均 值 图谱聚类 语义鸿 沟Automatic Image Annotation Using Semantic Subspace graph spectral clustering AlgorithnGuo Yu-tang1 , Han Chang-gang21Department of Computer Science and Technology in Hefei Normal Col
3、lege, Hefei 230061,China2School of Computer Science and Technology in Anhui University, Hefei 230039,CAbstract: Due to existing the semantic gap, images with the same or similar low level features are possibly totally different on semantic level. How to find the underlying relationship between the h
4、igh-level semantic and low level features is one of the difficult problems for image annotation. In this paper, a new image annotation method based on graph spectral clustering with the consistency of semantics is proposed with detailed analysis on the advantages and disadvantages of the existed ima
5、ge annotation methods. This method firstly cluster image into several semantic classes by semantic similarity measurement in the semantic subspace. Within each semantic class, images are re-clustered with visual features of.region Then, the joint probability distribution of blobs and words was model
6、ed by using Multiple-Bernoulli Relevance Model. We can annotate a unannotated image by using the joint distribution. Experimental results show the the effectiveness of the proposed approach in terms of quality of the image annotation, the consistency of high-level semantics and low level features is
7、 efficiently achieved.Key Words: image annotation, K-Harmonic Means, graph spectral clustering, semantic gap1 引言自动图像标注指的是指借助计算机视觉、机器学习与模式识别等多学科技术,从一组已标注好的图像集合中学习图像特征与文本标注两种模基 金项 目:安徽省自然科学基金项目(11040606M134)、安徽省高校自然科学基金重点项目(KJ2009A150)态间的相关性,为未标注的图像推理出最为可能的标注或关键字。一旦图像被成功标注,图像检索问题就可以转化就可以用这样一组关键词来进行,当前
8、技术已相当成熟的文本检索方法就可以用于图像检索 1中。因此,图像语义标注得到了国内外相关领域的研究人员的广泛重视。目前,国内外已经有许多学者提出了各种不同的方法,并取得了相当多的成果。如共现模型 2、翻译模型 3-4、交叉媒体相关模型 5和多伯努利相关模型 6等。聚类分析是机器学习领域中的一个主要分支,是人们认识和探索事物之间内在联系的有效手段。近几年来,基于聚类分析的自动图像标标注技术运应而生,并取得了可喜的效果。在参考文献7-8中,聚类用于一组训练图像的低层特征,利用统计学方法获得低层特征与标注词间的一组映射。用获得的映射规则标注图像。这些方法都基于一种假设:视觉特征相同或相似的图像,其语
9、义也应相同相似。由于语义鸿沟的存在,实际情况并非如此,那些有着相似的视觉特征的图像它们的语义并不相同,甚至相差很远。如“天空”与“大海”是不同的语义,但它们的视觉特征却很相似。如何挖掘图像的高层语义与低层特征之间的内在联系是当前图像标注领域中研究难点之一。本文提出基于语义子空间谱聚类的图像自动标注方法。为了建立图像的低层视觉特征与标注文本特征间的相关性,在训练集上分别提取图像的低层视觉特征和语义特征。在语义子空间内,以图像标注词作为特征向量,利用调和均值谱聚类算法对图像进行聚类,形成若干个语义类。用每个类的中心词作为该类的标签,再在图像空间内对每个语义类中的图像分割成区域,提取每分割后的每区域
10、的低层特征,根据区域的低层特征的相似关系,再次利用谱聚类算法把同一语义类中的相似区域聚类到同一个块中,形成若干个块。然后运用多伯努利模型求出语义类中每个块与主题词的联合概率分布,通过两次聚类有效地建立图像的低层特征与语义特征间的一致性。这样,我们就在图像语义与低层特征之间架建了一座桥梁。利用该联合概率分布我们可以为未标注图像进行自动标注。2基于语义子空间谱聚类的图像自动标注2.1 基于 K-调和均值谱聚类如果把一幅图像看作一个文档,图像的标注词看作文档的关键词,那么我们对图像的标注词为特征进行聚类,就采用文本聚类方法对图像进行聚类了。目前流行的聚类方法主要有以K-Means为代表的基于划分的方
11、法和谱聚类方法等。谱聚类方法是基于图理论,根据数据间的相似性进行聚类,由于与数据点的维数无关,只与数据点的个数有关,因此适用于非测度空间。它得到广泛关注 9。但传统的谱聚类算法对初始中心选择的比较敏感,使得其运行结果不稳定,且易于陷入局部极小点。同时,文本聚类问题本身也有其特殊性,文本向量通常为稀疏向量,含有较多的0,这也为聚类中心的选择带来困难。为此,我们通过引入K-调和均值,改善谱聚类算法的性能。K-调和均值(K-Harmonic Means,KHM)算法 10是一种基于中心的聚类算法,该算法通过计算数据点到聚类中心距离的调和平均来构造其性能函数。算法表述如下:算法1:基于 K-调和均值谱
12、聚类算法输入:n个数据点 ,聚类数目k),(21nxX输出:数据点集的类别Step 1: 构造相似矩阵 ,其中RA,)2|exp(jiija,ij。其中 是参数. 0Step 2: 构造Laplacian 矩阵 。其2/1/DL中 是对角矩阵,DnjiiaStep 3: 计算 的前k个最大的特征值所对应的特征向量 ,生成矩阵ke21,;nRZStep 4: 将矩阵 的行向量转变为单位向量,得到矩阵 。jiiZY2/1)/(Step 5: 采用KHM算法,把矩阵 的每行聚成k类;由于KHM算法用数据点与所有聚类中心的距离的调和平均替代了数据点与聚类中心的最小距离,克服了对初始值敏感的问题。2.2
13、 基于语义子空间的图像聚类设 是用于标注图像的关键词,.21mtL词汇表,m是词汇表的大小,设是训练图像集,),(),.(),nwIIwT是图像 的一组标注词。如果把图像ii看作一个文档,则 可视为文档的关键词。对Ii每个图像 ,我们构造其关键词的矢量Ii。如果词汇表中第k个关键,.21imixX词 ,则 。否则 。由此我们ikt0ikx可得到训练图像集中图像的标注词特征向量:(1) TnX.21两特征向量 , 之间的距离定义为ij,利用余弦距离计算 的),(jiXd),(jiXd值。在文本空间内,以图像标注词向量 作为特征,利用K-调和均值谱聚类算法对进行聚类,形成n个语义类 。用每个类的中
14、),21(niC心词作为该类的语义(类标签) ,21iliiwL2.3 图像低层特征与语义映射关系在每个语义类中,我们把图像分割成区域,提取分割后的区域的低层特征(包括形状、空间位置、颜色和纹理等)用特征矢量 表示。 采ff用24维矢量表示。根据区域的低层特征的相似关系,再次利用K-调和均值谱聚类算法把同一语义类中的相似区域聚类到同一个块(blob)中,形成K个块。通过优化块的个数K,使得每),21(kib块内尽可能集中,块与块间距尽可能远离。为了确定最优K值,通过设置不同的K进行多次聚类,对不同的K值,计算各块之间的距离和每个块内距),(intjierXd)(intiraXd根据Davies
15、-Bouldin指数 11,式(2):(2) ),(max1intitjerrkijd取得最小值时的K应为最优的K值,也即:(3) ),(ax1inrgintitjerakjiXd从而,在每个语义类内,我们获得了k个块。这些块继承了所在类的语义 。iL通过两次聚类,训练图像集 被分割成若干T个语义类 ,每个语义类用可用块),21(niC的中心特征和该类的关键词表示: ,iliiwL ;21ki Lb(4) ,21iliii 在一个语义类中,块 与关键词 的i ijLw联合概率分布通过下式求得: )(|,(),( iiijij Cpbwpbp(5)|),| iiiij式中 是类 的先验概率,)(
16、iCpi表示类 中关键词 的条件概率,,|jbwiijw根据多伯努利模型可得:(6)|)(),|(,iijCiij Npji上式中 是平衡系数;如果类 有标注词j, 取值为1,否则为0。 表示标ijwijC,)(iw注词 在类 中出现的次数, 表示类 中|ii图像个数。可能通过下式计算得到:)|(ibp(7)kliib1|其中 表示块 中区域的个数。算法描|ii述如下:算法2:区域块与标注词语义映射算法输入:训练图像集 ;),(.,)(21nwIIT标注词词汇表 ;mtL输出:区域块与语义词的联合概率表 。),(ijbpStep 1: 对每一训练集中图像 ,提取其颜色、TI纹理、形状等低层特征
17、,并组成特征向量。根据公式(1)iqii yy),.(21提取标注词特征向量 LStep 2: 以标注词特征向量 为特征,利用K-调和均值谱聚类算法对图像进行聚类,形成n个语义类 。并计算每个类),(niC的中心词作为该类的语义 ,21ilii wLStep 3: 对每一图像 ,运用分割算法进iI)(行区域分割,提取分割后的每区域的低层特征(包括形状、空间位置、颜色和纹理等)用特征矢量f 表示;Step 4: 根据区域的低层特征的相似关系,再次利用K-调和均值谱聚类算法把同一语义类中的相似区域聚类到同一个块中,形成K个语义块 。 ),21(kibStep 5: 利用公式(5) 。计算块 与词
18、的联合ibjw概率 并保存。ijwp2.4 图像标注过程利用公式(5)我们可以为未标注图像进行自动标注。对输入的待标注图像 ,首先进行分割,qI提取各区域特征 ,对每一个,21mqrI确定它所在块 :),2(ir Tbj(8),(expargij db然后,计算词汇表中每一个标注词 对Lw图像 的概率:qI(9)mi qiqiqTIrITIw1),|(*),|(),|(其中:(10)jqjiqiqi IraeIrpIr1)()|(),|(表示区域 像素的个数。)(iaei(11)(,),|(),|( jqjqi bpwTIbpTIrwp输出前 N 个概率最大的词汇作为 I 的最终标注结果。算法
19、描述如下:算法3:图像标注算法输入:区域块与主题词的联合概率表 ;),(ijbwp待标注图像 ;qI输出:前N个概率最大的词 。Step 1: 对输入的待标注图像 ,首先进行分割,qI提取各区域特征 ,21mrStep 2: 利用公式(8)对每一个确定它所在块),2(ir jbStep 3: 利用公式(9)计算每个标注词 对Lw图像 的概率qI),|(TIpqStep 4: 输出前N个概率最大的词 。3 实验结果与分析为了便于进行比较,我们采用Duygulu等人的Corel数据集作为实验数据,这是由于近年来在该数据集上公布的、可供参考的实验成果最为全面。实验中我们仍然使用平均查准率(avera
20、ge precision)与平均查全率( average recall)作为图像标注的性能指标。我们根据图像的标注词特征向量,采用利用K-调和均值谱聚类算法对每组图像进行聚类,形成87个语义类。用每个类的中心词作为该类的语义(类标签) 。图(1)是语义类实例(a) Jet plane sky (b) cloud sky sun图 1 语义类Fig.1 Examples of semantic classes在每一个语义类,利用图像分割方法 12把每幅图像分割成2-10个区域并提取每个区域的形状、空间位置、颜色和纹理等24维区域特征向量。根据区域的低层特征的相似关系,再次调用K-调和均值谱聚类算
21、法把同一语义类中的相似区域聚类到同一个块中,形成K个语义块。实验中K取4-5效果较好,这和式(3)计算结果一致。这样,每一组Corel图像集共形成了369个语义块。然后计算每个语义块与标注词的联合概率。对待标注图像 ,首先进行分割,形成2-10qI区域,同样提取每个区域的形状、空间位置、颜色和纹理等区域特征向量。计算每个区域与语义块的相似度,采用公式(10)计算图像与词汇表中的每个标注的联合概率,输出前5个概率最大的词汇作为I 的最终标注结果。在Corel数据集上,我们把当今其它优秀算法的性能指标作为基准,比较了本文提出的基于谱聚类的图像自动标注系统的标注性能。Avg-precisionAvg
22、-recall00.050.10.150.20.250.30.350.4 CMRMMBRMProposed algorithmTM图 2 Corel 数据集上不同标注系统的性能比较Fig. 2 Performance comparison with different annotation on Corel data set与其它基于聚类的图像标注方法相比较,本文提出的方法无论是平均查准率,还是平均查全率都得到改善。我们从图(2)中可以看出,本文提出的方法在Corel 数据集上超过了 TM、CMRM和MBRM的性能。4 小结本文提出了一种简单、有效的图像自动标注方法。为了建立图像的低层特征与语
23、义特征间的相关性。被提算法首先在语义子空间内,对训练图像先按语义聚类,使得语义相同或相近和图像处于同一语义类中,再对每个语义类按区域特征聚类,使得相似区域聚类到同一个块中。通过这两次聚类有效地建立图像的低层特征与语义特征间的一致性。然后利用多伯努利模型求出区域块与语义词的联合概率分布,在图像语义与低层特征之间架建了一座桥梁。有效缩短了语义鸿沟。在Corel数据集上,进行实验比较,结果表明所提出的方法较好地提高了图像标注准确度。参考文献1 Liu Y,Zhang D S,Lu G J,et al. A survery of content-based image retrieval with h
24、igh-level semanticsJ.Pattern Recognition. 2007, 40(1): 262-2822 Mori Y,Takahashi H,Oka R. Image-to-word transformation based on dividing and vector quantizing images with wordsOL. http:/citeseer.ist. psu.edu/368129.html3 Duygulu P,Barnard K,de Freitas J F G, et al. Object recognition as machine tran
25、slation:learning a lexicon for a fixed image vocabularyM. Leture Noyes in Computer Science. Heidelberg: Springer. 2002, 23(53):97-1124 Barnard K, Duygulu P, Forsyth D,et al. Mathing words and picturesJ. Journal of Machine Learning Research.2003,3(2):1107-11355 Jeon J,Lavrenko V,Mnmatha R. Automatic
26、image annotation and retrieval using cross-media relevance modelsC. Proceedings. of the 26th Annual Intelnational ACM SIGIR Conference on Research and Development in information Retrieval,Toronto.2003:119-1266 Feng S L, Manmatha R, Lavrenko V. Multiple Bernoulli relevance models for image and video
27、annotationC. Proc. Of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Washington D C, 2004:1002-10097 Stan D, Sethi I K. Mapping low-level image features to semantic conceptsC. Proceedings of the Storage and Retrieval for Media Databases. 2001:172-179.8 Jin W, Shi R, Chu
28、a T S. A semi-nave bayesian method incorporating clustering with pair-wise constraints for auto image annotationC. Proceedings of the ACM Multimedia. 2004.9 Fowlkes C,Belongie S,Chung F,et al. Spectral grouping using the nystrom methodJ. IEEE Transactions on Pattern Analysis and Machine Intelligence
29、. 2007,26(2):217-225.10 Bin Zhang,Meichun Hsu,Umesh Dayal. K-Harmonci Means-A spatial clustering algorithm with boostingC.Proceddings of the First International Workshop On Temporal, Spatial, and Spatio-Temporal Data Mining- Revised Papers, London, UK: Springer- Verlag, Sep2000:31-45.11 Kullback S,Leibler R A.On information and sufficiencyJ.The Annals of Mathematical Statistics. 1951,22:79-8612 Shi J B, Malik J. Normalized cuts and image segmentationJ. IEEE Transactions on Pattern Analysis and Machine Intelligence.2000, 22(8):888-905