1、 基于日志的协同图像自动标注重庆大学硕士学位论文(学术学位)学生姓名:李振华 指导教师:尚赵伟 教授专 业:计算机应用技术学科门类:工学重庆大学计算机学院二 O一四年四月Log-based Collaborative Automatic Image Annotation A Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for theMasters Degree of EngineeringByLi ZhenhuaSupervised by Prof. Shang Zhaowe
2、iSpecialty:Computer Application TechnologyCollege of Computer of Chongqing University,Chongqing, China April, 2014重庆大学硕士学位论文 中文摘要摘 要近年来,科学技术依然保持着快速发展的劲头,其中互联网技术和多媒体技术的发展尤为突出,各种高清多媒体数码设备也非常普及,因此产生海量图像,如何有效的处理爆炸式增长的图像,如何在海量图像中快速检索到目标图像已成为一个热点问题,自动图像标注技术能提高检索效率,因此受到人们的重视。主要研究内容如下:首先,本文针对词袋模型在图像分类和识别时,缺
3、少局部视觉特征间空间位置关系的问题,提出利用基于空间位置的视觉词组法,即挖掘出那些空间位置相近且经常一起出现的视觉词汇,对原始视觉词典进行扩充,进而弥补词袋模型的这一不足。然而在用词袋模型表示图像时,它依然存在着局部视觉特征无序的问题,因此本文提出基于词袋的空间金字塔模型,利用空间金字塔模型在图像空间而非特征空间对图像进行层次划分,进而对图像进行基于视觉词典的表示,部分的缓解了特征无序问题。其次,本文在分析诸多标注模型的基础上,结合用户反馈日志与协同的思想提出基于日志的协同自动图像标注方法。首先根据用户反馈的日志信息,采用增量关联规则处理图像间、图像与标注词间的关系,去除其中的噪声,再利用协同
4、滤波思想扩展图像标注词数量,然后利用 WordNet语义网,构建标注词库各个元素间语义关系,进一步完善各个图像的标注词间关系,最后在混合概率模型框架下,利用基于袋词的空间金字塔的方法计算图像底层特征,并结合标注词间关系来提高图像的标注性能。最后,本文将标注系统中各功能模块和算法进行整合,并编程实现一个自动图像标注系统。该系统不仅能够完成图像检索,而且还可以对用户反馈日志进行收集处理以及实现后续的系统标注算法。关键词:自动图像标注,词袋模型,空间金字塔模型,用户反馈日志,混合概率模型I重庆大学硕士学位论文 英文摘要ABSTRACT In recent years, science technol
5、ogy has maintained the momentum of rapiddevelopment, which the development of the Internet and multimedia technology isparticularly prominent, and a variety of high-definition digital multimedia devices arealso very popular, then produce massive image, how to effectively deal with theexplosive growt
6、h image and how to quickly retrieve the target image in the mass imagehave become a hot issue, Automatic image annotation technology can improve retrievalefficiency therefore its attention has been paid. The main research contents are asfollows.First, for the problem that the BOW model lacks the spa
7、tial relationship betweenlocal visual features when we use it in the image classification and identification, thispaper proposes bag-of-phrases to expansion the original visual dictionary, it means thesystem dig out those visual vocabulary which often occurs together in the close spatiallocation, th
8、en make up this deficiency. However, when we use BOW model to representan image, it still exists the problem of local visual features disorder, so this paperproposes based on the BOWs Spatial pyramid model, it uses Spatial pyramid model tohierarchical dividing the image in the image space instead of
9、 feature space, and thenrepresent the image based on visual dictionary, in this way, it Alleviate the problem offeature disorder by partial.Secondly, on the basis of analysis many annotation model and also combined withuser feedback logs and collaborative idea, this paper proposes Log-based collabor
10、ativeautomatic image annotation algorithm. we use incremental association rule to mine logmessages according to its characteristics to remove the noisy data and expand theamount of image annotation words with the thought of collaborative filtering. Then, useWordNet to constructing semantic relations
11、hips between the various annotationthesaurus for further improve the relationship between each images annotation.Finally, under the framework of HPM, we use the based on the BOWs Spatial pyramidmodel to compute the image underlying feature, and then combining the relationshipbetween the annotation t
12、o improve the performance of image annotation.Finally, this paper integrates the functional modules and algorithms of annotationsystem, and then programming an automatic image annotation system. This system cannot only complete the image retrieval, but also collect and treat user feedback log andII重
13、庆大学硕士学位论文 英文摘要achieve subsequent annotation algorithm.Keywords: Automatic Image Annotation, BOW, Spatial Pyramid Model, UserFeedback Logs, HPMIII重庆大学硕士学位论文 目 录目 录中文摘要I英文摘要 II1绪论. 11.1课题研究的目的与意义. 11.1.1研究的目的与意义 11.1.2国内外现状 41.2本文主要的研究内容和组织结构 . 91.2.1本文主要的研究内容 91.2.2本文组织结构 92相关原理与背景知识介绍 . 112.1图像的底层视觉
14、特征. 112.1.1图像分割 112.1.2特征提取 132.1.3特征量化 152.2相似性度量. 152.3关联规则挖掘. 162.4自动图像标注数据集与性能评价机制 . 172.4.1图像数据集 172.4.2自动图像标注性能评价机制 182.5本章小结. 183基于词袋的空间金字塔模型 203.1词袋模型. 203.1.1词袋模型 203.1.2 SIFT特征提取 213.1.3层次聚类与特征量化 233.1.4视觉词典的更新 243.2基于词袋的空间金字塔模型. 253.2.1空间金字塔模型 253.2.2基于词袋空间金子塔模型的图像分类 263.3实验及结果分析. 273.4本章
15、小结. 30IV重庆大学硕士学位论文 目 录4基于反馈日志的图像自动标注方法研究 . 314.1混合概率模型框架. 314.1.1混合概率模型 314.1.2图像与标注词的相关度计算 324.1.3标注词间的相关度计算 334.2基于日志的增量关联挖掘. 334.2.1日志收集 334.2.2增量关联规则挖掘 344.2.3基于 Wordnet的语义相似性 364.2.4加权 LogV矩阵与 P(wt |wj)的计算. 374.2.5本文图像与标注词的相关度计算 384.3实验及结果分析. 384.4本章小结. 415图像自动标注系统 . 425.1系统总体框架设计. 425.2系统功能模块设
16、计. 435.3系统展示. 455.4本章小结. 486总结与展望 . 496.1总结. 496.2展望. 49致 谢. 51参考文献. 52录. 57附A.作者在攻读硕士学位期间发 表的论文目录 57B.作者在攻读硕士学位期间参与的科研 项目 57V重庆大学硕士学位论文 1 绪论1 绪论1.1课题研究的目的与意义1.1.1研究的目的与意义近年来,科学技术依然保持着快速发展的劲头,其中互联网技术和多媒体技术的发展尤为突出。各种高清多媒体数码设备及大容量存储设备已经在人们的生活中变得十分普及,给人们的生活带来很大的便利。与此同时产生了海量多媒体数据。如文本、图像、视频等,而且这些多媒体数据还在呈
17、指数级的爆炸式增长。由于图像、视频等比传统的文本包含更多的信息,更容易被人们接受,再加上图像比较容易存储,因此图像在多媒体中的所占的比例还是很大。比如,著名的社交网站 Facebook1上用户 上传图像总数已经达到 100 多亿张,而且每天就有约二千万张图像被用户上传,进而出现了一些有趣的现象,由于存储的图像太多,过一段时间之后人们往往会花费大量时间来查找自己之前存储的图像,甚至找不到自己之前存储的图像。因此,如何组织这些图像数据,并让人们在这些数据中不迷失,且能方便、准确的检索到自己需要的图像已经成为一个目前亟待解决的问题。自 1970年开始,图像检索技术渐渐成为人们研究的一个热点。时至今日
18、图像检索系统可分为三类。第一类是早期基于文本的图像检索( Text-based ImageRetrieval,TBIR )2 ,其基本流程如图 1.1所示:图像与标注词图像数据库用户人工标注关键字数据库关键字匹配 检索结果图 1.1基于文本的图像检索Fig.1.1 Text-based Image Retrieval即通过人工来对数据库中的图像添加一些自以为能够描述该幅图像的文本标注词,将图像检索的过程转化为文本检索的过程。也就是说第一步先对数据库中的图像进行人工标注,并将图像与人工标注词间的关系存储在数据库中,然后手工将关键字输入系统,系统就在图词库中查寻与此关键字匹配或相似的标注词,1重庆
19、大学硕士学位论文 1 绪论最后系统将与得到的匹配或相似的标注词对应的图像按照一定的次序显示出来,供用户查找。总的来说 TBIR有两大优点:首先由于标 注词是人工 进行的添加,所以标注词对图 像描述的准确性很高;其次文本检 索相比图像 检索更为成熟。因此 TBIR是目前使用频率较高的图像检索技术,如 baidu3、google4等都采用的 TBIR。然而 TBIR也存在着一些缺点:图像还在呈指数 级的爆炸式增 长,海量的图像需要大量的人力,因此人工添加标注词在海量图像面前显得不切实际;一幅图像所描述的信息量非常丰富,拥有不一样 背景和经历的人对相同图像的理解也并一致,有时同一人在不同环境下对相同
20、图像的理解也不一样,因此人工添加的标注词受主观和客观影响很大;正由于图像所含信息的丰富性,有时文字也并不能完全的描述一幅 图像的所有信息。因此,基于内容的图像检索(Content-based Image Retrieval,CBIR)5 被发现。它与 TBIR全然不同,其检索过程主要依赖图 像的纹理、颜色、形状等特征。用户在检索时,要先提供一幅具有代表性的示例图像或者与自己检索目标图像类似的图像草图提交给系统,而非图像的文本描述。系统对提交的图像进行特征提取,然后通过相似度算法对提交图像的底层特征向量与数据库中所有的图像底层特征向量进行匹配计算,最后按图像相似度的降序将结果依次显示。上述流程如
21、图 1.2所示。由此可见,基于内容的图像检索有以下优点:图像检索的依据是其底层特征,而非描述图像的关 键词;图像检索过 程中涉及图 像底层特征的相似度性度量算法,而非一般数据 库的度量算法;图像检索过 程不涉及标 注词,底层特征与相似度 计算都由计算机自动完成,因此不需要大量人工参与,减少工作量。然而,基于内容的图像检索并不完美,它其实就是以图找图,目前这种检索方式在著名的搜索引擎如 baidu、google等都已存在,但是效果不尽如人意,人们大多时候似乎依然采用文本这种更加直接的方式进行检索。同时,图像的底层特征往往是整幅图像的代表,而人们在进行图像检索时,大多数时候关注的并不是整幅图像,而
22、是图像概念层次上的内容,即图像的语义信息。所以两幅图像通过图像底层特征的相似度匹配算法计算的结果也许十分相似,但是实际却大相径庭。这就是所谓的“语义鸿沟” (Semantic gap)6,图像的纹理、颜色、形状等底层特征与天空、人物等高层语义之间存在着差距。比如2重庆大学硕士学位论文 1 绪论描述大海的一幅图像,它的高层语义可描述为“蓝色、广阔” ,然而根据高层语义得到的相似图像,其底层特征可能相差很大。用户示例图 草图特征提取颜色、纹理、形状等图像数据库特征向量特征向量特征向量检索结果特征提取颜色、纹理、形状等特征数据库图 1.2基于内容的图像检索Fig.1.2 Content-based
23、Image Retrieval由于“语义鸿 沟” 的客观存在,因此提出基于 语义的 图像检索(Semantic-BaseImage Retrieval,SBIR)7,它是建立在语义数据 库的基础上,系统需要提交的不再是整幅图像或者目标图像的草图,而是人们所熟悉的文本信息,然后系统对用户提交的文本信息进行语义提取,并将提取的结果与语义数据库中的数据进行语义匹配,最后得到对应匹配的图像。SBIR和 TBIR检索时,提交的均是关键字信息,但是其内部过程却截然不同。表 1.1是,它与 CBIR和 TBIR 之间的对比。3重庆大学硕士学位论文 1 绪论表 1.1 SBIR 、TBIR 和 CBIR之间的
24、对比Table 1.1 Comparison among SBIR, TBIR and CBIRSBIR90年代末文本CBIR80年代初示例图或草图特征提取特征库TBIR70年代文本起始时间检索内容采用方法采用数据库匹配方式检索速度结果准确度语义提取语义库语义人工标注关键字文本库文本快特征慢 较快高 较高 低由表 1.1可知,虽然检索速度相对于 CBIR、TBIR 有些慢,但是检索结果的准确度却比前两者都高。随着计算机硬件的不断发展,基于语义的图像检索的速度也在不断的提高,因此它将成为以后图像检索的主要方式。由检索过程可知,基于语义的图像检索是一个包含多门知识的学科,如语言学、计算机视觉、图形
25、学、统计学、机器学习等,其中语义数据库是检索的基础。早期,语义数据库的构建都是由人工完成,随着图像日益增多,人工进行图像的语义标注的工作量变得十分巨大,而且人工添加的语义标注词受主观和客观影响也很大,拥有不一样背景和经历的人对相同图像的理解也并一致,有时同一人在不同环境下理解也不一样,人工添加标注词并不十分稳定。因此自动图像标注技术(Automatic Image Annotation,AIA )开始受到人们的重视,自动图像标注技术利用计算机技术及算法,对图像进行分析,进行自动生成一些标注词,并且使得的标注词能够准确描述该幅图像。采用自动图像标注技术不仅减少了海量图像人工标注的工作量,而且减弱
26、了标注词受人们主观和客观影响,增加标注词的准确率。如何找到一个高效、精确的自动图像标注成为研究的热点。1.1.2国内外现状自动图像标注是指根据图像的自然视觉信息,由计算机系统通过一定的算法和步骤为图像添加一些相应描述的语义信息,即标注词。在现实世界中,自动图像标注不但减少了人工标注图像的工作量,而且减弱了人工在标注图像时所受到人为主观意识或客观环境的影响。它在提高图像标注的质量和速度的同时,也使4重庆大学硕士学位论文 1 绪论得海量图像的检索成为可能。如图 1.3所示,为自动图像标注的一个例子,标注系统会自动为图像增加“ 晚霞 ”、“夕阳”。图 1.3自动图像标注示例Fig.1.3 Autom
27、atic image annotation example由于它对图像检索有着重大影响,因此引起了人们广泛的关注。近年来相应的研究者也随之增多,新的标注算法和研究成果不断的被广大学者提出。一些经典的自动图像标注列举如下:文献810提出一种机器翻 译模型(Translation Model, TM)8,它把自动图像标注问题看成机器翻译的过程,也就是将图像底层视觉特征翻译成文本信息的过程。在这个过程中,系统先采用图像分割算法对数据库中的图像进行分割,分割成若干个区域后,再采用聚类算法对这若干个区域进行聚类,并将得到的相似区域看成一个“ blob”,因此图像数据库中的所有图像都可以由若干个“ blo
28、b”组成的视觉向量来表示。最后,通过机器翻译模型学习每一个“blob ”与文本之间的一一对应关系,通过这种方式,最终实现图像标注。然而机器翻译模型存在一个问题,由于它对图像的分割,使得它更容易受到局部图像特征的影响,进而在学习和训练的过程中,词频高的标注词比词频低的标注词更容易出现在最终结果中。文献11于 2003年提出了一种跨媒体相关模型( Cross Media Relevance,CMRM),它与 TM有些 类似,都是通过图像底层 特征与相关文本之间的对应关系来实现对图像的自动标注。不同的是跨媒体相关模型通过条件概率两者之间的对应关系。除此之外,在机器翻译模型中,图像底层视觉特征与文本之
29、间是一一对应的关系,而在跨媒体相关模型中,图像底层视觉特征与文本之间是多对多的关系。无论是机器翻译模型还是跨媒体相关模型都存在一个问题,在用“blob ”视觉词汇表示图像时,会丢失一些有用的图像信息。在此基础上,文献12于同年提出了连续相关模型(Continuous-Related Mold, CRM),在 图像连续特征的基础上相关5重庆大学硕士学位论文 1 绪论模型的标注方法,它先将图像分割区域的连续特征向量组合成图像特征,然后结合区域间的关系进行估计,并不像跨媒体相关模型一样依赖于聚类。尽管 CRM提高了标注准确率,但是其运算复杂度却很高。为了获取更好的标注性能,文献 13于 2004提出
30、一种多伯努利相关模型(Multiple-Bernoulli Relevance Model, MBRM),该 模型建立在跨媒体相关模型和连续相关模型基础上,并对它们进行了改进。首先,针对分割算法对数据库中图像进行处理时计算复杂度高的问题,多伯努利相关模型采用规则网格划分的方法,对数据库中的图像进行规则网格划分,使得分割的结果更准确,且大大降低运算的复杂程度。其次,它不采用多项式分布而是采用多伯努利来计算标注词的分布。下式 1-1 为 MBRM 的标注公式:nP(r,w) P (J) PG(ga | J) Pv(v | J) (1 Pv(v | J) A vw(1.1)TJT a1 vw在相关模
31、型中,图像自动标注是通过对底层特征与标注词之间的关系进行学习、建模的方式实现的,但文献14-16提出基于 隐变量的主题模型,利用隐变量在图像底层视觉特征和标注词之间建立关系实现标注。其中,隐变量起到一个中间变量的作用。潜在语义分析模型(Latent Semantic Analysis, LSA)17最早用在文本检索中,用于检索潜在的语义索引。它首先将存在于文本检索中的关键词和文档之间的关系进行投影,投影到一个基于 SVD分解的 隐形语义空间,然后在这个空间中找到与新检索结果相关性最大的文档,完成文本检索,后来被引入到自动图像标注中。在自动图像标注中,潜在语义分析模型把底层特征和高层语义看作平等
32、的,并将标注词向量和底层特征向量组合起来作为关键词向量用于文本检索,即把图像看作文档。模型提交用于文本检索的关键词后,就通过相似度算法在图像数据库中查找与待标注图像相似度高的图像,然后共享已标注相似图像的标注词,完成最终标注。在此基础上,文献18于 2004年提出概率潜在语义分析模型(Probabilistic Latent Semantic Analysis, PLSA),它的隐性空间是由新引入的 n个不同的隐主题表示的。下式 1-2为其概率计算公式nP(wj | di) P(di) P(wj | zn)P(zn | di)n1(1.2)其中,P(wj|zn)和 P (zn|di)分别是标注
33、词和隐主题的条件概率与文档和隐主题的条件概率,n表示隐主题的数量。P(wj |zn)和 P(zn|di)中参数的计算,一般都是通过 EM19算法迭代得出最优解。文献20-21 提出潜在狄利克雷分析模型( Latent Dirichlet Allocation, LDA),它与 LSA一样,前期用于文本检索,它是一个集合概率模型,相比 连续的数据集狄利克雷分析模型更适合处理离散的数据集。文献22提出一种在视觉模态和文本6重庆大学硕士学位论文 1 绪论模态等多模扩展的基础上,融合多个潜在狄利克雷分析模型(Multi- modalExtension to Mixture of Latent Diri
34、chlet Allocation, MoM- LDA)的方法,它通过联合概率对图像的底层特征和标注词之间进行训练,进而实现自动标注。在此基础上,文献23 于 2010年提出一种基于主题回归多模 LDA模型(Topic- regressionMulti- modal Latent Dirichlet Allocation, tr- mmLDA)的自动图像标注方法,它是先建立图像和图像附近文本信息的潜在狄利克雷分析模型,然后通过线性回归的方法对它们进行连接来完成标注。然而通过图像底层特征与标注词之间的关系进行学习、建模的方式通常比较复杂,而且潜在信息无法准确确定,计算复杂度比较高。基于图的自动图像
35、标注近年来受到很多研究者的关注,解决了实际图像标注中的很多问题。如文献24提出的基于图的自动图像标注,它是一种根据协同的思想,即以拥有相似图像底层特征的图像之间可以共享标注词为依据进行图学习,为图像提供初始标注词。同时由于标注词和标注词之间并非绝对独立的,因此文章又根据标注词语义之间的相关性进行图学习,进而对已有标注结果进行优化。随着 Web图像的日益增多,文献 25提出了一种基于二分 图增强模型的 Web 的自动图像标注方法。标注时,系统在利用原有图像底层特征的基础上,又融入了 Web图像周围的文本描述信息。同时,文章在系统中引入大规模图像数据集,进而突破了标注词词典的限制。文献26提出一种
36、新的基于图的自动图像标注方法,它的主要思想是根据已有的图信息构造一幅新的图像,而新图像的构造是由原图像的底层特征及区域和标注之间的相关度决定的。在此基础上,文献27提出一种改进的图学习的自动图像标注方法,该方法不仅考虑了图像与图像间底层特征的相似度关系及图像标注词与标注词间的语义相似度关系,而且考虑了图像与标注词之间的关系,然后利用流形排序将这三都之间的关系进行传递,从而实现标注。随着互联网的日渐壮大,各种信息都呈现几何式增长,图像信息不也例外。然而,基于图模型的自动图像标注方法通常时、空间复杂度都不低,特别在现实海量图像数据面前,变得更难以实现。因此许多学者开始关注互联网中的自动图像标注。因
37、此文献28 30提出基于搜索的自动图像标注。文献28是最早提出基于搜索的自动图像标注文章之一。AnooSearch模型,它主要依靠协同的思想,而且主要针对的是待标注图像已有准确标注词的,或者说待标注图像标注词个数为非零的图像。该文章提出方法先以待标注图像已有准确标注词为搜索条件,然后在整个互联网图像数据库中找到与待标注图像描述最为相近的一组图像,并对它们进行学习,从而得到待标注图像的准确标注词。由于在实际互联网系统中初始标注词数量为零的图像并不占少数,而 AnooSearch模型要实现对图像的标注必须要提供准确初始标注词,因此该模型在实际应用中没有得到推广。因此文献 29 提出基于搜索的个人图
38、像自动标注方法( Sealable Search-Based Image Annotation,SBIA),该方法主要针对 AnooSearch模型在初始图像标7重庆大学硕士学位论文 1 绪论注词为零而无法标注的情况,利用现代互联网图像数据库为个人的图像添加标注词。在基于搜索的个人图像自动标注方法中,如果图像初始标注数量不为零,则仍然按照 AnooSearch 模型对其进行标注;如果图像初始标注词数量为零,则主要借鉴基于内容的图像检索的思想,即从互联网图像数据库中找到与图像底层特征最为相近的一组图像,然后对它们的已有标注进行学习和统计,最后传递给图像。文献 30提出基于二部 图加强模型的网络图
39、像标注方法( Bipartite graphreinforcement model, BGRM),该方法在计算图像底层视觉特征的基础上还考虑到互联网图像周围大量的文本信息,并对这些信息进行学习,实现互联网图像标注。给定一幅待标注的互联网图像,系统先从待标注图像的周围及附近相关的文本描述信息中提出候选关键词,然后通过数据挖掘和图像检索从图像数据库中得到与待标注图像相关的关键词实现对候选关键词进行补充和完善。根据待标注图像与候选关键词的相关程度,分别对两组候选关键词进行排序,并将两组排好序的候选关键词建模成一个二部图。然后对二部图采用加强迭代算法重新对两组候选关键词排序并合成一组。排序靠前的候选关
40、键词说明与图像的相关度大,即为图像的最终标注。此外,文献31 提出基于核密度估计的多分类器(SMC)标注模型,利用表达能力良好的词袋模型 CPAM对图像视觉内容进行表示。然而基于核密度估计的多分类器和 TM、CMRM、MBRM一样,均从图像的底层 特征推导出其标注,而未考虑到标注与标注间的语义关系。于是周宁 32 提出了一种基于概率的混合概率模型,该模型将标注词集与图像底层特征结合在一起完成图像自动标注。但上述方法均以图像已有的少量标注词为依据进行自动标注,难以全面描述图像所包含的语义。随后研究者们发现在图像标注数据库中,图像与标注词间存在客观内在相互关联关系,如图 1.4所示:图 1.4图词
41、关系转化Fig.1.4 Relationship conversion between the image and annotation8重庆大学硕士学位论文 1 绪论即图像与标注词间的相互转化关系,然后利用协同滤波的思想,也就是说相似内容的图像拥有更多相同的标注词,来扩展图像的标注词,从而在一定程度上克服了图像初始标注词少的问题。随着互联网的发展,对图像的操作变得越发频繁,因此积累了大量的图像操作日志,如图像检索日志。研究者发现用户相关日志数据中蕴含着丰富的信息,有助于提高图像检索和图像标注效率,因此将用户反馈的日志信息作为主要依据用于图像检索和图像标注,从而达到缩小“语义鸿沟” 的目的。然
42、而在所有的相关反馈方法中,反馈日志是由用户操作生成,必不可少会受到主观或客观的影响,因此反馈日志都存在着噪声问题。基于以上内容,本文在混合概率模型的基础之上提出基于日志的协同自动图像标注方法。1.2本文主要的研究内容和组织结构1.2.1本文主要的研究内容本文主要研究的内容可分为以下三部分。首先,研究了图像底层特征处理。针对词袋模型在图像的分类和识别时,存在的问题,提出利用基于空间位置的视觉词组法即挖掘出那些空间位置相近且经常一起出现的视觉词汇,进而对原始视觉词典进行扩充,进而弥补词袋模型的这一不足。然而在表示图像时,词袋模型依然存在着局部视觉特征无序的问题,因此本文提出基于词袋的空间金字塔的方
43、法对图像进行基于视觉词典的表示,部分的缓解了特征无序问题。其次,本文在分析诸多标注模型的基础上,结合用户反馈日志与协同思想提出基于日志的协同自动图像标注方法。首先根据用户反馈的日志信息,采用增量关联规则处理图像间、图像与标注词间的关系,去除其中的噪声,然后利用 WordNet语义网,构建标注词库各个元素间语义关系,进一步完善各个图像的标注词间关系,最后在混合概率框架下,利用基于袋词的空间金字塔的方法计算图像底层特征并结合标注词间关系来提高图像自动标注性能。最后,本文将标注系统中各功能模块和算法进行整合,并使用 Matlab编程实现一个自动图像标注系统。1.2.2本文组织结构整篇文章共分为六个章
44、节,每章节的内容安排如下:第一章主要介绍研究自动图像标注的目的与意义,并总结了图像检索技术的发展历程和自动图像标注的研究现况,列举了一些典型的自动图像标注方法。第二章主要介绍自动图像标注的相关背景知识,如相似性度量、关联规则挖9重庆大学硕士学位论文 1 绪论掘等。第三章主要介绍词袋模型,针对词袋模型存在的问题,对其进行改进,并提出利用基于词袋的空间金字塔模型对图像进行表示。第四章主要介绍了建立在混合概率模型、用户反馈日志及协同思想上的基于日志的自动图像标注。第五章主要介绍了基于日志的图像自动标注模型的系统设计、实现及界面展示。第六章对全文进行了总结,并对下一步的研究工作进行了展望。10重庆大学
45、硕士学位论文 2 相关原理与背景知识介绍2 相关原理与背景知识介绍目前,随着互联网技术的发展及摄像技术和其硬件的先进和普及,图像数量也在呈指数级的爆炸式增长,人工标注图像已变得不太现实,因此自动图像标注技术已成为图像检索中不可或缺的一部分而倍受关注。无论是图像标注还是检索,其处理的主要对象始终都是图像。因此,本章首先介绍对图像的处理,如图像底层特征的提取及表示等;然后主要介绍了自动图像标注模型中涉及到的相关技术,如相似性度量、数据挖掘及在自动图像标注中常用的数据库及评价准则等。2.1图像的底层视觉特征图像的底层特征一般包括形状、颜色、纹理 33 等,目前人们对特征的处理已经比较成熟,其常见的提
46、取方法和表示流程如图 2.1所示:图像 图像分割 特征提取 特征量化图 2.1图像底层特征一般提取流程Fig.2.1 Image visual feature extraction process即第一步都是先对图像采用相应的算法进行分割,然后对图像的形状、颜色等常见特征进行提取,即对其像素值进行压缩处理,最后对连续空间的特征值进行离散,形成量化的特征。2.1.1图像分割图像的底层视觉特征可以用图像的全局特征来表示,即直接对整幅图像的形状、空间关系等进行提取,这种方式能够很好的表现出整幅图像的全局性,但是对于图像的局部信息、区域信息及空间位置关系却无能为力,并且图像全局特征旋转、扭曲性等都较差
47、。因此,如何对图像分割,采用哪种算法开始受到人们的关注和探索。所谓图像分割是把整幅图像根据图像的主题、语义或某种规则进行划分,使得图像划分后的每个部分都是一个相对一致的区域。下面对图像的常用分割算法进行介绍。.固定划分算法固定划分算法是最初的图像分割算法,在对图像进行分割时,不考虑图像的主题及语义等信息,直接按照统一划分规则进行划分。如文献34在 2003年提出,11重庆大学硕士学位论文 2 相关原理与背景知识介绍假设图像中心所描述的总是图像的主要对象,进而将所有图像都按上、中、下三个部分进行划分,显然这种假设局限性很大。文献35于 2004年提出了栅格化的算法进行图像划分,即把所有图像进行等
48、分。.分水岭算法分水岭算法主要建立在形态学的基础上,根据图像的内容找到图像中的分水线。它的主要思路与形态学中的知识很相似,类似找水坝的方式。先将整个地形看作一幅平面图像,然后对它采用栅格化的算法进行划分,找到划分后的每个区域海拔最底点,让水分别从每个区域的海拔最底点流入,水位开始渐渐的升高,水坝的位置便也逐渐的显现出来。将这种思想转移到图像分割上,水坝的位置即为分水线的位置。.聚类算法文献36提出的 K- Means和文献37提出的 C- Means是图像分割时相对较为常见的两种聚类算法。聚类算法的基本思想是先定义图像的底层视觉特征,如纹理、形状等,然后在对应的特征空间对这些特征进行聚类,完成
49、图像分割。例如,K- Means是通过相似性算法 计算图像定义的底层视觉特征间相关度,进而达到分类的目的。当图像的噪声比较小时 K- Means的效果较好,而当图像的噪声比较高时,由于 K- Means 没有考 虑到图像的空间位置关系,该聚类算法的效果就比较差,甚至错误分类。.自动分割算法在自动分割算法中,文献38和39 提出的40N- cut(Normalized Cut )算法是最为广泛使用的一种。多数图像数据库都采用的 N- cut算法对图像进行的预处理,该算法主要借鉴数据结构中图分区的知识实现的图像自动分割。在 N- cut算法中,图的顶点是由待处理图像的像素点组成,像素点与像素点之间的相关度由连接图顶点之间边的权值决定,N- cut算法计算权值 的过程见公式 2.1:|Ii I j|