1、题目编号 5 图像场景分类的关键技术研究Research on Key TechnologiesFor Scene Classification学 生 姓 名专 业学 号指 导 教 师学 院 电子信息工程学院2012 年 06 月图像场景分类的关键技术研究摘 要:图像场景可能由多个对象(比如:草地,马路,建筑物 )所组成。给定一组图像,我们的目标是利用无监督方法发现每一幅图像所包含的对象,然后根据这些对象的分布实现场景的分类。潜在语义分析是由统计文本分析发展而来的产生式模型,它能够发现文档所包含的潜在主题。本文通过研究不同的视觉词汇和潜在主题数目对场景分类性能的影响,我们选择单层 SIFT 特
2、征作为 PLSA 的词汇表。然后在此基础上进行改进,实现多层SIFT 特征,多种特征融合作为词汇表。采用概率潜在语义分析(PLSA)对词汇表进行分析,实现图像中潜在对象的发现;图像被比作成一篇由若干“视觉词包”所组成的文档,图像中的对象则被看成该图像文档所包含的潜在主题。这样,利用 PLSA 就可以发现图像中潜在对象的概率分布。基于对象概率分布的场景分类则由 K-最近邻分类器来完成的。实验表明,结合 PLSA 和 KNN 的分类方法提出的基于多层 SIFT 特征和多种特征融合的 PLSA 模型可获得比单层 SIFT特征更加理想的场景分类效果关键词:概率潜在语义分析(PLSA),场景分类,SIF
3、T 特征,颜色特征,边缘特征,多层 SIFT 特征Research on Key TechnologiesFor Scene ClassificationABSTRACT: Given a set of images of scenes containing multiple categories (e.g. grass, roads, buildings) our objective is to discover these objects in each image in an unsupervised manner, and to use this object distribution
4、 to perform scene classification. We investigate the classification performance under changes in the visual vocabulary and number of latent topics learnt, and develop a novel vocabulary using SIFT descriptors. Then based on this method, we developed vocabulary using multi-level SIFT descriptors in o
5、rder to improve the classification performance. Finally Using a variety of features generate vocabulary, we achieve this discovery using probabilistic Latent Semantic Analysis (PLSA), a generative model from the statistical text literature, here applied to a bag of visual words representation for ea
6、ch time image. The scene classification on the object distribution is carried out by a k-nearest neighbor classifier. In all cases the Scene Classification Based on Multi-level SIFT and Multi-feature for the combination of PLSA followed by (supervised) K-nearest neighbor classification achieves more
7、 superior results.Keywords: PLSA, Scene classification, SIFT characteristic, multi-level SIFT characteristic 目 录第一章 引 言 - 1 -1.1 本文研究目的 - 1 -1.2 本文研究意义 - 2 -1.3 本文研究工作 - 4 -1.4 本文的组织 - 5 -第二章 场景分类的特征 - 6 -2.1 颜色特征提取 - 6 -2.2 SIFT 特征提取 .- 7 -第三章 基于 PLSA 模型的图像场景分类 .- 9 -3.1 PLSA 的原理 - 9 -3.2 PLSA 的优点
8、- 9 -3.3 基于 PLSA 图像场景分类 .- 10 -3.3.1 图像与文本对应关系 - 10 -3.3.2 图像场景分类过程 - 10 -第四章 结论及展望 - 12 -参考文献 - 13 -长春理工大学论文- 1 -第一章 引 言伴随着日益高速的数字化图像,基于内容的图像管理和检索变得越来越重要。将图像语义分类(例如:海洋,山脉,街道)和将图像分解成语义对象(例如:摩托车,天空,飞机)是实现基于内容的图像管理和检索的有效方法,在如今成为一个非常具有挑战行的课题,这一章将描述论文的目的和动机,给出本文的贡献,最后给出本文的组织思路。1.1 本文研究目的论文的目标是,给定一组图像,通过
9、图像中包含的场景或对象来对它们进行分类。图 1.1 表示了几种不同的场景。图 1.1 场景分类示例这里我们想区分多个图像类别,我们的目标就是实现一个图像分类系统,使得该系统具有很好的性能,分类器计算量少,并且较少的人工操作或者不用人工操作,我们不断在效率,监督,和性能上找出一个平衡,让该系统满足有效,高性能,无监督。进一步,随着图像类别的增多,仅仅使用图像一个特征(例如: 形状)来区分它们就变得越来越困难啦。例如:图像的形状特征可能在区分小轿车和飞机上表现的性能非常好,但是它不一定适合于区分马和斑马,我们的目的就是设计出长春理工大学论文- 2 -一个对多类图像进行分类也具有高效性。1.2 本文
10、研究意义随着多媒体图像的迅猛增长,如何快速访问你想找的图像就变得尤为重要。基于内容的图像描述对组织和访问与日俱增的图像变得非常有用,图像的场景分类在很多领域有非常重要的应用:(1)图像检索:图像检索是场景分类的一个最直接应用,通过场景分类,我们可以利用图像搜索引擎比较快速的对世界上所有图像进行搜索,或者对个人计算机上的图像进行搜索。(2)医学应用:现在在医学领域,每天也有很多图像产生,例如 :X 光线图像,脑皮层电图,因此对一生来说提供一个系统让他们更加迅速的访问他们想访问的图像而不必去查询所有的图像。(3)旅游导航:伴随着交通的便利,出游的人与日俱增,代替传统每个省市县的纸质地图,我们拥有存
11、储在移动电话的数字旅游导航地图,通过一幅该地图像来检索该地相关旅游信息。(4)机器人:在计算机视觉领域,如何给机器人提供眼睛是一件非常困难的事,如果能快速图像识别,那么机器人就能快速的代替人自动完成一些工作。自 2000 年至今,虽然许多图像分类方法被提出,但是分类性能对不同的数据库仍然不尽满意,这和对象识别领域一样,是计算机视觉中的一个非常有挑战性的课题。目前我们可以识别一棵树,不管这棵树是远还是近;但是对于同一棵树来说,不同的季节有不同的表现形式(冬天没有叶子,秋天有褐色的叶子,春天有绿色的叶子等),对于一棵树来说我们可以考虑所有情况去识别它,但是对于其他很多对象来说,我们去自动识别它们仍
12、然是一个巨大的挑战,现在让我们去讨论一下在设计一个完善的图像分类系统中要考虑那些方面: 光照的可变性:对于图像分类,一件非常重要的事就是要考虑图像的光照的变化。例如,如下图 1.2(a)不同的光照条件影响下的三幅街道场景所示,尽管三幅图像光照不一样,但是我们能识别出都属于街道场景,同样对 1.2(b)不同光照条件影响下的三幅海洋场景,我们也能进行分类。对我们来说实现一个完善的系统,就不得不考虑不同光照下的对象和场景。长春理工大学论文- 3 -图 1.2 光照的变化 类内部的不一致性:由于同一类别或对象有不同的表现形式,因此识别同一类场景或对象也变得困难,例如:一个海洋的场景,有不同的表现形式:
13、有沙滩的海洋,有悬崖的海洋,或者仅仅只有水的海洋 (如下图1.3),(a) 不同的海洋场景表示出巨大的类内部的不一致性;(b) 不同的鸬鹚图像表现出类内部不一致性。这就意味着我们需要找到一种方法,该方法能概括某一类场景的所有情况。图 1.3 类内部的不一致性问题 类之间的不一致性:和类内部的不一致性一样,另一种更加难于区分的就是类之间的可变性,我们可不想把不同类别中比较相似的图像归为一类。例如:如下图 1.4(a)两幅树林图像(b)可能被两条河流图像混淆 (c)二架大键琴(d)二架钢琴非常的类似;a) ,b)我们没有把比较相似的树林场景和河流场景归到同一类中,图 1.4c),d) 也没有把大键
14、琴和大钢琴归为一类。图 1.4 类之间的不一致性 尺度的可变性:对于场景分类,这是另一个要考虑的情况,我们有很多长春理工大学论文- 4 -关于山脉的图像(如下图 1.5)(a)不同尺度的山脉场景,(b)不同尺度的台球场景;有远景,也有近景,我们如何对他们进行区分呢 ?图 1.5 尺度可变性问题 其他:旋转,观察角度等也要考虑在内。除了上面所提到的几个问题,对于场景分类任务来说,还有其他关于人类感知方面的因素:观察者的不确定性和主观性。在己经得到的场景分类中很大程度上是依靠人工标注的主观判断性,其实有的时候人工标注本身就有很大的模糊性。例如:人工标注的山脉场景和乡村场景可能标注关键词都是一样,想
15、象一下,远处一片被雪覆盖的山脉和被雪覆盖的田间,你如何判断它们到底是乡村还是山脉?1.3 本文研究工作这篇论文的主要工作在于将解决文本中同义词,多义词的(PLSA)模型应用到图像分类中。在图像分类中,特征作为输入,就等同于文本分类中的单词,同样具有“同义词,多义词” 的特点。如:在太阳占据大篇幅的图像中,提取的特征必定是相似的,但它们所表达的场景意义就不一定相同了。因为太阳既可以为日出场景做贡献,也可以为日落场景做贡献。这就类似于文本中的多义词;而不同的特征也可能表现同一个场景。如:在室外场景中,可以出现沙漠,瀑布,森林等,而这些目标物体的特征一定时不相同的,而且相差也很大,这一点又相当于文本
16、中的同义词。并且在特征提取的时候,除了提取颜色,边缘特征,我们还采用 SIFT 算法,利用该算法来提取图像的显著区域,SIFT 特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性,因此该算法能很好的满足场景分类特征提取要求。最后我们在原有 PLSA 模型上进行改进,实现多层 SIFT 特征,多种特征融合作为词汇表。采用概率潜在语义分析 (PLSA)对词汇表进行分析,实现图像中潜在对象的发现:图像被比作成一篇由若干“视觉词包”所组成的文档,图像中的对象则被看成该图像文档所包含的潜在主题。这样,利用 PLSA 就可以长春理工大学论文- 5
17、 -发现图像中潜在对象的概率分布。基于对象概率分布的场景分类则由 K-最近邻分类器来完成的。实验表明,结合 PLSA 和 KNN 的分类方法均可获得更加理想的场景分类效果。1.4 本文的组织第一章 介绍:简单介绍一下写该文章的目的动机和贡献以及遇见的一些挑战。第二章 场景分类的特征。第三章 基于 PLSA 模型的图像场景分类。第四章 结论长春理工大学论文- 6 -第二章 场景分类的特征通常来说,图像的特征包括基于文本的特征(如关键词、注释等)和底层特征(如颜色、纹理、形状等) 。基于文本的特征主要是用户对图像的语义描述。图像底层特征分为通用特征和专用特征,前者用于描述所有图像共有的特征,主要包
18、括颜色,纹理和形状;后者则建立在对图像内容的某些先验知识的基础上,例如人脸特征、指纹特征和虹膜特征等。这些专用的图像特征属于特定的识别范畴,由于我们的图像数据库大多数是一些自然景物图片,因此不会用到这些专用的特征。图像的特征是图像分类中的基础。提取一个好的图像特征,对于图像的分类有至关重要。本章主要涉及图像低层特征和图像 SIFT 特征的介绍。2.1 颜色特征提取颜色特征是图像的一种重要视觉性质,最早在基于内容的图像索引中得到应用。颜色之所以在图像检索中用得比较多。是因为它诸多的优点。它对于复杂背景相对要鲁棒(robust)一些,并且不受图像尺寸和方向的影响。而相对于其他特征来说,颜色特征也是
19、非常稳定的,对于旋转、平移、尺度变化以及各种形变都不敏感,表现出相当强的鲁棒性,并且颜色特征计算简单,而且又是彩色图像纹理和形状分析的基础。因此成为现有检索系统中应用最广泛的特征。颜色特征是一种全局特征,描述了图像或图像区域所对应景物的表面属性。一般颜色特征是基于像素点的特征,此时所有属与图像的像素都有各自的贡献。目前,颜色特征在图像索引与检索系统中己经有了广泛的应用,几乎所有的检索系统中都用到了颜色特征。对颜色特征的表达方法有许多种,如:直方图法、累积直方图法、局部累加直方图法、颜色布局法、中心矩法等。因为彩色图像的数据量很大,所以各种方法共同的一点都要用较有效和紧凑的方式来表达彩色信息。1
20、、颜色直方图颜色直方图 (Color Histogram)是用来表达颜色特征的最常用的手段。它所描述的是不同色彩在整幅图像中所占的比例,而并不关心每种色彩的空间位置,无法描述图像中的物体和目标。它比较适合于描述不考虑目标空间位置的图像。颜色直方图是大多数工作中最常用的颜色特征表达方式,它对于图像的旋转和平移保持不变,将直方图进行归一化可以保证图像大小的一致性。然而,颜色直方图不包含像素的位置信息,因此在图像检索中是不准确的。由于在图像的R,G,B 模型中,图像可以分解成三个面,同样颜色直方图也可以按照 R,G,B这三个变量来存储。这样一幅图像的颜色直方图中就可以按照这三个值来存储。长春理工大学
21、论文- 7 -2、颜色矩颜色矩是对颜色直方图的进一步改善。这个方法的数学基础在于图像的任何颜色分布都可以用它的矩来表示。另外,由于大多数颜色分布信息都集中在低阶矩(low 一 order moments)上,如一阶矩描述均值(mean),二阶中心矩描述方差(variance),三阶中心矩描述偏斜度(skewness),因此只要用这些低阶矩来表达颜色分布就足够了。与颜色直方图相比,该方法的另一个好处是不用对特征进行量化。颜色的三个低阶矩的数学表达式为:低阶矩: (2.1)1Niijf中心矩: (2.2)1/21iijijf三阶中心矩: (2.3)1/31Niijijsf图像的颜色矩特征只需要 9
22、 个分量来表示(每个颜色分量 3 个矩),比其它的颜色特征简洁。但是它的分辨能力要比其它特征低一些,所以一般和其它特征结合使用,一般在使用其他特征前起到缩小过滤范围的作用。2.2 SIFT 特征提取David G. Lowe 在 2004 年总结了现有的基于不变量技术的特征检测方法,并正式提出了一种基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征描述算子-SIFT 算子 3 ,其全称是 Scale Invariant Feature Transform,即尺度不变特征变换。SIFT 算法首先在尺度空间进行特征检测,并确定关键点(Key points)的位置和关键点所处的尺度
23、,然后使用关键点邻域梯度的主方向作为该点的方向特征,以实现算子对尺度和方向的无关性。SIFT 算法提取的 SIFT 特征向量具有如下特性 :5(1)SIFT 特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。(2)独特性 (Distinctiveness)好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配。(3)多量性,即使少数的几个物体也可以产生大量 SIFT 特征向量。(4)高速性,经优化的 SIFT 匹配算法甚至可以达到实时的要求。长春理工大学论文- 8 -(5)可扩展性,可以很方便的与其他形式的特征向量进行联合。S
24、IFT 算法步骤 7:(1)检测尺度空间极值点。(2)精确定位极值点。(3)为每个关键点指定方向参数。(4)关键点描述子的生成。长春理工大学论文- 9 -第三章 基于 PLSA 模型的图像场景分类3.1 PLSA 的原理 基于概率的潜在语义分析 PLSA(probabilistic Latent Semantic Analysis)是分类器的一种。分类器是场景分类中必须的,常用的分类器有:SVM, KNN,LVQ ,朴素贝叶斯,LSA,PLSA 等。PLSA 利用那些可以表示文本的单词集,从文本中提取主题。由于以前的提取方法,是单纯地从文本中提取主题,并没有考虑到文本中存在的潜在语义。通过这种
25、方法来发现文本中词语间的潜在关系,从而避免了同义词和多义词对文本语义的误导;并发现了文本中的词语与文本的主题的潜在关系,使得提取的语义信息更准确。我们解释这个模型,用三个术语:1、文本(document);2、单词(visual words);3、主题(topic )文本集 ,单词集 ,主题集 , 对多篇文1,.NDd1,.vWw1,.Z本提取它们的主题,单词集表示将文本集中的所有单词分为 v 类,然后形成 V*N 的矩阵,在这个矩阵中存储的是在每一篇文本中这些单词集出现的概率利用下面的公式发现文本中的单词和文本主题的潜在关系 :(/)Pwd1.(/)(/)/kzPwdpwzd表示主题在单词上
26、的分布概率, 表示每一幅图片的不同主(/)pz题的概率分布。3.2 PLSA 的优点对于其它大部分分类器来说,其思想是来自于线性代数,基于对词矩阵的奇异值分解 SVD 的 L2 最佳逼近,运用 L2 最佳逼近原则常涉及高斯噪声假设,而且矩阵的 SVD 分解对数据变化较为敏感,而 PLSA 的逼近是利用以概率为基础得算法,即利用(EM) 算法进行最大似然估计的,算法稳定,逼近效果好,克服了其他分类器的缺点。PLSA 是一种无监督的学习过程,较有监督学习过程方法,其适应性更强。有监督的学习过程需要先对以往的事例进行检索,找出和新问题相近的事例,把事例中的信息、知识和解决方案经调整后用来解决新问题。
27、而 PLSA 是一种长春理工大学论文- 10 -无监督的学习,自适应性很强,由于图像中存在大量的目标物体,而且这些目标物体会给图像的场景分类带来什么问题通常无法预料.所以在本系统中更适于采用 PLSA。概率潜在语义分析器比其它分类方法消耗的时间少,易于实现。由于在图像的场景分类中,所用到的图像的特征量是非常巨大的。如果分类器所消耗的时间比较多,会使得整个场景分类过程不能达到人们的满意程度。将 PLSA 应用于图像分类中,这是因为图像与文本有着很大的相似之处。PLSA 的产生是为了解决文本中的同义词,多义词对文本语义理解的影响而产生的。而在图像分类中,特征作为输入,就等同于文本分类中的单词,同样
28、具有“同义词,多义词 ”的特点。如 :在太阳占据大篇幅的图像中,提取的特征必定是相似的,但它们所表达的场景意义就不一定相同了。因为太阳既可以为日出场景做贡献,也可以为日落场景做贡献。这就类似于文本中的多义词;而不同的特征也可能表现同一个场景。如:在室外场景中,可以出现沙漠,瀑布,森林等,而这些目标物体的特征一定时不相同的,而且相差也很大,这一点又相当于文本中的同义词。3.3 基于 PLSA 图像场景分类由于场景类别具有多样性,不定性而且阐述的内容和考虑的条件也很多,因此,场景分类( 如:山脉,森林,办公室)并不是一项简单的任务。正是因为基于 PLSA 的场景分类从文本的主题分类借鉴而来,所以基
29、于 PLSA 的分类方法可以使场景分类变得简单许多。下面阐述图像场景分类与文本分类在 PLSA 框架下的对应关系。3.3.1 图像与文本对应关系在文本的分析中,用单词的出现的频率来表示文本的内容。而在图像中,我们用视觉词汇的出现频率来表示图像。具体地说,在文本分析中,文档的内容是用单词来表示的,发现文档的主题,就是用发现潜在的词包(bag-of-words)来完成的。在这里,我们把图像比作文本,把发现的主题作为目标物体(例如: 草地,房子) ,把图像的特征(低层特征或语义特征)作为视觉单词,也就是文本中的单词。所以,一幅图像包括许多目标物体就像一篇文档中包含多样的主题。3.3.2 图像场景分类
30、过程场景分类首先准确计算文本中的混合系数(document specific mixing 长春理工大学论文- 11 -coefficients) ,然后对 进行分析,再对测试图像进行分类。而这(/)pzd(/)pzd样,会使和凭经验划分的差距很小。要获得这些参数使用与学习同样的方式运行 EM 算法。但是 是用学习得到的 p(w/z)在每一次的 M 步上迭代而生(/)tesz成的。结果是测试图像用 Z 为向量表示。测试图像进行分类是利用对的分析。(/)tespzd在场景分类中,一般分为两步:第一步,是对训练图像,进行训练,计算出;第二步,利用训练出来的 ,再计算测试图像中的 ,(/)wz (/
31、)pwz(/)tespwd判断分析 以便对测试图像进行分类。(/)tespd具体分类过程:先把所有图像的所有的特征构成的特征向量划分到这些视觉单词集中(利用所有图像的特征向量和视觉单词集中的每一个单词的距离进行分类),将这些特征向量划分到视觉单词集中。这样,一幅图像中的特征向量对于单词集的每个单词的概率就得到了。将所有训练图像中的特征和场景分类的类别个数作为输入,通过 PLSA的迭代算法(E 步骤和 M 步骤)输出 。先对一个值赋初值,然后利用 E 步(/)pwz骤进行迭代,求得 。(/,pzd1(/,)/(/)(/Kkijikjiltjtpzwdpzd再将 P(z/w,d) 和所有的特征向量
32、作为输入,进入 M 步骤,求得 p(w/z),p(d/z)。 1(/)(,)/)NikkjijMj jtipzxpzdwd其中 M 为视觉单词的个数,N 为训练图像的个数;x 为 MXN 的矩阵,即单词-文档的共生矩阵。将训练图像中的 ,连同测试图像中的特征作为输入,再次通过(/)pwzPLSA 算法中(E 步骤和 M 步骤)计算出 。(/)tespd对 进行判断和分析, 的列数是和需要分的类别数相(/tespZtsZ同的,因此,只需要判断以 中的哪一列的数据最大,那么,它就属于(/)tesw长春理工大学论文- 12 -哪一类。这样就完成了对图像的场景类别。第四章 结论及展望本文首先简单介绍了
33、一下该课题的目的和意义,然后回顾了图像检索的发展历程:一是基于文本的图像检索;二是基于内容的图像检索;三是目前正在研究的基于语义的图像检索方法。本文就是在基于语义的图像检索的背景下,对图像检索的一个重要方面-图像场景分类-进行研究。在本文中,我们基于视觉认知理论的研究成果,提取图像的 SIFT 特征利用 PLSA 来弥补低层特征和高层语义之间的语义鸿沟,实现图像场景分类。基于图像的 SIFT 特征,我们采用概率潜在语义分析(PLSA)进行图像场景的分类。其中包括的主要任务有:视觉单词的生成,场景分类模型的学习。在基于语义的场景分类方面,我们考虑的语义内容非常简单,多语义场景分类成为后继需要研究
34、的问题。此外,良好的特征还依赖于鲁棒的知觉组织算法和图像分割方法,需要我们做出努力。长春理工大学论文- 13 -参考文献1A.Vailaya,A.Jain,H.Zhang, on image Classification: city vs landscapes, Pattern Recognition 31(12)(1998)1921-1935.2A.Vailaya, A.Figueiredo, A.Jain, H.Zhang, Image classification for content-based indexing, IEEE Transactions of Image Process
35、ing 10(2001)117-129.3J.Fan,Y.Gao,H.Luo,G.Xu, Statistical modeling and conceptualization of natural images, Pattern Recognition 38(2005)865-885.4J.LuoA.E.Savakis,A.Singhal,A Bayesian network-based framework for semantic image understanding ,Pattern Recognition 38(2005)919-934.5L.Fei-Fei,P.Perona,A Ba
36、yesian hierarchical model for natural scene categories ,IEEE Computer Society Conference on learning Computer Vision and Pattern Recognition, Washington,DC,USA ,2005,pp.524-531.6A.Boseh,A.Zisserman,X.Mun-02,SeeneelassifieationviaPLSA,EuropeanConfereneeonComputerVision,vol.4,Graz,Austria,2006,pp.517-
37、530.7A.0liva,A.Torralba,Modeling the shape of the scene: a holistic representation of the spatial envelope, International Journal of Computer Vision42(3)(2001)145-175.8Chen,L.(2005). “The topological approach to perceptual organization.” Visual Cognition 12(4):553-637.9关永东,基于内容的图像检索技术及系统研究,硕士学位论文,西安电子科技大学 2000 年10川吴洪,卢汉清,马颂德,基于内容图像检索中相关反馈技术的回顾,计算机学报,2005 年 12 月11付岩,王耀威,王伟强,高文,SVM 用于基于内容的自然图像分类和检索,计算机学报,2003 年 26 卷 10 期