1、基于视觉几何失真和信息丢失的重定向图像的客观质量评价Chih-Chung Hsu, Chia-Wen Lin, Senior Member, IEEE, Yuming Fang, and Weisi Lin, Senior Member, IEEE摘要:图像重定向技术旨在获得可以适应不同尺寸或宽高比显示屏的重定向图像。最近,各种各样的内容识别图像重定向算法相继问世。然而,却没有一个客观有效的标准来评价重定向图像的视觉质量。该论文中,我们提出了一种全新的全参考客观标准来评价重定向图像的视觉质量,该标准基于视觉几何失真和信息丢失。该标准利用一幅图像的 SIFT 流矢量场的局部变化来衡量一个重定向图
2、像的几何失真。而且我们引用了显著图来模拟人类视觉系统对几何失真的感知。另外,这个标准同样考虑到了重定向图像的信息丢失问题,并采用了显著图来进行评估。我们的实验结果表明,这个客观标准与主观评级有着良好的一致性。关键词:几何失真,图像重定向,质量测评,质量评价,SIFT 流1. 引言终端设备的异质性带来了很多新的问题,其中之一就是我们需要重新设置图像的尺寸来适应不同设备上的不同显示方案。一个传统的方法就是用均匀的减像素采样来调整图像的尺寸。然而这个方法可能会使一些显著目标变得太小从而导致糟糕的视觉效果。另一种传统方法就是图像剪裁,该方法通过保留感兴趣区域来重新设置图像的尺寸。该方法的缺点是图像的内
3、容信息可能会丢失。最近,为了克服图像缩放和图像剪裁的问题,一些先进的内容感知图像(视频)重定向算法相继问世1-7。Avidan 等人1提出了流行的图像重定向算法 seam carving。 Guo 等人2设计了基于特征网格参数化的图像重定向算法。王等人3 提出了通过结合显著图和梯度图实现的图像重定向算法。Wolf 等人4引入了一个线性系统来设计图像重定向算法。最近,Rubinstein 等人5展示了一种比只用单算子算法更优的多算子算法,该算法结合了 seam carving,图像缩放和图像剪裁三种方法来重新设置一个图像的尺寸。文献6和7进一步考虑了时间信息,以确保视频重定向中连续帧之间的时间一
4、致性。随着图像重定位应用的迅速发展,对于重定位图像的视觉质量评价就变得愈发重要。在文献8中,Rubinstein 等人则采用用户调研的方法,他们比较了一些现有图像重定向算法得出的结果,然后用对图像对进行主观比较的方法,建立了一个包含 37 幅测试图像的基准,即 RetargetMe 数据库9。然而这个主观评价方法费时费力,成本又高。因此,我们迫切需求一个可以对重定向图像进行自动视觉质量评价的客观评价基准。图像质量评价算法大致上可以分成两类:双端和单端10。双端标准需要原始图像作为参考图像来评价失真图像的视觉质量。双端标准又可以进一步分为两个子类:一类是全参考标准(FR) ,该类标准需要完整的参
5、考图像;另一类则是半参考标准(RR) ,该类标准只需要参考图像的一部分。与双端标准相反的是,单端标准并不需要参考图像,因此也被称为无参考标准(NR) 。传统的视觉质量评价方法通常计算参考图像和失真图像的相似度来评价失真图像的视觉质量。这些客观标准包括均方误差(MSE) ,信噪比峰值( PSNR)等1011。这些传统方法简单而直接,但是无法像人类一样精准地衡量视觉质量。现有的研究表明,人类对于自然图像的感知,远比用在传统视觉质量评价中的那些简单的统计学方法更为复杂10。因此,为了更好地评价失真图像的视觉质量,基于感知的标准大量涌现,比如基于人类视觉对于图像结构的敏感度的结构相似性标准(SSIM)
6、1112。最近,一些研究表明,视线追踪数据可以用来做图像重定向质量评价1314 。Castillo 等人表示,在感兴趣区之外,重定向图像的改动并不引人注意,而视线追踪数据则可以用来提高图像距离度量的预测能力13 。Chamaret 等人提出了一个评价重定向视频的标准,该标准基于以下四个因素:保持视觉兴趣区的能力(利用视线追踪数据) ,剪裁窗的时间一致性,其尺寸的时间一致性,以及使其接近理想缩放因素的能力14。在文献15中,刘等人提出了一种评价图像重定向算法质量的客观标准,该方法基于全局的几何结构和局部的像素一致性。在文献16 中,作者做了一个大规模主观调研来评价重定向图像的视觉质量,然后建立了
7、一个公开的数据库。该数据库包含了从 57 幅原图像中获得的共计 171 幅重定向图像,并且每一个都给了平均意见分数(MOS) 17。基于主观的 MOS 分,作者进一步提出使用单调逻辑函数来综合在文献8中提到的五个指标,包含陆地移动距离(EMD)18 ,双向相似度 19,边缘直方图20,以及 SIFT 流21。然而这个综合标准的表现仍然难以像文献16中说的那样令人满意。文献22中的方法则提出了一种 SSIM 质量图,这个质量图可以显示,在参考图像的每一个空间坐标上,其结构信息是如何在重定向图像中得以保留的。显著图则作为 SSIM 图空间变化的加权因子来评价一个重定向图像的视觉质量。大多数传统质量
8、评价标准要求参考图像的尺寸应和失真图像的尺寸一致。然而由于是非均匀缩放,重定向图像的尺寸往往与原图像的尺寸并不相同。文献8中用到的多种标准可以用来评价两幅尺寸不一样的对应图像的视觉质量。然而这些标准的目标并不是评价内容识别非均匀重定向算法的质量。此外,如图 1 显示的那样,图像的重定向往往导致两种失真:几何变形和信息丢失。比如,图 1(b)-图 1(d)展示了一些典型的空间几何失真,如缝合线、边缘失真(见图 1(b)和图 1(c))以及由于非均匀缩放导致的重定向目标的形状失真(见图 1(d)) 。图 1(e)则展示了尺寸的显著减小(信息丢失)以及突出目标(那个女士)的比例变化。然而我们很难用现
9、有的视觉质量标准来全面的评价这种几何失真和信息丢失10-12,16,18-22。因此,对重定向图像客观的质量评价标准急需更新换代,仔细地研究来攻克这种失真。本论文中,我们提出了一种新颖的 FR 客观质量评价标准来评价重定向图像的视觉质量。我们的目标是用一个客观可行的标准来模拟人类对于重定向图像失真的感知。虽然目前对于人类对重定向失真感知机理的建模仍是一件非常困难和具有挑战性的难题,但我们用了一个切实可行的办法解决了这个难题:将对重定向图像失真的感知转图 1. 图像重定向导致的典型失真:(a)原图像;(b)-(e)有着不同空间几何失真和信息丢失的重定向图像变为可测量的特征。我们发现,几何失真和信
10、息丢失是两类最影响对于重定向图像质量视觉感知的因素。基于这个发现,我们的方法利用稠密对应评估(比如文献21中的 SIFT 流)来测量重定向图片的视觉几何失真和信息丢失的程度,并进一步利用视觉显著图来定量评价人类视觉对于几何失真和信息丢失的感知。我们提出的方法的贡献主要有三点:(i) 我们提出了一个新颖的视觉几何失真标准,该标准基于在原图像和重定向图像中,SIFT 流矢量场的局部不变性; (ii)我们提出了一个新颖的评价重定向图片信息丢失的标准,而就我们所知这种标准以前从未被发表过;(iii)我们提出了一种融合了以上两种标准的方法,得到了最终的对于重定向图像质量评价的标准。对比在论文30中提出的
11、初步讨论后的版本,本论文在以下方面做出了显著的拓展:(i)本论文中,我们提出了一种新型的自适应综合方案来自动设定两个标准的权重:视觉质量失真和显著信息丢失;(ii)本文提供了对实验结果深入的分析与解释,从而提供了对该方法的深入理解,使得它成为了一个质量评价和重定向算法改善的有效工具;(iii)我们增加了对该方法的复杂度分析。本文的其余部分如下安排:第二部分给出了我们提出方法的概要;第三、四部分详细描述了我们提出的两个标准;第五部分展示如何将这两种标准综合成最终的质量评价方案;第六部分展示了实验结果。最终部分总结了该论文。2. 质量评价标准的概要先进的内容识别图像重定向算法本质上采用非均匀缩放,
12、在给定的尺寸下,视觉重要的部分被尽可能多地保留,而不重要的部分更多的会被修剪掉。然而这种非均匀缩放经常导致严重的局部几何失真,如线形变,形状形变或纹理失真,这些的视觉效果非常糟糕。因此,为了客观的评价重定向图像视觉质量,一个标准需要将人类视觉感知的两类失真(几何形变和信息丢失)都很好地描述出来。然而,传统的质量评价标准如 MSE,PSNR 和 SSIM 无法很好地评价重定向图像的视觉质量,因为它们不能很好地捕捉到几何形变,也不能很好地测量信息的丢失。正如文献8中所言,现在的质量评价标准难以和主观评价达到一致。我们提出的方法系统的解决了上述问题。我们通过同时考虑视觉几何失真和信息丢失来对重定向图
13、片做出精确的,接近主观评价的客观质量评价。图 2 展示了该方法的结构框图。首先,为了测量视觉几何失真(PGD) ,我们建立了一个从原图像到重定图 2. 我们提出的质量评价方法的结构框图。上面的部分展示了评价视觉几何失真(PGD)的关键模块,下面的部分展示了评估显著信息丢失关键模块向图像的逐个像素的稠密对应图,这样,通过测量对应矢量的局部变化就能识别出因为重定向而导致的形状或者结构的变化。我们采用文献21提出的 SIFT 流估计方案来建立从原推向到重定向图像的对应图,该方案是一种广义的光流估计。接着,我们根据文献25中提出的模型建立了一个视觉显著图,并根据图像块的视觉重要程度来决定图像块级的几何
14、失真的权重。然后我们通过匹配 SIFT 流矢量场的余数,建立了一个局部置信图,以此来控制每个图像块的几何失真的权重。第二个标准(信息丢失)显示出了重定向过程中去掉的显著内容的比例。我们的方法利用估计显著信息丢失比(SLR)来量化由重定向导致的信息丢失。该比例是重定向图像中丢失的显著值与原图像中总显著值的比。因此,如图 2 下半部分所示,基于SIFT 流图提供的像素对应关系,原图像的显著图应缩放至与重定向图片相同的尺寸。对缩放(重定向)后的像素级的显著图求和来获得保留下来的显著值。于是便可以求得显著信息丢失比。在接下来的部分,我们将详细阐述测量视觉几何失真和信息丢失的方法。3. 视觉几何失真分析
15、为了顾及视觉几何失真,我们的方法需要生成两幅图:稠密对应图以及显著图。正如上文所提及的,我们采用了 SIFT 流21 来生成两幅图之间的稠密对应图。尽管两幅图之间可能会有轻微的差异,但是 SIFT 流可以有效地克服因重定向导致的内容差异而产生的匹配问题。令 S0 和 Sr 分别表示原图像和重定向图像。求下面这个函数的最小值可以获得 S0 和 Sr 之间的 SIFT 流图:E()=min(0()(+(),)+(|()|+|()|)+,min(|()()|)+(|()()|,) (1)图 3. 几何失真和 SIFT 流图之间关系的图示: (a)原图像;(b)重定向图像;(c)两个图像块级的 SIF
16、T 流矢量差异图; (d)图(a)和图(b)之间的评价 SIFT 流图;(e)滤波后的 SIFT 流图;(f) 图(e)的 SIFT 局部差异图滤波后的局部差异图公式中,w(p )表示像素点 p 的 SIFT 流矢量;t 和 d 代表阈值,分别用来将比阈值小的像素的差异和光流亮度的差异筛选出来用于计算; 和 是第二项和第三项的权值;u 和 v 分别是 SIFT 流矢量的水平和垂直分量;q 代表 p 的邻集的坐标。为了评估重定向图像的失真程度,我们的标准生成了三幅图:几何失真图(GDM) ,视觉显著图(VSM)和局部置信图(LCM ) 。正如图三所示,我们的方法首先判断原图像和重定向图像的 SI
17、FT 流图。然后 SIFT 流图被分割成 1010 的小块,每个小块和相邻的小块有 2 个像素的重叠。计算每个小块的 GDM,VSM 和 LCM 并结合起来给出质量评价 PGD,PGD 越高,重定向图片的质量越差。几何失真图(GDM) 。提出 GDM 的目的是次梁重定向图像的局部几何失真,比如扭曲的线或者一个物体形状的扭曲。这种局部失真通常导致原图像和重定向图像间的对应适量的局部变化。因为 SIFT 流提供了两幅图对应关系的可靠评估,所以我们可以通过计算局部图像块中 SIFT 流矢量的变化来测量几何失真。假设原图像 S0 的尺寸被从W0H0 剪裁到 WrHr。令 u(Ri)和 v(Ri)分别代
18、表图像块 Ri 的 SIFT 流矢量的水平和垂直分量,那么 GDM 可通过计算如下公式获得:()= +()+ +() (2)式中,r w=Wr/W0,r h=Hr/H0,分别代表重定向图像 Sr 和原图像 S0 的宽高比,且0rw,rH1。var( )代表差异函数。公式(2)中,一个图像在某一维度中缩小的越多,那个维度的变化权重越高。图 3(a)和图 3(b)展示了两张有着不同程度失真的图像块,以及他们的图像块级的SIFT 流向量变化表。我们可以看到,R 1 的几何失真要比 R2 的严重得多。此外,图 3(c)中 R1 图像块级的 SIFT 向量流变化也比 R2 大得多,这表明 SIFT 流的
19、局部变化可以很好地反应几何失真。尽管 SIFT 流可以利用显著特征提供相对较好的两幅图间稠密对应的评估,但是对于那些弱梯度特征的对应,仍有可能导致一些误匹配。这些误匹配在 SIFT 流图中绝大部分作为独立的噪声存在,降低了几何失真评估的准确性,正如图 3(d)所示。因此在图像块级的局部差异分析之前,我们应在 SIFT 流图中去除这些斑点噪声。我们采用了文献22中提出的各向异性扩散滤波器,该滤波器迭代计算输出图像的方法如下:+1()=()+1()()()1()()() (3)公式中f 代表 SIFT 流图的梯度;SM( )和 SH()分别代表平滑和锐化函数;z 是 4 或者 8,分别对应 4 邻
20、接或者 8 邻接;N(p)代表像素点 p 的相邻像素点。各向异性扩散滤波器用来检测如独立斑点噪声这样的显著缺陷,并抑制可忽略的缺陷,此外还去除小型独立噪声(比如小于 22 的)来提高 SIFT 流图的可靠性。由于锐化函数的使用,各向异性扩散滤波器还可以突出 SIFT 流图中局部变化显著的区域,使得提取这些区域变得更加容易。图 3(e)展示了图 3(d)滤波后的图像,图中大量噪声被去除,并且高变化区域被增强。局部置信图(LCM) 。由于 SIFT 流图并不是总是很准确,这使得几何失真标准的准确性有所下降。为了解决该问题,我们提出了利用局部置信图来测量几何失真图中像素块的像素级置信水平,该方法基于
21、残余图像 ,式中 代表原图像, 是=|0| 0 利用 SIFT 流图从重定向图像中恢复的重建图像。通过将重定向图像恢复成原始图像,我们可以通过下式评估基于 SIFT 流的残余图像 的预测来获得图像|0()(+()|块 Ri 的局部置信图:()=1 1max(|0()(+()|,) (4)式中,L p 代表图像块尺寸; w(p)代表像素点 p 的 SIFT 流失量;p+w(p)是经过基于SIFT 流的补偿之后的对应像素点位置;S r(p+w(p)则是基于 SIFT 流矢量的恢复图像;则是一个很小的正数来保证分子不为 0。很明显,如果两幅图很完美地匹配对应了,那么残留图像将会很小。所以,如果 Sd
22、的值很大则暗示着 SIFT 流图中的误匹配,意味着基于误匹配向量的几何失真评价将是不可靠的。我们可以因此利用残余图像来评价几何失真评估的置信水平。视觉敏感图(VSM) 。得到几何失真图,测量了每个图像块的局部几何失真之后,为了更好地模拟人类视觉对于几何失真的感知,我们需要基于图像块视觉重要程度来为每个图像块的失真值赋予适当的权值。为此,我们利用视觉敏感图来决定几何失真图中每个图像块的权重。现有几种视觉敏感/显著模型均可以用来获得视觉敏感图,如文献24提出的最小可觉差模型,和文献25 提出的基于频域的视觉关注模型。我们选择用文献25的视觉显著模型来计算原始图像的显著图 Eo。图像块 Ri的视觉敏
23、感图可如下计算:()=1|()| (5)式中 Lp 代表图像块尺寸。最终,对于重定向图像的视觉几何失真可以通过结合几何失真图、局部置信图和视觉敏感图得到,计算公式如下:图 4. 局部置信图(LCM) 、视觉敏感图(VSM)和几何失真图(GDM)的示例=1=1()()() (6)式中,N p 代表 SIFT 流图中图像块的数量。注意,在结合三项之前,应该基于整幅图像的最大值和最小值,将这三个图像块级的指数标准化至0,1之间。图 4 展示了测试图像 5 张不同重定向图像的几何失真图、局部置信图和视觉显著图。在这个示例中,SHIFT 图26 和多算子算法5导致了他们几何失真图左边界相对更大的局部变化
24、,这是在平滑背景(天空)和纹理背景(海洋和海岸)上不准确的 SIFT流评估造成的。然而由 SHIFT 图和多算子算法得到的两张重定向图像并没有显著的视觉失真。局部置信图成功地抑制了因为 SIFT 流误匹配导致的探测到的假失真。此外,视图 5. 从视觉几何失真和信息丢失的角度上,两幅重定向图像(400 336)的对比:(a)原始图像(300336 ) ;(b)-(e) 分别用了不同的重定向算法: (b)多算子算法(dPGD=0.14,dSLR=0.16);(c)转移图算法(d PGD=0.44,dSLR=0.26);(d)非均匀缩放算法(dPGD=0.15,dSLR=0.25);(e)Seam
25、carving 算法(d PGD=0.3,dSLR=0.39)图 6. 我们提出的信息丢失评估算法的流程图。(a)是原始图像,(b)是重定向图像,它首先被用于评价 SIFT 流图,接着(c)原图像的显著图被重定向来获得(d)重定向图像的显著图。最终,通过计算重定向图像中被剪裁的显著信息和原图像的总显著信息的比例来获得我们的目标:显著信息丢失比(SLR)觉敏感图给了显著区域更高的权重来突出这些区域。4. 信息丢失评估除了几何失真,另一个由图像重定向导致的主要失真就是信息丢失。因此我们需要研究出另一种标准来测量由于重定向而导致的信息丢失,从而来准确的评价一幅重定向图像的视觉质量。如图 5 所示,图
26、 5(c)和图 5(e)中两幅重定向图像的 PGD 值分别为 0.44 和 0.33,意味着由转移图获得的重定向图像图 5(c)由于丢失了部分孔雀,因此而有着更大的几何失真。然而很显然相比较 seam carving 算法,转移图明显保留了更多的显著信息。此外,图 5(b)和图 5(d)中两幅重定向图像的 PGD 值很相近(0.14 和 0.15) ,但是他们的信息丢失比分别是 0.16 和 0.24。图 5(b)看起来比图 5(d)好得多是因为图 5(b)保留了显著目标的更多信息。因此当评价重定向图像的视觉质量时,由于重定向导致地信息丢失同样应该被考虑在内。为了测量由图像重定向导致的信息丢失
27、,我们提出采用显著信息丢失比,该比是重定向前后图像显著信息总和的比。理想的情况下,如果我们有原图像和重定向图像的显著图,那么我们通过比较这两幅图可以很轻易地计算出信息丢失程度。由于我们在用公式(5)计算视觉敏感图时已经有了原始图像的显著图,因此我们只需要计算重定向图像的显著图即可。然而直接由重定向图像本身计算其显著图可能并不会有很高的精确性,因为重定向图像的内容被明显剪裁了,意味着相对重要的像素点可能发生了显著变化。因此,如图 6 所示,我们提出通过重定向原图像的显著图来获得重定向图像的显著图,该方法基于在评估几何失真时通过公式(1 )计算得到的原图像和重定向图像之间的 SIFT 流图。最终,
28、 SLR 可以通过计算重定向图像中被剪裁掉的显著信息和原图像中的显著信息的比来获得,我们接下来将进行详细阐述。令 Eo 和 Er 分别代表原图像和重定向图像的显著图。我们通过公式(1)中得到的SIFT 流图来将原图像的重定向图编程重定向图像的显著图,公式如下: ()=(+() (7)式中,E r(p)代表基于像素点 p 的 SIFT 流矢量 w(p)得到的重定向后的像素级显著图。所以 Er 的尺寸和重定向图像的尺寸是相同的。值得注意的是, Er(p)中可能会有一些空洞,这些空洞可以通过插值法或者图像修补来填充。图 7. (a),(d)是输入图像;(b),(e) 是显著图;(c),(f)分别是(
29、b),(e) 的连通区域标记最终,SLR 可通过下式获得:=1|()|()|(8)式中 dSLR 的值落在 0,1中。5. 结合 PGD 和 SLR最终,重定向图像质量指数 qresize 被定义为从 1 中除去归一化的总失真指数dresize: =1=1+(1) (9)式中 dresize 是 PGD 指数和 SLR 指数的加权平均,取值在0,1内, 是来控制 SLR 和PGD 权重的指数。为了决定 的值,我们采用启发式方法。值得注意的是,当有一个强烈的主要显著目标时,人类视觉对于信息丢失(SLR 标准)很敏感。例如图 7 展示了两幅不同图像的显著图:图 7(d)包含一个主要的显著目标而图
30、7(a)则没有,他们的显著图先表明,如果输入图像没有主要显著目标,那么显著图可能包含好几个独立的显著区域。一个包含过多独立显著区域的显著图通常暗示图像中没有主要显著目标,或者显著图并不可靠。这种情况下,SLR 标准将并不重要,其权重也将相应减小。为了实现给 PGD 和SLR 自适应地赋予权值,我们首先标记出显著图中的连通区域,然后计算连通显著区的数量,如图 7(c)和图 7(f)所示。最终我们用显著图中连通显著区的数量来控制权值,公式如下:=1- 10 其他 (10)式中,c ROI 是显著图中连通显著区的总数;z 是归一化因子,根据经验,一般令z=10。考虑到显著区检测的不准确性可能导致显著
31、图中的噪声,在计算 cROI 时小的显著区应不被考虑在内。在我们的实验中,只有大于 200 个像素点的区域才被考虑在内。6. 实验结果在我们的实验中,我们利用 RetargetMe 数据库以及由从文献1,5 ,17 中挑选出的 35 幅图像构成的数据库,将我们提出的客观质量评价标准计算出的结果,与数据中主观评价的结果进行对比,评估了我们提出的方法的可靠性。RetargetMe 数据库的主观评价结果来自文献9,后者数据库的主观评价结果则由我们自己综合给出。所有本论文中用到的的数据库、代码、显著图以及主观评价都可以在论文 29 页中找到。人类的眼睛通常对图像的显著区域非常敏感。内容感知图像重定向算
32、法在重定向一幅图片时,往往保留重要区域而剪裁掉视觉上不重要的区域。因为几何失真和信息丢失主要决定了一幅重定向图像的保留能力,因此实验项目中需要原始图像作为参考图像。对于 RetargetMe 数据库,我们比较了文献9中用到的所有 8 种重定向算法,而对于第二个数据库,我们并没有完成所有算法,而是只选择了 5 种来进行评估:多算子算法5 ,Seam Carving1,变形2,转移图26 以及非均匀缩放。重定向算法仅在一个维度上(宽或者高)改变源图像的尺寸。在实验中,我们假设重定向算法对图像仅进行合理的缩放(比如 25%) 。主观比较结果作为标准答案来评估客观质量评价标准的准确性。为了获得主观评价
33、数据,我们给被调查者并列地同时展示两幅重定向图像(随机顺序) ,并询问其更倾向哪张。对于每张图像,用不同重定向算法获得的图像分别用主观和可观的方法进行评级排序。客观评级排序用了四种标准:我们提出的标准,文献15提出的标准,SIFT流标准21和 EMD 标准18。我们用主观评级和客观评级的联系来衡量主观结果和客观结果的一致性,来显示每个标准模拟人类视觉对重定向图像进行质量评价的能力。和文献8提出的方法相似,我们用采用相关距离27来测量主观评级和客观评级的关联,公式如下:=1- 0.5(1) (11)式中,N 是图像对总数,N c 和 Nd 分别代表主客观一致的数量和不一致的数量。当=1时,主客观
34、结果完美符合;=-1 时主客观结果完全不符;=0 时,主客观结果被认为相互独立,完全无关。6.1 RetargetMe 数据库的实验结果我们首先用 RetargetMe 数据库来验证我们提出方法的准确性。该数据库包含了 37幅图像和主观比较结果8,9。我们分别用 8 种重定向方法重定向了图片,然后用配对比较的方式,让共计 38 名受试者对其进行主观评价。也就是说,每个受试者都将比较两张分别用不同方法进行重定向的同一张图片,然后投票给他们任务质量更好的一张。数据库中的 37 幅图像被分成以下几种性质(括号内的数字是每一类中包含的测试图片的数量):线或边缘(25) 、人脸或人像(15) 、纹理(6
35、 ) 、前景目标(18) 、几何结构(16 )和对称(6 ) 。如图 8 的三幅示例图所示,一张图片可能具有多种性质。我们提出的方法与其他三种标准进行对比,包括 SIFT 流、EMD 和文献15提出的方法。因为我们的方法和文献15 提到的方法都需要测试图像的显著图来评价重定向的质量,所以我们对每一幅测试图像分别用文献25 和28 提出的方法,共生成两张显著图。表 1 采用了公式(11 )定义的相对距离,对于每一个性质分类,对比了待测试标准的结果和主观评级之间的关系,并列出了评级的平均值和标准偏差,以及 P 值和线性相关系数(LLC) 。在表 1 中,我们采用了文献8中建议的实验设置,来计算完全
36、评级相关度(对于每一幅图像的五种评级方法都用来计算相关值)和前 3 评级相关度(只有评级前 3 的重定向方法才用来计算相关值) 。因为前 3 评级的结果更加可靠(即主观评级更加可信和一致) ,所以主客观评级对比的结果比完全评级更好。我们并没有图 8. RetargetMe 数据库9里的三张示例图像。图像(a),(b),(c)的类型分别是“线、边缘和几何图形”,“人脸、人像和前景”以及“几何结构和纹理”表 1. 对于 Retarget 数据库的主客观评级。 (a)完全评级对比(k 不限);(b)对评级最高的三个的评级在表 1(b)中列出 P 值和线性相关系数,因为对于前 3 评级而言这两个值没有
37、统计意义。图 9. RetargetMe 数据库中的极端情况。 (a)-(c)三幅对于不同受试者,主观评级结果最一致的图像;(d)-(f) 有着最不一样的结果的图像图 10. (a)RetargetMe 数据库中有着最不一样主观评级结果的侧视图(也见图 9(d)) ;(b)-(f)用五种不同算法得到的重定向图像。主观上,(b)-(f) 中的重定向图像视觉质量看起来非常相似,因此导致了不同的主观评级结果所有的结果均显示, 我们提出的 PGD+SLR 的方法远胜过其他标准。在完全评级中,我们的标准比其他标准提高了 64.5%,而在前 3 评级中,我们的标准也提高了 62.5%之多。值得一提的是,在
38、分类中,纹理分类的评级相关度最低,这是因为对于一个有着大量纹理的图像,SIFT 流估计可能由于纹理区的误匹配而得到并不可靠的 SIFT 流图。值得注意的是,在文献89中提到的 RetargetMe 数据库中,确实有一些图片的重定向版本,主观评级其视觉质量非常困难,这是因为它们没有明显的显著内容,或者它们的重定向版本没有明显的几何失真。因此,在评估客观质量评价标准时,这些图片的结果难以提供很有说服力的结论。例如,图 9 展示了 RetargetMe 中的一些极端案例:三张对于不同受试人,主观评级结果最一致的图像(见图 9(a)-(c))和三张最不一致的图像(见图 9(d)-(f)) 。因为图 9
39、(a)-(c)中的测试图像包含主要显著目标,所以其重定向图像的几何失真和信息丢失很容易被识别出来,使其主观评级高度一致。而相反的是,对于图 9(d)-(f)所示的测试图像,其绝大部分重定向图像却有着基本相似的主观视觉质量,使得受试者意见不一。如图 10 所示,用不同方法得到的图 9(d)的重定向图像却有着基本相似的主观视觉质量。所以受试者在比较两幅图像时,可能会给出不确定且不可靠的评级结果,进而导致主客观评级结果相关值的降低。图 11 展示了主观配对图 11. 主观配对评级和三种客观质量评价标准结果的相关值的比较,比较中采用RetargetMe 数据库中主观评级时受试者意见最一致的前 K 幅图
40、像(K=5,10,15 和 37)图 12. 前文提到的从文献1,5和17 中挑选出来的 35 张测试图像组成的数据库,挑选是基于主观配对评级的一致性评级和三种客观质量评价的结果的相关值,相关值的计算分别采用了 RetargetMe 数据库中主观评级中受试者意见最一致的前 K 幅图像(K=5,10,15 和 37) 。该图表明,去掉那些 RetargetMe 数据库中主观评级不可靠的测试图像,主客观评级的相关值将显著提升,进而使得数据库在评价客观质量评价标准的实际准确性时辨识能力大幅提升。6.2 有着更高主观评级一致性的第二个数据库的测评在测评重定向图像质量评价标准的准确性时,为了建立一个有着
41、更好辨识能力的数据库,如图 12 所示,我们收集了文献1,5和17中的 35 张测试图像。第二个数据库完全覆盖了文献17中的数据库,因此文献 17可以被看作是第二个数据库的子集。我们测评了从文献8中用到的重定向算法中选出的五种算法,因此总共 35 张测试图像会产生 350 个比较对。我们邀请了 30 个受试者来做主观评价,每个人为 140 个比较对进行投票,因此每个图像对被 12 个受试者测评。受试者包括 30 位男士和 5 位女士,他们平均年龄 25 岁。测试设备包括一台全高清 24 英寸 LCD 显示屏,色温为 6500K。测试之前,我们向每一位受试者展示了一些示例图片,告诉他们重定向图像
42、的一些典型类型。和文献8描述的主观测试过程类似,我们向每一位受试者展示一副原始图像(展示在屏幕顶端)和两种不同算法产生的其重定向后的图像(没有标签并以随机顺序展示在屏幕底端) 。我们要求受试者根据参考图像,为他们认为有相对更好视觉质量的图片进行投票。图 13 展示了数据库的主客观评级相关值,客观评级包括 PGD,SLR 和 PGD+SLR 标准。因为我们用这个数据库对比了 5 种重定向算法,所以每幅测试图像总共有 10 个比图 13. 包含 35 幅图像的第二个数据库的主客观评级相关值,客观评价标准包括我们提出的 PGD,SLR 和 PGD+SLR 标准表 2. 第二个数据库的主客观评级相关度
43、较对。结果表明,对 35 幅图像中的 20 幅,我们提出的 PGD+SLR 标准和主观评价结果达到了 0.8 甚至更高的相关度。此外,在 35 幅图像的 30 幅图像里(86%) ,PGD+SLR联合标准达到(22 幅)甚至超过(8 幅)了只用 PGD 标准或者只用 SLR 标准的最好水平。这表明,相对单独的 PGD 和 SLR 标准,PGD+SLR 联合标准在大多数情况下可以更好的符合人类对于图像质量的视觉感知。表 2 展示了分别用相关距离和标准偏差计算的 35 幅图像的主客观评级的平均相关度。结果表明,我们提出的 PGD+SLR 算法和主观评级的相关度达到了 0.69,对应平均准确率为 8
44、4.5%,平均错误率是 15.5%,这是一个非常好的结果。相比之下,其他标准中最好的是 EMD 算法,相关度也只有 0.36(对应平均正确率 68%,平均错误率 32%) 。可见我们的算法和主观评价结果高度一致,表明我们的算法在模拟人类对视觉质量感图 14. 评级相关值和控制 SLR 和 PGD 权重的权值 图 15. (a)原始图像; (b)多算子算法重定向图像的视觉失真图;(c)seam carving 的视觉失真图;(d)转移图的视觉失真图;(e)形变的视觉失真图。它们总的质量指数分别是qtota=0.88,0.42 ,0.8 ,0.65知方面,远超其他算法。此外,我们的方法相关值的标准
45、偏差也是接近最低,意味着我们的算法也是相当稳定的。图 14 比较了公式(9 )和(10)中的自适应权值算法和固定权值算法的结果。蓝线表示 从 0 到 1 变化,步长为 0.1 时评级相关值的变化。结果表明我们的自适应综合算法胜过固定权值算法,因为如第 4 部分所说,不同的图像可能需要不同的权值。值得一提的是,我们的算法的另一个优点是,它可以是重定向图像的几何失真局部化。因为我们的 PGD 算法是基于 SIFT 流矢量场的局部变化。如图 15 所示,相对于其他算法,多算子算法的重定向图像有着相对较少的几何失真。相对的是,seam carving 算法和形变算法在显著目标上产生了更严重的几何失真。
46、因此,我们的算法不仅可以评估重定向图像的几何失真的量,还可以提供一个局部化几何失真的工具,这在分析一个重定向算法的特点并对其进行改进时非常有用。6.3 计算复杂度我们的方法在一个 16GB 内存四核个人电脑(Intel i7)上,用 MATLAB 不经过任何代码优化的情况下,评估一幅图像(从 768512 重定向至 576512)需要 115 秒。在我们的方法中,SIFT 流评估、显著图评估和其他操作分别花费计算时间的 85%,12%和 3%。最主要的操作是 SIFT 流评估,其对 NN 的图像的复杂度为 O(N2log2N)21。其他操作的复杂度问 O(N2)。值得注意的是,SIFT 流评估可以被文献31提出的快速稠密对应匹配方法替代,该方法据称在达到相同准确性的同时速度远比 SIFT 流评估快。或者用文献32提出的方法替代 SIFT 流评估亦可。6.4 局限我们的方法同样有着其局限性。首先,SIFT 流图的准确性和 PGD 标准与 SLR 标准的准确性息息相关。对于一些有着大量重复纹理图样或者有非常平滑区域的图像,SIFT流评估对于图像的某些部分可能会失效,因为在这部分它可能会进行一些误匹配。通常,SIFT 流评估在平滑区域的不准确性对整体标准的准确性影响并不大,因为在平滑区域,几何失真和信息丢失视觉上并不显著。但是对于纹理区域,不准确的的影响就大