针对移动视频终端的基于感兴趣区域的快速转换编码.doc-道客多多

资源描述

1、2009 年 7 月 Journal on Communications July 2009第 30 卷第 7 期通信学报 Vol.30 No.7针对移动视频终端的基于感兴趣区域的快速转换编码贺强 1，杨高波 1, 2, 张兆扬 3(1. 湖南大学计算机与通信学院，湖南长沙 410082；2. 南京邮电大学图像处理与图像通信江苏省重点实验室，江苏南京 210003；3. 新型显示技术及应用集成教育部重点实验室（上海大学），上海 200072)摘要：提出一种针对移动终端, 基于感兴趣区域(ROI)的快速转换编码方案。首先，根据移动终端的显示尺寸，在视频服务器端利用视觉关注度模

2、型从 H.264 视频流自动地检测出 ROI。然后，在代理服务器端根据 ROI 转换编码生成适合于移动终端的视频流。此外，针对此转码体系提出了一种快速模式选择算法。仿真实验结果表明，本方案可在降低网络占用带宽的情况下，获得较好的主观视觉效果，并且计算量小。关键词：视频转换编码；感兴趣区域；视频服务器；快速模式选择中图分类号：TP391.1 文献标识码：A 文章编号：1000-436X(2009)07-0036-05Region-of-interest based fast transcoding for mobile video terminalsHE Qiang1, YANG Gao-bo1

3、, 2, ZHANG Zhao-yang3(1. School of Computer 2. Key Lab of Image Processing and Image Communication, Nanjing University of Posts and Telecomm, Jiangshu 210003, China;3. Key Laboratory of Advanced Display and System Applications(Shanghai University), Ministry of Education, Shanghai 200072, China)Abstr

4、act: A fast transcoding scheme based on region of interest (ROI) was proposed for mobile video terminals. According to the target displaying size, the ROIs were automatically detected from the input H.264 video stream based on visual attention model in the video server. The video stream was automati

5、cally generated at the proxy server by video transcoding for mobile terminals. Moreover, a fast mode decision algorithm was proposed for video transcoding. Experimental results demonstrate that the proposed approach can not only reduce the bandwidth occupation, but also obtain excellent video qualit

6、y with a low computational complexity. Key words: video transcoding; region of interest; video server; fast mode decision1 引言随着无线网络的发展，人们对无线视频通信的需求越来越强烈。但是，对于移动终端来说，存在 2 个突出的难题：首先是受到无线网络带宽的约束，难以满足高分辨率视频的带宽要求；其次，由于移动终端

7、的显示屏尺寸有限，分辨率较低，现有视频节目不能简单地直接提供给它们 1。收稿日期：2008-06-21；修回日期：2009-05-20基金项目：图像处理与图像通信江苏省重点实验室开放课题基金资助项目（ZK207006）；新型显示技术及应用集成教育部重点实验室（上海大学）开放课题基金资助项目（P200801）；湖南省青年骨干教师培养对象基金资助项目(2008025)Foundation Items: The Research Fund of the Jiangsu Key Laboratory of Image Processi

8、ng and Image Communication (ZK207006)；The Key Laboratory of Advanced Display and System Applications (Shanghai University), Ministry of Education (P200801); The Project of Key Youth Teachers Training Program of Hunan Province (2008025)第 7 期贺强等：针对移动视频终端的基于感兴趣区域的快速转换编码 37因此，需要寻找一种能在使用现有

9、低分辨率的移动视频终端的前提下，尽可能提高视频的主观视觉质量的解决方案。空间分辨率缩减的视频转换编码是解决这类问题的一种可行的思路，通过将高分辨率的视频缩减为低分辨率的视频，可在一定程度上满足移动视频终端的低分辨率要求 2。但是，它没有考虑用户的主观视觉感受，单纯的下采样会导致视频的感兴趣区域(ROI, region of interest)的缩减。近年来，研究人员提出了基于 ROI 的视频转码算法：陈立群等提出一种基于 ROI 和注意力值的视觉关注度模型，有较强的可扩展性，并采用分支界限算法寻找图像在低分辨率显示设备上的高效

10、自适应 3；王毅等提出一种基于关注度建模的空域视频转换编码方法，实现了对目标对象的智能显示 4。这些算法综合考虑人类视觉特性，通过尽可能保持 ROI 的质量以改善移动视频的视觉效果。但是，现存的这些体系存在 2 个突出的缺陷：首先，基于 ROI 的转换编码必须在给定的视频中获取准确的 ROI，为此需要对不同类型的注意力物体进行检测操作，将给代理服务器和网关带来很大的计算负担；其次，必须每次在不同用户发起视频浏览服务的时候都进行 ROI 检测与定位，难以同时满足 PC 用户的视频要求。如果将 ROI 的检测和融合过程调整到视频服务器端进行，上述缺陷有望得到较好的解决 2。首先，服务器端对视频流进

11、行 ROI 检测和定位后，将 ROI 信息直接嵌入到视频流，在代理服务器端自动提取 ROI 的信息；其次，采用变换域的转换编码操作，可进一步降低计算复杂度。基于上述分析，本文针对移动终端的视频需求，研究一种服务器端的、基于 ROI 的快速转换编码新体系结构。它的前提是：在视频服务器端，视频都是离线生成的，此时计算量将不再是一个限制条件；此外，假设不同的移动终端用户具有相同的视觉关注度模型

12、，即不同的用户观察同一段视频时 ROI 是相同的。这个假设在通常情况下是易于满足的。2 视频服务器端基于 ROI 视频转码体系结构本文的基本思想就是将 ROI 的检测定位从代理服务器转移到视频服务器，且是对编码后的视频流直接进行处理。视频服务器端基于 ROI 的视频转码的体系结构如图 1 所示。图 1 基于 ROI 的视频转码的体系结构整个系统由 2 部分组成：视频服务器的预处理和代理服务器的转换编码。服务器端进行 ROI检测，即离线生成 ROI 信息，并将 ROI 信息附加于视频流的增强层(enha

13、nced layer)。视频服务器可为多个代理服务器提供附加了 ROI 信息的高分辨率视频流，ROI 信息的检测仅需要在视频服务器执行一次，代理服务器根据不同的终端请求对视频服务器输出的视频流进行处理。当移动终端发起视频服务请求时，位于代理服务器 1 上的视频自适应系统将执行转换编码的操作，利用视觉关注度模型生成满足移动终端需求的低分辨率视频流。当 PC 用户发起视频请求的时候，代理服务器2 可直接将高分辨率的视频流发送给 PC 用户，而不进行转换编码。这样，将 ROI 检测和视频自适应操作分开，具有 2 个明显优势：第一，ROI 信息的检测只需要在视频服务器执行一次就可以应用于所有的代理服务

14、器，适用于所有移动终端用户，自适应系统在保持灵活性的同时，计算量显著降低；第二，可利用检测到的 ROI 信息进一步提高自适应性，对将来的视频自适应有一定的可拓展性。3 视觉关注度建模3.1 视觉关注度模型采用视觉关注度模型检测和定位 ROI。此时，用户关注的是图像中的一个个感兴趣物体，而不是整个图像。假定一幅图像的视觉注意力模型是由多个被关注对象(AO, attention objects)组成的一个集合 4：(1),1iiiiAORIAVMPSiN 每个 AO 有 3 个属性。其中，表示图像中iO38 通信学报第 30 卷第个被关注的对象，为所对应的感兴趣i iROIiA区域

15、，是的注意力关注值，是最小iAVi iMPS可视面积，N 是这幅图像中被关注对象的总数。3.2 基于视觉关注度获取 ROI 的自动建模为了自动地检测和定位 ROI， AO 的 3 个属性将通过自动建模的方法计算。本文重点考虑的感兴趣对象是运动对象，暂时不对人脸对象、文本对象等进行特殊考虑。相对于静止图像的建模方法，视频的不同之处在于：通常情况下，视频的运动部分最为重要 2。它可以通过直接提取视频的运动场来进行表示并衡量。运动场的计算如下式：(2)2,),(jijidyxjiI其中，（）表示运动矢量的 x 分量和 y 分jidyx,量，将看作一幅图像，得到每个运动对象的)(I空间范围

16、。首先，采用中值滤波器去除噪声。然后，进行直方图均衡，在处理后的上选取多),(jiI个种子点，利用区域增长的方法得到运动对象所在的空间区域。AV 值则根据区域的尺寸，时间和空间的关联以及运动的强度进行估计。一般情况下， AV 的值和运动对象的面积、运动强度、关联的强弱成正比。拥有较大的面积，较快的运动速度和更一致关联性的运动对象具有更高的 AV值。其计算公式如下：(3)intesycohernmotinmotimtiraW其中，表示

17、运动对象的 AV 值，tiAV表示运动对象的面积，表示运动otinreaintesyo强度，表示关联的强弱。拥有较大的面chermti积、较快的运动速度和更一致关联性的运动对象具有更高的 AV 值。运动显著对象的检测一般采用多特征融合的检测方法 5。图 2 为基于关注度模型的运动显著对象检测结果。尽管背景比较复杂，仍可得到视觉关注度模型所关注的 ROI

18、，即运动的人所在的区域。检测到的 ROI 将应用于后续的视频自适应操作。(a) 检测到的矩形 ROI (b) 本文的视觉关注度图图 2 基于关注度模型的运动显著对象检测3.3 基于虚拟相机控制技术对检测结果的融合在视频的不同帧中，检测和定位到的 ROI 大小并不一定完全相同。在实际应用环境中， ROI的大小需要受到编码标准的约束，通常要求每一帧的 ROI 的大小是一致的。此外，为了便于后续空间分辨

19、率缩减的转换编码设计，本文将 ROI 的尺寸限制为有限集合，例如 CIF(352288)和QCIF(176144)。本文， ROI 被定义为一个矩形，实际的尺寸根据移动终端的显示分辨率确定。根据解码得到的视频帧 ROI 信息，如果该区域不符合事先确定的尺寸，则对检测的区域进行缩放。此时，如果不考虑视频相邻帧之间的关系，单独为每一帧确定 ROI，容易造成闪

20、烁现象，从而影响用户的视觉效果。为了避免新视频流产生闪烁现象，采用文献 6的虚拟相机控制技术调整每帧 ROI 最终确定的位置。4 基于 ROI 模型的视频转换编码视频转码的体系结构通常可分为级联像素域转换编码 (CPDT)和变换域转换编码 (DDT)。其中，CPDT 需要对已编码的视频完全解码后，在像素域进行 ROI 检测，再重新编码生成适合移动设备的视频流

21、。尽管 CPDT 很灵活，但由于同时包含了完全解码和重编码的过程，计算量大，会给代理服务器带来很大的处理压力。因此， DDT 通过部分解码视频码流，在编码过程中利用解码得到的信息，有助于缩减计算量 1, 更适合于本文的转码。考虑到最新的视频标准 H.264/AVC，具有很高的编码效率和良好的应用前景，本文以 H.264视频流为例进行实现。本文提出的视频转换编码框架可安置在代理服务器或网关上，当视频服务器将高分辨率(HR)

22、视频经过代理服务器或网关发送给移动用户时，自适应系统根据实际的显示屏第 7 期贺强等：针对移动视频终端的基于感兴趣区域的快速转换编码 39尺寸，利用转码技术调整原始视频，生成满足显示尺寸的低分辨率(LR)视频。转换编码的原理框图如图 3 所示，由 2 大模块组成：解码器和编码器。解码器从高分辨率的码流中解码得到运动信息、重建帧、感兴趣信息等。ROI 模块根据移动视频终端反馈给代理服务器的显示尺寸，确定满足屏幕尺寸限制的区域，最后从解码得到的视频确定 ROI 组成一个新的低分辨率视频。其中，ROI 决定和快速模式决定(FMD) 是本文的关键，ROI 决定前面已阐述。图 3 基于感兴趣区域的快速

23、视频转码系统DDT 的关键在于充分利用原码流解码过程得到的运动矢量等信息。对于 H.264，它更为复杂，不仅需要计算运动矢量的值，还要确定最优的模式，两者都对最终的转码性能存在显著影响7。本文提出一种快速模式选择算法，具体步骤如下。1) 运动矢量调整快速帧间模式选择要先进行运动矢量的调整，以修正不同帧的 ROI 位置不同所造成的运动信息错误。运动矢量的调整可以大幅度提高转码性能。本文采用文献4 的方法，对不同帧中

24、的感兴趣位置不同造成的运动信息错位进行修正。2) 快速模式选择(FMD)H.264 支持 7 种可变分块大小运动估计，以提高运动估计的精度。利用输入视频流的分块模式，可减少转码过程中帧间模式选择的运算复杂度。对于运动较小或者运动比较平滑的区域采用大的分块模式；对于运动较不规则的区域采用小的分块模式，运动矢量的梯度方向可以较好地区分运动情况。通过利用解码码流中的运动矢量信息，本文提出一种基于运动矢量梯度方向的快速模式选择算法，步骤如下。Step1 将下采样的图像分成 88 的模块，并从输入码流中获得对应区域运动矢量调整后的运动矢量。Step2 将每个 1616 宏块分为 4 个 88 块，分别统

25、计以下信息：MVA 表示 1616 宏块的平均运动矢量；MVV i表示各个块运动矢量的方差（i=1 ，2，3， 4）；GradAM 表示运动矢量的幅度；GradDir 表示运动矢量的梯度方向。每个宏块的梯度方向和大小计算如下： (4)(1,)2(,1)2,()()1,1,GxMVAyVAxyyxyxyVA(5)2GGrad(6)11tn,0,3ta,02nyxxyGyxGx 如果或者，045 136 GradDir=0；如果，GradDir=1；如果，GradDir =2；如果，1352 251GradDir=3。Step3 进行快速模式判别图 4 是快速帧间模式选择的流程图。当所有

26、块的平均方差小于预定阈值 T1 的条件下，且梯度的幅度小于预定阈值 T2，则选择 1616 模式。如果梯度幅度大于阈值 T2，则根据梯度方向选择168 还是 816。而当平均方差大于预定阈值T1,且梯度幅度小于预定阈值 T3，选择 88。否则选择 sub88,对每一个 88 块分割为 4 个44 的小块，并计算其方差、梯度和梯度方向，确定其最终的模式。40 通信学报第 30 卷图 4 快速模式选择流程实际上，如果宏块对应区域的宏块类型全都是 1616

27、或者 Skip，则宏块的候选类型为 1616和 Skip，从中选取率失真(RD) 值最小的为最终模式。如果宏块对应区域存在帧内模式类型，则宏块类型为以 88 模式为起点向下进行全搜索。5 实验结果及分析为了验证本文算法的性能，在 VC6.0 平台进行了仿真实验。测试序列选取Coastguard、 Foreman、 Mobile 和 Stefan, 它们包含大范围的场景，更具说服力。输入为 CIF 格式的H.264 视频流，输出为 QCIF 格式的视频流。解码器为 JM10

28、.1 的 H.264 解码器，编码器为 X.264 的H.264 编码器。编码器级别为 Baseline, 其运动估计的范围是 1616，搜索方法为采用小钻石搜索，参考帧数为 1，量化参数为 28。图 5 为 Coastguard 和 Stefan 序列转码前后的实验结果对比。其中，图 5(a)和图 5(b)为输入的原始视频帧。如果直接采用下采样转换为 QCIF 格式，其结果分别如图 5(c)和图 5(e)所示，图 5(d)和图5(f)为采用本文方案进行 ROI 视频转码到的结果。显然，基于 ROI 转换

29、编码在基本保持背景信息的同时，突出了 ROI，有利于改善在小显示屏移动视频终端上的主观视觉效果。(a)Coastguard 原始帧 (b)Stefan 原始帧(c)下采样效果 (d)本文效果(e)下采样效果 (f)本文效果图 5 原始视频序列和转码后视频序列视觉效果比较此外，为了客观地评价本文的算法，将本文的快速模式选择算法与基于 CPDT 的全搜索模式(FS)在运算复杂度、比特率、视频质量和编码时间等方面进行了比较。表 1、表 2 和表 3 分别列出了全搜索模式和本文算法在运算复杂度，PSNR 和编码时间的实验结果比较。可以看出，与全搜索模式（FS ）相比，运动估计中搜索点的个数下降了70%

30、90%，计算时间降低约 70%，而 PSNR 仅仅减少 0.110.23dB。表 1 FS 与本文算法运算复杂度比较搜索次数视频序列全搜索模式本文算法Coastguard 809784 176413Foreman 518773 42462Mobile 1313816 165980Stefan 1045005 230710表 2 FS 与本文算法 PSNR 比较PSNR/dB视频序列全搜索模式本文算法Coastguard 36.30 36.07Foreman 37.02 36.81Mobile 33.10 32.90Stefan 33.75 33.64表 3 FS 与本文算法编码时间比较编码

31、时间/s视频序列全搜索模式本文算法Coastguard 285 72Foreman 148 45Mobile 383 102Stefan 262 67第 7 期贺强等：针对移动视频终端的基于感兴趣区域的快速转换编码 416 结束语本文提出了一种基于 ROI 的快速视频转码体系结构，适合于移动终端的视频自适应。它利用视觉关注度模型获取 ROI，通过 DDT 缩减分辨率，满足移动视频终端的视频需求。通过将关注度模型置于视频服务器端，可

32、降低代理服务器的计算负担。DDT 的快速模式选择使计算量显著地降低。仿真实验结果表明，本方案尽管 PSNR 有一定的下降，但是可改善视频的主观视觉质量 ,计算量可降低 70%左右。参考文献：1 CHANG S F, VETRO A. Video adaptation: concepts, technologies and open issuesJ. Proceedings of the IEEE, 2005, 32(1): 148-158. （下转第 46 页）

展开阅读全文