收藏 分享(赏)

针对移动视频终端的基于感兴趣区域的快速转换编码.doc

上传人:gnk289057 文档编号:7477215 上传时间:2019-05-19 格式:DOC 页数:6 大小:995KB
下载 相关 举报
针对移动视频终端的基于感兴趣区域的快速转换编码.doc_第1页
第1页 / 共6页
针对移动视频终端的基于感兴趣区域的快速转换编码.doc_第2页
第2页 / 共6页
针对移动视频终端的基于感兴趣区域的快速转换编码.doc_第3页
第3页 / 共6页
针对移动视频终端的基于感兴趣区域的快速转换编码.doc_第4页
第4页 / 共6页
针对移动视频终端的基于感兴趣区域的快速转换编码.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、2009 年 7 月 Journal on Communications July 2009第 30 卷第 7 期 通 信 学 报 Vol.30 No.7针对移动视频终端的基于感兴趣区域的快速转换编码贺强 1,杨高波 1, 2, 张兆扬 3(1. 湖南大学 计算机与通信学院,湖南 长沙 410082;2. 南京邮电大学 图像处理与图像通信江苏省重点实验室,江苏 南京 210003;3. 新型显示技术及应用集成教育部重点实验室(上海大学) ,上海 200072)摘 要:提出一种针对移动终端, 基于感兴趣区域(ROI)的快速转换编码方案。首先,根据移动终端的显示尺寸,在视频服务器端利用视觉关注度模

2、型从 H.264 视频流自动地检测出 ROI。然后,在代理服务器端根据 ROI 转换编码生成适合于移动终端的视频流。此外,针对此转码体系提出了一种快速模式选择算法。仿真实验结果表明,本方案可在降低网络占用带宽的情况下,获得较好的主观视觉效果,并且计算量小。关键词:视频转换编码;感兴趣区域;视频服务器;快速模式选择中图分类号:TP391.1 文献标识码:A 文章编号:1000-436X(2009)07-0036-05Region-of-interest based fast transcoding for mobile video terminalsHE Qiang1, YANG Gao-bo1

3、, 2, ZHANG Zhao-yang3(1. School of Computer 2. Key Lab of Image Processing and Image Communication, Nanjing University of Posts and Telecomm, Jiangshu 210003, China;3. Key Laboratory of Advanced Display and System Applications(Shanghai University), Ministry of Education, Shanghai 200072, China)Abstr

4、act: A fast transcoding scheme based on region of interest (ROI) was proposed for mobile video terminals. According to the target displaying size, the ROIs were automatically detected from the input H.264 video stream based on visual attention model in the video server. The video stream was automati

5、cally generated at the proxy server by video transcoding for mobile terminals. Moreover, a fast mode decision algorithm was proposed for video transcoding. Experimental results demonstrate that the proposed approach can not only reduce the bandwidth occupation, but also obtain excellent video qualit

6、y with a low computational complexity. Key words: video transcoding; region of interest; video server; fast mode decision1 引言随 着 无 线 网 络 的 发 展 , 人 们 对 无 线 视 频 通 信的 需 求 越 来 越 强 烈 。 但 是 , 对 于 移 动 终 端 来 说 ,存 在 2 个 突 出 的 难 题 : 首 先 是 受 到 无 线 网 络 带 宽的 约 束 , 难 以 满 足 高 分 辨 率 视 频 的 带 宽 要 求 ; 其次 , 由 于 移 动 终 端

7、 的 显 示 屏 尺 寸 有 限 , 分 辨 率 较低 , 现 有 视 频 节 目 不 能 简 单 地 直 接 提 供 给 它 们 1。收稿日期:2008-06-21;修回日期:2009-05-20基金项目:图像处理与图像通信江苏省重点实验室开放课题基金资助项目(ZK207006) ;新型显示技术及应用集成教育部重点实验室(上海大学)开放课题基金资助项目(P200801) ;湖南省青年骨干教师培养对象基金资助项目(2008025)Foundation Items: The Research Fund of the Jiangsu Key Laboratory of Image Processi

8、ng and Image Communication (ZK207006);The Key Laboratory of Advanced Display and System Applications (Shanghai University), Ministry of Education (P200801); The Project of Key Youth Teachers Training Program of Hunan Province (2008025)第 7 期 贺强等:针对移动视频终端的基于感兴趣区域的快速转换编码 37因 此 , 需 要 寻 找 一 种 能 在 使 用 现 有

9、 低 分 辨 率 的 移动 视 频 终 端 的 前 提 下 , 尽 可 能 提 高 视 频 的 主 观 视觉 质 量 的 解 决 方 案 。空间分辨率缩减的视频转换编码是解决这类问题的一种可行的思路,通过将高分辨率的视频缩减为低分辨率的视频,可在一定程度上满足移动视频终端的低分辨率要求 2。但是,它没有考虑用户的主观视觉感受,单纯的下采样会导致视频的感兴趣区域(ROI, region of interest)的缩减。近年来,研究人员提出了基于 ROI 的视频转码算法:陈立群等提出一种基于 ROI 和注意力值的视觉关注度模型,有较强的可扩展性,并采用分支界限算法寻找图像在低分辨率显示设备上的高效

10、自适应 3;王毅等提出一种基于关注度建模的空域视频转换编码方法,实现了对目标对象的智能显示 4。这些算法综合考虑人类视觉特性,通过尽可能保持 ROI 的质量以改善移动视频的视觉效果。但是,现存的这些体系存在 2 个突出的缺陷:首先,基于 ROI 的转换编码必须在给定的视频中获取准确的 ROI,为此需要对不同类型的注意力物体进行检测操作,将给代理服务器和网关带来很大的计算负担;其次,必须每次在不同用户发起视频浏览服务的时候都进行 ROI 检测与定位,难以同时满足 PC 用户的视频要求。如果将 ROI 的检测和融合过程调整到视频服务器端进行,上述缺陷有望得到较好的解决 2。首先,服务器端对视频流进

11、行 ROI 检测和定位后,将 ROI 信息直接嵌入到视频流,在代理服务器端自动提取 ROI 的信息;其次,采用变换域的转换编码操作,可进一步降低计算复杂度。基 于 上 述 分 析 , 本 文 针 对 移 动 终 端 的 视 频 需求 , 研 究 一 种 服 务 器 端 的 、 基 于 ROI 的 快 速 转 换编 码 新 体 系 结 构 。 它 的 前 提 是 : 在 视 频 服 务 器 端 ,视 频 都 是 离 线 生 成 的 , 此 时 计 算 量 将 不 再 是 一 个限 制 条 件 ; 此 外 , 假 设 不 同 的 移 动 终 端 用 户 具 有相 同 的 视 觉 关 注 度 模 型

12、 , 即 不 同 的 用 户 观 察 同 一段 视 频 时 ROI 是 相 同 的 。 这 个 假 设 在 通 常 情 况 下是 易 于 满 足 的 。2 视 频 服 务 器 端 基 于 ROI 视 频 转 码 体 系 结构本文的基本思想就是将 ROI 的检测定位从代理服务器转移到视频服务器,且是对编码后的视频流直接进行处理。视频服务器端基于 ROI 的视频转码的体系结构如图 1 所示。图 1 基于 ROI 的视频转码的体系结构整个系统由 2 部分组成:视频服务器的预处理和代理服务器的转换编码。服务器端进行 ROI检测,即离线生成 ROI 信息,并将 ROI 信息附加于视频流的增强层(enha

13、nced layer)。视频服务器可为多个代理服务器提供附加了 ROI 信息的高分辨率视频流,ROI 信息的检测仅需要在视频服务器执行一次,代理服务器根据不同的终端请求对视频服务器输出的视频流进行处理。当移动终端发起视频服务请求时,位于代理服务器 1 上的视频自适应系统将执行转换编码的操作,利用视觉关注度模型生成满足移动终端需求的低分辨率视频流。当 PC 用户发起视频请求的时候,代理服务器2 可直接将高分辨率的视频流发送给 PC 用户,而不进行转换编码。这样,将 ROI 检测和视频自适应操作分开,具有 2 个明显优势:第一,ROI 信息的检测只需要在视频服务器执行一次就可以应用于所有的代理服务

14、器,适用于所有移动终端用户,自适应系统在保持灵活性的同时,计算量显著降低;第二,可利用检测到的 ROI 信息进一步提高自适应性,对将来的视频自适应有一定的可拓展性。3 视觉关注度建模3.1 视觉关注度模型采用视觉关注度模型检测和定位 ROI。此时,用户关注的是图像中的一个个感兴趣物体,而不是整个图像。假定一幅图像的视觉注意力模型是由多个被关注对象(AO, attention objects)组成的一个集合 4:(1),1iiiiAORIAVMPSiN 每个 AO 有 3 个属性。其中, 表示图像中iO38 通 信 学 报 第 30 卷第 个被关注的对象, 为 所对应的感兴趣i iROIiA区域

15、, 是 的注意力关注值, 是最小iAVi iMPS可视面积,N 是这幅图像中被关注对象的总数。3.2 基于视觉关注度获取 ROI 的自动建模为了自动地检测和定位 ROI, AO 的 3 个属性将通过自动建模的方法计算。本文重点考虑的感兴趣对象是运动对象,暂时不对人脸对象、文本对象等进行特殊考虑。相对于静止图像的建模方法,视频的不同之处在于:通常情况下,视频的运动部分最为重要 2。它可以通过直接提取视频的运动场来进行表示并衡量。运动场的计算如下式:(2)2,),(jijidyxjiI其中, ( )表示运动矢量的 x 分量和 y 分jidyx,量,将 看作一幅图像,得到每个运动对象的)(I空间范围

16、。首先,采用中值滤波器去除噪声。然后,进行直方图均衡,在处理后的 上选取多),(jiI个种子点,利用区域增长的方法得到运动对象所在的空间区域。AV 值则根据区域的尺寸,时间和空间的关联以及运 动 的 强 度 进 行 估 计 。 一 般 情 况下 , AV 的 值 和 运 动 对 象 的 面 积 、 运 动 强 度 、 关联 的 强 弱 成 正 比 。 拥 有 较 大 的 面 积 , 较 快 的 运 动速 度 和 更 一 致 关 联 性 的 运 动 对 象 具 有 更 高 的 AV值 。 其 计 算 公 式 如 下 :(3)intesycohernmotinmotimtiraW其 中 , 表 示

17、 运 动 对 象 的 AV 值 ,tiAV表 示 运 动 对 象 的 面 积 , 表 示 运 动otinreaintesyo强 度 , 表 示 关 联 的 强 弱 。 拥 有 较 大 的 面chermti积 、 较 快 的 运 动 速 度 和 更 一 致 关 联 性 的 运 动 对 象具 有 更 高 的 AV 值 。运 动 显 著 对 象 的 检 测 一 般 采 用 多 特 征 融 合 的检 测 方 法 5。 图 2 为 基 于 关 注 度 模 型 的 运 动 显 著对 象 检 测 结 果 。 尽 管 背 景 比 较 复 杂 , 仍 可 得 到 视觉 关 注 度 模 型 所 关 注 的 ROI

18、, 即 运 动 的 人 所 在 的区 域 。 检 测 到 的 ROI 将 应 用 于 后 续 的 视 频 自 适 应操 作 。(a) 检测到的矩形 ROI (b) 本文的视觉关注度图图 2 基于关注度模型的运动显著对象检测3.3 基于虚拟相机控制技术对检测结果的融合在 视 频 的 不 同 帧 中 , 检 测 和 定 位 到 的 ROI 大小 并 不 一 定 完 全 相 同 。 在 实 际 应 用 环 境 中 , ROI的 大 小 需 要 受 到 编 码 标 准 的 约 束 , 通 常 要 求 每 一帧 的 ROI 的 大 小 是 一 致 的 。 此 外 , 为 了 便 于 后 续空 间 分 辨

19、 率 缩 减 的 转 换 编 码 设 计 , 本 文 将 ROI 的尺 寸 限 制 为 有 限 集 合 , 例 如 CIF(352288)和QCIF(176144)。本 文 , ROI 被 定 义 为 一 个 矩 形 , 实 际 的 尺 寸根 据 移 动 终 端 的 显 示 分 辨 率 确 定 。 根 据 解 码 得 到的 视 频 帧 ROI 信 息 , 如 果 该 区 域 不 符 合 事 先 确 定的 尺 寸 , 则 对 检 测 的 区 域 进 行 缩 放 。 此 时 , 如 果不 考 虑 视 频 相 邻 帧 之 间 的 关 系 , 单 独 为 每 一 帧 确定 ROI, 容 易 造 成 闪

20、 烁 现 象 , 从 而 影 响 用 户 的 视觉 效 果 。 为 了 避 免 新 视 频 流 产 生 闪 烁 现 象 , 采 用文 献 6的 虚 拟 相 机 控 制 技 术 调 整 每 帧 ROI 最 终确 定 的 位 置 。4 基于 ROI 模型的视频转换编码视 频 转 码 的 体 系 结 构 通 常 可 分 为 级 联 像 素 域转 换 编 码 (CPDT)和 变 换 域 转 换 编 码 (DDT)。 其 中 ,CPDT 需 要 对 已 编 码 的 视 频 完 全 解 码 后 , 在 像 素域 进 行 ROI 检 测 , 再 重 新 编 码 生 成 适 合 移 动 设 备的 视 频 流

21、。 尽 管 CPDT 很 灵 活 , 但 由 于 同 时 包 含了 完 全 解 码 和 重 编 码 的 过 程 , 计 算 量 大 , 会 给 代理 服 务 器 带 来 很 大 的 处 理 压 力 。 因 此 , DDT 通过 部 分 解 码 视 频 码 流 , 在 编 码 过 程 中 利 用 解 码 得到 的 信 息 , 有 助 于 缩 减 计 算 量 1, 更 适 合 于 本 文的 转 码 。考虑到最新的视频标准 H.264/AVC,具有很高的编码效率和良好的应用前景,本文以 H.264视频流为例进行实现。本文提出的视频转换编码框架可安置在代理服务器或网关上,当视频服务器将高分辨率(HR)

22、视频经过代理服务器或网关发送给移动用户时,自适应系统根据实际的显示屏第 7 期 贺强等:针对移动视频终端的基于感兴趣区域的快速转换编码 39尺寸,利用转码技术调整原始视频,生成满足显示尺寸的低分辨率(LR)视频。转换编码的原理框图如图 3 所示,由 2 大模块组成:解码器和编码器。解码器从高分辨率的码流中解码得到运动信息、重建帧、感兴趣信息等。ROI 模块根据移动视频终端反馈给代理服务器的显示尺寸,确定满足屏幕尺寸限制的区域,最后从解码得到的视频确定 ROI 组成一个新的低分辨率视频。其中,ROI 决定和快速模式决定(FMD) 是本文的关键,ROI 决定前面已阐述。图 3 基于感兴趣区域的快速

23、视频转码系统DDT 的 关 键 在 于 充 分 利 用 原 码 流 解 码 过 程 得到 的 运 动 矢 量 等 信 息 。 对 于 H.264, 它 更 为 复杂 , 不 仅 需 要 计 算 运 动 矢 量 的 值 , 还 要 确 定 最 优的 模 式 , 两 者 都 对 最 终 的 转 码 性 能 存 在 显 著 影 响7。 本 文 提 出 一 种 快 速 模 式 选 择 算 法 , 具 体 步 骤如 下 。1) 运动矢量调整快速帧间模式选择要先进行运动矢量的调整,以修正不同帧的 ROI 位置不同所造成的运动信息错误。运动矢量的调整可以大幅度提高转码性能。本文采用文献4 的方法,对不同帧中

24、的感兴趣位置不同造成的运动信息错位进行修正。2) 快速模式选择(FMD)H.264 支持 7 种可变分块大小运动估计,以提高运动估计的精度。利用输入视频流的分块模式,可减少转码过程中帧间模式选择的运算复杂度。对于运动较小或者运动比较平滑的区域采用大的分块模式;对于运动较不规则的区域采用小的分块模式,运动矢量的梯度方向可以较好地区分运动情况。通过利用解码码流中的运动矢量信息,本文提出一种基于运动矢量梯度方向的快速模式选择算法,步骤如下。Step1 将下采样的图像分成 88 的模块,并从输入码流中获得对应区域运动矢量调整后的运动矢量。Step2 将每个 1616 宏块分为 4 个 88 块,分别统

25、计以下信息:MVA 表示 1616 宏块的平均运动矢量;MVV i表示各个块运动矢量的方差(i=1 ,2,3, 4) ;GradAM 表示运动矢量的幅度;GradDir 表示运动矢量的梯度方向。每个宏块的梯度方向和大小计算如下: (4)(1,)2(,1)2,()()1,1,GxMVAyVAxyyxyxyVA(5)2GGrad(6)11tn,0,3ta,02nyxxyGyxGx 如果 或者 ,045 136 GradDir=0;如果 ,GradDir=1;如果,GradDir =2;如果 ,1352 251GradDir=3。Step3 进行快速模式判别图 4 是快速帧间模式选择的流程图。当所有

26、块的平均方差小于预定阈值 T1 的条件下,且梯度的幅度小于预定阈值 T2,则选择 1616 模式。如果梯度幅度大于阈值 T2, 则 根 据 梯 度 方 向 选 择168 还 是 816。 而 当 平 均 方 差 大 于 预 定 阈 值T1,且 梯 度 幅 度 小 于 预 定 阈 值 T3, 选 择 88。 否则 选 择 sub88,对 每 一 个 88 块 分 割 为 4 个44 的 小 块 , 并 计 算 其 方 差 、 梯 度 和 梯 度 方 向 ,确 定 其 最 终 的 模 式 。40 通 信 学 报 第 30 卷图 4 快速模式选择流程实际上,如果宏块对应区域的宏块类型全都是 1616

27、 或者 Skip,则宏块的候选类型为 1616和 Skip,从中选取率失真(RD) 值最小的为最终模式。如果宏块对应区域存在帧内模式类型,则宏块类型为以 88 模式为起点向下进行全搜索。5 实验结果及分析为 了 验 证 本 文 算 法 的 性 能 , 在 VC6.0 平 台 进 行了 仿 真 实 验 。 测 试 序 列 选 取Coastguard、 Foreman、 Mobile 和 Stefan, 它 们 包 含大 范 围 的 场 景 , 更 具 说 服 力 。 输 入 为 CIF 格 式 的H.264 视 频 流 , 输 出 为 QCIF 格 式 的 视 频 流 。 解 码器 为 JM10

28、.1 的 H.264 解 码 器 , 编 码 器 为 X.264 的H.264 编 码 器 。 编 码 器 级 别 为 Baseline, 其 运 动 估 计的 范 围 是 1616, 搜 索 方 法 为 采 用 小 钻 石 搜 索 ,参 考 帧 数 为 1, 量 化 参 数 为 28。图 5 为 Coastguard 和 Stefan 序列转码前后的实验结果对比。其中,图 5(a)和图 5(b)为输入的原始视频帧。如果直接采用下采样转换为 QCIF 格式,其结果分别如图 5(c)和图 5(e)所示,图 5(d)和图5(f)为采用本文方案进行 ROI 视频转码到的结果。显然,基于 ROI 转换

29、编码在基本保持背景信息的同时,突出了 ROI,有利于改善在小显示屏移动视频终端上的主观视觉效果。(a)Coastguard 原始帧 (b)Stefan 原始帧(c)下采样效果 (d)本文效果(e)下采样效果 (f)本文效果图 5 原始视频序列和转码后视频序列视觉效果比较此外,为了客观地评价本文的算法,将本文的快速模式选择算法与基于 CPDT 的全搜索模式(FS)在运算复杂度、比特率、视频质量和编码时间等方面进行了比较。表 1、表 2 和表 3 分别列出了全搜索模式和本文算法在运算复杂度,PSNR 和编码时间的实验结果比较。可以看出,与全搜索模式(FS )相比,运动估计中搜索点的个数下降了70%

30、90%,计算时间降低约 70%,而 PSNR 仅仅减少 0.110.23dB。表 1 FS 与本文算法运算复杂度比较搜索次数视频序列全搜索模式 本文算法Coastguard 809784 176413Foreman 518773 42462Mobile 1313816 165980Stefan 1045005 230710表 2 FS 与本文算法 PSNR 比较PSNR/dB视频序列全搜索模式 本文算法Coastguard 36.30 36.07Foreman 37.02 36.81Mobile 33.10 32.90Stefan 33.75 33.64表 3 FS 与本文算法编码时间比较编码

31、时间/s视频序列全搜索模式 本文算法Coastguard 285 72Foreman 148 45Mobile 383 102Stefan 262 67第 7 期 贺强等:针对移动视频终端的基于感兴趣区域的快速转换编码 416 结束语本 文 提 出 了 一 种 基 于 ROI 的 快 速 视 频 转 码 体 系结 构 , 适 合 于 移 动 终 端 的 视 频 自 适 应 。 它 利 用 视 觉关 注 度 模 型 获 取 ROI, 通 过 DDT 缩 减 分 辨 率 , 满足 移 动 视 频 终 端 的 视 频 需 求 。 通 过 将 关 注 度 模 型 置于 视 频 服 务 器 端 , 可

32、降 低 代 理 服 务 器 的 计 算 负 担 。DDT 的 快 速 模 式 选 择 使 计 算 量 显 著 地 降 低 。 仿 真实 验 结 果 表 明 , 本 方 案 尽 管 PSNR 有 一 定 的 下 降 ,但 是 可 改 善 视 频 的 主 观 视 觉 质 量 ,计 算 量 可 降 低 70%左 右 。参考文献:1 CHANG S F, VETRO A. Video adaptation: concepts, technologies and open issuesJ. Proceedings of the IEEE, 2005, 32(1): 148-158. (下转第 46 页)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报