1、上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究I基于 H.264_AVC 的可伸缩视频编码及其相关技术研究摘 要H.264/AVC是ITU-T和ISO联合推出的新标准,采用和发展了近几年视频编码方面的先进技术,以较高编码效率和网络友好性而著称。它仍基于以前视频编码标准的运动补偿混合编码方案,主要不同有:增强的运动预测能力;准确匹配的较小块变换;自适应环内滤波器;增强的熵编码。测试结果表明这些新特征使编码效率比以前的标准约提高50%,但增加了复杂度。本文着重研究经传输层的若干应用问题。随着新的视频编码标准H.264/AVC的逐步推广应用,如何将H.264/AVC
2、视频流经MPEG-2的系统传输层传输,对于充分利用原有大量的MPEG-2系统有重要意义。对此提出一种解决方案。要点是:先把H.264/AVC 视频作为MPEG-2 系统层传输的基本流,然后扩展MPEG-2 标准中的传输流系统目标解码器(T-STD) ,使之可以将H.264/AVC编码视频作为MPEG-2传输流(TS)在 Internet上传输和解码。被解码的基本流通常来自于一个“容器” (如AVI或者TS ) ,在客户端从服务器端的这个容器中取出H.264/AVC基本流后便可实时解码、显示。经仿真实验表明,该方案能够获得较好的流视频效果,在带宽受限的情况下信噪比低于40dB的帧数少于5%,可用
3、于IP 网络流视频或移动视频中。在完成 H.264 算法优化和多媒体指令集优化之后,将其扩展至基于比特平面编码的 FGS 编码,从而实现了基于 PC 平台的实时 SNR(信噪比)精细粒度可伸缩编码,CIF 格式编码帧速可达 30fps 以上。此外,为使 H.264/AVC 码流能在带宽较大变化的 IP 和无线等异构网络中传输,本文另外提出一种将 H.264 扩展至混合空域/时域/SNR 精细可伸缩方案,并给出了相应的码率控制策略:根据率失真优化的结果来选择 QP(量化参数) ,在编码器端对基本层作 GOP(图像组)级的码率控制,而对增强层作逐次精细化的码率控制。本文方案与由 JM8.6 的基本
4、层码率控制、FGS 比特平面截断作增强层码率控制(简称 JM8.6+FGS)的方法相比,视频质量更高,PSNR(峰值信噪比)变化更为平滑。且在接收端,在某一目标比特率约束下,可以由不同时间分辨率(帧速率)和不同空间分辨率(图像格式)配置的终端截取和实时解码。仿真结果表明,本文方法的亮度平均峰值信噪比(Y-PSNR)在 CIF 格式时优于 JM8.6+FGS 方法达 2.45dB,且与目标比特率更为匹配;也比新近提出的 JVT-N020 提案,在平均 Y-PSNR 上有 0.15dB 的增益,而且图像质量更为平滑。H.264/AVC 支持 SP(同步预测)帧,允许不同质量比特流之间的高效切换,M
5、PEG-4 支持 FGS 编码。本文提出一种将两者融合在一起的解决方案,在 JM 联合模型中实现了流切换的上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究II功能,并且加入 FGS 编码,使得传输的比特流既能适应因特网或无线网传输带宽的大跨度波动,又能灵活适应小范围的带宽变化。仿真实验结果表明:本文所提出方案的亮度 Y 分量峰值信噪比比 FGS 平均好 0.47dB,比流切换方法平均好 0.23dB。且在专为移动业务而设计的H.264/AVC 扩展类上,在 3GPP/3GPP2 无线视频通用测试条件下,本文所提出方案的性能比单一的 FGS 平均好 0.76dB,
6、比单一的流切换方法平均好 0.51dB。关键词:H.264,AVC,MPEG-2 ,传输流,网络抽象层,可伸缩编码,实时编码,流切换,视频传输,精细可伸缩编码,码率控制,空间可分级,时间可分级,信噪比可伸缩本项研究受国家自然科学基金重点项目(60332030)和国家自然科学基金项目( 60372091)的资助。上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究IIIABSTRACTH.264/AVC is a new video codec standard accepted by ITU-T and ISO, which adopts many advanced
7、 technologies and develops them in video codec since recent years, and becomes famous for its higher coding efficiency and better network friendlyship than others. Based on the motion-compensated hybrid coding scheme originated from previous video codec standards, H.264/AVC has other important diffe
8、rences as follows: the enhanced motion prediction capability; accurate matching for small block-size tranforming; adaptive in-loop deblocking filter; enhanced entropy coding. The experimental results are shown that these new characteristics promote the encoder efficiency by about 50% than the previo
9、us counterparts, but the complexity addition is inevitable. This thesis focuses all our attentions on some applications studies throughout the transport layer in the IP networks.With the increasingly extensive applications for the new emerging video coding standard, H.264/AVC, it becomes more and mo
10、re important that we transport H.264/AVC video stream over MPEG-2 system by exploiting all the existing large amount of the infrastructure of MPEG-2 systems. We propose a solution for it. The key technologies are as follows: Firstly we use an H.264/AVC video as an elementary stream of MPEG-2 system,
11、 then extend the Transport stream-System Target Decoder(T-STD) of MPEG-2 standard, so as to pack the H.264/AVC video elementary stream into MPEG-2 Transport Stream(TS) to transport through Internet and decode it in the client. The decoded elementary stream should ordinarily come from a container, su
12、ch as AVI or TS. We extract the H.264/AVC video from this container to be real-time decoded and be represented in the client after the reception. The experiment results show that we get a good effect, with less than 5% frames whose PSNR40dB even in the case of bandwidth-constrained scenario. Running
13、 in the IP networks, the streaming solution can also be used for mobile video.After the algorithms optimization and multi-media instruction-set optimization for the H.264 encoder, the FGS (Fine-Granular Scalability) based on bit-plane coding is extended to realize a real-time SNR fine-granular scala
14、ble coding based on PC platform, and the frame rate can be 30 fps and over for the video with CIF format. Moreover, to enable transmission of H.264/AVC bit-stream over IP and wireless heterogeneous networks with randomly variable bandwidth, another scheme of hybrid spatial/temporal/SNR refined scala
15、bility and its rate control stratege are given: the rate control for GOP (Group of Pictures) level is done on the base-layer at the encoder side to select the QP (Quantization Parameter) according to the RDO (Rate Distortion Optimization) results, and the progressively refined rate control is done o
16、n the enhancement-layer. In comparison with the method of JM8.6+FGS (i.e., the base-layer rate control is based on JM8.6, and the enhancement-layer control is based on the FGS bit-plane truncation), our proposed gets better video quality with smoother PSNR 上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究IV(
17、Peak Signal Noise Ratio) variation. At the receiver, under certain target bit-rate constraint, the total bit-stream can be truncated and real-time decoded by the ends configured with different temporal resolutions (i.e. frame rates) and different spatial resolutions (i.e. video formats). The experim
18、ental results are shown that the Y-PSNR (PSNR for luma Y component) of ours with CIF format is 2.45dB better than that of JM8.6+FGS, and ours matches the target bit-rate more fitly; additionally, ours is 0.15dB better than recently proposed JVT-N020 in Y-PSNR on average, and ours gets smoother video
19、 quality than the other two schemes.SP (Synchronization-Predictive) frame, which enables high efficiency of switching between two bitstreams with different qualities, is supported by H.264/AVC. And FGS video coding is supported by MPEG-4. This paper proposes a solution for combination between these
20、two tools, and the Joint Model has been extended to support Stream Switching and FGS coding is added into it so as to adapt to high bandwidth variations of Internet or Wireless networks and to low bandwidth variations flexibly for transmitted streams. Experimental results show that our proposed syst
21、em outperforms FGS by 0.47dB and the H.264/AVC-based stream switching approach by 0.23dB on average, respectively. And for H.264/AVC Extended Profile suitable for mobile services, our proposed system outperforms FGS by 0.76dB and the H.264/AVC-based video stream switching approach by 0.51dB on avera
22、ge, respectively, under 3GPP /3GPP2 wireless common test conditions.Keywords: H.264, AVC, MPEG-2, transport stream, network abstraction layer, scalable coding, real-time encoding, stream switching, video transmission, fine-granular scalability, rate control, spatial scalability, temporal scalability
23、, SNR scalability上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究V目 录摘 要 .IABSTRACT.III目 录 .V缩 略 语 .VIII第一章 绪论 .11.1 引言 .11.2 H.264/AVC 应用概述 .61.2.1 NAL 简介 .71.2.1.1 NAL 单元 .81.2.1.2 使用字节流格式的 NAL 单元 .81.2.1.3 使用包格式的 NAL 单元 .81.2.1.4 VCL 的 NAL 单元和非-VCL 的 NAL 单元 .91.2.1.5 参数集 .91.2.1.6 访问单元 .91.2.1.7 编码视频序列 .
24、101.2.2 类别及其应用简介 .101.2.2.1 类(Profile)和级(Level) .101.2.2.2 各个类的应用领域 .131.3 本文的结构与创新点 .131.3.1 本文主要研究内容及结构安排 .131.3.2 本文的创新点 .14第二章 H.264/AVC 基于 IP 和无线网络应用的基础 .152.1 H.264/AVC 在 IP 环境中应用的基础知识 .152.1.1 IP 上的视频传输 .152.1.1.1 不同应用业务的特点 .152.1.1.2 IP 多媒体传输协议 .172.1.2 RTP 打包 .242.1.2.1 H.264 的 NAL 单元概念 .25
25、2.1.2.2 打包设计的约束条件 .252.1.2.3 简单的打包 .262.1.2.4 NALU 分段 .262.1.2.5 NALU 合并 .262.2 H.264/AVC 在无线环境中应用的基础知识 .272.2.1 移动网络视频的应用和约束 .272.2.2 无线系统中 H.264/AVC 传输 .292.2.3 用于无线视频的通用测试条件 .302.3 小结 .31第三章 H.264 视频流在 MPEG-2 系统层上流传输 .333.1 MPEG-2 系统层标准 .333.2 H.264 视频流 Over MPEG-2 系统层传输 .343.2.1 H.264/AVC Over M
26、PEG-2 流视频方案 .353.2.1.1 系统框图 .35上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究VI3.2.1.2 约束条件 .363.2.1.3 T-STD 模型扩展 .363.2.1.4 DPBn 缓存器管理 .373.2.2 仿真实验 .383.2.2.1 实验方案 .393.2.2.2 软件平台 .393.2.2.3 实验结果 .403.3 小结 .41第四章 基于 H.264 的 FGS 改进方案及码率控制策略 .424.1 可伸缩编码概述 .424.1.1 四种可伸缩方法 97 .434.1.1.1 质量可分级性 .434.1.1.2
27、空间可分级性 .454.1.1.3 时间可分级性 .474.1.1.4 频率可分级性 .474.1.1.5 基本方案的组合 .474.1.1.6 精细粒度可伸缩性 .484.1.2 现有的 FGS 的改进方法 .504.2 H.264 FGS 分析及其改进:基于 PC 平台的实时 FGS 编码 .504.2.1 基于 H.264 的 FGS 编码分析 .514.2.2 基于 H.264 的 FGS 解码分析 .534.2.3 自适应量化 .544.2.4 基于 PC 平台的实时 FGS 编码器 .564.2.4.1 基于简化 RDO 的编码器优化 .564.2.4.2 多媒体指令集优化 .57
28、4.2.4.3 实时 FGS 编码步骤 .584.2.4.4 性能测试与比较 .604.3 可扩大伸缩范围的空时分级 SNR-FGS 编码方法 .624.3.1 基于 H.264 的混合 FGS 编码的原理和流程 .634.3.2 QP 值的精细化选择 .654.4 码率控制策略 .664.4.1 基本层码率控制 .664.4.2 增强层码率控制 .684.5 实验结果 .694.5.1 与 JM8.6+FGS 方法的比较 .694.5.2 与 JVT-N020 的比较 .724.6 小结 .73第五章 基于 H.264-SS 与 FGS 结合的可伸缩自适应选择方法 .755.1 流切换(SS
29、)的概念和特性 .755.2 流切换的应用场合和 SP/SI 帧的编解码方法 .785.2.1 SP/SI 帧的应用场合 .785.2.1.1 拼接和随机访问 .785.2.1.2 误码复原 .795.2.1.3 误码弹性 .805.2.1.4 视频冗余编码方法 .805.2.2 SP/SI 帧的编解码方法 .815.2.2.1 主 SP 帧和 SI 帧编码过程 .81上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究VII5.2.2.2 次级 SP 帧的编码过程 .825.2.2.3 主 SP 帧的解码过程 .835.2.2.4 次级 SP 帧和 SI 帧的解码
30、过程 .845.3 基于 H.264 FGS 的流切换及其自适应选择算法 .845.4 仿真实验 .885.4.1 直通信道下 FGS 和流切换结合的实验结果 .885.4.2 无线环境下的可伸缩比特流流切换的实验结果 .925.5 小结 .97第六章 总结与展望 .98参考文献 .100作者在攻读博士学位期间的成果 .112致 谢 .114上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究VIII缩 略 语3GPP (3rd Generation Partnership Project) 第三代合作伙伴项目3GPP2 (3rd Generation Partne
31、rship Project 2) 第 3 代合作伙伴项目2ASF (Advanced Streaming Format) 高级流式文件格式ASO (Arbitrary Slice Ordering) 任意的条带排序AVC (Advanced Video Coding) 先进视频编码AVI (Audio Video Interleaved) 音视频交插记录的文件格式CABAC (Context-Based Adaptive Binary Arithmetic Coding)基于上下文的自适应二进制算术编码CRC (Cyclic Redundancy Check) 循环冗余检测CR LF (Car
32、riage Return Line Feed) 回车换行ES (Elementary Stream) 基本流FGS (Fine Granular Scalability) 精细可伸缩FMO (Flexible Macroblock Ordering) 灵活的宏块排序FTP (File Transfer Protocol) 文件传输协议GOP (Group Of Picture) 图像组HRD (Hypothetical Reference Decoder) 假说性参考解码器HTTP (HyperText Transfer Protocol) 超文本传输协议ICMP (Internet Cont
33、rol Message Protocol) Internet 控制消息协议IDR (Instantaneous Decoder Refresh) 瞬时解码器刷新IGMP (Internet Group Management Protocol) Internet 组管理协议IP (Internet Protocol) 网际协议JM (Joint Model) JVT 联合模型MAD (Mean Absolute Deviation) 平均绝对差上海大学博士学位论文 基于 H.264/AVC 的可伸缩视频编码及其相关技术研究IXMMS (Multimedia Messaging Services) 多媒体消息业务MTU (Maximum Transmission Unit) 最大传输单元NAL (Ne