1、HEVC视频编码技术的研究与实现,专业:通信与信息系统 姓名:杨克伟 学号:23320111153156,视频编码标准的发展,目前国际电信联盟ITU-T的视频专家组VCEG和国际化标准组织ISO/IEC的运动专家组MPEG是两大主要的标准化组织,他们基于不同的应用需求,分别制定了H.26X和MPEG-X系列的视频压缩标准。 H.26X系列的视频标准主要应用在实时的视频通信系统;MPEG-X系列的标准则应用于数字监控系统、视频存储、广播电视及因特网等领域。 2001年12月MPEG和VCEG又成立视频联合工作组JVT制定视频编码标准H.264/AVC(MPEG-4第10部分),结合多种先进的视频
2、编码技术获得比以往各种标准更优越的编码性能。,HEVC(High Efficiency Video Coding)是两大组织成立的联合小组JCTVC正在研究的下一代新的视频压缩编码方案,主要针对高清和超高清的视频图像,HEVC目标在H.264/AVC high profile的基础上,对高分辨率/高保真的视频图像压缩效率提高一倍,也就是在保证相同视频图像质量的前提下,视频流的码率减少50%。 HEVC主要是在原H.264/AVC的编码框架上,提出更先进的改进技术,包括扩展的编码单元尺寸、基于块的更灵活的帧间/帧内预测方式、大尺寸块的变换、新的熵编码方法、更加复杂的内插滤波器等。,HEVC主要特
3、征,HEVC新视频编码方案依然沿用MPEGX和H.26X系列采用的混合编码框架。 帧间和帧内预测编码:消除时间域和空间域的相关性。变换编码:对残差进行变换编码以消除空间相关性 。熵编码:消除统计上的冗余度。 HEVC将在混合编码框架内,着力研究新的编码工具或技术,提高视频压缩效率,相较于以往的视频编码技术,将会有更多的优越性: (1)压缩效率更高 (2)视频质量更高 (3)健壮性更好 (4)对IP网络的友好性好,HEVC编码器,HEVC帧内预测的优化,一帧视频图像由许多的像素点组成,大量的统计数据表明,两个像素的空间距离越近相关性越强,即邻近像素值发生突变的概率很小。当前像素可以由邻近的像素的
4、加权和作为预测值,按与当前像素的距离不同给以不同的权值。邻近的用来预测的像素成为参考像素。在传输中,只传送实际象素值X与预测值P的差值信号R,邻近像素间的相关性强差值R很小,从而达到压缩编码的目的。接收端把差值R与预测值P相加即可恢复原始的像素值X,整个过程可以归纳如下: 编码端:X-P=R 解码端:P+R=X 这种基于空间相关性的压缩方式称为帧内预测编码。,在对预测单元的尺寸的选择上,需要从44到6464各种大小的尺寸都搜索一遍。而对于平坦的区域预测单元一般会选大的分割尺寸,而对于多细节的区域多选择小尺寸的分割,对于这样特殊的情况把所有的尺寸都搜索一遍会浪费很多时间,因此在进行帧内预测之前,
5、先对预测单元的复杂度进行估计,选定某几种预测单元的尺寸,这对现有的选择方法会有很大改进。最小平均绝对误差(MAD)可以被用来估计块的纹理复杂度,MAD的计算可以由下面的公式得来:,其中P(x,y)代表当前预测单元中像素点所在位置,m代表该预测单元所有像素的均值,ABS表示取绝对值,2N2N表示当前最大编码单元LCU的尺寸,这里最大编码单元设置为6464。用MAD来表示一个预测单元的复杂度,如果平坦则该值相对小,如果纹理细节较丰富那么该值相对大,现在需要找到一个恰当的阈值作为分割点,降低搜索树的深度,减小搜索的范围从而降低复杂度。,为了找到一个合适的阈值,对6个序列进行测试,测试序列分别为BQT
6、errace (19201080)、ParkScene(19201080)、vidyo3(720p)、BasketballDrill(832480)、BQMall(832480)、ParkScene(832480),对前两个序列取前80帧全I帧,后面三个序列取前100帧全I帧。序列的纹理复杂度和大小分辨率各有差别,对每个序列在不同QP条件下进行测试。表3-1是测试的结果,MAD是按公式(3-8)以LCU为6464计算的。表中的数据以6464预测单元为例,第三列的的数据表示当预测单元的分割模式为6464时,该预测单元所属的LCU的MAD值大于50的概率。统计结果表明,当分割模式为6464时,其所
7、属的LCU的MAD值绝大部分小于300,对于3232的分割模式与6464一样,其所属LCU的MAD值也都大多小于300。而其他的预测分割模式1616、88和44,由表中的统计数据看出他们所属的LCU的MAD值大部分大于50。在某些特殊情况下会出现误判的现象,如序列BQMall,对3232的分割模式,其所属的LCU的MAD小于50的概率大于百分之十,原因在于图像中一些预测单元内部出现明显的边缘,边缘上的像素值与两边的像素值发生突变,使得整个预测单元的MAD值很大,但是对于边缘两边都是平坦的区域,根据RD判决仍然选用大尺寸的预测单元。但是对于绝大多数的测试序列,判断的准确率都高达百分九十几甚至百分
8、之百。,基于大部分测试序列都有很高的命中率,我们可以对编码单元选择帧内预测模式的判决条件制定如下:,以上判决条件可以看出,对于MAD值小于50的LCU,预测单元尺寸的搜索范围由原来5种减少为2种,而MAD值大于300的LCU对预测单元尺寸搜索范围由5种减少为3种,其余的情况搜索范围不变。,可以看出MAD小于50和大于300两种条件下的编码单元数占编码单元总数的百分比最高可达43%,最小的有13.1%,由此可以评估出该改进算法将会一定程度上减少运算的复杂度。因此,我们对 HEVC帧内预测模式的选择过程要做适当的调整,在整个搜索执行之前加入对LCU的MAD值的计算和判断,先选出预测单元的尺寸模式,
9、缩小搜索范围。,性能的评价方法:,实验用客观的评价指标PSNR对预测图像的质量进行评估,x和y分别表示图像的宽度和高度,S和S分别表示原始图像和编解码后重建图像,PSNR值越高说明视频质量越高,预测越准确。,从表中的数据可以看出,采用改进的预判算法和TMUC原有算法比较,总体的编码时间减少平均可达 14.47%。在性能方面,从表3-3可以看出,与TMUC中的帧内预测算法相比改进算法PSNR损失平均为 0.0014dB,输出码率损失平均为 0.12%。其中序列vidyo3_720p的PSNR损失平均为0.0427dB,输出码率损失平均为0.38%,较其他序列性能略差,原因在于序列图像中平坦区域比
10、较多,由前面的分析可知对MAD值小于50的平坦区域只对3232和6464尺寸的编码单元搜索,范围相对原算法减少一半多,因此失真度比MAD大于300的编码单元要大。总体来说改进的算法与原TMUC上的算法相比率失真性能无明显下降。,大尺寸DCT变换,大部分的图像存在一个共同的特征,即直流和低频区占一副图像的大部分,而高频占小部分。DCT把经过运动补偿或帧内预测的残差从空域转换到频域,DCT系数主要集中在直流和低频系数,减少空间冗余,提高传输效率,被广泛应用于视频压缩编码中。对于高分辨率的视频图像,一个变换块通常只表示某个运动物体或图像背景中很小的一部分,变换块内部相对平坦而不会有太多变化,对于这些
11、平坦的数据,大尺寸的变换块可以更好地集中能量和减少量化误差。因此新的视频压缩编码方案增加了三种大尺寸的变换块:1616、3232和6464。,二维DCT变换:,u,v=0,1,N-1,二维的DCT/IDCT变换可以分解为两个一维的DCT/IDCT变换的乘积,因此通过提高二维变换的效率也即提高一维变换的效率。,测试模型中对每一种尺寸的变换块都统一采用Chen快速DCT算法,这个不是最快的算法,但是该算法具有很强的通用性。 loeffler等人提出的快速算法只需要11次乘法运算,这个值已经达到理论的极限最小值,同时加法的次数没有明显增加,该算法可以有效地提高运算速度。,改进后的16点DCT/IDCT快速变换,性能提升在4%左右。,Thanks,