分享
分享赚钱 收藏 举报 版权申诉 / 92

类型多媒体技术量化和变换编码和预测编码PPT课件..ppt

  • 上传人:Facebook
  • 文档编号:3727221
  • 上传时间:2018-11-16
  • 格式:PPT
  • 页数:92
  • 大小:1.95MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    多媒体技术量化和变换编码和预测编码PPT课件.ppt
    资源描述:

    1、,本单元的内容 量化 变换编码 预测编码,本单元的内容 量化 变换编码 预测编码,一个典型的信号压缩系统如图所示,为什么要量化,一个典型的信号压缩系统如图所示。,为什么要量化,通过时间轴上采样和幅度量化 将连续信号变成离散数字信号,一个典型的信号压缩系统如图所示。,为什么要量化,通过时间轴上采样和幅度量化 将连续信号变成离散数字信号,一个典型的信号压缩系统如图所示。,为什么要量化,通过变换将信号的能量集中在少数几个变换系数上 去除信号中的相关性,一个典型的信号压缩系统如图所示。,为什么要量化,信号压缩真正体现在量化阶段,一个典型的信号压缩系统如图所示。,为什么要量化,一般先是行程编码,然后Hu

    2、ffman编码 或算术编码进一步提高压缩比,量化之前需要规定量化级,比如8级,16级等 量化时将取样值与量化级比较,若取样值在某个量化级的覆盖区间之内,则规定它取这个量化级的代表值,我们称其为码字。一个量化器只能取有限多个量化级,从而量化过程不可避免地会引起量化误差。,量化原理,量化器定义,设编码操作在Rk上进行,X为在Rk上给定了概率分布函数的一个随机向量。x为X的取值。A是随机向量取值空间,则A的一个N级量化器Q=Y, 由以下三部分组成:,码本集:,对A的分割:,由下式定义的映射:,在以上定义中,当k 1时,所定义的是向量量化器;当k = 1时,即为标量量化器。,例如: 码本集:Y = y

    3、1,y2,yN,分割 依Y将R划分为N个子空间R1, R2, , RN,且,Ri的区间表示为Ri=xi, xi+1), i = 1, 2, , N,产生的量化误差定义为,量化器定义,量化可以分为两类:,(1) 标量量化:,输入信号的所有分量使用同一个量化器进行量化,每个分量的量化都和其它分量无关,也称为零记忆量化。,(2)矢量量化:,从码本集合中选出最适配于输入信号的一个码字作为输入信号的近似,这种方法以输入信号与选出的码字之间失真最小为依据。,矢量量化与标量量化相比有更大的数据压缩能力。,矢量量化也可以与其他的编码方法一同使用。,矢量量化常常是与变换编码相结合使用,在图像进行变换之后,按一定

    4、方式形成多维向量组,然后到码本中寻找最佳码字。,量化分类,标量量化,标量量化: 均匀量化 (恒定量化步长)非均匀量化(量化步长可变)带死区的量化:当 称 为死区,均匀量化,标量量化,标量量化的输入/输出特性采用阶梯形函数的形式,带死区的量化器,标量量化,非带死区的量化器,输出代表点集Y = y1,y2,yN,存在一种最优分割依Y将R划分为N个子空间R1, R2, , RN,且,Ri的区间表示为Ri=xi, xi+1), i = 1, 2, , N,如果是最优的,yi是Ri的质心。标量量化是将区间上的点映射为质心的操作,,产生的量化误差定义为,最优标量量化器定义,均方误差为,最优量化是使 最小,

    5、就可得如下解:,(1)(2)是非线性方程组, Lloyd给出了一种迭代法,给出了数值解。当均匀分布时,就构成了最优均匀标量量化器:,最优标量量化,LBG算法,LBG算法,希望设计一个具有K维N码字的码本空间的向量量化器,给出一个初始码本,其对应的量化器记为Q0,若能找到一种新的码本,其对应的量化器记为Q1。,则称量化器被优化了一次。,重复这个过程我们去寻找Y2, Y3, , Ym,初始化,给定N, 0,假设初始码本及训练集分别为,对于,,对 训练集进行划分,将训练集分为,如果,停止,并令 为最终码本,令 形成新的码本,否则继续。,划分的原理为 :,转向2),其中 是 中矢量的个数,LBG算法,

    6、如果 那么 并计算,LBG算法的局限性,最优量化器是对于训练向量集而言的,对于实际的未经训练的输入向量是否还是最优的却很难说,这要依赖于训练向量集的代表性到底真实到何种程度。 由于优化分割的过程并没有依据什么数据结构方面的规则或限制,而是自由进行,这就使得对码本进行有效组织时遇到了极大的困难。 在某些情况下根本无法找到真正具有代表性的训练向量集。,用LBG算法对Lenna图像进行向量量化的结果,压缩后PSNR = 25.21dB,本单元的内容 量化 变换编码 预测编码,为什么变换,变换是信号实现时域和变换域(频域)映射关系的运算 通常经正变换将信号在变换域分解,然后由反变换重建信号:当 有,当

    7、,,有,为什么变换,变换的本质就是将信号在一组基函数上投影,得到一组投影值,即信号的变换域表达。 变换的目的就是将一个实际的物理信号分解为变换域(频域)上有限的或无限的小的信号“细胞”,以便了解信号的性质,提取信号的有用信息,现有图像/视频编码国际标准的基本框架都是采用预测、变换、熵编码等技术将图像/视频信号压缩成一定码率的码流,其核心技术之一是变换。 变换是对信号改造和加工的过程,它有助于去除信号中冗余(相关性)和实现信号能量集中,正是图像/视频编码技术的理论基础。 实际应用中通常采用正交变换。,为什么变换,图像/视频压缩处理中常用的变换包括:离散傅里叶变换 DFT离散余弦变换 DCTKar

    8、hunenLoeve变换 KL离散小波变换 KL变换由于去除信号中的相关性最彻底,因而被称为“最佳变换”。但KL变换的基是不固定的,需要存储变换基,计算复杂性高,使得KL变换的应用不现实。,为什么变换,为什么变换,图像/视频压缩处理中常用的变换 人们发现在信号满足一阶马尔科夫过程时,DCT是KL变换的很好的逼近。 DCT有固定的基与明确的物理含义,使得DCT广泛应用于图像/视频压缩,成了变换编码的主要工具。 静止图像压缩编码的国际标准JPEG和视频编码标准H.264都采用了DCT变换编码,为什么变换,变换通过将信号的能量集中在少数变换系数上给出信号的紧致表达,便于后续的压缩处理。 对于图像而言

    9、,采用符合人的视觉系统特征的量化方式,大多数高频系数在量化后会很小或者为零,量化后的变换系数矩阵变成了一个稀疏矩阵。 选择适当的扫描方式将二维矩阵表示的系数表示为一维向量,使得一维向量表示的系数具有零系数连续出现的特点,这样通过行程编码可以得到高压缩比。,KarhunenLoeve(KL)变换 以图像统计特性为基础的一种正交变换,也称为特征向量变换或主分量变换 KL变换的目的:去图像的相关性 相关性:用协方差矩阵度量 以下图像为例描述KL的算法,KL变换,KL变换,一幅256256图像分成1024个88的块每个88的块按照行(或列)的顺序排成一个64维 的向量向量 的维数定义随机向量 使得其取

    10、值范围为,KL变换,KL正变换KL逆变换A是正交矩阵,mx是向量X的平均值,KL变换,KL正变换KL逆变换A是正交矩阵,mx是向量X的平均值,如何选取A,向量X的协方差矩阵,为 Cx的特征向量和相应的特征值,特征向量已正交化处理,A的定义,实对称矩阵可正交相似对角阵,Cx是实对称矩阵,不妨将特征值按照递减的顺序排列,降维重构的 误差?,原图像的重构(无损),原图像的降维重构(有损),KL变换说明 Y向量的协方差矩阵Cy非对角线元素是协方差,协方差为零,表示向量分量间的相关性甚小,X向量的协方差矩阵Cx非对角线元素非零,说明相关强。,KL变换说明 KL变换后能量高度集中,压缩效果明显; KL变换

    11、是在最小方差意义下最优。 主要缺点: KL变换的矩阵计算复杂,该矩阵不是固定不变的,而是随着输入图像的不同而改变, 没有通用的变换矩阵和快速算法,正变换U=Tu反变换u=T-1u=UTu,正交变换的特性,定义,是 的 标准正交基,对于 有,正交变换的特性,定义,是 的 标准正交基,对于 有,正交变换的特性,定义,是 的 标准正交基,对于 有,?,正交变换的特性,对于 有,正交变换的特性,正交变换的特性,正变换反变换,正变换,逆变换,常用的正交变换,余弦(DCT)变换,偶延拓,余弦(DCT)变换,其中,偶函数,正弦项 相互抵消,余弦(DCT)变换,余弦(DCT)变换,考虑基底的标准化和正变换和逆

    12、变换的对称性,正变换,逆变换,考虑基底的标准化和正变换和逆变换的对称性,正变换,逆变换,基向量,垂直方向,水平方向,二维可分离变量的正交变换,可分离变量变换通过分别对图像块列和行实施一维变换实现,垂直方向,水平方向,可分离变量变换通过分别对图像块列和行实施一维变换实现,二维可分离变量的正交变换,转置后继续对列实施变换相当于对行实施变换,垂直方向,水平方向,可分离变量变换通过分别对图像块列和行实施一维变换实现,二维可分离变量的正交变换,是正交矩阵,垂直方向,水平方向,可分离变量变换通过分别对图像块列和行实施一维变换实现,二维可分离变量的正交变换,基图像表达形式,列向量,行向量,二维可分离变量的正

    13、交变换,可分离变量变换的基图像表达的一般形式:,其中:,二维可分离变量的正交变换,可分离变量变换的基图像表达的一般形式:,二维可分离变量的正交变换,可分离变量 变换的基底 (基图像),可分离变量变换的基图像表达的一般形式:,离散余弦变换(DCT)编码,X的离散余弦变换(DCT)为Y, X ,Y是N N 块.,逆变换IDCT,正变换FDCT,逆变换有形式,Example: N = 4对于44的 DCT变换,变换矩阵 A :,离散余弦变换(DCT)编码,Example Calculating the DCT of X is 44 block of samples from an image:,离散

    14、余弦变换(DCT)编码,余弦变换基图像,44 DCT Basis patterns,8 8 DCT Basis patterns,离散余弦变换(DCT)编码,DCT transform,离散余弦变换(DCT)编码,Reconstructed block,变换后图像块的能量保持不变,并且图像块的能量集中在DC和低频部分,当只保留DC系数时,其他系数均设为0,逆变换重构的图像的每个像素值是原图像块的均值,重构的结果如图(a)所示,当只保留两个重要系数,其他系数均设为0时,重构结果为图(b),图(c)和图(d)是保留3个重要系数和5个重要系数重构的结果。图(a)到 图(d),重构的图像块越来越逼近原

    15、图像块。,离散余弦变换(DCT)编码,原是图像数据,变换系数后的,量化表,量化后的结果,离散余弦变换(DCT)编码,JPEG (Joint Photographic Experts Group)是1986年制定的国际静态图像压缩标准,采取的核心压缩算法是DCT算法(Discrete Cosine Transform)。,离散余弦变换(DCT)编码,DCT算法在历史上起到了很重要的作用,一幅640480的彩色图像,大小为3640480921,600BYTE,使用64K/S的ISDN网络进行传输,大约需要1.9分钟。 JPEG压缩后大约38,400 BYTE,传输只需要4.8秒。,离散余弦变换(D

    16、CT)编码,这是512512的lena灰度图像,在JPEG压缩100倍后成像,已经 在一定程度意义上失去了应用价值,尽管JPEG算法在过去和现在很多领域还发挥者巨大作用, 但由于算法是将整体图像分割成小块(88或1616)进行变换,当压缩比高时由于数据损失,在块与块 之间就会出现分割的现象:,离散余弦变换(DCT)编码,JPEG算法的问题,本单元的内容 量化 变换编码 预测编码,预测编码:根据某一模型,利用信号以往的样本值对新样本值进行预测 , 对预测误差进行编码。 对于相关性较强的信号,如果建立合适的模型, 误差信号的幅值将远远小于原始信号,从而可以用较少的电平类对其误差信号量化得到较大的数

    17、据压缩效果。,预测编码基本原理,问题:能否精确地预测数据源输出?答案 : 否数据源是不确定的 几乎没有一个实际的系统能找到可以精确预测输出的模型能找到的最优预测模型是以某种最小误差意义下的预测模型。,预测编码基本原理,对于静止图像,由于相邻像素具有很强的相关性,这样当前像素的灰度(颜色)值可用前面已经出现的像素值进行预测,得到一个预测值,对实际值与预测值的差值进行编码, 对于视频信号,图像帧间的相关性具有很强的相关性,通过帧间预测,对残差图像编码。 预测编码是当今主流技术并且还会流行于未来。,预测编码基本原理,预测编码PCM,脉冲编码调制PCM(pulse code modulation)输入

    18、是模拟信号,输出是PCM样本,低通滤波器可以滤除掉指定频带以外的信号,波形滤波器可以理解为采样器。,预测编码PCM,PCM 理论完善、研究最早、应用最广泛的编码技术,主要应用于语音通信。 对于图像信号 灰度图像:量化级别为256 ,8位的PCM编码彩色图像:R,G,B或 Y,U,V彩色信号分别以8位的PCM 编码,预测编码 DPCM,差分脉冲编码调制 DPCM (Differential pulse code modulation) 是预测编码方法中最主要的方法,预测编码 DPCM,DPCM工作原理源信号 预测信号误差信号量化 量化产生的误差,预测编码 DPCM,DPCM工作原理理想系统重建信

    19、号,信号的重建误差=量化误差,当解码器能精确地获得预测信号时,预测编码 DPCM,实际系统重建信号,当解码器不能精确地获得预测信号时,预测编码 DPCM,实际重建信号,信号重建误差 =量化误差+累计误差,预测编码 DPCM工作原理,图1 实际预测编/解码器结构,预测编码DPCM工作原理,图2 一般DPCM的结构,实际中 ,量化器Q的输出不是输入的代表值, 而是代表值的序号,反量化器的输入是一个序号,通过内部计算或查表,输出一个代表值,(1),(2),预测编码 最优线性预测,a1, a2, a3为预测系数,a1, a2 , a3为最佳线性预测系数 可以证明,若图像符合平稳的马尔可夫过程,则可以直接用相关系数来确定预测系数,预测编码最优线性预测,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:多媒体技术量化和变换编码和预测编码PPT课件..ppt
    链接地址:https://www.docduoduo.com/p-3727221.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开