1、多媒体的概念:以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输、处理和表现,综合处理多种媒体信息并使之建立起有机的逻辑联系,集成为一个系统并能具有良好交互性的技术。数字视频的结构 基本单位是帧。 若干同一场景的帧构成镜头 若干镜头构成情节 若干情节构成故事(节目)多媒体的三大特征:信息载体的多样性、交互性和集成性声音是由振动的声波所组成,在任一时刻 t,声波可分解为一系列正弦波线性叠加:f(t)= An sin(nt+n)其中, 称为基频或基音,它决定声音的高低;n 称为 的 n 次谐波分量或称为泛音,与声音的音色有关; An 是振幅,表示声音的强弱;n 是 n 次谐波的初相位。
2、通过规则时间间隔测出音波振动幅度从而产生一系列声音数据。这种测出数据方法称之为采样,一秒内采样次数叫采样率。 采样的离散音频数据要转换成计算机能够表示的数据范围,这个过程称之为量化。 量化后数字音频存储量计算公式音频数据存储量(字节 )=采样率(Hz)量化位数(位) 声道数音频长度(秒)/8 变换公式(YUVRGB)Y = 0.299*R + 0.587*G+ 0.114*B;U =-0.169*R - 0.332*G+ 0.500*B;V = 0.500*R + 0.419*G - 0.081*B 变换公式(YIQRGB)Y =0.299*R+ 0.587*G+ 0.114*B;I =0.2
3、11*R - 0.523*G+ 0.312*B;Q =0.596*R - 0.275*G - 0.322*B压缩技术:(1)熵(平均信息量 )编码(Entropy Coding)熵编码是一种泛指那些不考虑被压缩信息的性质的编码和压缩技术。它是基于平均信息量的技术把所有的数据当作比特序列,而不根据压缩信息的类型优化压缩。也就是说,平均信息量编码忽略被压缩信息的语义内容。熵编码分为:重复序列消除编码(含:消零、行程编码) 、统计编码等。(2)源编码(Source Coding)源编码的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内容等。源编码比严格的平均信息量编码的压缩率更高。当然压缩的
4、程度主要取决于数据的语义内容,比起平信息量编码,它的压缩比更大。源编码主要分为:预测编码、变换编码、向量量化等。行程编码(Run Length Coding) 将数字中连续的“0”或文本中连续的空白用一个标识符(或特殊字符)后跟数字 N(连续“ 0”的个数)来代替。LZW 算法特点LZW 压缩技术对于可预测性不大的数据具有较好的处理效果,常用于 GIF 格式的图像压缩,其平均压缩比在 2:1 以上,最高压缩比可达到 3:1。对于数据流中连续重复出现的字节和字串, LZW 压缩技术具有很高的压缩比。除了用于图像数据处理以外, LZW 压缩技术还被用于文本程序等数据压缩领域。LZW 压缩技术有很多
5、变体,例如常见的 ARC、RKARC、PKZIP 高效压缩程序。对于任意宽度和像素位长度的图像,都具有稳定的压缩过程。压缩和解压缩速度较快。对机器硬件条件要求不高,在 Intel 80386 的计算机上即可进行压缩和解压缩。2.4.2 变换编码 输入图象 G 经正交变换 U 变换到频域空间,象素之间相关性下降,能量集中在变换域中少数变换系数上,已经达到了数据压缩的效果。 对变换系数 A 中那些幅度大元素予以保留,其它数量多的幅度小的变换系数,全部当作零不予编码,再辅以非线性量化,进一步压缩图象数据。 由于量化器存在,量化后变换系数 A和 A 间必然存在量化误差 ,从而引起输入图象 G和输出图象
6、 G间存在误差。图中 U是 U 的逆变换。2.4.3 信息熵编码 又称为统计编码,它是根据信源符号出现概率的分布特性而进行的压缩编码。 基本思想: 在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。 如 Huffman 编码、算术编码。Huffman 定理 定理在变长编码中,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字。如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。 Huffman 定理是 Huffman 编码的理论基础实现步骤(1) 将信源符号按概率递减顺序
7、排列;(2) 把二个最小概率相加作为新符号的概率, 并按(1) 重排;(3) 重复(1)、(2), 直到概率为 1;(4) 在每次合并信源时, 将合并的信源分别赋 “0”和“1 ”(如概率大的赋“0”,概率小的赋“1”);(5) 寻找从每一信源符号到概率为 1 处的路径,记录下路径上的 “1”和“0” ;(6)写出每一符号的“1” 、 “0”序列( 从树根到信源符号节点)。算术编码举例 初始 high=1,low=0, range=high-low,一个字符编码后新的 low 和 high 按下式计算:low=low+rangerangelow;high=low+rangerangehigh。
8、(1) 在第一个字符 e 被编码时, e 的 rangelow=0.2,rangehigh=0.5, 因此:low=0+10.2=0.2high=0+10.5=0.5range=high-low=0.5-0.2=0.3此时分配给 e 的范围为0.2, 0.5)(2) 第二个字符 a 编码时使用新生成范围0.2,0.5), a 的 rangelow=0, rangehigh=0.2, 因此:low=0.2+0.30=0.2high=0.2+0.30.2=0.26range=0.06范围变成0.2, 0.26)(3) 对下一个字符 i 编号, i 的 rangelow=0.5,rangehigh=
9、0.6,range=0.06, 则:low=0.2+0.060.5=0.23high=0.2+0.060.6=0.236 结果:用0.23, 0.236)表示数据串 eai,如果解码器知道最后范围是 0.23, 0.236),它马上可解得一个字符为 e, 然后依次得到唯一解 a、i, 最终得到 eai。算术编码的特点 不必预先定义概率模型,自适应模式具有独特的优点; 信源符号概率接近时,建议使用算术编码 ,这种情况下其效率高于 Huffman 编码( 约 5%)。JPEG 扩展系统采用。4.2 JPEG 原理详细分析JPEG 编码中主要涉及到的内容主要包括:1. Color Model Con
10、version (色彩模型)2. DCT (Discrete Cosine Transform 离散余弦变换)3. 量化4.”Z”字形编排5. 编码6.组成位数据流4.2.2 离散余弦变换(DCT)图像信号的频谱线一般在 0-6MHz 范围内,而且一幅图像内,包含了各种频率的分量。但包含的大多数为低频频谱线,只在占图像区域比例很低的图像边缘的信号中才含有高频的谱线。这个是对 JPEG 图像压缩的理论依据。因此具体的方法就是,在对图像做数字处理时,可根据频谱因素分配比特数:对包含信息量大的低频谱区域分配较多的比特数,对包含信息量低的高频谱区域分配较少的比特数,而图像质量并没有可察觉的损伤,达到数
11、据压缩的目的。将原始图像这个色彩空间域,转换为频谱域,怎么转呢,这个就用到了数学上的离散余弦变换,即 DCT(Discrete Cosine Transform)变换。首先图像全部减去-128,使范围变为 -128 到 1274.2.3 量化量化过程实际上就是对 DCT 系数的一个优化过程。它是利用了人眼对高频部分不敏感的特性来实现数据的大幅简化。量化过程实际上是简单地把频率领域上每个成份,除以一个对于该成份的常数,且接着四舍五入取最接近的整数。以这个结果来说,经常会把很多高频率的成份四舍五入而接近 0,且剩下很多会变成小的正或负数。整个量化的目的是减小非“ 0”系数的幅度以及增加“0”值系数
12、的数目。量化是图像质量下降的最主要原因。这是整个过程中的主要有损运算。4.2.5.3 Huffman 编码 范式 Huffman 编码即 Canonical Huffman Code,现在流行的很多压缩方法都使用了范式哈夫曼编码技术,如 GZIB、 ZLIB、PNG、JPEG、MPEG 等。 在直流 DC 系数经过上面的 DPCM 编码,交流 AC 系数经过 RLE 编码后,用Huffman 编码来处理 DC 的符号 1 和 AC 的符号 1。I 帧特点它是一个全帧压缩编码帧。它将全帧图像信息进行 JPEG 压缩编码及传输。解码时仅用 I 帧的数据就可重构完整图像。I 帧描述了图像背景和运动主
13、体的详情。I 帧不需要参考其他画面而生成。I 帧是 P 帧和 B 帧的参考帧(其质量直接影响到同组中以后各帧的质量) 。I 帧是帧组 GOP 的基础帧(第一帧) ,在一组中只有一个 I 帧。I 帧不需要考虑运动矢量。I 帧所占数据的信息量比较大。P 帧特点P 帧是 I 帧后面相隔 12 帧的编码帧。P 帧采用运动补偿的方法传送它与前面的 I 或 P 帧的差值及运动矢量(预测误差) 。解码时必须将 I 帧中的预测值与预测误差求和后才能重构完整的 P 帧图像。P 帧属于前向预测的帧间编码。它只参考前面最靠近它的 I 帧或 P 帧。P 帧可以是其后面 P 帧的参考帧,也可以是其前后的 B 帧的参考帧。由于 P 帧是参考帧,它可能造成解码错误的扩散。由于是差值传送,P 帧的压缩比较高。2.4.4 MPEG 解码从编码的原理可知,P 帧解码需以 I 帧为基础,而 B 帧又以 I,P 为基础。解码时,先解出I 帧并送帧寄存器,然后根据编码过程的记录依次解出 P 帧也送帧寄存器,由 I、P 再解出B 帧同样送帧寄存器。等到各帧都解完后,从帧寄存器中依次取出各种帧图进行重新排列即可得到一组帧序列。8.1.2 光存储系统的技术指标