1、第1章 多媒体基础,1.1 多媒体的基本概念,1.2 多媒体数据压缩技术,上一页,1.1 多媒体的基本概念,1.1.1 多媒体的定义,“多媒体”一词译自英文“Multimedia” 即“Multiple”和”Media”的合成 其核心词是媒体,何谓多媒体呢?,媒质:存储信息的实体,如磁盘、 光盘、磁带、半导体存储器等。,媒体(medium)在计算机领域有 两种含义:即媒质和媒介。,媒介:传递信息的载体,如数字、 文字、声音、图形和图像等。,通常概念的“媒体” ,可分为以下 五种类型:,表示媒体:为了传送感觉媒体而人为研究出来的媒体。借助于此种媒体,便能更有效的存储或传送感觉媒体。如语言编码、电
2、报码等。,显示媒体:用于通信中使电信号和 感觉媒体之间产生转换用的媒体。如输 入、输出设施,键盘、鼠标器、显示器、 打印机等。,存储媒体:用于存放某种媒体的媒 体如纸张、磁带、磁盘、光盘等。,传输媒体:用于传输某些媒体的媒 体,如电话线、电缆光纤等。,多媒体计算机技术的定义:计算机综合处理多种媒体信息,文本 图形、图像、音频和视频,使多种信息建 立逻辑连接,集成为一个系统并具有交互 性。,1.1.2 计算机技术及其特性,多媒体计算机技术的三个主要特性,信息载体的多样性是相对于计算机 而言的,即指信息媒体的多样性。,信息载体的多样性,多媒体就是要把计算机处理的信息多样化或多维化,从而改变计算机信
3、息处理的单一模式,使人们能交互的处理多种信息。,交互性,多媒体的交互性是指用户可以与 计算机的多种信息媒体进行交互操作 从而为用户提供了更加有效地控制和 使用信息的手段。,集成性,集成性是指以计算机为中心综合处 理多种信息媒体,它包括信息媒体的集 成和处理这些媒体的设备的集成。,多媒体设备的集成包括硬件和软件两个方面。,信息媒体的集成包括信息的多通道 统一获取、多媒体信息的统一组织和存 储、多媒体信息表现合成等方面。,多媒体媒体元素是指多媒体应用中 可显示给用户的媒体组成。,1.1.3 多媒体中的媒体元素及特征,音频,动画,视频,文本,图形,图像,文本,文本分为非格式化文本文件和格式 化文本文
4、件。,格式化文本文件:带有各种文本排版信息等格式信息的文本文件。如“.DOC ”文件。,非格式化文本文件:只有文本信息没有其他任何有关格式信息的文件,又称为纯文本文件。如“.TXT ”文件。,图形,图形(Graphic)一般指用计算机绘 制的画面,如直线、圆、圆弧、矩形、 任意曲线和图表等。,在图形文件中只记录生成图的算法 和图上的某些特征点,因此也称矢量。,图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合。,用于产生和编辑矢量图形的程序通 常称为“ draw ”程序。,由于图形只保存算法和特征点,因 此占用的存储空间很小。但显示时需经 过重新计算,因而显示速度相对
5、慢些。,微机上常用的矢量图形文件有: “.3DS”(用于 3D 造型)、“.DXF”(用于 CAD)、“.WMF”(用于桌面出版)等等。,图像,图像(Image)是指由输入设备捕捉的 实际场景画面,或以数字化形式存储的任 意画面。,静止的图像是一个矩阵,阵列中的各项数字用来描述构成图像的各个点(称为像素点 pixel )的强度与颜色等信息。这种图像也称为位图。,用于生成和编辑位图图像的软件通 常称为“ paint ” 程序。,图像处理时要考虑三个因素:,图像文件在计算机中的存储格式有 多种,如 BMP、PCX、TIF、TGA、GIF、 JPG 等,一般数据量都较大。,分辨率,屏幕分辨率:显示器
6、屏幕上的最大显示区域,即水平与垂直方向的像素个数。,图像分辨率:数字化图像的大小,即该图像的水平与垂直方向的像素个数。,像素分辨率:像素的宽和高之比一般为1:1。,图像深度和显示深度,图像深度(也称图像灰度、颜色深度) 表示数字位图图像中每个像素上用于表示颜 色的二进制数字位数。,显示深度:表示显示器上每个点用于显示颜色的 2 进制数字位数。若显示器的显示深度小于数字图像的深度,就会使数字图像颜色的显示失真。,颜色深度与显示的颜色数目,图像文件大小,用字节表示图像文件大小时,一幅未经 压缩的数字图像的数据量大小计算如下:,图像数据量大小 = 像素总数图像深度8,例如:一幅 800600 的 2
7、56 色图像为80060088 = 480000 字节,波形声音实际上已经包含了所有的 声音形式,它可以将任何声音都进行采 样量化,相应的文件格式是WAV 文件或 VOC文件。,数字音频(Audio)可分为波形声音、 语音和音乐。,音频,语音也是一种波形,所以和波形声 音的文件格式相同。,音乐是符号化了的声音,乐谱可转 变为符号媒体形式。对应的文件格式是 MID 或CMF 文件。,计算机音频技术主要包括声音的采 集、数字化、压缩/解压缩以及声音的 播放。,采样频率是将模拟声音波形转换为数字时,每秒钟所抽取声波幅度样本的次数,单位是Hz(赫兹)。,数字化主要包括采样和量化这两个方面。,量化数据位
8、数(也称量化级)是每 个采样点能够表示的数据范围,经常采 用的有8 位、12 位和16 位。例如,8 位量化级表示每个采样点 可以表示256 个不同量化值,而16 位量 化级则可以表示65536 个不同的量化值,记录声音时,如果每次生成一个声 道数据,称为单声道;每次生成两个声 波数据,称为立体声(双声道)。,数字音频的存储量:可用以下公式估算声音数字化后每 秒所需的存储量(未经压缩的),存储量 = 采样频率量化位数8,例如,数字激光唱盘(CD-DA)的标 准采样频率为44.1 kHz,量化位数为16 位,立体声。一分钟 CD-DA 音乐所需的 存储量为44.1 K162608 = 10584
9、 KB,若使用双声道,存储量再增加一倍,动画是活动的画面,实质是一幅幅 静态图像的连续播放。动画的连续播放 既指时间上的连续,也指图像内容上的 连续。,动画,计算机设计动画有两种:一种是帧动画,一种是造型动画。,帧动画是由一幅幅位图组成的连续 的画面,就如电影胶片或视频画面一样 要分别设计每屏幕显示的画面。,造型动画是对每一个运动的物体分 别进行设计,赋予每个动元一些特征, 然后用这些动元构成完整的帧画面。动 元的表演和行为是由制作表组成的脚本 来控制。存储动画的文件格式有FLC、MMM等,视频,视频是由一幅幅单独的画面序列 (帧frame)组成 ,这些画面以一定 的速率(fps)连续地投射在
10、屏幕上, 使观察者具有图像连续运动的感觉。,视频文件的存储格式有AVI、MPG、MOV等。,视频标准主要有NTSC制和PAL制 两种。,视频的技术参数有:帧速数据量图像质量,NTSC 标准为30fps,每帧525行。PAL 标准为25fps,每帧625行。,1.2.1 多媒体数据的冗余类型,图像数据表示中存在着大量的冗 余,图像数据压缩技术就是利用图像 数据的冗余性来减少图像数据量的方 法。常见图像数据冗余类型如下:,1. 空间冗余,2. 时间冗余,3. 视觉冗余,1.2 多媒体数据压缩技术,空间冗余,一幅图像表面上各采样点的颜色之 间往往存在着空间连贯性,基于离散像 素采样来表示物体表面颜色
11、的像素存储 方式可利用空间连贯性,达到减少数据 量的目的。,例如,在静态图像中有一块表面颜 色均匀的区域,在此区域中所有点的光 强和色彩以及饱和度都是相同的,因此 数据有很大的空间冗余。,时间冗余,运动图像一般为位于一时间轴区间 的一组连续画面,其中的相邻帧往往包 含相同的背景和移动物体,只不过移动 物体所在的空间位置略有不同,所以后 一帧的数据与前一帧的数据有许多共同 的地方,这种共同性是由于相邻帧记录 了相邻时刻的同一场景画面,所以称为 时间冗余。,同理,语音数据中也存在着时间冗余。,视觉冗余,人类的视觉系统对图像场的敏感度 是非均匀的。但是,在记录原始的图像 数据时,通常假定视觉系统近似
12、线性的 和均匀的,对视觉敏感和不敏感的部分 同等对待,从而产生比理想编码(即把 视觉敏感和不敏感的部分区分开来的编 码)更多的数据,这就是视觉冗余。,1.2.2 数据压缩方法,压缩处理一般是由两个过程组成: 一是编码过程,即将原始数据经过编码 进行压缩,以便存储与传输;二是解码 过程,此过程对编码数据进行解码,还 原为可以使用的数据。,数据压缩可分为两种类型:一种叫 做无损压缩,另一种叫做有损压缩。,无损压缩,无损压缩常用在原始数据的存档, 如文本数据、程序以及珍贵的图片和图 像等。其原理是统计压缩数据中的冗余 (重复的数据)部分。常用的有:,RLE (run length encoding)
13、行程编码 Huffman 编码 算术编码 LZW (lempel-ziv-welch)编码,(1)行程编码(RLE)RLE 编码是将数据流中连续出现的 字符用单一记号表示。例如,字符串AAABCDDDDDDDDBBBBB 可以压缩为3ABC8D5B 。,RLE编码简单直观,编码/解码速度 快,因此许多图形和视频文件,如.BMP .TIFF及AVI等格式文件的压缩均采用此 方法.,(2)Huffman编码它是一种对统计独立信源能达到最 小平均码长的编码方法。,其原理是,先统计数据中各字符出 现的概率后,再按字符出现频率高低的 顺序分别赋以由短到长的代码,从而保 证了文件的整体的大部分字符是由较短
14、 的编码构成的。,(3)算术编码其方法是将被编码的信源消息表示 成实数轴0-1之间的一个间隔,消息越 长,编码表示它的间隔就越小,表示这 一间隔所需的二进制位数就越多。,该方法实现较为复杂,常与其它有 损压缩结合使用,并在图像数据压缩标 准(如JPEG)中扮演重要角色。,(4)LZW编码LZW(Lempel-Ziv-Welch)压缩使用 字典库查找方案。它读入待压缩的数据 并与一个字典库(库开始是空的)中的字 符串对比,如有匹配的字符串,则输出 该字符串数据在字典库中的位置索引, 否则将该字符串插入字典中。,许多商品压缩软件如ARJ、PKZIR、 ZOO、LHA等都采用了设方法。另外,.GIF
15、 和.TIF 格式的图形 文件也是按这一文件存储的。,有损压缩,图像或声音的频带宽、信息丰富, 人类视觉和听觉器官对频带中某些频率 成分不大敏感,有损压缩以牺牲这部分 信息为代价,换取了较高的压缩比。,常用的有损压缩方法有:PCM(脉冲 编码调制)、预测编码、变换编码、插值 与外推等。,新一代的数据压缩方法有:矢量量 化和子带编码、基于模型的压缩、分形 压缩及小波变换等。,混合压缩,混合压缩是利用了各种单一压缩的 长处,以求在压缩比、压缩效率及保真 度之间取得最佳折衷。,该方法在许多情况下被应用,如 JPEG 和MPEG 标准就采用了混合编码的 压缩方法。,1.2.3 编码的国际标准,1音频编
16、码,音频的编码方式可分为波形编码、参数编码和混合编码三种。,(l)波形编码对于音频信号,通常采用波形编码方法。波形编码的算法简单,易于实现,可获得高质量的语音。常见的三种波形编码方法为:,脉冲编码调制(PCM ) ,实际为直接对声音信号作A/D 转换。只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的质量。,差分脉冲编码调制(DPCM ),即只传输声音预测值和样本值的差值以此降低音频数据的编码率。,自适应差分编码调制(ADPCM ) ,是DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。,(2)参数编码 参数编码方法通过建立起
17、声音信号的产生模型,将声音信号用模型参数来表示,再对参数进行编码,在声音播放时根据参数重建声音信号。参数编码法算法复杂,计算量大,压缩率高,但还原声音的质量不高。,(3)混合编码 混合编码是把波形编码的高质量和参数编码的低数据率结合在一起,取得了较好效果。,2.静止图像压缩标准,国际标准化组织(ISO)和国际电报 电话咨询委员会(CCITT)联合成立的 “联合照片专家组“ JPEG (joint photographic experts group) 于1991年提出的“多灰度静止图像的数字压缩编码”(简称JPEG标准)。,这是一个适应于彩色和单色多灰度 或连续色调静止数字图像的压缩标准。,J
18、PEG标准支持很高的图像分辨率 和量化精度。它包含两部分:,第二部分是有损压缩,基于离散 余弦变换(DCT)和Huffman编码, 通常 压缩20-40倍。,第一部分是无损压缩,基于差分 脉冲编码调制(DPCM)的预测编码。,3.运动图像压缩标准,视频图像压缩的一个重要标准是 MPEG (Moving Picture Experts Group) 于1990年形成的一个标准草案(简称MPEG标准)。它兼顾了JPEG标准和CCITT专家组 的H.261标准。,MPEG标准分成MPEG视频、MPEG音频 和MPEG系统三大部分。,MPEG算法除了对单幅图像进行编码 外(帧内编码),还利用图像序列的相关 特性去除帧间图像冗余,大大提高了视 频图像的压缩比。压缩比可达到60-100倍。,下一页,