第一章多媒体基础知识.ppt-道客多多

资源描述

1、第1章多媒体基础,1.1 多媒体的基本概念,1.2 多媒体数据压缩技术,上一页,1.1 多媒体的基本概念,1.1.1 多媒体的定义,“多媒体”一词译自英文“Multimedia” 即“Multiple”和”Media”的合成其核心词是媒体,何谓多媒体呢？,媒质：存储信息的实体，如磁盘、光盘、磁带、半导体存储器等。,媒体（medium）在计算机领域有两种含义：即媒质和媒介。,媒介：传递信息的载体，如数字、文字、声音、图形和图像等。,通常概念的“媒体” ，可分为以下五种类型：,表示媒体：为了传送感觉媒体而人为研究出来的媒体。借助于此种媒体，便能更有效的存储或传送感觉媒体。如语言编码、电

2、报码等。,显示媒体：用于通信中使电信号和感觉媒体之间产生转换用的媒体。如输入、输出设施，键盘、鼠标器、显示器、打印机等。,存储媒体：用于存放某种媒体的媒体如纸张、磁带、磁盘、光盘等。,传输媒体：用于传输某些媒体的媒体，如电话线、电缆光纤等。,多媒体计算机技术的定义：计算机综合处理多种媒体信息，文本图形、图像、音频和视频，使多种信息建立逻辑连接，集成为一个系统并具有交互性。,1.1.2 计算机技术及其特性,多媒体计算机技术的三个主要特性,信息载体的多样性是相对于计算机而言的，即指信息媒体的多样性。,信息载体的多样性,多媒体就是要把计算机处理的信息多样化或多维化，从而改变计算机信

3、息处理的单一模式，使人们能交互的处理多种信息。,交互性,多媒体的交互性是指用户可以与计算机的多种信息媒体进行交互操作从而为用户提供了更加有效地控制和使用信息的手段。,集成性,集成性是指以计算机为中心综合处理多种信息媒体，它包括信息媒体的集成和处理这些媒体的设备的集成。,多媒体设备的集成包括硬件和软件两个方面。,信息媒体的集成包括信息的多通道统一获取、多媒体信息的统一组织和存储、多媒体信息表现合成等方面。,多媒体媒体元素是指多媒体应用中可显示给用户的媒体组成。,1.1.3 多媒体中的媒体元素及特征,音频,动画,视频,文本,图形,图像,文本,文本分为非格式化文本文件和格式化文本文

4、件。,格式化文本文件：带有各种文本排版信息等格式信息的文本文件。如“.DOC ”文件。,非格式化文本文件：只有文本信息没有其他任何有关格式信息的文件，又称为纯文本文件。如“.TXT ”文件。,图形,图形（Graphic）一般指用计算机绘制的画面，如直线、圆、圆弧、矩形、任意曲线和图表等。,在图形文件中只记录生成图的算法和图上的某些特征点，因此也称矢量。,图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合。,用于产生和编辑矢量图形的程序通常称为“ draw ”程序。,由于图形只保存算法和特征点，因此占用的存储空间很小。但显示时需经过重新计算，因而显示速度相对

5、慢些。,微机上常用的矢量图形文件有： “.3DS”（用于 3D 造型）、“.DXF”（用于 CAD）、“.WMF”（用于桌面出版）等等。,图像,图像（Image）是指由输入设备捕捉的实际场景画面，或以数字化形式存储的任意画面。,静止的图像是一个矩阵，阵列中的各项数字用来描述构成图像的各个点（称为像素点 pixel ）的强度与颜色等信息。这种图像也称为位图。,用于生成和编辑位图图像的软件通常称为“ paint ” 程序。,图像处理时要考虑三个因素：,图像文件在计算机中的存储格式有多种，如 BMP、PCX、TIF、TGA、GIF、 JPG 等，一般数据量都较大。,分辨率,屏幕分辨率：显示器

6、屏幕上的最大显示区域，即水平与垂直方向的像素个数。,图像分辨率：数字化图像的大小，即该图像的水平与垂直方向的像素个数。,像素分辨率：像素的宽和高之比一般为1:1。,图像深度和显示深度,图像深度（也称图像灰度、颜色深度）表示数字位图图像中每个像素上用于表示颜色的二进制数字位数。,显示深度：表示显示器上每个点用于显示颜色的 2 进制数字位数。若显示器的显示深度小于数字图像的深度，就会使数字图像颜色的显示失真。,颜色深度与显示的颜色数目,图像文件大小,用字节表示图像文件大小时，一幅未经压缩的数字图像的数据量大小计算如下：,图像数据量大小 = 像素总数图像深度8,例如：一幅 800600 的 2

7、56 色图像为80060088 = 480000 字节,波形声音实际上已经包含了所有的声音形式，它可以将任何声音都进行采样量化，相应的文件格式是WAV 文件或 VOC文件。,数字音频（Audio）可分为波形声音、语音和音乐。,音频,语音也是一种波形，所以和波形声音的文件格式相同。,音乐是符号化了的声音，乐谱可转变为符号媒体形式。对应的文件格式是 MID 或CMF 文件。,计算机音频技术主要包括声音的采集、数字化、压缩/解压缩以及声音的播放。,采样频率是将模拟声音波形转换为数字时，每秒钟所抽取声波幅度样本的次数，单位是Hz（赫兹）。,数字化主要包括采样和量化这两个方面。,量化数据位

8、数（也称量化级）是每个采样点能够表示的数据范围，经常采用的有8 位、12 位和16 位。例如，8 位量化级表示每个采样点可以表示256 个不同量化值，而16 位量化级则可以表示65536 个不同的量化值,记录声音时，如果每次生成一个声道数据，称为单声道；每次生成两个声波数据，称为立体声（双声道）。,数字音频的存储量：可用以下公式估算声音数字化后每秒所需的存储量（未经压缩的）,存储量 = 采样频率量化位数8,例如，数字激光唱盘（CD-DA）的标准采样频率为44.1 kHz，量化位数为16 位，立体声。一分钟 CD-DA 音乐所需的存储量为44.1 K162608 = 10584

9、 KB,若使用双声道，存储量再增加一倍,动画是活动的画面，实质是一幅幅静态图像的连续播放。动画的连续播放既指时间上的连续，也指图像内容上的连续。,动画,计算机设计动画有两种：一种是帧动画，一种是造型动画。,帧动画是由一幅幅位图组成的连续的画面，就如电影胶片或视频画面一样要分别设计每屏幕显示的画面。,造型动画是对每一个运动的物体分别进行设计，赋予每个动元一些特征，然后用这些动元构成完整的帧画面。动元的表演和行为是由制作表组成的脚本来控制。存储动画的文件格式有FLC、MMM等,视频,视频是由一幅幅单独的画面序列（帧frame）组成，这些画面以一定的速率（fps）连续地投射在

10、屏幕上，使观察者具有图像连续运动的感觉。,视频文件的存储格式有AVI、MPG、MOV等。,视频标准主要有NTSC制和PAL制两种。,视频的技术参数有：帧速数据量图像质量,NTSC 标准为30fps，每帧525行。PAL 标准为25fps，每帧625行。,1.2.1 多媒体数据的冗余类型,图像数据表示中存在着大量的冗余，图像数据压缩技术就是利用图像数据的冗余性来减少图像数据量的方法。常见图像数据冗余类型如下：,1. 空间冗余,2. 时间冗余,3. 视觉冗余,1.2 多媒体数据压缩技术,空间冗余,一幅图像表面上各采样点的颜色之间往往存在着空间连贯性，基于离散像素采样来表示物体表面颜色

11、的像素存储方式可利用空间连贯性，达到减少数据量的目的。,例如，在静态图像中有一块表面颜色均匀的区域，在此区域中所有点的光强和色彩以及饱和度都是相同的，因此数据有很大的空间冗余。,时间冗余,运动图像一般为位于一时间轴区间的一组连续画面，其中的相邻帧往往包含相同的背景和移动物体，只不过移动物体所在的空间位置略有不同，所以后一帧的数据与前一帧的数据有许多共同的地方，这种共同性是由于相邻帧记录了相邻时刻的同一场景画面，所以称为时间冗余。,同理，语音数据中也存在着时间冗余。,视觉冗余,人类的视觉系统对图像场的敏感度是非均匀的。但是，在记录原始的图像数据时，通常假定视觉系统近似

12、线性的和均匀的，对视觉敏感和不敏感的部分同等对待，从而产生比理想编码（即把视觉敏感和不敏感的部分区分开来的编码）更多的数据，这就是视觉冗余。,1.2.2 数据压缩方法,压缩处理一般是由两个过程组成：一是编码过程，即将原始数据经过编码进行压缩，以便存储与传输；二是解码过程，此过程对编码数据进行解码，还原为可以使用的数据。,数据压缩可分为两种类型：一种叫做无损压缩，另一种叫做有损压缩。,无损压缩,无损压缩常用在原始数据的存档，如文本数据、程序以及珍贵的图片和图像等。其原理是统计压缩数据中的冗余 (重复的数据)部分。常用的有：,RLE (run length encoding)

13、行程编码 Huffman 编码算术编码 LZW (lempel-ziv-welch)编码,(1)行程编码（RLE）RLE 编码是将数据流中连续出现的字符用单一记号表示。例如,字符串AAABCDDDDDDDDBBBBB 可以压缩为3ABC8D5B 。,RLE编码简单直观，编码/解码速度快，因此许多图形和视频文件，如.BMP .TIFF及AVI等格式文件的压缩均采用此方法.,(2)Huffman编码它是一种对统计独立信源能达到最小平均码长的编码方法。,其原理是，先统计数据中各字符出现的概率后，再按字符出现频率高低的顺序分别赋以由短到长的代码，从而保证了文件的整体的大部分字符是由较短

14、的编码构成的。,(3)算术编码其方法是将被编码的信源消息表示成实数轴0-1之间的一个间隔，消息越长，编码表示它的间隔就越小，表示这一间隔所需的二进制位数就越多。,该方法实现较为复杂，常与其它有损压缩结合使用，并在图像数据压缩标准(如JPEG)中扮演重要角色。,(4)LZW编码LZW(Lempel-Ziv-Welch)压缩使用字典库查找方案。它读入待压缩的数据并与一个字典库(库开始是空的)中的字符串对比，如有匹配的字符串，则输出该字符串数据在字典库中的位置索引，否则将该字符串插入字典中。,许多商品压缩软件如ARJ、PKZIR、 ZOO、LHA等都采用了设方法。另外，.GIF

15、和.TIF 格式的图形文件也是按这一文件存储的。,有损压缩,图像或声音的频带宽、信息丰富，人类视觉和听觉器官对频带中某些频率成分不大敏感，有损压缩以牺牲这部分信息为代价，换取了较高的压缩比。,常用的有损压缩方法有：PCM(脉冲编码调制)、预测编码、变换编码、插值与外推等。,新一代的数据压缩方法有：矢量量化和子带编码、基于模型的压缩、分形压缩及小波变换等。,混合压缩,混合压缩是利用了各种单一压缩的长处，以求在压缩比、压缩效率及保真度之间取得最佳折衷。,该方法在许多情况下被应用，如 JPEG 和MPEG 标准就采用了混合编码的压缩方法。,1.2.3 编码的国际标准,1音频编

16、码,音频的编码方式可分为波形编码、参数编码和混合编码三种。,（l）波形编码对于音频信号，通常采用波形编码方法。波形编码的算法简单，易于实现，可获得高质量的语音。常见的三种波形编码方法为：,脉冲编码调制（PCM ) ，实际为直接对声音信号作A/D 转换。只要采样频率足够高，量化位数足够多，就能使解码后恢复的声音信号有很高的质量。,差分脉冲编码调制（DPCM )，即只传输声音预测值和样本值的差值以此降低音频数据的编码率。,自适应差分编码调制（ADPCM ) ，是DPCM方法的进一步改进，通过调整量化步长，对不同频段设置不同的量化字长，使数据得到进一步的压缩。,（2）参数编码参数编码方法通过建立起

17、声音信号的产生模型，将声音信号用模型参数来表示，再对参数进行编码，在声音播放时根据参数重建声音信号。参数编码法算法复杂，计算量大，压缩率高，但还原声音的质量不高。,（3）混合编码混合编码是把波形编码的高质量和参数编码的低数据率结合在一起，取得了较好效果。,2.静止图像压缩标准,国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合成立的 “联合照片专家组“ JPEG (joint photographic experts group) 于1991年提出的“多灰度静止图像的数字压缩编码”(简称JPEG标准)。,这是一个适应于彩色和单色多灰度或连续色调静止数字图像的压缩标准。,J

18、PEG标准支持很高的图像分辨率和量化精度。它包含两部分：,第二部分是有损压缩，基于离散余弦变换(DCT)和Huffman编码, 通常压缩20-40倍。,第一部分是无损压缩，基于差分脉冲编码调制(DPCM)的预测编码。,3.运动图像压缩标准,视频图像压缩的一个重要标准是 MPEG (Moving Picture Experts Group) 于1990年形成的一个标准草案(简称MPEG标准)。它兼顾了JPEG标准和CCITT专家组的H.261标准。,MPEG标准分成MPEG视频、MPEG音频和MPEG系统三大部分。,MPEG算法除了对单幅图像进行编码外(帧内编码)，还利用图像序列的相关特性去除帧间图像冗余，大大提高了视频图像的压缩比。压缩比可达到60-100倍。,下一页,

展开阅读全文

第一章 多媒体基础知识.ppt

第一章多媒体基础知识.ppt