1、多媒体技术基础第一章:多媒体技术概论1 媒体:存储信息的实体 ;(多媒体)信息的载体。 2 媒体的类型 : 感觉媒体 :直接作用于人的感官 ,使人直接产生感觉; 表示媒体:是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体 ,即各种编码;显示媒体:是指感觉媒体与用于通信传输的电信号之间转换的一 类媒体,即感觉媒体与计算机的界面。又可分为两种:输入显示媒体和输出显示媒体; 存储媒体:又称存储介质,保存表示媒体的介质; 传输媒体:传输的物理载体,即用来将媒体从一处传送到另一处的物理载体 。3 多媒体技术的定义: 多媒体技术是利用计算机技术对多种信息进行综合处理、建立逻辑关系,集成为一个系统并具
2、有交互性。4 多媒体的特征:多维化、集成性、交互性、数字化、实时性。5 多媒体技术所涉及的对象:文字和符号、矢量图形、位图图像对象、动画对象、音频对象视频对象。6 多媒体信息系统:开发系统、演示系统、培训系统、家庭系统7 多媒体技术应用领域:教育(形象教学、模拟展示) 、商业广告(特技合成、大型演示) 、影视娱乐业(电影特技、变形效果) 、医疗(远程诊断、远程手术) 、旅游(景点介绍) 、人工智能模拟(生物、人类智能模拟) 。8:相应习题见 PPT。第二章:多媒体硬件1 CD-ROM:构成: 激光驱动器 、激光盘片;性质: 只读属性 (不能写入,只能读出)、 光学存储原理 ( 激光烧结)。容量
3、 650MB74 min2 CD-RW:性质:可读写属性 (CD-R 盘片:追加写/读 CD-RW 盘片:可读/擦写)、光学存储原理 (激光烧结 )。3 DVD 标准 (Digital Versatile Disk) 采用 MPEG-2 压缩技术的标准,可存放 488分钟影片、4.7GB 17GB 的数据。4 DVD 规格:DVD 盘的类型 存储容量(GB) 播放时间(分钟)单面单层(只读) 4.7 133单面双层(只读) 8.5 240单层双面(只读) 9.4 266双层,双面(只读) 17 单层双面(DVD-R) 6.6 215单层双面(DVD-RAM) 5.2 1475 DVD 的存储容
4、量提高方法 :DVD CD 容量增益盘片直径 120 mm 120 mm 盘片厚度 0.6 mm /面 1.2 mm /面 减小激光波长 635/650 nm 780 nm 4.486 =加大 N.A.(数值孔径) 0.6 0.45 (1.6*0.83)/减小光道间距 0.74 m 1.6 m (0.74*0.40)减小最小凹凸坑长度 0.4 m 0.83 m 减小纠错码的长度 RSPC CIRC 修改信号调制方式 8-16 8-14 加 3 1.0625 = 17/16加大盘片表面的利用率86.6 平方厘米 86 平方厘米 1.019 = 86.6/86减小每个扇区字节数 2048/2060
5、 字节/扇区 2048/2352 字节/扇区 1.142 = 2352/2060第三章:多媒体数据压缩基础1 数据压缩的必要性:图像信号:黑白 480360,8bit;大小是 480 3601024=168.45KB彩色大小是 480 36031024=506.25KB;视频:PAL 制每秒数据量 506.25KB25 帧/秒=12.36MB/s。2 数据压缩的可能性:空间冗余 规则物体的物理相关性;时间冗余 视频与动画画面间的相关性;统计冗余 具有空间冗余和时间冗余;结构冗余 规则纹理、相互重叠的结构表面;信息熵冗余 编码冗余,数据与携带的信息;视觉冗余 视觉、听觉敏感度和非线性感觉;知识冗
6、余 凭借经验识别。3 多媒体数据压缩的性能指标: 压缩比:压缩性能常常用压缩比定义(输入数据和输出数据比);图象质量: 信噪比、分辨率、颜色错;压缩和解压的速度。4 数据压缩编码分类: 无损压缩(指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同无损压缩算法一般压缩比 24; 常用的无损压缩算法有霍夫曼(Huffman)算法和 LZW(Lenpel-Ziv & Welch)压缩算法。有损压缩(指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的
7、视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解, 但可大大提高压缩比。5 编码算法:统计编码 (Shannon-Fano 编码、霍夫曼编码、算术编码、行程编码、词典编码(LZW) ) 、变换编码、预测编码。6 编码算法重在理解有计算题!第四章:数字声音基础1 声音:通过空气传播的一种连续的振动波,具有振幅、周期和频率。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号2 声音三要素:音调 (高低)频率(2) 音强 (强弱)音高(3) 音色 (特质)泛音声音的频谱分为线性频谱和连续频谱。声音的质量简称音质。音质与频率范围成正比,频率范围越宽音质越好
8、。声音的连续时基性:声音具有连续性和过程性,数据前后相关,数据量大,具有实时性听觉特性(1)人耳对不同频段的声音的敏感程度不同 如: 对低频敏感一些,3-5K 最敏感。(2)不同频率有不同的听觉阈值。(3)人的听觉具有掩蔽效应 。和环境有关。同样大小声音在嘈杂环境就会听不清。3 MIDI (Musical Instrument Digital Interface)乐器接口文件:用于合成、游戏,记录音符时值、频率、音色特征,数据量小。优点:生成的文件比较小、容易编辑、可以作背景音乐。4 WAVE (Waveform Audio)波形音频文件:多媒体系统、音乐光盘制作,记录物理波形,数据量大。5
9、CDA (CD Audio)激光音频文件:准确记录声波,数据量大,经过采样,生成 wav 和 mp3音频文件。6 mp3 (MPEG 音频压缩标准)压缩音频文件:必须经过解压缩,数据量小。7 线性预测编码 (LPC)、GSM 编译码器。8:MIDI 的合成方法产生 MIDI 乐音的方法很多,现在用得较多的方法有两种:一种是(frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。9:MIDI 标准之所以受到欢迎,主要是它有下列几个优点:生成的文件比较小,因为 MIDI 文件存储的是命令,而不是声音
10、波形;容易编辑,因为编辑命令比编辑声音波形要容易得多;可以作背景音乐,因为 MIDI 音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果。第五章5.1 一个能发出光波的物体称为有源物体,它的颜色由该物体发出的光波决定,使用RGB 相加混色模型;一个不发光波的物体称为无源物体,它的颜色由该物体吸收或者反射哪些光波决定,用 CMY 相减混色模型。5.2 图象的相加色:一幅彩色图像可以看成由许多的点组成的每个像素都有一个值,称为像素值,它表示特定颜色的强度。 一个像素值往往用 R,G,B 三个分量表示 5.3CMY 相减混色模型 :用彩色墨水或颜料进行混合,这样得到的
11、颜色称为相减色。 任何一种颜色都可以用三种基本颜料按一定比例混合得到。这三种颜色是青色(Cyan)、品红(Magenta)和黄色(Yellow),通常写成 CMY,称为 CMY 模型。减少了为视觉系统识别颜色所需要的反射光 5.4 图象的三个属性:图像的属性包含分辨率、像素深度、真/伪彩色、图像的表示法和种类等。显示分辨率是指显示屏上能够显示出的像素数目. 图像分辨率是指组成一幅图像的像素密度的度量方法。图像分辨率与显示分辨率是两个不同的概念。图像分辨率是确定组成一幅图像的像素数目,而显示分辨率是确定显示图像的区域大小。如果显示屏的分辨率为 640480,那末一幅320240 的图像只占显示屏
12、的 1/4; 像素深度是指存储每个像素所用的位数,它也是用来度量图像的分辨率。像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。5.5 真彩色(true color) 真彩色是指在组成一幅彩色图像的每个像素值中,有 R,G,B 三个基色分量,每个基色分量直接决定显示设备的基色强度,这样产生的彩色称为真彩色。伪彩色伪彩色图像的含义是,每个像素的颜色不是由每个基色分量的数值直接决定,而是把像素值当作彩色查找表(color look-up table,CLUT)的表项入口地址,去查找一个显示图像时使用的 R,G,B 强度值,用查找出的 R,G,B 强度值产生的
13、彩色称为伪彩色。直接色每个像素值分成 R,G,B 分量,每个分量作为单独的索引值对它做变换。也就是通过相应的彩色变换表找出基色强度,用变换后得到的 R,G,B 强度值产生的彩色称为直接色。它的特点是对每个基色进行变换。 5.6 矢量图(图形):主要用于工程图、白描图、图例、卡通漫画和三维建模等。由图形应用程序创建, 在数学上定义为一系列由线连接的点,其内部表示为单个的线条、文字、圆、矩形、多边形等图形元素。每个图元称为对象,可以用一个代数式来表达,并且是一个独立的实体,具有颜色、形状、大小和屏幕位置等属性。通过软件,矢量图很容易转化为位图,而位图转化为矢量图则需要复杂而庞大的数据处理。位图是直
14、接量化的原始图像信号形式,图像的最小单位是像点, 用于表现自然影像。像素点由若干个二进制位进行描述,二进制位代表像素点颜色的数量,二进制位与图像之间存在严格的“位映射”关系,具有位映射关系的图叫作“位图” 。位图与矢量图的不同点:1)位图的容量一般较大,与图的尺寸和颜色有关;矢量图一般较小,与图的复杂程度有关。2)位图的文件内容是点阵数据;矢量图的文件内容是图形指令。3)位图的显示速度与图的容量有关;矢量图的显示速度与图的复杂程度有关。4)从应用特点看,位图适于“获取” 和“复制” ,表现力丰富,但编辑较复杂;矢量图易于编辑,适于“绘制” 和“创建” ,但表现力受限。第六章6.1 兼容制式中“
15、兼容”有两层意思:一是指黑白电视机能接收彩色电视广播,显示的是黑白图像,另一层意思是彩色电视机能接收黑白电视广播,显示的也是黑白图像,这叫逆兼容性。每秒钟扫描多少行称为行频 fH;每秒钟扫描多少场称为场频 ff;每秒扫描多少帧称帧频 fF。ff 和 fF 是两个不同的概念。 6.2PAL 电视制式的特性625 行(扫描线)/帧,25 帧/秒(40 ms/帧) 高宽比:4:3 隔行扫描,2 场/帧,312.5 行/场颜色模型:YUV分量电视信号(component video signal)是指每个基色分量作为独立的电视信号。全电视信号主要由图像信号(视频信号) 、复合消隐信号和复合同步信号组成
16、单一信号。这些信号加在一起称为全电视信号(复合电视信号) 分离电视信号 S-Video(Separated video-VHS)是亮度和色差分离的一种电视信号,是分量模拟电视信号和复合模拟电视信号的一种折中方案。使用 S-Video 有两个优点:减少亮度信号和色差信号之间的交叉干扰。不须要使用梳状滤波器来分离亮度信号和色差信号,这样可提高亮度信号的带宽。电视图像数字化常用的方法有两种:先从复合彩色电视图像中分离出彩色分量,然后数字化。如录象带、激光视盘、摄象机等的电视信号。对这类信号的数字化,通常的做法是首先把模拟的全彩色电视信号分离成YCbCr,YUV,YIQ 或 RGB 彩色空间中的分量信
17、号,然后用三个 A/D 转换器分别对它们数字化。 首先用一个高速 A/D 转换器对彩色全电视信号进行数字化,然后在数字域中进行分离,以获得所希望的 YCbCr,YUV,YIQ 或 RGB 分量数据。图象子采样的压缩特性:一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉二是人眼对图像细节的分辨能力有一定的限度,利用这个特性可以把图像中的高频信号去掉而使人不易察觉。子采样也就是利用人的视觉系统这两个特性来达到压缩彩色电视信号。 子采样的格式4:4:4 这种采样格式不是子采样格式,它是指在每条扫描线上每 4 个连续的采样点取 4 个亮度
18、 Y 样本、4 个红色差 Cr 样本和 4 个蓝色差 Cb 样本,这就相当于每个像素用 3 个样本表示。4:2:2 这种子采样格式是指在每条扫描线上每 4 个连续的采样点取 4 个亮度 Y 样本、2 个红色差 Cr 样本和 2 个蓝色差 Cb 样本,平均每个像素用 2 个样本表示。4:1:1 这种子采样格式是指在每条扫描线上每 4 个连续的采样点取 4 个亮度 Y 样本、1 个红色差 Cr 样本和 1 个蓝色差 Cb 样本,平均每个像素用 1.5 个样本表示。4:2:0 这种子采样格式是指在水平和垂直方向上每 2 个连续的采样点上取 2 个亮度 Y 样本、1 个红色差 Cr 样本和 1 个蓝色
19、差 Cb 样本,平均每个像素用 1.5 个样本表示。6.5 电视图象数据率亮度(Y): 858 样本/行525 行/帧30 帧/秒10 比特/样本 = 135 兆比特/秒(NTSC)864 样本/行625 行/帧25 帧/秒10 比特/样本 = 135 兆比特/秒(PAL)Cr (R-Y):429 样本/行525 行/帧30 帧/秒10 比特/样本 = 68 兆比特/秒(NTSC)429 样本/行625 行/帧25 帧/秒10 比特/样本 = 68 兆比特/秒(PAL)Cb (B-Y):429 样本/行525 行/帧30 帧/秒10 比特/样本 = 68 兆比特/秒(NTSC)429 样本/行625 行/帧25 帧/秒10 比特/样本 = 68 兆比特/秒(PAL)总计: 27 兆样本/秒10 比特/样本 = 270 兆比特/秒第七章Aothorware:特点:有多媒体素材的集成能力有多样化的交互作用能力有文字、图形图象、动画处理能力有直观、易用的开发界面可使用模块、库有强大的数据处理能力有设计模板