多媒体技术复习重点1.doc-道客多多

资源描述

1、第一章多媒体技术概要（一）课程内容多媒体的定义多媒体是指信息表示媒体的多样化，多媒体技术将文本、图像、图形、声音、音乐、视频、动画等多种媒体形式集成起来，以更自然的方式使用信息和计算机交互，使表现的信息图、文、声共茂。多媒体涉及的几个概念媒体：一是指用以存储信息的实体，如磁盘，光盘，半导体存储器；二是指信息的载体，如数字，文字，声音，图像，图形和视频等。媒体分类：感觉媒体（指能直接作用于人的感官，使人能直接产生感觉的一类媒体）、表示媒体（为了加工、处理和传输感觉媒体而人为地研究、构造出来的一种媒体。其目的是将感觉媒体从一个地方向另一个地方传送，以便于加工和处理。表示媒体包括各种编码方

2、式。）、显示媒体（指感觉媒体与用于通信的电信号之间转换用的一类媒体。包括输入显示媒体和输出显示媒体）、存储媒体（用来存放表示媒体，以方便计算机处理加工和调用，主要指与计算机相关的外部存储设备。）、传输媒体（用来将媒体从一个地方传送到另一个地方的物理载体，是通信的信息载体。）。多媒体技术就是利用计算机技术把文本、声音、视频、动画、图形和图像等多种媒体进行综合处理，使多种信息之间建立逻辑连接，集成为一个完整的系统。多媒体的特征 1)多维化：信息媒体的多样化。)集成性：不仅指多媒体设备集成，也包含多媒体信息集成或表现集成。3)交互性：是使人们获取和使信息变被动为主动的最为重要的特征。

3、4)实时性：主要指类似声音和视频这样的媒体，与时间密切相关，要求多媒体技术必须支持实时处理。多媒体计算机技术及发展1)MPC1：1990 年 2)MPC2：1993 年 3)MPC3：1995 年多媒体技术主要内容：1)多媒体软硬件平台 2)专用芯片：DSP 3)数据压缩及编码技术4)多媒体同步：5)集成模式：制约式、交互式和协作式。 5)多媒体网络与分布式处理技术6)信息的组织与管理 7)多媒体数据存储 8)虚拟现实技术多媒体技术的应用1)视频点播 2)电子出版物 3)医疗卫生 4)游戏与娱乐 5)计算机视频会议6)多媒体展示和信息查询系统 7)MIS 与 OA 8)传媒、广告 9)教学管理

4、系统10)移动卫星多媒体计算机五部件：个人计算机，只读光盘驱动器、声卡、windows3.1 操作系统和一组音箱或耳机。多媒体信息处理的最终目标是能够跨越各种不同网络和设备，透明地、强化地使用多媒体资源。多媒体四个关键技术：多媒体数据的处理、多媒体数据的存储、多媒体数据的传输、多媒体输入/输出技术。把音频和视频信号数字化，以数字信息的形式载入到计算机存储器中。数字化后的音频和视频数据量非常大，需要进行压缩和大容量的存储器；音频和视频的输入和输出是实时的，需要高速处理。提高计算机处理能力的最重要的手段是增加处理器中晶体管的数量。多核处理器的出现为解决这一矛盾提供了方法。多核处理器是指将多个运算核

5、封装在一个芯片内部，理论上讲，由于将两个或者多个运算核封装在一个芯片内部，节省大量的晶体管和封装成本，同时还能显著提高计算机处理器的性能。多核处理器的兼容性强。多媒体信息具有巨大的数据量，尤其是动态图形和视频图像，庞大的数据量在网络上进行传输，根本无法保证数据的实时传输。因此，对多媒体信息进行实时压缩和解压缩是非常有必要的。如今已经成为多媒体数据压缩标准的 JPEG 和 MPEG。一种有效的压缩算法应考虑媒体的种类、应用的对象、应用要求以及采用的设备特性等因素。压缩时间长一点不要紧，关键是解压缩还原的时候速度要快，并且尽量少用专用设备，这种一个生产者多个消费者的应用在压缩算法非对称时是最理想的

6、。多媒体信息本身的特点使得各种信息之间在时间上具有一定的相关性，声音和图像，两者都是时间的函数。多媒体以 3 种模式相互集成：制约式、交互式、协作式。1.3 多媒体与网络数字化的网络集多媒体信息的获取、存储、处理、编辑、综合、传输于一体，并运行于网络上，网络的任意节点都可以共享网络上的多媒体信息。多媒体技术要充分发展其对多媒体信息的处理能力，必须与网络技术结合。如前所述，多媒体信息要占极大的存储空间，即使将数据压缩，对单机用户来说拥有丰富的多媒体信息仍然十分困难。运行于网络环境下的多媒体系统，因为能够不受时空限制地使多个用户透明地共享网络上的数据，特别是多个用户同时对同一个数据文件进行编辑，

7、这使得多媒体技术有了广泛的应用。1.4 多媒体与光盘存储器 1.5 多媒体的技术研究与应用开发多媒体的应用主要包括以下几个方面：1，音/视频流点播。2.电子出版物。3.医疗卫生。4.游戏与娱乐。5.计算机视频会议。6.多媒体展示和信息查询系统。7.MIS（管理信息系统）和 OA（办公自动化）。8.传媒、广告。9.教学管理系统。10.移动卫星。从市场驱动背景来看，有两大方面的原因在推动多媒体与通信技术结合产品的迅速发展：一是网络技术的飞速发展和网络建设的快速推进，二是企业、家庭及个人对多媒体信息的需求。从技术背景看，通信是传输信息的工具，无论是从本地还是从远程获取信息，必须使用通信手段，多媒体

8、计算机与通信本来就是一个信息系统中的两个部分。第二章除了较高的配置的计算机主机硬件以外，多媒体硬件系统还需要音频/视频处理设备、光盘驱动器、媒体输入/输出设备。 CPU：central processing unit 即中央处理器。CPU 的内部结构可分为控制单元、逻辑单元和存储单元三大部分。多媒体接口卡是根据多媒体系统获取、编辑音频或视频的需要而插在计算机上的，以解决各种媒体数据输入、输出的问题。常用的接口卡有声卡、显卡、视频压缩卡、视频捕捉卡、视频播放卡、光盘接口卡。输入设备除了基本的键盘、鼠标等以外，还包括手写板、磁卡设备、IC 卡设备、条码设备、图像扫描仪、数字化仪、触摸屏、视频卡

9、和视频捕获卡等。I/O 设备分为三类：输入设备、输出设备，以及用于网络通信的通信设备市场上主要有 3 种手写板：电阻压力板、电磁感应板和电容触控板。电阻压力板是早期手写板采用的技术，由于其原理简单，工艺不复杂，成本较低，价格便宜。由于它是通过感应材料的变形来工作的，材料容易疲劳，使用寿命较短。图像扫描仪主要性能指标1)分辨率：以每英寸上扫描象素点数(DPI)表示，通常在 300DPI 到 1200DPI 之间。2)灰度，指图像亮度层次范围，目前可达 2503)色彩度，指彩色扫描仪支持的色彩范围，用象素的数据位表示，如 24 位支持 16M 色。4)速度，在指定的分辨率和图像尺寸下的扫描时间。5

10、)幅面：支持的幅面大小，如 A4、A3扫描仪按幅面大小可分为台式扫描仪和手持式扫描仪。按图像类型分为灰度扫描仪和彩色扫描仪。触摸屏一般由两部分组成：触摸屏控制卡和触摸检测装置。按介质及工作原理，可分为电阻式、电容式、红外线式和声表面波式。视频捕获卡是把输入的模拟视频信号，通过内置芯片提供的捕捉功能转换成为数字信号的设备，一般以内置的 PCI 插卡为主。昂贵的视频捕捉卡带有视频压缩功能。CRT 由德国人布劳恩发明，也称为布劳恩管。LCD 是一种低电压、低功耗器件。优点是平面型，结构简单，显示面也可以任意加工制作，使用寿命较长。它是反射型的，在室内条件下也容易观看。没有辐射，不伤人体，画面不会闪

11、烁，可以保护眼睛。可悬挂于墙上。分子具有方向性的液体则称为液态晶体，简称为液晶。液晶显示器是一种液晶利用光调制的受光型显示器件。等离子显示器（ PDP）又称为电浆显示器，为最新一代显示器，其特点是厚度极薄、分辨率高，占用极少的空间。优点：可以制作出超大尺寸的平面显示器；与阴极射线管不同，它没有弯曲的视觉平面，视角扩大到 160 度以上；等离子显示器的分辨率等于甚至超过传统的显示器，所显示图像的色彩也更亮丽、更鲜艳。背投是相对于正投来说的，背投和正投的原理是一样的。正投是观察者和摄投影机位于反射屏幕的同一侧，观察者看到的是屏幕反射回来的光；背投是观察者和投影机位于屏幕的两侧，从投影机投射出来

12、的光照射到半透明的背投屏幕时会有部分光透过，观察者看到的是投射出来的光。显卡的主要作用是对图形函数进行加速。图形加速卡拥有自己的图形函数加速器和显存，这些都是专门用来执行图形加速任务的，因此可以大大减少 CPU 所需处理的图形函数。通常所说的加速卡的性能，是指加速卡上的芯片集能够提供的图形函数计算能力，这个芯片集通常也称为加速器。打印机分为击打式和非击打式，击打式以点阵式打印机为主，非击打式以激光打印机和喷墨打印机为主。击打式打印机可同时多层打印，是该类打印机独有的。激光打印机的图形功能和字体变化功能方面是其他打印机无法替代的。调制解调器 modem 的作用是利用模拟信号传输线路传输数字信号。

13、电子信号可分为模拟信号和数字信号。传统的调制解调器已经逐渐被 ADSL 调制解调器所取代。ADSL 采用复杂的数字信号处理技术和新的数据压缩算法，使大量的信息得以在网络上高速传输。网卡(NIC，network interface card)，它的主要工作原理是整理计算机上发往网线上的数据，并将数据分解为适当大小的数据包在网络上发送出去。每个网卡有惟一的网络节点地址。USB 设备通用串行总线，主要特点：即插即用、可热插拔，并具有自动配置能力。1.1 版 12Mb/s，2.0 版480Mb/s。USB 采用四线电缆，其中两根是用来传递数据的串行通道，另两根为下游设备提供电源。USB 支持 4 种基

14、本的数据传输模式：控制传输、等时传输、中断传输及数据块传输。USB 设备具有以下几个方面的优点：使用方便，速度快，连接灵活，独立供电，支持多媒体，低成本。USB 设备硬件结构：USB 采用级联星型拓扑，该拓扑由 3 个部分组成：主机，集线器，功能设备。USB 软件结构：1.USB 总线接口。2.USB 系统。USB 最多可支持 5 个非 hub 层以及 127 个外设。数码产品分为数码影像类、数码随身听和掌上电脑三大类。第三章数字图像处理技术图像通常包括动态图像和静态图像。动态图像包括动画和视频信息，是连续渐变的静态图像或图形的序列，沿时间轴顺次更换显示，从而构成运动视感的媒体。美国信息论专

15、家香农第一次提出数字化信息的基本单位比特。信号的数字化处理包括两个步骤：一是时间上的离散化，即采样；二是幅度上的离散化，即量化。数字化后的信号，将全部变为 0 和 1 的序列，这使得信息的采集、存储、传输、复制、加工变得很方便。采样也叫抽样，是信号在时间上的离散化。量化是对幅值进行离散化。采样长度就是采样时间的长度。色彩可用色调、饱和度、亮度来描述。其中色调与光波的波长有直接关系，亮度和饱和度与光波的幅度有关系，色调由物体表明反射的光线中什么波长占优势决定。黄色的亮度最高。饱和度是指颜色色调的表现程度，某种色调越接近白色或灰色，它的饱和度越小。在饱和的彩色光中增加白光，相当于增加了光能，因而变

16、得更亮了，但是它的饱和度却降低了。RGB 色彩可分为真彩色、伪彩色、调配色。真彩色是指图像中的每个像素都分为 R、G、B 三个基本分量，每个基色分量都直接决定其基色的强度，这样产生的色彩称为真彩色。伪彩色图像的每个像素值实际上是一个索引值或者代码，该代码作为色彩查找表中某一项的入口地址。调配色的获取是通过每个像素占的 R、G、B 分量分别作为单独的索引值进行变换。调配色的效果比一般伪彩色要好。Lab：是由 RGB 转为 HSB 或 CMYK 模式的桥梁，发光率、颜色 A、B。HSB 颜色模式指色调、饱和度、亮度。CMYK 是彩色印刷使用的一种颜色模式。YUV 电视系统常用模式，由一个亮度信号

17、Y 和两个色差信号 U、V 组成。能够对多媒体数据进行压缩的前提是因为数据存在大量的冗余，数据压缩的目的就是尽可能地消除这些冗余。冗余分为以下几类：1)统计冗余：大量统计特征上的重复2)信息熵冗余：信息熵定义为一组数据所表示的信息量，等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和3)结构冗余：图像纹理4)知识冗余： 5)视觉冗余：人的视觉对某些细节不敏感数据压缩的目的是便于存储和运输，为了对数据进行还原，必须进行解压缩，因此数据压缩通常包括对数据的编码和解码。解码的运算复杂度低于编码。评价压缩算法的指标：压缩比，算法的复杂度和运算速度，失真度。行程长度编码RLE，又称游

18、程编码，就是把一系列的重复值用一个单独的值加上一个计数值来取代。哈夫曼编码：步骤：1.统计信源符号出现的概论。2.将信源符号按概率递减顺序排列。3.把两个最小的概率值加起来，作为一个新组合符号的概率。4.重复（2）和（3）的操作，直到概率和达到 1。5.在每次合并信源时，将合并的信源分别标记为 1 和 0。（比如概率小的标为 1，概率大的标为 0。）6.寻找从每一信源符号到概率为 1 的路径，记录下路径下的 1 和 0。7.对每一符号写出 1 和 0 序列。缺点：1)必须精确统计出每个值出现的频率，通常需要两遍操作，速度慢。2)译码过程比较复杂，对于位的增删比较敏感。词典编码属于无损压缩技

19、术。预测编码可分为线性预测和非线性预测编码。前者常被称为差分脉冲编码调制，即 DPCM，其基本原理是基于图像中相邻象素之间的相关性，每个象素可通过与之相关的几个象素来进行预测。可以获得比较高的编码质量，并且实现起来比较简单，因此被广泛地应用于图像压缩编码系统。但是它的压缩比不高，而且精确的预测有赖于大量的先验知识，并且必须进行大量的非线性运算，一般不单独使用，而是与其他方法结合使用。矢量图是用数学方法描述的一系列点、线、弧和其他几何形状，存放这种图使用的格式称为矢量图格式。位映像图也叫光栅图，这种图由像素组成。矢量图与位图相比：位图文件要比矢量图文件显示的快；矢量图侧重于绘制，而位图偏重于获取

20、、复制。矢量图和位图之间可以用软件进行转换。影响位图大小的因素主要有：图像分辨率和像素深度。矢量图的大小则主要取决于图的复杂程度。BMP 文件由 3 部分组成：位图文件头数据结构，位图信息数据结构和位图阵列。GIF 定义了允许用户设置背景为透明的属性，GIF 格式可在一个文件中存放多幅彩色图形图像，它们可以像演幻灯片那样显示或者像动画那样显示，使用 LZW 压缩算法来存储。TIF 格式TIFF 格式，与硬件无关，可以用几种不同的压缩方法压缩。文件组成：文件头、参数指针表、参数数据表。PNG 文件格式其目的是代替 GIF 和 TIFF 格式，同时增加了一些 GIF 不具备的特性。PNG 使用无损

21、数据缩算法。PNG 的优点：兼有 GIF 和 JPEG 的色彩模式；PNG 能把图像文件压缩到极限以利于网络传输，但又能保留所有与图像品质有关信息的解决方案；更优化的传输显示；透明图像在制作网页图像的时候很有用；GIF 图像在不同系统上所显示的画面也不会一样，PNG 却可以使图像在所有系统上的显示图像完全相同。PNG 的缺点：GIF 可以存储多张 GIF 图像到一个文档中，从而做出动画效果。PNG 则不支持动画应用。PNG 采用的是无损压缩方式，尽管相同质量的 PNG 图像文件比 JPEG 的要小，但是 JPEG 可以适当地牺牲画面质量而取得比 PNG 更小的尺寸。PNG 不支持 CMYK 的

22、模式。JPEG 标准规定了两种工作方式：顺序方式和渐进方式。JPEG 属于有损压缩方式。 JPEG 基本系统编码过程(重点掌握)1)二维 DCT 正变换，减少图像数据的相关性2)系数量化，根据压缩精度将变换系数用较少的比特数表示3)编码模型与统计事件，压缩系数矩阵中的零数据，从量化后的系数矩阵生成供熵编码的统计事件。直流分量使用 DPCM 编码。)熵编码：基本系统中用哈夫曼编码，扩展系统中可用算术编码。5)数据结构，增加一些附加信息JPEG 的压缩效果0.15b/p，可识别，0.25 有用，0.75 极佳，1.5 时基本与原图无区别。JPEG2000 放弃了 JPEG 所采用的以离散余弦变换算

23、法为主的区块编码方式，而改用以离散小波变换算法为主的多解析编码方式。JPEG2000 与 JPEG 相比的优势：高压缩率；同时支持有损压缩和无损压缩；渐进传输；感兴趣区域压缩。Mpeg 算法面临的问题：仅靠帧内编码无法到达在保证画面质量前提下的高压缩比。为满足高压缩比和随机访问的要求，mpeg 采取了预测和插值两种帧间编码技术。MPEG-1 视频压缩算法(重点掌握)系统参数：图像宽度、高度、象素长宽比、帧速率、位速率、缓冲区尺寸等。算法的两个基础：基于 16X16 块的运动补偿缩减时间冗余，基于变换域(DCT)的缩减空间冗余技术。1)缩减时间冗余度：3 种画面：内帧(I)、预测帧(P)和内插帧

24、(B)。内帧经过中度压缩，可作为随机访问点，预测帧以参考帧(I 或 P)为基础进行编码，它又是后面预测帧的参考帧。内插帧压缩比最高，它需要前后两参考帧，但它本身不能作为参考帧使用。MPEG 选择 16X16 宏块作为运动补偿单元。每 8 个画面有一个内帧：IBBBPBBBI。2)缩减空间冗余度：类似于 JPEG，三个阶段：第一阶段基于 DCT 的正交变换，计算变换系数，第二阶段对变换系数进行量化，将数据按 Z 字形扫描顺序重新组合，最后对变换系数按行程编码进行熵编码，以达到进一步压缩的目的。MPEG 考虑 3 种画面：内帧（I）、预测帧（P）、内插帧（B）。这样做的重要性：一是考虑随机访

25、问视频存储的重要性，二是运动补偿插值可显著降低位速率。运动补偿预测是应用最广泛的减少时间冗余的方法。MPEG 一个重要特色就是采用了运动补偿插值技术，它可以改善随机访问性能，提高视频的图像质量。MPEG 减少空间冗余方法：混合使用变换编码、基于视觉加权的标量量化、行程编码等技术。MPEG4 主要应用于可视电话、视频邮件和电子新闻等，对传输速率要求低，利用很窄的带宽，通过帧重建技术，压缩和传输数据，以求以最小的数据获得最佳的图像质量。MPEG4 的主要特征：基于内容的压缩，更高的压缩比，时空可伸缩性。H.261 是 CCITT 制定的国际上第一个视频压缩标准，主要用于电视电话和会议电视。H.2

26、63 是用现在的电话网传输活动图像。H.263 提供两种编码模式：帧内编码、帧间编码。QCIF 图像的帧结构，从上到下为：图像帧，块组，宏块，块。第四章音频信号和声卡声音根据其内容可以分为波形声音、语音和音乐。波形声音是数字化了的声音。计算机处理的声音信号是经过离散化了的信号，因此通常又称为音频信号。声音的连续性表现在：一是时间上的连续性，二是幅度上的连续性。声音分为规则声音和不规则声音：不规则声音指不包含任何信息的噪声。规则声音又分为语音、音乐和音效。多媒体技术主要研究的是规则声音中的语音和音乐信号。声音有三个要素即音调、音强、音色。带宽越宽，音质也越好。人的听觉器官能感知的频率范围为

27、20HZ20000HZ。当声音弱到人的耳朵刚刚可以听到时，我们称此时的声音强度为“听阈” 。当声音强到使人耳朵感到疼痛，这个阈值称为“痛阈” 。在听阈和痛阈之间的区域就是人耳的听觉范围。为了使计算机能够进行处理必须首先对声音在时间轴和幅度两个方面进行离散化。常见音频文件格式wav、au、aiff、snd、rm、mp3 等。wav 称为波形文件格式，是一种资源交换文件格式(RIFF)。声音质量客观质量主要用信噪比 SNR。主观质量常用的有平均意见得分(MOS)。数据语音通信中，分为：广播质量、网络质量、通信质量和合成质量。以 WAV 为扩展名的文件格式称为波形文件格式。AVI 是 audio v

28、ideo interleaved（音频视频交错）的英文缩写，它是 microsoft 公司开发的一种数字音频和视频文件格式。但 AVI 并未限定压缩标准，用不同的压缩算法生出的 AVI 文件，必须使用相应的压缩算法才能播放出来。 RM 文件是由 realnetworks 公司开发的一种新型流式视频文件格式，用来在低速网络上实时传输活动视频图像。数字化的音频信号必须经过编码处理，以适应存储和传输的要求。脉冲编码调制(PCM)：脉冲编码调制是概念上最简单、理论上最完美的编码系统，但也是数据量最大的编码系统。声音数字化有两个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度；第二步是量化，就

29、是把采样得到的声音信号幅度转换成数字值。量化有两种：一类是均匀量化，即线性量化，如果采用相等的量化间隔对采样得到的信号进行量化；一类是非均匀量化，即非线性量化，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。增量调制（DM）是一种预测编码技术，由于 DM 编码的这种简单性，它已成为数字通信和压缩存储的一种重要方法。增量调制虽然简单，但存在两个缺点：一是会出现斜率过载，二是会产生粒状噪声。在开始阶段，增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象称为增量调制器的“斜率过载” ；粒状噪声是指在输入信号缓慢变化的部分，即输入信号与预测信号的差值接近零的区域

30、，增量调制器的输出会出现随机交变的“0”和“1” 。为了解决这个矛盾，人们就提出了自适应增量调制（ADM）方法，这种方法的特点是使增量调制器的量化能随信号自动调整。自适应脉冲编码调制（APCM）是根据输入信号幅度的均匀根值的变化来改变量化增量的一种编码技术。差分脉冲编码调制（DPCM）是利用样本与样本之间存在的信息冗余度来进行编码的一种据压缩技术。基本思想：根据过去的样本去估算下一个样本信号的幅度的大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而减少了表示每个样本信号的位数。自适应差分脉冲编码调制：综合了 APCM 的自适应特性和 DPCM 系统的差分特性，是一种性能比较

31、好的波形编码。思想：利用自适应的思想改变量化增量的大小，即使用小的量化增量去编码小的差值，使用大的量化增量去编码大的差值使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。MP3 是 MPEG audio layer3 音频文件的缩写，它是一种超级声音文件的压缩方法，具有文件小，音质佳的特点。MPEG 是由音频和视频两部分组成的。在 MPEG 音频编码模式中，MP3 功能最强大；在同样的音质条件下，MP3 需要的数据量最小；在同样的数据量条件下，MP3 音质最好。MP3 对音频信号采用的是有损压缩的方法，虽然它是一种有损压缩的方法，但它以极小的是真换来较高的压缩

32、比。乐器数字接口 MIDIMIDI 是乐器数字接口的英文缩写，是数字音乐/电子合成乐器的统一国际标准。声卡可分为 PCI 声卡和 USB 声卡。声卡所支持的声道数是反映声卡技术发展的一个标志。单声道：我们可以明显的感觉到声音是从两个音箱的中间传递到我们的耳朵里的。立体声：声音在录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。四声道环绕规定了 4 个发音点：前左、前右、后左、后右，听众则被包围在中间，同时还可以增加一个低音音箱，以加强对低频信号的回放处理。声卡的功能：录制、编辑和回放数字声音文件。控制各声源的音量，并混合在一起，以便数字化。在记录和回放数字文件时进行压缩和解压缩，

33、以节省存储空间。采用语音合成技术，能让计算机朗读文件。MIDI 接口。声卡的工作原理：主机通过总线将数字化的声音信号以 PCM 的方式送到数模转换器（D/A），将数字信号变成模拟的音频信号。同时又可以通过模数转换器（A/D）将麦克风或 CD 的输入信号转换成数字信号，送到计算机进行处理。在数字音频信息获取与处理过程中，顺序为：采样，A/D 转换，压缩、存储，解压缩，D/A 转换。让人与计算机自由地交谈，机器能够听懂人讲话，是语音识别技术最终实现的目标。语音识别技术主要包括特征提取技术，模式匹配准则和模型训练技术 3 个方面。语音识别的应用：语音邮件集成。数据库输入和询问应用。语音命令和控制应

34、用。第五章光盘存储CDROM 以其容量大、速率快、兼容性强、盘片成本低廉等特点，短时间内还将是 PC 中除硬盘外的主流存储介质。闻名世界的“红皮书”协定，符合这种标准的光盘又称为数字激光唱盘。即 CDDA。从 CDDA 过渡到 CDROM 有两个重要的问题要解决：计算机如何寻找光盘上的数据，也就是如何划分光盘上的地址问题。把 CD 光盘作为计算机的存储器使用时，要求它的错误率远远小于声音数据的错误率。当时的 CDDA 技术不能满足这一要求，因此还要采用错误纠正技术。CDROM yellow book 黄皮书黄皮书在很大程度上继承了红皮书的内容。CDR orange book 橙皮书。CD 盘

35、是由保护层、反射激光的铝反射层、刻槽和聚碳酸脂衬垫组成。CD 光盘的结构与磁盘磁道的结构有很大的不同。软磁盘存放的数据的磁道是同心环，磁盘片转动的角速度是恒定的，用 CAV 表示。采用同心环磁道的好处之一是控制简单，便于随机存取，但由于内外磁道的记录密度不同，外磁道的记录密度低，内磁道的记录密度高，外磁道的存储空间没有得到充分的利用，因此存储器没有达到应有的存储容量。CD 盘采用螺旋形光道，CD 盘转动的线速率是恒定的。由于采用了恒定线速率（CLV），所以内外光道的记录密度可以一样，盘片得到了充分的利用。但随机存储特性变得较差，控制也比较复杂。单倍速光驱的速度：150kb/sVideo CD

36、标准又称为“白皮书” ，描述的是一个使用 CD 格式和 MPEG 标准的数字电视播放系统。磁盘的记录原理称为磁记录，利用磁铁的两个极性来记忆 1 和 0 这两个二进制数。CD 盘是利用在盘上压制凹坑的机械方法，利用凹坑的边缘来记录 1，而凹坑和非凹坑之间的平坦部分记录为 0，使用激光来读出。帧是激光唱盘上存放声音数据的基本单元。光驱的速率都是标称的最快速率，而这个数值是指光驱在读取盘片最外圈时才有可能达到的最快速率，而读内圈时的速率却远远低于标称值。光驱的寻道时间和缓冲区也影响着光驱的性能。寻道时间就是指激光头在接收到读取的命令后，将光头调整到数据的轨道上方所用的时间。因此，光驱的寻道时间是

37、越短越好。光驱的防振动技术：橡胶减震支架。光驱正面：光盘托盘、托盘开关、耳机孔和音量控制钮。光驱背面：四孔的电源接线。一条数据传输线。一条从光驱连接声卡的线，称为 CD 音频线。激光头是光驱的心脏，也是最精密的部分，它主要负责数据的读取工作。光盘上压制了许多凹坑，激光束在凹坑部分反射的光的强度，要比从非凹坑部分反射的光的强度弱，光盘就是利用这个简单的原理来区分 1 和 0 的。DVD 是数字电视光盘。提高光盘容量的办法：减小光道间距和凹坑尺寸是最主要的方法。另一种办法是增加层数。其容量与层数成正比。DVD 可以使人们欣赏到更清晰的图像，高品质的音响和更丰富的图形。DVD 可以做到双层双面，存储

38、容量高达 17G。DVD 音频格式采用了杜比 AC3 技术，包括两个立体声声道和 5.1 环绕立体声声道。DVD 光盘的生产过程：数据处理。母盘刻录和压模制备。复制。黏合。DVD 面板：进碟仓,播放键、暂停键、停止键、液晶显示屏、快速换曲、搜寻键、电源开关。DVD 播放机内部主要由 5 部分组成：托盘，电源电路板，影音解码板，功能控制电路板，影像音频转换输出板。CDR 橙皮书标准。CDMO，可擦写。CDWO，不可擦写。CDR 有绿盘，金盘，蓝盘。刻录机主要有整盘刻写、轨道刻写、多段刻写。CDRW 是 CDR 的一种补充，兼有 CDR 刻录和数据存储两大功能。CDRW 刻录机也有倍速之分：刻录速

39、率，写入速率，读取速率。CDRW 盘片在使用前需要格式化。光驱的应用技术：1)True X 技术 2)人工智能纠错(AIEC)技术 3)自动平衡系统(ABS)4)双动态抗震悬吊系统(DDSS)技术 5)数字伺服系统技术第六章多媒体计算机软件多媒体软件分为五类：驱动程序，支持多媒体的操作系统或环境，多媒体数据库准备软件，多媒体编辑创作软件，多媒体应用软件。多媒体系统中直接和硬件打交道的软件称为设备驱动程序，它完成设备的初始化、设备各种操作以及基于硬件的压缩和解压缩、图像快速变换等基本硬件功能调用。多媒体操作系统在驱动软件之上，它是多媒体软件的核心：负责多媒体环境下多任务的调度；保证音频、视频同

40、步控制以及信息处理的实时性；提供多媒体信息的各种基本操作管理；具有对设备的相对独立性与可扩展性。目前的操作系统在支持连续媒体应用中还面临着许多问题：一，操作系统缺乏实时性支持，它只能提供更好的计算能力。二，缺乏基于服务质量的管理，以使系统能够保证现有应用的服务质量。正在运行的应用程序叫进程，一个进程可以有一个或多个线程。我们一般称数字音乐数字视频等为多媒体，Microsoft 又给它起了一个新名字数字媒体多媒体数据准备软件是用于采集多种多媒体数据的软件，如声音录制、编辑软件、图像扫描及预处理软件、全动态视频采集软件和动画生出编辑系统。WINDOWS 环境下声音数据的采集：1)打开波形输入设备

41、2)为采样数据分配缓冲空间 3)启动波形输入设备4)关闭语音输入设备使用 Video for Windows(VFW)来获得视频流AVICap 支持实时的视频流捕获和单帧捕获并提供对视频源的控制.显示视频时提供两种模式：1)预览(Preview)模式：使用 CPU 资源，视频先从捕获硬件传到系统内存，接着采用 GDI 函数在捕获窗中显示。2)叠加(Overlay)模式：使用硬件叠加进行视频显示，叠加视频的显示不经过 VGA 卡，叠加视频的硬件将VGA 的输出信号与其自身的输出信号合并，形成组合信号显示在监视器上。WINDOWS 环境下视频数据的采集：多媒体创作工具的评测标准：多媒体创作工具的分

42、类：媒体创作软件工具（用于建立媒体模型、产生媒体数据），多媒体节目写作工具（提供不同的编辑、写作方式），媒体播放工具（可以在计算机上播出，有的甚至能在消费类电子产品中播出）以及其他各类媒体处理工具。音频数据处理软件是为多媒体计算机应用录制、编辑、修改数字化声音的工具软件，在 windows 环境下的数字化声音文件格式是波形声音文件。一个完整的数字化声音处理软件应包括以下功能：动画是通过以每秒 1530 帧的速度顺序地播放静止图像以产生运动的错觉。如 macromedia 公司推出的flash 和 fireworks 软件。所谓流媒体技术，是指将音频文件和视频文件变换成若干个数据小包，在网上

43、像流水一样地传送。这样可以下载一个小包就播放一个，在播放的同时，后台下载其他小包，这样就避免了漫长的等待时间。目前应用最广泛的是 real 格式的影音文件。Real networks 公司出品的 realproducer 可以将常见的音、视频文件转换成 real 格式的文件。由于 rm 格式的编码比 mp3 的压缩率还要大，所以可以得到更小的磁盘占用空间。第七章多媒体文档的组织和设计超文本被定义为：由信息结点和表示信息结点间相关性的链构成的一个具有一定逻辑结构和语义的网络。结点可以包含文本、图形、音频、视频、源程序或者其它形式的数据。包含多媒体的超文本称为“超媒体”。超文本系统的基本特征：基

44、于超文本信息管理的系统称为超文本系统。基本特征：1)图形用户接口 2)向用户给出一个网络结构动态总貌图 3)一般使用双向链4)包含管理结点和链信息的引擎5)尽可能不依赖于它的具体特征、命令或信息结构，而更多强调的是它的用户界面的“视觉和感觉” 。节点和链超文本系统由结点(node)和链(link)组成。一个结点通常表示一个单一的概念或围绕某一特殊主题组织起来的数据集合，是表达信息的一个基本单位，它可以包含文本、图形、动画、音频、视频、图像或者一段计算机程序。一个结点通过链与另一个或多个结点连接起来，链也是组成超文本的基本单位，一般结构可分为部分：链源、链宿及链的属性。链源是导致结点信息的原因。

45、链宿是链的目的所在，通常都是结点。链的属性指链的版本、权限等。超文本充分利用了计算机的特点，它主要体现在 3 个方面：访问速度快，文献容纳的信息量大，以及链和结点可以动态地改变。超文本系统的用户接口1)图形浏览器 2)Web 视图 3)地图和概貌图 4)路径和形迹历史上著名的几个超文本系统：HTML 语言，万维网依靠 3 种技术：URL 即制定网上信息资源地址的统一命名法。HTTP 即存取资源的协议。在资源之间很容易浏览的超文本链接技术。HTML 文档是一种没有格式的文档，也称为 ASC文件，因此，HTML 文档可以使用任何一种文本编辑器来编写，如 windows 中的记事本notepad、写

46、字板 wordpad 等。一个 HTML 文档通常由文档头 head，文档名称 title，表格 table，段落 paragraph 和列表 list，我们把这些成分称为文档元素 element，简称为文素，使用 HTML 语言中的标签 tag 来标识这些文素。HTML 标签名称中的字母不分大小写，1)HTML 标签： 2)文档头标签： 3)文档名称标签：4)正文标签： 5)标题标签： n=1,2,.66)段落标签： 7)字体：黑体、斜体、下划线、打字体8)字号和颜色：实际上是字体的属性，文本超链接超文本链接通常简称为超链接，或者简称为链接。链接是 HTML 的一个最强大和最有价值的功能。

47、链接是指文档中的文素或者图像与另一个文档、文档的一部分或者一幅图像链接在一起。在 HTML 中，简单的链接标签是，也称为锚(anchor)签。web 浏览器不一定对所有的 HTML 标签都支持，对于不认识的标签，不予理睬，但在这一对不认识的标签之间的文本仍然可以显示在计算机的屏幕上。Javascript 与 java 的区别：javascript 不是 java 的替代语言。Javascript 源代码无须编译。Javascript 无须特殊开发环境。Javascript 的特点：节省 CGI 的交互空间；节省了浏览者的访问时间和网络的流量；将 java applet 作为处理对象。Flash

48、后缀名为.swfFlash 是一种交互式矢量多媒体技术，使用者必须事先安装 shockwave 插件才能在浏览器里观看 flash 动画。Flash 之所以能占据网络多媒体的重要位置，因为它采用了矢量技术，位图在描述简单图形时候，显得大，矢量图形小得可怜。XML 的目标是要恢复 Web 最初的承诺，将混乱复杂的网页创作现状简单化。XML一种扩展性标识语言，没有预先定义好的标签可以使用，而是依据设计上的需要，自行定义标签。第八章多媒体数据库概述多媒体数据库是数据库与多媒体技术相结合的产物。多媒体数据库与常规数据的差别1)数据量：比常规数据量大2)数据长度：常规数据一般采用定长，而多媒体数据的数

49、据量大小可变3)数据模型：常规数据可用定长记录来存储，使用二维表，而多媒体数据对应的是一复杂对象，通常具有层次结构关系4)数据定义及操作5)数据的时间特性和版本概念6)数据传送：多媒体数据要求连续传送或输出通常把能够管理数值、文字、表格、图形、图像、声音等多种媒体的数据库称为多媒体数据库，多媒体数据库应具有以下功能：对多媒体数据库进行研究分为两大类型：数据模型是数据库管理系统中用于提供信息数据表示和操作手段的形式框架，数据模型通常由数据结构、数据操作和完整性约束 3 部分组成。多媒体数据库的数据模型多媒体数据具有复合性、分散性、时序性的特点。现有的模型分为 3 类：关系数据模型、面向对象的数据模型和超媒体数据模型。多媒体数据的复合性、分散性和时序性对数据模型提出了如下要求：查询语言：查询语言是数据库系统极其重要的特性之一，是鉴别一个数据库管理系统成功与否的重要依据。多媒体数据库 3 中查询方法：关键字查询，可视化查询，语义查询。WWW 上的文档按照 HTML 语言的规范书写和组织，这样的文档称为 HTML 文档，对 WWW 上的 HTML 文

展开阅读全文