internet多媒体课件第二章(下).ppt-道客多多

资源描述

1、第二章音频信息的获取与处理,2.1 数字音频基础 2.2 声卡的组成与工作原理 2.3 音频编码基础和标准 2.4 音乐合成和MIDI规范,按照带宽可将声音质量分为4级：,数字激光唱盘质量，通常又CD-DA质量，这种质量也就是我们常说的超高保真，即Super HiFi(High Fidelity)。调频无线电广播，简称FM(Frequency Modulation)质量。调幅无线电广播，简称AM(Amplitude Modulation)质量。电话(Telephone)质量。,4级声音质量的频率范围,23 音频编码基础和标准,一音频编码基础*信息的冗余信息中没用的或多余的信息。*信息

2、压缩将信息中的冗余信息去掉。只有当信源中存在有冗余信息时，信息才能得以压缩。多媒体中的冗余信息主要有：时域信息和空域信息。,1时域信息的冗余度,幅度的非均匀分布语音中，小幅度样本比大幅度样本出现的频率高。通话中的间隔存在，出现了大量的低电平样本。样本间的相关相邻或临近的采样样本之间取样值的相关系数很大。周期之间的相关当声音的频率出现度有限时，波形之间的周期存在着一定的相关性。基音之间的相关浊音的周期之间不仅有冗余度，其对应的音调间隔，波形长期重复。静止系数语音间隔本身就存在着冗余。长时自相关函数采样时的取样周期的时间越长，相邻样本之间的相关系数越高。,2频域信息的冗余度,*非均匀的长

3、时功率谱密度*语音特有的短时功率谱密度,3人的听感觉机理,*人的听觉具有掩蔽效应*人耳对不同频段的声音的敏感程度不同，低频段高于高频段。*人耳对语音信号的相对变化不敏感。,4音频编码分类,*基于音频数据的特性统计进行编码。其典型技术是波形编码 PCM(脉冲编码调制)、DPCM、ADPCM。*基于音频的声学参数，进行参数编码。可进一步降低数据率。其目标是使重建音频保持原音频的特性。 CELP、MPLPC*基于人的听觉特性进行编码。从人的听觉系统出发，利用掩蔽效应，设计心理声学模型，从而实现更高效率的数字音频的压缩。 mpeg标准中的高频编码和dolby ac-3。,二音频编码标准,CCITT国

4、际电报电话咨询委员会当前编码技术发展的一个重要的方向就是综合现有的编码技术，制定全球的统一标准，使信息管理系统具有普遍的互操作性并确保了未来的兼容性。国际上，对于语音信号压缩编码的审议在CCITT下设的第十五研究组进行，相应的建议为G系列，多由ITU发表。,频编码算法和标准 1G.711 2G.721 3G.722 4G.728 5. MPEG中的音频编码 6AC-3编码和解码,G.722建议的带宽音频压缩仍采用波形编码技术，因为要保证既能适用于话音，又能用于其他方式的音频，只能考虑波形编码。 G.722编码采用了高低两个子带内的ADPCM方案，高低子带的划分以4KHz为界。然后再对每个子带

5、内采用类似G.721建议的ADPCM编码，因此G.722建议的技术方案可以简写为SB-ADPCM（子带-自适应差分脉冲码调制）。,音视频信号为什么要进行调制处理？,图像信号的频率范围是0Hz6MHz，伴音信号的频率范围是20Hz20KHz。根据天线理论，只有当天线的尺寸与信号的波长相近时，天线才能有效地发射或接收电磁波。音视频信号的频率不够高，波长太长，信号不能直接送往天线以电磁波的形式发射出去。只有将音视频电视信号对高频载波进行调制处理，使音视频电视信号变为高频电视信号，以减小信号波长，利于天线发射与接收。另外，不同的电（视）台，可选用不同的载波频率，即选用不同的频道，这样便于接收机选台

6、。,G.728建议的技术基础是美国AT&T公司贝尔实验室提出的LD-CELP（低延时-码激励线性预测）算法。该算法考虑了听觉特性，其特点是：以块为单位的后向自适应高阶预测；后向自适应型增益量化；以适应为单位的激励信号量化。,AC-3音频编码标准的起源是DOLBY AC-1。AC-1应用的编码技术是自适应增量调制（ADM），它把20kHz的宽带立体声音频信号编码成512kbps的数据流。 AC-1曾在卫星电视和调频广播上得到广泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2，它采用类似MDCT的重叠窗口的快速傅立叶变换（FFT）编码技术，其数据率在256kbps以下。 AC-

7、2被应用在PC声卡和综合业务数字网等方面,压缩编码依据：,一是声音信号的数据冗余；二是利用人的听觉特性来降低编码率，人的听觉具有一个强音能抑制一个同时存在的弱音现象，这样就可以抑制与信号同时存在的量化噪声；三是人耳对低频端比较敏感，而对高频端不太敏感，由此引出了“子带编码技术”。音频信号的压缩编码方式可分为波形编码参数编码和混合编码三种。,1). 波形编码波形编码的算法简单，易于实现，可获得高质量的语音。常见的三种波形编码方法为：脉冲编码调制(PCM)，实际为直接对声音信号作 AD转换。只要采样频率足够高，量化位数足够多，就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(

8、DPCM)，即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM)，是DPCM方法的进一步改进，通过调整量化步长，对不同频段设置不同的量化字长，使数据得到进一步的压缩。,2). 参数编码参数编码方法通过建立起声音信号的产生模型，将声音信号用模型参数来表示，再对参数进行编码，在声音播放时根据参数重建声音信号。参数编码法算法复杂，计算量大，压缩率高，但还原声音的质量不高。 3). 混合编码混合编码是把波形编码的高质量和参数编码的低数据率结合在一起，取得了较好效果。,PCM编码 1939年法国工程师发明了将连续的模拟信号变换成时间和幅度都离散的二

9、进制码代表的脉冲编码调制信号（Pulse Code Modulation-PCM），并申请了专利。首先开始应用于电话系统，但一直到年美国Bell实验室才为制成了国际上第一套商用电话系统（系统），这标志了通信开始步入数字化。以后的计算机发展更促进了通信的数字化，并逐步与通信相结合。,PCM 编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。PCM方法可以按量化方式的不同，分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。,如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化

10、。均匀量化PCM就是直接对声音信号作A/D转换，在处理过程中没有利用声音信号的任何特性，也没有进行压缩。,该方法将输入的声音信号的振幅范围分成个等份（B为量化位数），所以落入同一等份数的采样值都编码成相同的B位二进制码。只要采样频率足够大，量化位数也适当，便能获得较高的声音信号数字化效果。为了满足听觉上的效果，均匀量化PCM必须使用较多的量化位数。这样所记录和产生的音乐，可以达到最接近原声的效果。当然提高采样率及分辨率后，将引起储存数据空间的增大。,改进PCM编码技术的一个方法是采用非均匀量化，即让量化级高度随信号振幅而变化。信号振幅小则缩小量化级高度，信号振幅大时则增大量化级高度。这样就可以

11、在满足精度要求的情况下用较少的位数实现编码。在声音数据还原时，采用相同的规则。在非均匀量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为律（-Law）压（缩）扩（展）算法，另一种称为A律(A-Law) 压（缩）扩（展）算法。这两种算法主要用于数字电话通信中。律的计算公式如下：,其中Xmax是信号x(n)的最大幅度，u是控制压缩程序的参数，u越大压缩就越厉害图4-7给出了按律压扩算法的输入输出特性曲线，为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。由图可见，值越大，压缩量越大。由于律压扩的输入和输出关系是对数函数关系，所以这种编码又称为对数PCM。A律压扩与

12、律压扩相比，则压缩的动态范围略小些，小信号振幅时质量要比律稍差。无论是A律还是律算法，它们的特性在输入信号振幅小时都呈线性，在输入信号振幅大时呈对数压缩特性。对于采样频率为8kHz，样本精度为16位的输入信号，使用A律压扩或律压扩编码，经过PCM编码器之后每个样本的精度为8位，输出的数据率为64kb/s。这个数据就是CCITT ,（国际电话与电报顾问委员会）推荐的G.711标准：话音频率脉冲编码调制。,音频编码标准和算法,24 音乐合成与MIDI规范,一音乐合成 1音乐的三要素*音高声波的基频。基频越低，人的感觉越低沉。*音色声音的频谱量值。声音谐波的比例不同，声音的衰减程度不同。*音响和时值

13、声音强度的量值。,二 MIDI规范 1MIDI的术语 2MIDI和规范,MIDI术语 1、音乐合成器（Musical Synthesizer）：用来产生并修改正弦波形并叠加，然后通过声音产生器和扬声器发出特定的声音。泛音的合成决定声音音质。 2、复调声音：简称为复音（Polyphony），指合成器同时演奏若干音符时发出的声音。它着重于同时演奏的音符数。 3、多音色（Timbre）：指同时演奏几种不同乐器时发出的声音。它着重于同时演奏的乐器数。,MIDI标准 1、MIDI电子乐器：能产生特定声音的合成器，其数据传送符合MIDI通信约定。 2、MIDI消息 ( message ) 或指令：乐谱的一

14、种记录格式，相当于乐谱语言。 3、MIDI接口（interface）：MIDI硬件通信协议。 4、MIDI通道 ( channel )：MIDI标准提供了16个通道，每种通道对应一种逻辑的合成器。 5、MIDI文件：由控制数据和乐谱信息数据构成。 6、音序器 ( Sequencer )：用来记录、编辑和播放MIDI文件的软件。,三 MIDI音频,MIDI音频是将电子乐器键盘上的弹奏信息记录下来，包括键名、力度、时值长短等，是乐谱的一种数字式描述。当需要播放时，只需从相应的MIDI文件中读出MIDI消息，生成所需要的声音波形，经放大后由扬声器输出。如下图所示。,1. 什么是MIDI,2

15、. MIDI设备配置,3. MIDI文件的特点,MIDI（Musical Instrument Digital Interface）是乐器数字接口的缩写，泛指数字音乐的国际标准，是计算机和MIDI设备之间进行信息交换的一整套规则，包括各种电子乐器之间传送数据的通信协议，它是音乐与计算机结合的产物。MIDI不是把音乐的波形进行数字化采样和编码，而是将数字式电子乐器的弹奏过程记录下来，如按了哪一个键、力度多大、时间多长等等。当需要播放这首乐曲时，根据记录的乐谱指令，通过音乐合成器生成音乐声波，经放大后由扬声器播出。,1. 什么是MIDI,MIDI设备就是处理MIDI信息所需的硬件设备，其基本组成

16、包括：,2. MIDI设备配置,(1). MIDI端口,(2). MIDI键盘,(3). 音序器(Sequencer),(4). 合成器,(1). MIDI端口,一台MID设备可以有一至三个MIDI端口，分别称为MIDI In、MIDI Out、MIDI Thru。它们的作用是：MIDI In：接收来自其它MIDI设备的MIDI信息。MIDI Out：发送本设备生成的MIDI信息到其它设备。MIDI Thru：将从MIDI In端口传来的信息转发到相连的另一台MIDI设备上。,(2). MIDI键盘,MIDI键盘是用于MIDI乐曲演奏的，MIDI键盘本身并不发出声音，当作曲人员触动

17、键盘上的按键时，就发出按键信息，所产生的仅仅是MIDI 音乐消息，从而由音序器录制生成MIDI文件。,(3). 音序器(Sequencer),用于记录、编辑、播放MIDI的声音文件，音序器有以硬件形式提供的，目前大多为软件音序器。音序器可捕捉MIDI消息，将其存入MIDI文件，MIDI文件扩展名为 .MID。音序器还可编辑 MIDI文件。,(4). 合成器,MIDI文件的播放是通过MIDI合成器，合成器解释MIDI文件中的指令符号，生成所需要的声音波形，经放大后由扬声器输出，声音的效果比较丰富。,1). MIDI合成方式MIDI合成方式主要有调频合成(FM)和波形表合成(Wav

18、e Table)两种方式。调频合成方式，其原理是根据傅立叶级数而来。波形表合成的原理是ROM中已存储着各种实际乐器的声音采样，合成时以查表方式调用这些样本将其还原回放。,2). 硬波形表合成与软波形表合成硬波表合成方式的数字声音样本被保存在ROM内或RAM(可动态更换)内。而软波表的数字化样本保存于系统主存中，合成运算靠CPU 完成，最终的音频合成靠声卡上的WAVE合成器来完成。软波表实际上是针对合成MIDI音乐而开发的一套软件，其主要作用是控制高速CPU来完成波表MIDI合成器的部分功能。,3. MIDI文件的特点,(1). 由于MIDI文件只是一系列指令的集合，因此它比数

19、字波形文件小得多，大大节省了存储空间。 (2). 使用MIDI文件，其声音卡上必需含有硬件音序器或者配置有软件音序器。 (3). MIDI声音适于重现打击乐或一些电子乐器的声音，利用MIDI声音方式可用计算机来进行作曲。 (4). 对MIDI的编辑很灵活，在音序器的帮助下，用户可自由地改变音调、音色以及乐曲速度等，以达到需要的效果。,CD-DA唱盘,CD-DA(Compact Disk-Digital Audio)即数字音频光盘。是光盘的一种存储格式，专门用来记录和存储音乐。CD唱盘也是利用数字技术(采样技术)制作的，只是CD唱盘上不存在数字声波文件的概念，而是利用激光将0、1数字位转换成微小的信息凹凸坑制作在光盘上，通过CD-ROM驱动器特殊芯片读出其内容，再经过 DA转换，把它变成模拟信号输出播放。,光盘光学系统,注意：凹坑和非凹坑本身并不代表“0”或“1”，而是凹坑端部的前沿和后沿代表“1”，其它代表“0”。,

展开阅读全文