多媒体技术应用教程2.ppt-道客多多

资源描述

1、1,多媒体技术应用教程,陈永强，张聪主编胡兵，崔树芹，苏勇参编,电子工业出版社 2011.8,2,第二章音频处理技术,2.1 音频基本原理2.1.1 人类听觉特性2.1.2 数字音频2.1.3 声音2.1.4 语音 2.2常用音频压缩标准2.2.1音频压缩基础2.2.2常用音频压缩标准2.2.3音频文件格式 2.3音频处理软件Audition2.3.1功能介绍2.3.2编辑环境2.3.3基本操作 2.4 音频实验2.4.1音频处理实验2.4.2录制歌曲实验,3,第二章音频处理技术,2.1 音频基本原理 2.1.1 人类听觉特性 2.1.2 数字音频 2.1.3 声音 2.1.4 语音,4

2、,近十年来，随着计算机技术的高速发展，以及能同时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与使用，数字音频已经广泛应用于因特网、多媒体及无线通信系统，CD品质的数字音频已经从根本上替代了模拟音频。因此，人们对音频信号数字化处理提出了越来越高的要求，相应软硬件实现手段的效率也在不断提高。,5,2.1.1 人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分。对于人类听力感知的研究，其范围从人耳的生理设计到大脑对听觉信息的解释。当前，大部分感知音频的编码算法都是基于心理声学模型的。,6,2.1.1 人类听觉特性 1听阈与听域 2音调 3响度和响度级 4绝对

3、听觉门限 5临界频带 6同时掩蔽 7异时掩蔽 8感知熵,7,2.1.1 人类听觉特性 1听阈与听域听阈（Auditory Threshold）就是指人能听到的最低声压级（Sound Power Level，SPL）。听域（Audible Area）是指人能感知的声音的范围，正常人耳能够感知的频率范围大致是20Hz20kHz；正常人能感知声音的声压级范围是0128dB。,8,图2-1 听阈-频率曲线,9,2.1.1 人类听觉特性 2音调音调（Pitch）在物理学中是指声音的高低，实际上就是指人耳对不同频率声音的一种主观感受。音调主要由声音的频率决定，同时也与声音强度有关。频率高的声音，人感

4、觉其音调也较高，反之，人感知音调低的声音其频率也低。对音调可以进行定量的判断，其度量单位为美（Mel），定义一个声压级为40dB，频率为1kHz的纯音的音调为1000Mel。,10,2.1.1 人类听觉特性 3响度和响度级响度（Loudness）是人耳感受声音强弱的主观感觉程度，这种感觉与音强、频率和波形都有关系，其度量单位为宋（Sone），定义一个声压级为40dB，频率为1kHz的纯音的响度为1Sone。响度级（Loudness Level）是指某响度与基准响度相比的等级，其度量单位为方（Phon），定义1kHz纯音的响度级为1Phon。,11,图2-2 人耳可听最小响度曲线,12,2

5、.1.1 人类听觉特性 4绝对听觉门限绝对听觉门限（Absolute Threshold of Hearing，ATH）指一个人在没有噪声的环境下，能够产生听觉，感知到一个纯音信号（某频率点）的最小能量幅度。绝对听觉门限用声压级表示，静音为0dB，痛阈为140dB。,13,图2-3 绝对听觉门限曲线,14,2.1.1 人类听觉特性 5临界频带指一个纯音可以被以它为中心频率，并且具有一定频带宽度的连续噪声所掩蔽，在这一频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听到的临界状态，即称这一带宽为临界频带宽度。临界频带的单位为巴克（Bark）。,15,2.1.1 人类听觉特性 6同时掩蔽

6、掩蔽效应是指当两个响度不等的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时，掩蔽声与被掩蔽声同时作用发生掩蔽效应，就称同时掩蔽。,16,2.1.1 人类听觉特性 7异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。若掩蔽声音出现之前的一段时间内发生掩蔽效应，则称为超前掩蔽，否则称为滞后掩蔽。,17,2.1.1 人类听觉特性 8感知熵感知熵（Perceptual Entropy）指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位（bit）作为单位，实际上表示了音频信号压缩的理论极限。

7、,18,2.1.2 数字音频音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它进行处理，就要将它变成时间和幅度都是离散的数字信号，所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号，其特点是保真度好，动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式，因此数字音频有时也泛称为声音。,19,2.1.2 数字音频用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列，过程为：选择采样频率，即进行采样；选择分辨率，即进行量化；最后编码形成声音文件。声音的采样与量化如图所示。,20,2.1.2 数字音频 1.采样采

8、样（Sampling）指把模拟信号在时域上以固定的时间间隔对波形的值进行抽取，再用若干位二进制数表示。对声音波形采样的频率直接影响声音的质量，采样频率越高，声音保真度越好，但所要求的数据存储量也越大。根据采样定理，当采样频率大于信号最高频率的两倍时，在采样过程中就不会丢失信息，并且可以用采样后的信号重构原始信号，从而不失真地还原出原始的声音信号。对于音频，最常用的采样频率有三种：44.1kHz、22.05 kHz和11.025 kHz，其中44.1kHz采样频率是最常用的。声道数是声音通道的个数，指一次采样的声音波形个数。,21,2.1.2 数字音频 2.量化量化（Quantity）

9、的目的是将采样后的信号波形的幅度值（样本）进行离散化处理，样本从模拟量转化成了数字量。量化位数越多，所得到的量化值越接近原始波形的采样值。量化方式有三种：零记忆量化、分组量化和序列量化。,22,2.1.3 声音声学是研究声音的学科，包括声波的产生、传播和接收。物体振动在弹性体里的传播称为波，而在空气中传播的波就称为声波，能被人的听觉器官所感觉到的声波叫声音，其频率一般在20Hz20kHz之间。,23,2.1.3 声音声音的三要素是音调、音色和音强。音调是指声音的高低，音调与频率有关。音色是指具有特色的声音。音强是指声音的强度，也称为声音的响度，音强与声波的振幅成正比。,24,2

10、.1.3 声音声音的质量简称音质。 1）与采样频率有关。对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。采样频率越低，位数越少，音质越差。 2）与音频处理设备有关。音响放大器和扬声器的质量能够直接影响重放的质量。 3）与信号噪声比有关。在录音时，音频信号幅度与噪声幅度的比值越大越好，否则声音被噪声干扰，会影响音质。,25,2.1.3 语音语音是一种特殊的媒体，语音是人类所特有的，但也是一种波形，在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史，其研究范围主要涉及：语音合成、语音编码、语音识别的基本算法和应用。计算机处理语音过程如图所示。,26,图

11、2-8 计算机处理语音过程,27,第二章音频处理技术,2.2常用音频压缩标准 2.2.1音频压缩基础 2.2.2常用音频压缩标准 2.2.3音频文件格式,28,2.2.1音频压缩基础 1数据压缩条件 2数据冗余 3数据压缩算法分类,29,2.2.1音频压缩基础 1数据压缩条件信号之所以能被压缩和编码，其原因主要是： 1）数据冗余度 2）人类不敏感因素 3）信息传输与存储,30,2.2.1音频压缩基础 2数据冗余冗余是指信息所具有的各种性质中多余的无用空间，其多余的程度称为冗余度。冗余大致可分为空间冗余、时间冗余、统计冗余、结构冗余、信息熵冗余和知识冗余等。,31,2.2.1音频压缩基础

12、 3数据压缩算法分类,图2-10 数据压缩算法分类,32,2.2.2常用音频压缩标准 1G.711 64Kb/s脉冲编码调制（PCM） 2G.721自适应差分脉冲编码调制（ADPCM） 3G.722 7kHz声音编码器 4G.723 双速率语音编码器 5G.728 16Kb/s低延迟码激励线性预测编码（LD-CELP） 6G.729 语音编码器 7MPEG-1音频编码 8AC音频编码 9空间音频编码 10移动音频编码,33,2.2.2常用音频压缩标准 1G.711 64Kb/s脉冲编码调制（PCM）脉冲编码调制（Pulse Code Modulation，PCM）是ITU制定出来的一套语音压

13、缩标准，主要用于电话。 1972年，CCITT对一个64Kb/s压扩型PCM编码器做了标准化，称为G.711。这个标准主要有两种压缩算法，在北美和日本，使用律PCM；而世界其他国家使用A律PCM。 G.711在64Kb/s速率话音质量能够达到网络等级，目前已广泛应用于各种数字通信系统中，如电缆、微波、卫星、光缆等。,34,2.2.2常用音频压缩标准 2G.721自适应差分脉冲编码调制（ADPCM）自适应差分脉冲编码调制（Adaptive Differential Pulse Code Modulation，ADPCM）在PCM的基础上进行改进，进一步利用了语音信号样点间的相关性，并针对语音信

14、号的非平稳特点，使用了自适应预测和自适应量化 1984年，CCITT首先对32Kb/s ADPCM做了标准化，称为G.721。 G.721于1986年根据两年间运行中出现的一些问题，做了进一步修正，又重新标准化。,35,2.2.2常用音频压缩标准 3G.722 7kHz声音编码器 1988年，正式通过关于“用64Kb/s或低于此编码速率的7kHz音频信号编码器”的标准，称为G.722。 G.722的主要目标是保持64Kb/s的数据率，而音频信号的质量要明显高于G.711的质量。,36,.2.2常用音频压缩标准 4G.723 双速率语音编码器 G.723是在1996年制定的一种多媒体语音编解码标

15、准。 G.723标准传输码率有5.3Kb/s和6.3Kb/s两种，在编程过程中可随时切换。,37,2.2.2常用音频压缩标准 5G.728 16Kb/s低延迟码激励线性预测编码（LD-CELP） G.728的工作进程是从1988年开始的，试图建立通用的16Kb/s长话质量的语音编码标准。 G.728开始是按照浮点CELP编码算法规定的。 1994年完成了按照严格定点规定的算法。,38,2.2.2常用音频压缩标准 6G.729 语音编码器在1996年3月，ITU-T的第15研究小组提出8Kb/s的语音编码协议，称为G.729。 G.729标准使用的算法是共轭结构的代数码本激励线性预测（CS-

16、ACELP），它基于CELP编码模型。,39,2.2.2常用音频压缩标准 7MPEG-1音频编码 MPEG-1音频编码作为MPEG标准的一部分，对应于ISO/IEC 11172-3，规定了高质量音频编码方法、存储表示和解码方法。,40,2.2.2常用音频压缩标准 8AC音频编码杜比实验室在1987年第一次将数字编码技术引入到HDTV的开发中，即AC-1标准。 1990年杜比实验室又推出了立体声编码标准AC-2 。 1994年杜比公司与日本先锋公司联合推出了最新一代的杜比数码环绕声系统Dolby Surround Audio Coding-3，简称为AC-3。,41,2.2.2常用音频压缩标

17、准 9空间音频编码随着人类听觉研究在空间心理声学、认知心理学等学科的不断深入，出现了将人类空间方位感知参数引入音频压缩编码技术的研究空间音频编码（Spatial Audio Coding，SAC）。通过将空间线索（Spatial Cues）参数引入到音频压缩编码算法中，即所谓的参数立体声（Parametric Stereo，PS）技术，分析声道间冗余信息量，采用立体声参数提取的联合声道编码模式，取代传统的声道分离编码模式，可以降低近50%的编码码率，使空间成为数字音频编码技术的有效组成部分。,42,2.2.2常用音频压缩标准 10移动音频编码在移动通信系统中采用混合压缩编码，可以根据需要

18、动态调整编码码率，在合成音频质量、系统空间中取得平衡，最大限度地发挥系统的效能。 3GPP 将AMR-WB+和EAAC+两种编码标准用于第三代移动网络中的多媒体服务。,43,44,2.2.3音频文件格式 1波形格式 2MIDI格式 3MP3压缩格式 4几种流式音频格式,45,2.2.3音频文件格式 1波形格式 WAV是Microsoft Windows本身提供的音频格式，用.wav作为扩展名，其文件格式称为波形文件格式（Wave File Format），在多媒体编程接口和数据规范1.0（Multimedia Programming Interface and Data Specificati

19、ons 1.0）文档中有详细的描述。,46,2.2.3音频文件格式 2MIDI格式电子乐器数字接口（Musical Instrument Digital Interface，MIDI）是用于在音乐合成器（Music Synthesizers）、乐器（Musical Instruments）和计算机之间交换音乐信息，播放和录制音乐的一种标准协议。,47,2.2.3音频文件格式 3MP3压缩格式 MP3全称是MPEG-1 Layer 3音频文件，是MPEG-1标准中的声音部分，也叫MPEG音频层。 MPEG音频层根据压缩质量和编码复杂程度划分为三层，即Layer 1、Layer 2、Layer

20、3，分别对应MP1、MP2、MP3这三种声音文件。,48,2.2.3音频文件格式 4几种流式音频格式现在使用最普遍的流格式类型是RealNetworks公司发明的支持网络流媒体技术的实时音频格式，RA、RMA这两个文件类型就是Real Media的音频格式。,49,第二章音频处理技术,2.3音频处理软件Audition 2.3.1功能介绍 2.3.2编辑环境 2.3.3基本操作,50,Audition软件是Adobe公司推出的一款完整的、应用于Windows系统的PC上的多音轨音频工作站。该软件前身称为Cool Edit，Adobe公司在2003年5月从Syntrillium Softwa

21、re公司成功购买后将其更名为Audition。,51,2.3.1功能介绍 Adobe Audition 3.0是一款功能强大的、专业级的音乐编辑软件，能高质量地完成高级混音、编辑、控制、合成和特效处理，允许用户编辑个性化的音频文件，创建循环，引进了45个以上的DSP特效以及高达128个音轨。 Adobe Audition拥有集成的多音轨和编辑视图、实时特效、环绕支持、分析工具、恢复特性和视频支持等功能，为音乐、视频、音频和声音设计专业人员提供全面集成的音频编辑和混音解决方案。 Adobe Audition提供了直觉的、客户化的界面，允许用户删减和调整窗口的大小，创建一个高效率的音频工作范围。,

22、52,2.3.2编辑环境 Audition提供了三种专业的工作视图界面，包括: 编辑视图（Edit View）多轨视图（Multitrack View） CD视图（CD View）,53,图2-16 多轨视图界面,54,图2-17 单轨视图界面,55,图2-23 CD视图,56,2.3.3基本操作 1单轨视图（1）打开或创建一个音频文件（2）编辑音频（3）保存更改,57,2.3.3基本操作 2多轨视图（1）打开或创建一个音频文件（2）插入或录制音频文件（3）施加效果（4）混合轨道（5）输出,58,第二章音频处理技术,2.4 音频实验 2.4.1音频处理实验 2.4.2录制歌

23、曲实验,59,2.4.1音频处理实验 1实验目的掌握Audition 3.0音频处理软件；掌握声音处理的方法。2实验内容掌握Audition 3.0音频处理软件的启动、退出；熟悉Audition 3.0音频处理软件的主界面；熟练掌握不同音频格式文件的导入（最好是同一音频文件的不同格式），并分别播放；对不同格式的音频文件进行转换；对音频文件进行编辑处理；对音频文件进行淡入/淡出的处理。,60,2.4.2录制歌曲实验 1实验目的熟练掌握Audition 3.0音频处理软件；掌握声音的录制方法。 2实验内容根据任务需要，选择相应的功能属性进行参数设置；熟练掌握音频文件导入的几种方式；在文件列表中，用鼠标选择一个文件播放；熟练掌握录音方法。,

展开阅读全文