1、第五章 多媒体音频及音频处理本章提要 声音媒体的有关概念 模拟声音信息的数字化处理 MIDI 与音乐合成 数字音频格式及格式转换 音频卡(声卡) 音频处理软件Cool Edit Pro 2.0 语音识别技术音频(声音)是表达思想和情感的一种必不可少的媒体,也是多媒体信息中一个重要组成部分。声音的种类有很多,从人的说话声、乐声到风声、雨声,当它能与文字、图像等结合,一起传递信息时,计算机世界才会变得如此丰富多彩。5.1 音频信息及数字音频的产生5.1.1 多媒体中的音频信息自然界中的声音是由于物体的振动产生的,通过空气传递振动,最后这种机械运动被传递到人的耳膜而被人感知。我们下面以音叉为例,具体
2、说明一下声音的产生和传播过程。当一个音叉受到敲击振动时,叉枝会左右摆动。当叉枝向外摆动时,叉枝会挤压周围的空气使周围空气形成一个密部,相反,当叉枝向内摆动时,会引起周围的空气拉动而形成一个疏部。空气这样密部与疏部交替运动形成一种波(声波)会向周围发散传播出去,从而形成声音的传播。传播过程如图 5-1 所示。这种声音的传播运动最后传递给人的耳膜并通过听小骨传递给听觉神经产生了人的听觉。听觉是人类感知自然的一种重要手段,所以音频也就成为多媒体范畴中一个重要部分。图 5-1 声音传播示意图密 疏 密从听觉角度讲,声音媒体具有三个要素:音调、音强和音色(1)音调:与声音的频率有关,频率越快,音调越高。
3、所谓声音的频率是指每秒中声音信号变化的次数,用 Hz 表示。例如,20Hz 表示声音信号在 1 秒钟内周期性地变化20 次。并不是所有频率发出的声音信号都能够被人们感觉到,人的听觉范围大约为 2020000Hz,这个频率范围内的信号被称为音频或声音,多媒体技术主要研究的是这部分音频信息的使用;频率范围小于 20Hz 的信号被称为亚音频,这个范围内的信号人们一般感受不到。比如,大气压的变化周期很长,以小时或天数计算,人们几乎感觉不到这种气压信号的变化,更听不到这种变化所带来的声音:频率范围高于 20kHz 的信号被称为超音频或超声波,超声波具有很强的方向性,并且可以形成波束,利用这种特性,人们制
4、造了超声波探测仪、超声波焊接设备等;另外,人的发声器官可以发出 803400Hz 频率范围的声音,但人们平时说话的频率范围在 3003000Hz 之间。了解这些知识很重要,它可以指导我们更有效地处理音频信息。(2)音强:又称为响度,它取决于声音的振幅。振幅越大,声音就越响亮。(3)音色:在介绍音色之前,先给出几个有关的概念。 纯音:一般的声音由几种振动频率的波组成,若该声音只有一种振动频率就叫做纯音; 复音:由许多纯音组成,复音的频率用组成这个复音的基音频率表示,一般的乐音都是复音; 基音:是复音中频率最低部分的声音; 泛音:在一个复音中,除去基音外,所有其余的纯音都是泛音。音色则是由混入基音
5、的泛音所决定的,每个基音又都有其固有的频率和不同音强的泛音,从而使得每个声音具有特殊的音色效果。比如,每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音,都是由音色不同造成的。声音的传播是以声波形式进行的。由于人类的耳朵能够判别出声波到达左、右耳的相对时差、声音强度,所以能够判别出声音的来源方向。同时又由于空间作用使声音来回反射,从而造成声音的特殊空间效果。这也正是人们在音乐厅与在广场上聆听音乐感觉效果不一样的原因之一。因此,现在的音响设备都在竭力模拟这种立体声和空间感效果。声音的质量与声音的频率范围有关,即频率范围越宽,声音的质量就越好。表 5-1是几种常见的声音频宽。表 5-1
6、 几种常见的声音频宽声音类型 频宽电话语音 2003400Hz调幅广播 507000Hz调频广播 2015000Hz宽带音响 2020000Hz衡量声音质量单凭声音频宽判断有时比较困难,主观打分则是一种比较快捷、简单的方法。它的具体操作过程与近几年在电视节目中流行歌手大奖赛评分方法类似。首先挑选一些有代表性的人物,聆听需要评测的各种声音,每个人根据感觉给出分数,最后的平均分就是相对应的声音效果的评价结果。实际上,不同的应用对象,声音质量的衡量标准也不尽相同。对于语音来说,通常用可懂度、清晰度和自然度来衡量;对于音乐来说,就要求具有一定的保真度、立体感和音响效果。声音是一种基于时间的媒体。没有时
7、间就没有声音,因此,我们说声音具有过程性,需要有一个时间段才能表现,这也就是我们常用音乐作为伴音的原因,它可以很好地起到渲染气氛的作用。由于时间性,声音数据具有很强的前后相关性,数据量较大,且实时性要求较高。5.1.2 数字音频的产生自然界的声音经过麦克风后,机械运动被转化为电信号,这时的电信号由许多正弦波组成,其中正弦波的频率取决于声音中含有的频率。对于计算机来说,处理和存储的只可以是二进制所表示的数,所以需要在计算机处理和存储声音之前把这些电信号转换为二进制数。这个转换过程在电子技术中称为模数转换(A/D) 。模数转换的过程可以分成两个部分:第一部分是采样,第二部分称为量化,经过这个过程(
8、如图 5-2 所示)处理后的音频电信号就变成了可以被计算机存储和处理的二进制序列,这个过程在计算机中是在声卡中完成的。话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个,在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。 在某些特定的时刻对这种模拟信号进行测量叫做采样(Sampling),由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个,因此幅度还是连续的。而对于固定位数的二进制数只能表示有限的几个值,所以要把这些可能的幅值为无穷的
9、采样数值取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅度信号,这个过程就叫作量化,这样处理以后的势必会带来误差,这个误差就是量化误差。例如,假设输入电压的范围是 0.0V1.5V ,并假设量化后二进制数为四位,这样只有 16 个采样值可以选取,它的取值只限定在 0、0.1、0.2,1.5 共 16 个值。如果采样得到的幅度值是 0.323V,它的取值就应算作 0.3V,如果采样得到的幅度值是0.56V,它的取值就算作 0.6,这种数值就称为离散数值,得到离散数值过程被称为量化。我们把时间和幅度都用离散的数字表示的信号就称为数字信号。模拟声音信号数字化的过程如图 5-3 所示。采样
10、量化模拟音频电信号 二进制序列图 5-2 模数转换过程图声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。采样的过程就是抽取某点的幅度值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有 2 个点的采样,人耳能够感觉到的最高频率为 20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行 40k次采样,用 40kHz 表达,这个 40kHz 就是采样频率,即每秒钟需要采集多少个声音样本。所以在声音信号的数字化中采样频率是一个重要概念。目前通用的标准采样频率有:8kHz、 11.025Hz、22.05kHz 、15kHz
11、 、44.1kHz 和 48kHz,我们常见的 CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度,即采样精度,指每个声音样本需要用多少位二进制数来表示,它反映出度量声音波形幅度值的精确程度。一个二进制位有 0 和 1 两种可能,显然量化电平数为 2 的整数次幂,我们常见的 CD 位 16bit 的采样大小,即 2 的 16 次方。举个简单例子:假设对一个波进行 8 次采样,采样点分别对应的能量值分别为 A1-A8,但我们只使用 2bit 的采样大小,结果我们只能保留 A1-A8 中 4 个点的值而舍弃另外 4 个。如果我们进行 3bit
12、的采样大小,则刚好记录下 8 个点的所有信息。采样频率和采样精度的值越大,记录的波形更接近原始信号。把上述模数转换过程得到离散的电平值用二进制数表示出来并通过一定算法压缩以后以不同形式存储在磁盘上,形成不同格式音频文件。声道数是指所使用的声音通道的个数,它表明声音记录只产生一个波形(即单音或单声道)还是两个波形(即立体声或双声道) 。虽然,立体声听起来要比单音丰满优美,但需要两倍于单音的存储空间。采样频率、采样精度和声道数对声音的音质和占用的存储空间起着决定性作用,如表 5-2 所示。我们希望音质越高越好,磁盘存储空间越少越好,这本身就是一个矛盾。必须在音质和磁盘存储空间之间取得平衡。数据量与
13、上述三要素之间的关系可用下述公式表示:图 5-3 模拟声音信号的数字化数据量(bytes/s) 8采样频率(Hz/s)量化位数( bit)声道数表 5-2 采样频率、采样精度、声道数声音质量 采样频率(KHz) 采样精度(bit) 单声道/双声道 数据量(Mb/min)电话音质 8 8 1 0.46AM 音质 11.025 8 1 0.63FM 音质 22.05 16 2 5.05CD 音质 44.1 16 2 10.09DAT 音质 48 16 2 10.995.2 MIDI 与音乐合成以前,如果提起音乐和计算机,你会认为这是两个完全不相干的领域,但是随着计算机技术的飞速发展及其应用领域的不
14、断扩展,音乐与计算机奇妙地携手走到了一起。现在可以很方便地使电子乐器和多媒体计算机相互结合,从而给人们提供了一种快捷、独特的制作方式,它更加强调音色的非常规化、电子化、空间感和对比度、使电脑音乐日益形成一种崭新的音乐风格。5.2.1 什么是 MIDI在前一节中讲述的波形声音文件,包含对声音信号进行采样、量化得到的各采样点的数值序列。这种形式的文件数据量大,要想从中分离出某个音符十分困难,并且由于这种记录音乐的方式不是人演奏各种乐器的自然过程,所以,要让作曲家们接受这种形式其难度可想而知。这时,人们开始设想一种新的声音数据的表现形式,其原则是能够让乐器与计算机直接连接,使作曲家作曲的过程与他们惯
15、用的方法一致,这样就产生了 MIDI 音乐。乐器数字接口(Musical Instrument Digital Interface,MIDI)是指数字乐器与计算机连接的接口,即在数字乐器与计算机相连接时所使用的。以直接插入在计算机端口上的一个小部件,通过它可以使数字乐器与计算机相互“沟通”信息。MIDI 的特点是其文件内部记录的是演奏乐器的全部动作过程,比如,音色、音符、延时、音量、力度等信息,所以其数据量相当小。由此可见,MIDI 不属于数字音响的范畴,如果我们把数字音响比作录了某个人小提琴独奏的磁带,那么 MIDI 就是该独奏的乐谱,尽管乐谱本身并不产生任何实际声音,但它却定义了演奏的速度
16、、音符及该独奏声音的大小。如图 5-4 所示,就是一段 MIDI 音乐,它以乐谱的形式展示出来,而乐谱实际上就是描述演奏过程的命令序列。为了使数字乐器与计算机之间形成良好地默契,各个厂商都需要为每种音色、每个音符、节拍、力度等动作的各项属性数字化,即编号。比如,将音色 Acoustic Piano 编号为 00,将音符 C3 编号为 00,将 8 分音符编号为 60。对于一个原声钢琴 8 分音符的 C3音,在 MIDI 文件中对应“000060“。细心的读者可能会问:如果各个厂商对各个动作及属性定义的编号不一样,利用一个厂商设备制作出来的音乐是否可以在另一个厂商的设备上演奏?我们的回答是:会出
17、现很多问题。这是 MIDI 技术一个亟待解决的问题。于是,在 80 年代,为了使各个厂商生产的设备可以被不同的计算机接收与处理,由几家电子乐器厂商共同制定了一个 MIDI 接口标准,这就是我们常说的“GM(General MIDI )标准” 。这个标准主要由两部分组成:一是规定了与设备相连的硬件标准,包括乐器间的物理连接方式,连接两个乐器所使用的 MIDI 缆线;二是规定了 MIDI 数据的格式,主要包括硬件上传输信息的编码方式。无论各厂商如何开发自己的产品,其基本设计必须参照这套MIDI 标准。5.2.2 MIDI 合成器合成器是利用数字信号处理器 DSP 或其他芯片来产生音乐或声音的电子装
18、置。利用合成器产生 MIDI 乐音的主要方法是 FM 合成法和波表合成法。1. FM 合成法FM 合成法是 20 世纪 80 年代初由美国斯坦福大学的 John Chowning 发明的,称为“数字式频率调制合成法” ,简称 FM 合成法。FM 合成法生成乐音的基本原理是,用数字信号来表示不同乐音的波形,然后把它们组合起来,再通过数模转换器(DAC)生成乐音播放。在乐音合成器中,数字载波的波形有很多种,不同型号的 FM 合成器所选用的波形也不同。各种不同乐音的产生是通过组合各种波形参数并采用各种不同的算法实现的。图 5-4 MIDI 音乐FM 合成器的算法包括确定用什么样的波形作为数字载波波形
19、、用什么样的波形作为调制波形、用什么样的波形参数去组合并产生所希望的乐音。例如改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量。选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同。FM 合成器的 13 个声音参数和算法共 14 个控制参数,以字节的形式存储在声音卡的ROM 中。播放某种乐音时计算机就发送一个信号,这个信号被转换成 ROM 的地址,从该地址中取出的数据就是用于产生乐音的数据。FM 合成器利用这些数据产生的乐音是否真实,它的真实程度有多高,取决于可用的波形源的数目、算法和波形的类型。2波表合成法使用 FM 合成法来产生各种逼真的乐音是相当困难的,有些乐
20、音几乎不能产生。目前的声卡一般采用乐音样本合成法,即波表合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时根据命令生成各种音阶的音符,产生的声音质量比 FM合成方法产生的声音质量要高很多。乐音样本的采集相对比较直观,例如,当音乐家在真实乐器上演奏音乐时选择 44.1kHz 的采样频率、16 比特的量化位数的精度进行采样,便可得到相当于 CD-DA 的声音质量。与 FM 合成不同,波表合成是采用真实的声音样本进行回放。声音样本记录了各种真实乐器的采样波形,并保存在声卡上的 ROM 或 RAM 中。例如创新的 Sound Blaster AWE32 是第一块广为流行的波表声卡。该
21、卡采用了 EMU8000 波表处理芯片,提供 16bit MIDI 通道和 32bit 的复音效果。波表合成的声音比 FM 合成的声音更为丰富和真实,但由于需要额外的存储器作为音色库,因此成本也较高,而且音色库越大,所需的存储器就越多,相应地成本也就越高。波表合成可以有软硬之分,软波表原理跟硬波表一样,都是采用了真实的声音样本进行回放。只是硬波表的音色库是存放在声卡的 ROM 或 RAM 中,而软波表的音色库则以文件的形式存放在硬盘里,需要时再通过 CPU 进行调用。由于软波表是通过 CPU 的实时运算来回放 MIDI 音效,因此软波表对系统要求较高。5.2.3 MIDI 音乐创作软件MIDI
22、 的发展,近几年来市场上不断出现不同功能的电脑音乐创作软件,这些软件大体上可以分为以下三类:一类是专为作曲及编曲而设计的,比如Cakewalk、Cubase 、Mastertracl Pro 等;还有些是专为制作和打印五线谱而设计的,比如Encore, Finale 等;另外一些些是专为音乐教育而设计的,比如 Piano、Music lesson 等,品种非常多。有了这些软件的帮助,人们在学习作曲、编曲、制作和编辑五线谱以及制作唱片等各方面都产生了前所未有的变化。如图 5-5 就是 MIDI 创作软件 Cakewalk Pro Audio 9.0 的界面。5.3 数字音频格式数字音频的不同表示
23、形式,导致了不同的文件格式,下面我们介绍几种常见的音频文件格式:(1)PCM(脉冲编码调制)编码格式如果把上述模数转换过程得到离散的电平值用二进制数表示出来并把二进制数直接记录下来,形成的多媒体声音文件我们把它称为 PCM 编码。也就是说: PCM 是一种将模拟音频信号变换为数字信号的编码方式。主要经过 3 个过程:抽样、量化和编码。抽样过程将连续时间模拟信号变为离散时间、连续幅度的抽样信号,量化过程将抽样信号变为离散时间、离散幅度的数字信号,编码过程将量化后的信号编码成为一个二进制码组输出。PCM 编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD 就采用了 PCM
24、 编码,一张光盘的容量只能容纳 72 分钟的音乐信息。(2)WAV 格式WAV 是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式,由于 Windows 本身的影响力,这个格式已经成为了事实上的通用音频格式。WAV格式符合 PIFF Resource Interchange File Format 规范。所有的 WAV 都有一个文件头,这个文件头音频流的编码参数。WAV 对音频流的编码没有硬性规定,除了 PCM 之外,还有几乎所有支持 ACM 规范的编码都可以为 WAV 的音频流进行编码。WAV 格式支持许多压缩算法,支持多种音频位数、采样频率和声道,采用 44.1kHz
25、 的采样频率,16 位量化位数,跟 CD 一样,对存储空间需求太大不便于交流和传播。在 Windows 平台下,基于 PCM 编码的 WAV 是被支持得最好的音频格式,所有音频软件都能完美支持,由于本图 5-5 Cakewalk Pro Audio 9.0 软件界面身可以达到较高的音质的要求,因此,WAV 也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于 PCM 编码的 WAV 被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如 MP3 转换成 WMA。(3)MP3 编码格式MP3 是 MPEG(MPEG :Moving Picture Experts Group) Aud
26、io Layer-3 的简称,是MPEG1 的衍生编码方案,1993 年由德国 Fraunhofer IIS 研究院和汤姆生公司合作发展成功。MP3 可以做到 12:1 的惊人压缩比并保持基本可听的音质,mp3 之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。(4)mp3PRO 编码格式mp3PRO 编码是美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)发布了一种新的音乐格式版本,这种格式与之前
27、的 mp3 相比最大的特点是能在低达 64kbps 的比特率下仍然能提供近似 CD 的音质(mp3 是 128K) 。该技术称为 SBR(Spectral Band Replication 频段复制) ,这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR 最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR 更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。它在原来 mp3 技术的基础上专门针对原来 mp3 技术中损失了的音频细节进行独立编码处理并捆绑在原来的
28、 mp3 数据上,在播放的时候通过再合成而达到良好的音质效果。(5)WMA 格式WMA( Windows Media Audio)是 Windows Media Audio 编码后的文件格式。WMA 格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到 1:18。WMA 支持防复制功能,她支持通过 Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器。WMA 同样也可以支持网络流媒体播放。(6)ASF 格式ASF(Audio Steaming Format)是一种支持在各类网络和协议上的数据传输的标准。它支持
29、音频、视频及其他多媒体类型,而 WMA 只包含音频的 ASF 文件。ASF 格式在录制时可以对音质进行调节,同一格式,音质好的可与 CD 媲美,压缩比较高的可用于网络广播。由于微软的大力推广,这种格式在高音质领域直逼 MP3,并且压缩速度比 MP3提高 1 倍;在网络广播方面可与 Real 公司相竞争。(7)RA、RM 、RMX 格式:RA(RealAudio) 、RM (RealMedia,RealAudio G2) 、RMX(RealAudio Secured)这几个文件类型就 Real Media 面向音频方面的。它是由 Real Networks 公司开发的,特点是可以在非常低的带宽下
30、(低达 28.8kbps)提供足够好的音质。大部分音乐网站都是采用了这三种格式,这三种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的特点就是这三种格式都可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。RA 可以支持多种音频编码,包括 ATRAC3。而且和 WMA 一样,RA 不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的播放方式。因此,这几种文件格式都属于网络流媒体格式。(8)MIDI 格式这是记录 MIDI 音乐的文件格式。与波形文件相比较,它记录的不是实际声音信号采样、量化后的数值,而是演奏乐器的动
31、作过程及属性,因此,数据量很小。这种声音文件可以利用 Windows 提供的 “媒体播放器”进行播放。(9)OGG 编码格式:Ogg Vorbis 是一种音频压缩格式,类似于 MP3 等现有的通过有损压缩算法进行音频压缩的音乐格式。但是不同的是,Ogg Vorbis 格式是完全免费、开放源码且没有专利限制的。Ogg Vorbis 是高质量的音频编码方案,Ogg Vorbis 可以在相对较低的数据速率下实现比 MP3 更好的音质。Ogg Vorbis 这种编码也远比 90 年代开发成功的 MP3 先进,它可以支持多声道,也就是说:可以对所有的声道进行编码,而不是 MP3 只能编码 2 个声道。和
32、 MP3 一样,Ogg Vorbis 是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。Ogg Vorbis 是一个音频编码框架,可以不断导入新技术逐步完善,并且 OGG 也支持 VBR。Ogg Vorbis 几乎得到所有的音频编辑器的支持,播放可以使用 Winamp 播放。现在 Ogg Vorbis 已经是 Winamp 标准配置之一。(10)VOC 格式:VOC 格式是 DOS 系统下面的音频文件格式标准 ,它是随声霸卡一起产生的数字声音文件,与 WAV 文件的结构相似,可以通过一些工具软件方便地互相转换。它是创新公司发明的音频文件格式。由于 W
33、indows 平台不提供对 VOC 格式的直接支持,所以 VOC格式现在已经很少见到了。(11)MOD 格式:Module(简称 mod)是数码音乐文件,由一组 samples(乐器的声音采样) 、曲谱和时序信息组成,告诉一个 mod 播放器何时以何种音高去演奏在某条音轨的某个样本,附带演奏一些效果比如颤音等。mod 起源于 Amiga 计算机,当时的文件扩展名是 MOD,为了区分具体的类型和整个结构体系,通常使用 mod 来表示整个 Module 格式体系。(12)AIFF 格式:AIFF 格式 是 Macintosh 平台上的标准音频格式,属于 QuickTime 技术的一部分。这一格式的
34、特点就是格式本身与数据的意义无关,因此受到了 Microsoft 的青睐,并据此搞出来 WAV 格式。 AIFF 虽然是一种很优秀的文件格式,但由于它是 Macintosh 平台上的格式,因此在 PC 平台上并没有得到很大的流行。(13)VQF 格式:VQF 格式是由 YAMAHA 和 NTT 共同开发的一种音频压缩技术,它的压缩率能够达到 1:18,因此相同情况下压缩后 VQF 的文件体积比 MP3 小 30%50%,更便利于网上传播,同时音质极佳,接近 CD 音质(16 位 44.1kHz 立体声 )。要播放 VQF 软件,可以通过给 Winamp 增加支持插件来实现,也可以使用 YAMA
35、HA 自己的 SoundVQ Player 播放器。编码软件可以使用 YAMAHA SoundVQ Encoder 或者 NTT TwinVQ Encoder。后者的优化比较好,速度比前者快一些。由于 VQF 没有得到操作系统平台的直接支持和 VQF未公开技术标准,而且 VQF 是专门开发来用于低比特率情况的,对于录音室这种需要高保真的环境就无能为力了等原因,VQF 已经在逐步淡出市场。5.4 音频格式转换音频文件的格式很多,在音频的处理过程中,往往要进行各种格式之间的相互转换。音频格式的转换可以通过以下三种途径:(1)可以借助权威公司开发的专用转换工具这些软件多数是专门开发来进行各种音频格式
36、之间的转换的,有些软件转换工具只是集成在其里面的一个部分,不同的软件可能支持转换的音频格式不同。Audiostudio 就集成有一个强大的音频转换工具,它几乎能实现大多数常见的音频格式的转换,而且操作方便,同时也支持批量转换,图 5-6 就是它的主界面。单击 Audiostudio 主界面的 Convertor 或 Transformer 都可以进入它自带的音频格式转图 5-6 Audiostudio 软件主界面图 5-7 Audiostudio 音频转换向导换向导工具,如图 5-7 所示。选择 Add 可以添加需要转换的音频文件,然后单击 Next 进入下一步,选择输出格式和输出路径,如图
37、5-8 所示。设置完以后再单击 Next,出现如图 5-9 所示的界面,选择采样频率,声道数等参数,单击 Next 就开始转换。(2)通过一些常用软件实现转换图 5-8 Audiostudio 音频转换向导图 5-9 Audiostudio 音频转换向导这些常用软件指我们熟悉的如豪杰解霸、金山影霸等,它们都自带音频转换工具,能很方便的实现音频格式转换。如选择金山影霸【常用工具】下的【音频转换器】 ,如图5-10,(3)通过音频编辑软件进行格式转换这些软件都支持读取多种音频格式,这种转换方法比较简单,只需要将要转换的文件打开,然后再另存为需要的目标格式即可。下面列出一些常用格式转换软件。WAV
38、转换 MIDI:可用Gama,WAVmid32,DigitalEar,AKoffMusicComposer, MIDI RecognitionSystem 软件。MIDI 转换 WAV:可用 n-TRAckStudio,WAVmaker , AmazingMIDI,Wingroove,Yamaha sxg 等软件。 WAV 转换 MP3:可用 L3enc,mpEGLayer-3AudioCodec,RightClick-MP3,MP3creator ,MPlifier 软件。MP3 转换 WAV:可用 MP32WAVCD-Recorder, MP3decoder 软件。Professional
39、,MP3toWAV,RightClick-MP3,CD 转换 WAV:可用CDcopy,AudioGrabber,WinDAC32 ,DigitalAudioCopy,MusicMatch Jukebox 软件。WAV 转换 RM:可用 REALPRODUCERG2 软件。RA 转换 WAV:可用 RA2WAV,StreamboxRipper 软件。WAV 转换 WMA:可用 WAVtoWAMzip 软件。MP3 转换 CD:可用 MP3CDMaker,CDCOPY,SirenJukebox 软件。AudioWriter ,CD 转换 MP3:可用图 5-10 “金山影霸 ”音频转换器Musi
40、cMatchJukebox,cdtomp,Cdex,UltimateEncoder ,AudioCatalyst 软件。MP3 转换 ASF:可用 MP3toASF 软件。CD 转换 RA:可用 MusicMatchJukebox 软件。CD 与 WAV,AU,RAW ,VQF,RA,mpg ,mpa 的转换:可用 CDCOPY 软件。VCD 转换 WAV:可用豪杰解霸中的音频解霸、金山影霸的视频转换器软件。如果文件格式不在列表中,可以查阅相关书籍,或是到相关 BBS 求助。5.5 音频卡音频卡(也称为声卡,声效卡)在多媒体计算机中,是不可缺少的重要部件,它直接决定了多媒体电脑对声音数据的处理
41、能力。现在的音频卡已不仅仅作为发声之用,还兼备声音的采集、编辑、语音识别、网络电话等功能。5.5.1 音频卡的基本功能音频卡有各种各样的类型,但它在相应软件的支持下,一般应具备以下大部分或全部功能。1. 录制、编辑和回放数字声音文件音频卡上都预留了麦克风、录放机等外设的插孔,可以将来自这些设备的模拟声音信号经过采集、量化,然后再将得到的数值序列以文件的形式存储到磁盘上。2. 控制各声源的音量并混合在一起通常随声卡提供的软件有一个叫做 Mixer 的程序。它显示一个有多个滑键的控制面板,用来控制调节话筒、激光唱盘和其他音源的输入音量,以及调节 MIDI、声音文件和主输出电路的回放音量。3. 对声
42、波文件进行压缩和解压缩立体声的数字声音文件,每分钟可占 10MB 的磁盘空间。因此声音文件的压缩与解压缩是多媒体领域研究的一个重要课题。为加速压缩过程,声音的压缩算法可由硬件完成(固化在声卡上) ,也可以软件形式进行压缩。4. 语音合成技术在相应软件的支持下,可让大部分声音卡发声,如朗读英文文本。由于声音是合成的,所以听起来不太自然,但可以用来帮助用户检查文章中句法和语法错误。这是一般的拼写(spell)功能所无法做到的。通常用两种技术来生成语音:一种基于字典技术,它根据单词查到发音代码并送到合成器上去;另一种基于规则,它将文本转换成语音并输出。5. 乐器数字接口(MIDI)用于外部电子乐器与
43、计算机之间的通信,实现对多台带 MIDI 接口的电子乐器的控制和操作。MIDI 文件也能被编辑和播放,甚至可在计算机上作曲,通过喇叭播放或去控制电子乐器。5.5.2 音频卡的结构声卡的结构概括地讲可以分为:音效芯片/芯片组、数字信号编解码器(CODEC)芯片、功率放大芯片和波表音色库等几个部分。音效芯片/芯片组:声卡的核心。它的功能是对数字化的声音信号进行各种处理。音效芯片能够使用的数字音源有以下几种:普通音频信号(包括 WAV 文件、CD 唱机、收音机等)或由 CODEC 芯片或 S/P DIF 接口传送过来的信号,由于未经压缩处理,因此数据量十分惊人;MIDI 是一系列生成音乐的指令,由芯
44、片接收后运用 FM 或波表合成等方式合成音乐,数据量小,易于存储、传输:其他的数据格式,如 Dolby Digital(AC-3)和 DTS(数字影院系统)数据流等,也得到部分芯片的支持。音效芯片的处理功能有:一是混音,即将多个不同的音频数据流合为一体,再通过 CODEC 变为音频播放出来;二是特殊音效的处理,如简单的高低音调调节功能或较复杂的 3D 声响扩展功能,至于3D 声源定位和环境音效的处理更是运算密集型工作。所有这些数据处理工作都由芯片上的控制核心配合 DSP(数字信号处理)来完成。近来的音效芯片还往往集成了 S/P DIF 数字信号的接口,可以传输较长距离的数字信号。音频 CODE
45、C 芯片是声卡的另一个重要组成部分,它包含将模拟信号转换为数字信号的 A/D 转换和数字信号转换为模拟信号的 D/A 转换。声卡上的 CD In、Line In、MIC In 等线路电平输入和 Line Out 等线路电平输出都是通过 CODEC 实现的,所以声卡音质的质量很大程度取决于它的品质。功率放大芯片是廉价声卡常常省去的部分。声卡功放的一般功率都不太大(210W) ,由于电源功率不足和空间、散热等的限制,音质也不会太出色,但高档声卡的功放不低于普通有源音箱的功放。MIDI 使用的波表音色库是可选部件,因为波表数据既可存在卡上,也可存在系统内存中。过去的声卡芯片也曾有过把音效芯片、COD
46、EC 芯片合二为一的产品,目前采用分开的结构。原因也很容易解释:其一,模拟电路易受干扰,而数字电路恰恰是主要的噪声源,自然应将数字处理芯片同数模接口分开,越远越好。其二,生产模拟电路和数字电路的工艺截然不同,要在一片硅片上同时集成这两种电路是困难而且矛盾的,所以当它们被分开后,不但可以各自提高性能,也使音效芯片可以极大地提高集成度。5.5.3 音频卡的外部接口音频卡通过一些外部接口实现声音信号的采集和播放。不同厂商、不同品牌的音频卡其功能不一样,提供的外部接口也有差异,但通常应该都有下面所列出的这些接口。 线性输入插孔(LINE IN):作用是将来自收音机、随身听、或电视机等任何外部音频设备的
47、声音信号输入电脑。可用于录制电视节目伴音、将磁带转成 MP3 等。 话筒输入插孔( MIC IN):可接连适合电脑使用的话筒作为声音输入设备。用于录音、娱乐及语音识别等。如果要打网络电话、用电脑来唱卡拉 OK,也少不了它。 线性输出插孔(LINE OUT):它负责将声卡处理好的声音信号输出到有源音箱、耳机或其他音频放大设备(如功放 ),这是第一个输出孔,用于连接前端音箱。 第二个线性输出插孔(SPEAKER):用于连接后端音箱。四声道以上的声卡都会有两个线性输出插孔。用于连接耳机、无源喇叭或有源立体音箱。 游戏MIDI 插口(Game Port/MIDI):用于连接游戏杆、手柄和方向盘等外接游
48、戏控制器,也可连接外部 MIDI 乐器(如 MIDI 键盘、电子琴等) ,配以专用软件可将电脑作为桌面音乐制作系统使用。图 5-11 所示为一块音频卡(声卡)的外观,图 5-12 为音频卡的外部插口示意图。5.5.4 音频卡的技术指标音频卡的性能质量主要是通过它的一系列技术指标来评断的。下面列出几项比较重要技术性能指标。(1)采样频率和量化位数:它们是衡量音频卡录制和回放声音质量的主要参数。采样频率和量化位数越高,录制和回放声音质量与原始声音越接近。(2)合成芯片:有两种合成声音的方法:FM 合成法和波表合成法。后者效果更好一些。(3)兼容性:特别是在 DOS 环境下玩游戏时,往往要求音频卡与
49、 Sound Blaster 和AdLit 兼容。(4)MIDI/GAME 端口:利用这个端口可以与其他的 MIDI 设备连接,构成一个以计算机为中心的音乐作曲和演奏平台。在不使用外部 MIDI 设备时,可以连接一个游戏杆。(5)I/O 端口:利用这个端口与麦克风、 CD 唱机、收录机、标准音响系统等外部设备相连。(6)CD-ROM 接口:许多音频卡提供了 CD-ROM 接口,使得通过音频卡直接播放CD 音乐。(7)音频压缩;音频卡应支持几种标准的音频压缩算法。MICLINE INLINE OUTSPEAKERGame Port/MIDI麦克风CD 唱机、录音机音箱、耳机扬声器游戏杆、MIDI 设备图 5-12 音频卡外部接口图 5-11 一块音频卡的外观(8)DSP 芯片:在一些较高档的音频卡上都带有数字信号处理器(DSP)芯片,这是一种专门的数据处理器,可以通过软件编程来完成音频处理和压缩等任务,从而减轻CPU 的压力。(9)软件支持:应具有 DOS 和 Windows 环境的驱动程序以及功能强大的音频信息处理实用工具。5.6 音频处理软件 Cool Edit Pro 2.0Cool Edit 是著名的数字音频软件制作公司 Syntrillium 开发的一款功能十分强大