1、,多媒体技术与应用,公共选修课,广州中医药大学信息技术学院,1. 什么是声音? 声音的种类声音的种类繁多。人声马嘶、兽鸣鸟叫、风雨雷电、机器轰鸣、悠扬琴声等因此,声音根据内容可以分为:天籁之音,语音,乐音等;根据频率可分为:高音、低音、重低音、超声波与次声波等;根据特性分为乐声和噪声。 声音的实质从信息处理的角度来看,声音实质上是一种信号,称之为音频信号。,第四部分 声音和音频信号处理,http:/ 创点教程网,2.声音信号的特点,声波具有时间和幅度上的连续性;声音的传播具有反射、折射、衍射等形式;(声速和多普勒效应),振幅A 反映了信号的强度;就是声音的大小。 频率F 反映了音调的高低;也即
2、尖细或是低粗。,3.声波的应用声纳,B超。,4.声音的三要素,音调:指声音的基音频率;(音阶的划分) 音色:指声音的泛音频率;(音频带宽) 音强:指声音的声音幅度;(音量的计量分贝dB)。,5. 声音质量的度量,声品质可定义为听觉事件对个人各方面需求的满足程度,影响声品质的因素包括物理(声场)、心理声学(听觉感知)、心理(听觉评价)等几方面。 人类的听觉频率范围:2020KHz。 语音质量等级:根据声音频带,声音质量分5个等级,依次为:电话、调幅广播(AM)、调频广播(FM)、CD光盘、数字录音带( DAT,Digital Audio Tape),6.音强和响度,听阈和痛阈,音强又称为响度,是
3、表示人的听觉主观判断声音的强弱程度。在心理学上,响度是人耳对音量大小、声音强弱的主观感受。响度大,声音显得丰满;响度小,声音便非常单薄脆弱。在物理上,响度用声压或声强来描述声音的强弱。响度级为以1000Hz为基准。定义1000Hz、40dB纯音时,响度为1宋。当声音弱到人耳刚刚能听到的时候,此时的音强称之为:听阈。当音强达到人耳感觉疼痛的时候,此时的音强称为痛阈。听阈和痛阈是随频率变化的。 人耳的听觉音强范围为0-120dB。,人的听觉声强范围,7.人类的听觉特性,1) 人耳只能察觉出3dB以上音强变化 2) 人耳对不同频段的声音敏感度不同 人耳对13KHZ的声音最为灵敏 3) 人的听觉具有掩
4、蔽效应,听觉的掩蔽效应,问题: 音频信号有什么特点? 如何用计算机处理音频信号? 如何获得高质量的音频信号?,模拟信号的数字化处理,模拟到数字的转换A/D转换(Analog to Digital Conversion),模拟信号数字化的步骤 : 1.采样在连续信号中每隔一定时间取一个值; 2.量化把其大小取整为n位二进制数所能表示的数;例如: n=4,即有24=16个级别可用于表示一个采样,量化后只能以0,1,215这16个数之一来表示 3.编码按一定的规律产生二进制位数据。,模拟信号数字化的原理, 将检测到的电压值转换成数字信息,模拟信号的数字化4bit,采样定理 采样频率要高于被采样信号最
5、高频率的两倍,信号才可能完全复原。 话音最高频率为4000Hz,则需每秒采样8000次;声音的最高频率为20kHz,所以在多媒体计算机中使用的多是44.1 kHz的采样频率。 量化精度 取决于表示一个采样值的二进制位数。位数越多,精度也越高。 用16个二进制位(bit)表示声音,可将声音分为216=65536级,而若用8位则仅能区分出28=256级。 用16位表示的声音比用8位的声音质量高得多。,音频数据压缩处理,1. 音频压缩的理论基础是人的听觉特性。 2. 音频压缩算法的分类:1) 有损压缩和无损压缩2) 时域压缩,子带压缩和变换压缩三种语音编码器:波形编码器音源编码器(声码器) 混合编码
6、器3. 最基本的音频压缩处理方法PCM编码,脉冲编码调制的概念是1937年,由法国工程师Alec Reeres 最早出来的。1946年美国Bell实验室实现了第一台PCM数字电话终端机。1962年,晶体管PCM终端机大量应用于市话网中局间 中继线,使市话电缆传输电话路数扩大2430倍。70年代后期,超大规模集成电路的PCM编、解码器的出现,使光纤通信、数字微波通信、卫星通信获得了更广泛的应用。此外,CD唱机和DAT录音机,均采用线性PCM编码来存储音乐信号,为非压缩方式。,脉冲编码调制(Pulse Coding Modulation),PCM算法是最简单、最完善、最常见也是压缩效率最低的编码方
7、法。它用一组二进制数码来代替连续信号的抽样值,具有极强的抗干扰能力。步骤:仅对输入信号进行采样量化编码。,PCM系统原理框,几个关于量化的概念:均匀量化与非均匀量化,量化噪声(误差),量化信噪比:随量化电平阶数M的增加而提高,信号的逼真度越好。 均匀量化的不足:量化信噪比随信号电平的减小而下降。 在民用电话中,一种简单而又稳定的非均匀量化器为对数量化器。该量化器在出现频率高的低幅语音信号处,运用小的量化间隔,在出现概率低的高幅语音信号处,运用大的量化间隔。,幅度大的信号被压缩,幅度小的信号被扩张。,压缩与扩张的示意图,两种常见PCM体制: 1)律压扩算法2) A律压扩算法,A律压缩特性,律压缩
8、特性,MP3压缩标准MP3是一种有损数字音频压缩格式,其全称是MPEG-1 Audio Layer3。 MPEG-1音频压缩标准是第一个高保真音频数据压缩标准。除AC-3之外,其他的音频压缩算法只适用于语言(如码激励线性预测CELP)或只有中等压缩质量(如自适应差分脉冲编码调制ADPCM)。MPEG1音频压缩标准虽然是MPEG-1标准的一部分,但它完全可独立应用。,在MPEG-1标准中,按复杂程度划分了三种音频压缩模式即层,层,层。目前广泛使用的VCD音频压缩方案为层,其典型码率为每通道192Kbps,共2通道。层即称掩蔽模式,采用通用子带集成编码与多路复用,典型码率为每通道128 Kbps,
9、广泛应用于数字音频广播、数字演播室、CD-I等数字音频专业的制作、交流、存储和传送。层是综合层和自适应谱感知熵编码 (ASPEC)的优点提出的混合压缩技术,MP3的复杂度相对较高,不利于实时编码,典型码率为64 Kbps,在低码率下有高品质的音质。用于ISDN语音通话。,MPEG-1音频压缩模式的比较,MP3产品简介 1. 组成结构,PHILIPS芯片方案 PHILIPS解码芯片属于高端产品。其系列芯片SAA7750,SAA7751, PNX0101ET本身仅是解码芯片,必须搭配控制芯片才能使用。代表产品: iRiver的IFP-100、300、500系列和MPIO的FD100、FL100、F
10、Y200、FG100等。 SIGMATEL芯片方案 美国SIGMATEL的STMP 34和35系列芯片是目前市场占有率较大的芯片,采用独立控制方式,成本较低。 代表产品:爱国者月光宝盒系列、三星 YP-55H,JNC SSF-800等 TELECHIPS芯片方案 韩国TELECHIPS的TCC730、TCC731也是性能较好的MP3解码芯片之一,同样需要外围元件的配合,成本比飞利浦较低。 代表产品:丹丁328系列、DEC街舞系列,朝华魔音系列 。 对三款主流芯片来说,音质排列顺序为:Philips Sigmatel Telchips,乐器数字接口MIDI 乐器数字接口规范MIDI (Music
11、al Instrument Digital Interface)于1983年提出。MIDI是一种利用合成器产生的音乐技术。MIDI由三个部分组成,分别是:通信协议Communication Protocol;连接器 Connector(硬件接口);传播规范,称为标准MIDI文件Standard MIDI Files。,通信协议 MIDI协议是乐谱的数字化描述语言。每一个描述乐器演播的动作的字都赋给一个特定的二进制代码。例如:音色编号为00;音符C3编号为00;8分音符编号为60。如果钢琴8分音符的C3音,它的MIDI编码是“00 00 60 连接器根据MIDI 1.0规范,MIDI连接器是一个
12、5针DIN接头。由于PC机未为MIDI预留接口,故采用串行口或游戏杆端口来连接MIDI乐器。 标准MIDI文件一个MIDI文件不需要捕捉和存储实际的声音,仅是一个事件的列表,描述了一个声音卡或其他播放设备要产生某种声音的特定的步骤。因此,MIDI文件比数字音频文件小得多,并且事件是可以编辑的,音乐可以重排,编辑,甚至交互式作曲。,4.4 声卡简介声卡的基本功能:将来自话筒、磁带、光盘的原始声音信号进行转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。 4.1 声卡的发展历史1984年,英国ADLIB AUDIO公司推出第一款声卡。 19
13、95年,创新推出AWE32系列,具有硬件波表合成能力,而以往的声卡仅具备FM合成能力,具有一个32复音的波表引擎,并集成了1MB容量的音色库,MIDI的表现力获得大大提升,硬件波表合成能力成为高档声卡的象征。1996年,创新推出AWE64系列,具有64复音的波表合成能力,成为当时MIDI表现力最佳的声卡,这个系列中的AWE64 Gold,是公认最优秀的声卡之一 。,声卡主要由以下几个部分组成: 声音的合成与处理是声卡的核心部分。由数字声音处理器、调频(FM)音乐合成器及MIDI控制器组成。完成声波信号的A/D和D/A转换,利用调频技术控制声音的音调、音色和幅度等。 混合信号处理器 其中内置数字/模拟混音器,混音器的声源由以下几种信号: MIDI信号、CD音频、线路输入、麦克风等可以选择一个声源或几个不同的声源进行混合录音。 功率放大器 由于混合信号处理器输出的信号功率不足,需要一个功率放大器作为功率放大使得输出的音频信号有足够的功率。 总线接口和控制器 总线接口和控制器是由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑及直接存储器访问(DMA)控制逻辑组成。,