1、多媒体应用系统技术 计算机科学与技术学院 第五章 音频素材制作与处理 模拟音频 数字音频 1 语音合成技术 2 语音识别技术 3 5 1模拟音频 模拟信号 数字信号时间和幅度上都是连续的信号称为模拟信号 幅度是离散的信号称数字信号 5 1模拟音频 声音声源 正在发声的物体产生 声音是由物体振动产生的声波声波 是随时间连续变化的物理量 是连续的模拟信号 可以用振幅 周期 频率描述 声源振动 通过空气等介质 把这种振动以机械波的形式传播 这就是声波 声波传入人的耳朵 促使耳膜产生振动 这种耳膜振动被传导到人的听觉神经 就产生了对 声音 的感觉 5 1模拟音频 振幅 声音波形振动的幅度 表示声音的强
2、弱 即音量 分贝dB 周期 声音波形完成一次全振动经过的时间频率 声音波形在一秒钟内完成全振动的次数 赫兹HZ 亚音信号 频率20000音频信号 介于中间的信号 人耳听不见 5 1模拟音频 声音三要素音强 声音的强弱 即音量 与声波振幅成正比音调 声音的高低 与频率有关音色 声音的特色 分纯音和复音 不同频率 不同振幅 5 1模拟音频 模拟音频的处理被转换成电信号 由模拟元部件处理 模拟音频的特点频率范围连续性音质 与频率范围 设备 噪音等因素有关 5 2数字音频 数字音频以二进制的方式记录的音频 是模拟音频的数字化表达 实现 声卡 采样 量化 编码 比较常用格式 wav 微软 midi 乐器
3、数字接口 cda cd音乐 mp3 wma 微软 网络音频格式 ra rm realnetworks 5 3语音合成技术 语音合成是指利用计算机合成语音的一种技术 使计算机能够产生高清晰度 高自然度的连续语音 具有类似于人一样的说话的能力三个层次文字到语音 概念到语音 意向到语音文语转换实现 文本分析器 韵律分析模块 语音生成模块 5 3语音合成技术 文语转换过程 1 文本分析器根据发音字典 将文本字符串分解为带有属性标记的词和读音符号 2 韵律分析 再根据语义规则和语音规则 为每一个词 每一个音节确定重音等级和语句结构及语调 以及各种停顿等 3 语音合成波形编辑合成参数合成分析规则合成语音合成特点自然度清晰度表现力复杂度 5 4语音识别技术 语音识别计算机通过识别和理解过程把语音信号转变为相应的文本或命令的技术 即让计算机能够听懂人类的语言 例如 IBM的语音识别软件ViaVoice 可以帮助人们通过话筒用语音向字处理软件输入文字关键技术 特征提取技术 模式匹配技术 模型训练技术 ThankYou