ImageVerifierCode 换一换
格式:PPT , 页数:35 ,大小:685KB ,
资源ID:8406150      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-8406150.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(清大多媒体资讯检索实验室.ppt)为本站会员(gnk289057)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

清大多媒体资讯检索实验室.ppt

1、以音節為基礎之語者識別 Syllable-Based Speaker Identification,學生 : 吳銘鈞 教授 : 張智星,2,大綱,研究動機 相關研究 語者識別 辨識流程 實驗結果 結論及展望,研究動機,語者辨識應用性廣泛 門禁或金融交易系統 電話聲紋追蹤 飛機機型的識別結合其他相關技術 Hidden Markov Model 語音訊號切割 切除單音節中的氣音,4,相關研究,Combined speech and speaker recognition with speaker-adapted connectionist models-Dominique Genoud, Dan

2、Ellis, and Nelson MorganPhonetic speaker recognition-Mary A. Kohler, Walter D. Andrews, Joseph P. Campbell,and Jaime Hernandez-CorderoSpeaker recognition using artificial neural networks based on vowel phonemes-Ehab F. M. F. Badran, and Hany Selim,5,結合 HMM 語音技術,原理 利用 HMM 所訓練的聲學模型及 Viterbi decoding可以

3、得到語句中每個音節的發音及起始位置 目的 : 以音節為基礎的語者識別 語者聲學特徵用一組聲學模型無法描述得很好 每個發音訓練一組模型,語者擁有各發音模型 發音模型能將語者聲學特徵描述較為完善 切除單音節中的氣音 氣音對於語者辨認是較無意義的資訊,6,一般語者識別-概述,夕 陽 無 限 好,語者模型 1,語者模型 2,語者模型 N,抽 取 特 徵 參 數,Gaussian Mixture Model evaluation,分數,測試語句,7,以音節為基礎的語者識別-概述,夕 陽 無 限 好,Viterbi decoding,夕,陽,無,限,好,S1,S2,S3,.,Sn,分數,Gaussian

4、Mixture Model evaluation,抽 取 特 徵 參 數,測試語句,8,辨識流程,語料,抽取特徵參數,語音訊號的切割,高斯混合模型,模型比對,單音節相關資訊,訓練語料,抽取特徵參數,分數,單音節相關資訊,測試語料,9,語音資料庫,HMM聲學模型的訓練語料 聲學模型由長庚大學 MSP 實驗室所提供 訓練語料為100人錄音,共45000句,時間約11.3小時 內容為國語語句,為415發音的平衡句 取樣頻率為16 KHzGMM語者模型的訓練語料以及測試語料 60人(49男11女)錄音,共6000句,時間約8.3小時 內容為國語唐詩語句,非415發音的平衡句 取樣頻率為16 KHz,1

5、0,特徵參數抽取,語音訊號,預強調,音框化,漢明窗,每個音框皆經以下步驟,FFT,DCT,MFCC,三角帶通濾波器,11,特徵參數抽取 (Cont.),GMM 語者模型 12維的MFCC HMM 聲學模型 39維的MFCC,差量函式,差量函式,(MFCC+logEnergy),(MFCC+logEnergy),(MFCC+logEnergy),(MFCC+logEnergy) (MFCC+logEnergy) (MFCC+logEnergy),12維MFCC加上1維對數能量,39維MFCC,12,語音訊號切割,樹狀網路 (Tree net) 限定語句內容 搜尋速度較快 辨識率較高,李,志,明,

6、淑,玲,陳,子,嘉,昂,NULL,NULL,13,語音訊號切割 (Cont.),自由音節解碼 (Free syllable decoding) 不限定語句內容 搜尋速度較慢 辨識率較低,單音節相關資訊內容形式:FrameData(1).file(1)Name : 三春白雪歸青冢.wavSyl : saN CuN bai sYe guei ciG JoGStartFrame : 52 92 143 180 233 275 324EndFrame : 91 142 179 232 274 323 363,14,語者發音模型訓練,語者語料根據音節發音作分類 例如音節發音為Jy的分在同一類,其他依此類

7、推 每個語者會擁有 415 發音語料 進行特徵參數的抽取 以高斯混合模型去訓練各發音模型,15,效能評估方法,夕,陽,無,限,好,語者相對發音模型,P1 . . . Pn,P1 . . . Pn,對數機率加總,各語者對數機率,辨識結果,機率最高者,P1 . . . Pn,P1 . . . Pn,P1 . . . Pn,16,實驗一:以音節為基礎的語者識別,使用語料 從 60 人語料中選取 10 人外部測試(Outside test) 訓練語句 : 第 150 句 測試語句 : 第 51100 句高斯混合模型 混合數(Mixture) : 1, 2, 4, 6, 8 ,17,實驗一 (Cont.

8、),Confusion Matrix ( Inside test ),18,實驗一 (Cont.),19,實驗一 (Cont.),20,實驗二:根據韻母作相近音分類,根據韻母將 415 音分成 32 類相近音 因為每個發音的語料不充足且不平均 作相近音分類可解決此問題,且不違背原始的目的,Jy Cy Sy : :,Jy Cy Sy : : : Ja Ca Sa : : : : : :,Ja Ca Sa : :,415,32,21,相近音分類表:,實驗二 (Cont.),22,實驗二 (Cont.),23,實驗三:切除單音節的氣音部分,原理 : 氣音對語者識別是較無意義的資訊目的 : 可以減少參

9、數量 加快模型訓練及比對的速度理想做法 : 利用HMM去得到音節中各模型(Model)間的轉換點,24,實驗三 (Cont.),實際做法: 直接切除單音節前面 1/2 的音框,25,實驗三 (Cont.),26,實驗四:訓練語句數量與辨識率,訓練語句 : 30, 40, 50, 60, 70 測試語句 : 10 混合數(Mixture) : 8,27,實驗四 (Cont.),訓練語句數量到70句才逐漸飽和 訓練語句過少,辨識率下降幅度大,28,實驗五:混合數與辨識率,訓練語句 : 50 測試語句 : 10 混合數(Mixture) : 4, 6, 8, 10, 12 ,29,實驗五 (Cont

10、.),混合數約68個時會飽和 混合數太多辨識率反而降低,30,實驗六:TIMIT語料,630人錄音,共6300句,英文語句 內部測試 第0110句訓練,第0910句測試 外部測試 第0108句訓練,第0910句測試 混合數 8個,31,實驗六 (Cont.),Large population speaker identification using clean and telephone speech Douglas A. Reynolds A large population speaker identification system based on wavelet transform f

11、eatures by using microphone and telephone corpus- 古詩峰 (長庚大學 MSP 實驗室),32,錯誤分析,唐詩語料部分 部分相近音分類的辨識效果差 , 32分類 = 16分類 辨識率 93.17% = 95.50%音節發音辨識錯誤 錯誤率約 8.14% (Tree net) 錯誤率約 43.75% (Free syllable decoding),33,錯誤分析 (Cont.),TIMIT 語料部分 訓練語句過少 每個語者沒有所有分類的發音模型英文語句 沒有英文聲學模型,34,結論,根據韻母作相近音分類 各發音語料較為充足 辨識率明顯提升切除音節前1/2的音框 減少參數量,增加速度 辨識率有些許進步,35,未來展望,根據音節發音的鑑別度給予權重嘗試其他特徵參數 Wavelet transform研究其他語音技術 Eigenvoice,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报