收藏 分享(赏)

清大多媒体资讯检索实验室.ppt

上传人:gnk289057 文档编号:8406150 上传时间:2019-06-24 格式:PPT 页数:35 大小:685KB
下载 相关 举报
清大多媒体资讯检索实验室.ppt_第1页
第1页 / 共35页
清大多媒体资讯检索实验室.ppt_第2页
第2页 / 共35页
清大多媒体资讯检索实验室.ppt_第3页
第3页 / 共35页
清大多媒体资讯检索实验室.ppt_第4页
第4页 / 共35页
清大多媒体资讯检索实验室.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

1、以音節為基礎之語者識別 Syllable-Based Speaker Identification,學生 : 吳銘鈞 教授 : 張智星,2,大綱,研究動機 相關研究 語者識別 辨識流程 實驗結果 結論及展望,研究動機,語者辨識應用性廣泛 門禁或金融交易系統 電話聲紋追蹤 飛機機型的識別結合其他相關技術 Hidden Markov Model 語音訊號切割 切除單音節中的氣音,4,相關研究,Combined speech and speaker recognition with speaker-adapted connectionist models-Dominique Genoud, Dan

2、Ellis, and Nelson MorganPhonetic speaker recognition-Mary A. Kohler, Walter D. Andrews, Joseph P. Campbell,and Jaime Hernandez-CorderoSpeaker recognition using artificial neural networks based on vowel phonemes-Ehab F. M. F. Badran, and Hany Selim,5,結合 HMM 語音技術,原理 利用 HMM 所訓練的聲學模型及 Viterbi decoding可以

3、得到語句中每個音節的發音及起始位置 目的 : 以音節為基礎的語者識別 語者聲學特徵用一組聲學模型無法描述得很好 每個發音訓練一組模型,語者擁有各發音模型 發音模型能將語者聲學特徵描述較為完善 切除單音節中的氣音 氣音對於語者辨認是較無意義的資訊,6,一般語者識別-概述,夕 陽 無 限 好,語者模型 1,語者模型 2,語者模型 N,抽 取 特 徵 參 數,Gaussian Mixture Model evaluation,分數,測試語句,7,以音節為基礎的語者識別-概述,夕 陽 無 限 好,Viterbi decoding,夕,陽,無,限,好,S1,S2,S3,.,Sn,分數,Gaussian

4、Mixture Model evaluation,抽 取 特 徵 參 數,測試語句,8,辨識流程,語料,抽取特徵參數,語音訊號的切割,高斯混合模型,模型比對,單音節相關資訊,訓練語料,抽取特徵參數,分數,單音節相關資訊,測試語料,9,語音資料庫,HMM聲學模型的訓練語料 聲學模型由長庚大學 MSP 實驗室所提供 訓練語料為100人錄音,共45000句,時間約11.3小時 內容為國語語句,為415發音的平衡句 取樣頻率為16 KHzGMM語者模型的訓練語料以及測試語料 60人(49男11女)錄音,共6000句,時間約8.3小時 內容為國語唐詩語句,非415發音的平衡句 取樣頻率為16 KHz,1

5、0,特徵參數抽取,語音訊號,預強調,音框化,漢明窗,每個音框皆經以下步驟,FFT,DCT,MFCC,三角帶通濾波器,11,特徵參數抽取 (Cont.),GMM 語者模型 12維的MFCC HMM 聲學模型 39維的MFCC,差量函式,差量函式,(MFCC+logEnergy),(MFCC+logEnergy),(MFCC+logEnergy),(MFCC+logEnergy) (MFCC+logEnergy) (MFCC+logEnergy),12維MFCC加上1維對數能量,39維MFCC,12,語音訊號切割,樹狀網路 (Tree net) 限定語句內容 搜尋速度較快 辨識率較高,李,志,明,

6、淑,玲,陳,子,嘉,昂,NULL,NULL,13,語音訊號切割 (Cont.),自由音節解碼 (Free syllable decoding) 不限定語句內容 搜尋速度較慢 辨識率較低,單音節相關資訊內容形式:FrameData(1).file(1)Name : 三春白雪歸青冢.wavSyl : saN CuN bai sYe guei ciG JoGStartFrame : 52 92 143 180 233 275 324EndFrame : 91 142 179 232 274 323 363,14,語者發音模型訓練,語者語料根據音節發音作分類 例如音節發音為Jy的分在同一類,其他依此類

7、推 每個語者會擁有 415 發音語料 進行特徵參數的抽取 以高斯混合模型去訓練各發音模型,15,效能評估方法,夕,陽,無,限,好,語者相對發音模型,P1 . . . Pn,P1 . . . Pn,對數機率加總,各語者對數機率,辨識結果,機率最高者,P1 . . . Pn,P1 . . . Pn,P1 . . . Pn,16,實驗一:以音節為基礎的語者識別,使用語料 從 60 人語料中選取 10 人外部測試(Outside test) 訓練語句 : 第 150 句 測試語句 : 第 51100 句高斯混合模型 混合數(Mixture) : 1, 2, 4, 6, 8 ,17,實驗一 (Cont.

8、),Confusion Matrix ( Inside test ),18,實驗一 (Cont.),19,實驗一 (Cont.),20,實驗二:根據韻母作相近音分類,根據韻母將 415 音分成 32 類相近音 因為每個發音的語料不充足且不平均 作相近音分類可解決此問題,且不違背原始的目的,Jy Cy Sy : :,Jy Cy Sy : : : Ja Ca Sa : : : : : :,Ja Ca Sa : :,415,32,21,相近音分類表:,實驗二 (Cont.),22,實驗二 (Cont.),23,實驗三:切除單音節的氣音部分,原理 : 氣音對語者識別是較無意義的資訊目的 : 可以減少參

9、數量 加快模型訓練及比對的速度理想做法 : 利用HMM去得到音節中各模型(Model)間的轉換點,24,實驗三 (Cont.),實際做法: 直接切除單音節前面 1/2 的音框,25,實驗三 (Cont.),26,實驗四:訓練語句數量與辨識率,訓練語句 : 30, 40, 50, 60, 70 測試語句 : 10 混合數(Mixture) : 8,27,實驗四 (Cont.),訓練語句數量到70句才逐漸飽和 訓練語句過少,辨識率下降幅度大,28,實驗五:混合數與辨識率,訓練語句 : 50 測試語句 : 10 混合數(Mixture) : 4, 6, 8, 10, 12 ,29,實驗五 (Cont

10、.),混合數約68個時會飽和 混合數太多辨識率反而降低,30,實驗六:TIMIT語料,630人錄音,共6300句,英文語句 內部測試 第0110句訓練,第0910句測試 外部測試 第0108句訓練,第0910句測試 混合數 8個,31,實驗六 (Cont.),Large population speaker identification using clean and telephone speech Douglas A. Reynolds A large population speaker identification system based on wavelet transform f

11、eatures by using microphone and telephone corpus- 古詩峰 (長庚大學 MSP 實驗室),32,錯誤分析,唐詩語料部分 部分相近音分類的辨識效果差 , 32分類 = 16分類 辨識率 93.17% = 95.50%音節發音辨識錯誤 錯誤率約 8.14% (Tree net) 錯誤率約 43.75% (Free syllable decoding),33,錯誤分析 (Cont.),TIMIT 語料部分 訓練語句過少 每個語者沒有所有分類的發音模型英文語句 沒有英文聲學模型,34,結論,根據韻母作相近音分類 各發音語料較為充足 辨識率明顯提升切除音節前1/2的音框 減少參數量,增加速度 辨識率有些許進步,35,未來展望,根據音節發音的鑑別度給予權重嘗試其他特徵參數 Wavelet transform研究其他語音技術 Eigenvoice,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报