1、中国科学院“百人计划“入选者-杜利民中田基础科学? 科学人杜利民kz,lj2.?杜利民.鼻,1957 年 1 月 t.1983 年,1987 年,1991 年分别于北京文学 ,中国卅史碍霓 t 眈,中卅盹声学所羲理学学士,工学峨士 ,理学博士学位;1996 年美国纛省堆工学眈(Mrr)访问卅季家 .观蔷中竹眈声学所翻所誊,话眚交互信息碱术碍竟中心主任,碍竟 I,博士碍竟 t 导坪,IEEE 高板套 I,中国电子季套理事,电子和电子竹碱导报)蠕委.一直从事话眚情号与信息建理碱术曲碍竟,在国辣国内刊枷和学术套审囊采碍竟论文 60 套篇.杜利民科研小组工作介绍杜利民博士 1995 年人选中国科学院“
2、百人计划“. 学科方向是语音识别与理解.语言是人类进行思想,观点和情感交流最自然便捷的交互方式.语音识别是人机语音交互的关键技术,经过全球科学家近半个世纪的研究,在 90 年代后期已取得重大进步,正在进人大规模社会应用的前夜.但是,要达到普及应用水平,还有一系列重要的科学和技术问题需要解决.杜利民博士在“百人计划“ 支持下 ,围绕研制具备对复杂声学环境的适应性,对应用范围的可扩展性,对自然口语识别和理解较强的鲁棒性的语音交互信息系统的研究目标,开展理论,技术和应用研究.在多年研究的基础上,特别是经过最近 3 年系统的和规模的工作,研究建立了较为完善的基本技术和研究平台,新的研究方向已经展开.应
3、用性工作已有启动,开始以研究特色和技术实力进人国际科技研究与发展的大循环,把研究工作推进到了更高的新起点.在谱青声学的基础研究方面:(1)针对语音频谱的最佳表示问题,研究提出了声门激励闭相分析方法.提出了小波变换定位的声门关闭时刻的新算法,获得 4.1%定位精度,o.13%虚警率和 4.6%漏警率的重要结果.利用该结果进行语音信号分析,大大提高了频谱的稳定度和准确性.(2)根据普通话语音区别特征和声学特性,提出了语音的选择性特征的革取原理,数字算法和对普通话清辅音进行自动检测分类的思想,对塞音,塞擦音和擦音分别获得了 96.1%,95.1%和 89.0%的分类正确率,总体平均正确分类率为 93
4、.6%.(3)研究发现了语音频谱区域的频率结构和 B 至 F区域的能量结构变化与鼻音产生的物理过程的密切关联性,提出了分别以频率结构的一阶矩和高斯平滑对数能量作为检测元音.鼻音交替处的检测度量,在戚阻和除阻时刻 lOO%检测率的条件下,分别获得 60ms 和 4Oms 的检测准确性.这些专题研究对建立知识主导的语音识别新机制和改进统计主导的语音识别方法有积极的直接贡献.在语音声学基元毫模的美键技术研究方面:(1)通过研究 HMM 模型的数学背景和语音信号产生的物20OOa 帅 BkS-m中国基础科学? 科学理过程,提出了以跨越音节边界的左右语境相关的三音音素作为汉语普通话连续语音识别系统的语音
5、声学基元的建模方法.(2) 根据语音区别特征理论和语音声学基元统计模型相似性的特征,设计和训练左右语境相关的三音音素基元声学模型,运用 HMM 基元模型状态共享技术,解决声学基元模型数量多与语音训练数据少引起的统计建模不准确的矛盾.研究建立的汉语普通话话者无关连续语音声学模型在文法无关和困惑度为 406 的条件下,对训练集内数据和训练集外数据的大规模测试(8 个说话人约 6 万音节)的音节识别正确率分别为吕 4%和 72%,能够很可靠地完成特定文法条件下的话者无关连续语音识别任务.(3)针对语音信号物理过程不满足 HMM 理论假设的问题,开展嗍融合的机理的研究 .通过研究汉语语音心理感知特性和
6、声学相似性特性,提出了按照汉语语音声学相似性特性“分而治之“ 的结构化神经网络来构建具有区分性的基元声学模型.在系统结构设计方法和学习算法加速方面取得了重要进展,为研究更高性能的语音识别系统莫定了坚实基础.在连续语音识别的系统技术研究方面:(1)以电话区位代码自动查询为背景,研究建立了汉语大词汇话者无关连续语音识别系统.(2)以语音翻译为背景,研究建构了话者无关的自然口语对话系统实验平台.在该实验平台上建立了“汉语一英语语音翻译“ 原型系统 CEST-cAs1.0,目前已经集成了对话管理,话者无关的汉语连续语音识别,汉语文语转换,汉语一英语翻译等项功能,在特定语境下可以分别以话筒,电话和手机进
7、行语音交互,并对说话快慢和地方口音有一定的鲁棒性.在复杂声学环境下的语音 fill 号处理方面(1)针对噪声环境和背景语音环境下的语音交互需求,研究建立了双话筒自适应语音增强技术,能够从嘈杂的声场中有效地提取出系统交互的语音信号.(2)针对“嵌人式话筒“ 的语音拾取同题 ,正在研究话筒阵列自适应语音增强技术,解决在视频会议室内,信息查询公共终端附近,汽车内等声场中,用隐藏的话筒阵列拾取人们与系统交互的语音信号的问题.在昕觉视觉双模态语音信息处理方面:(1)作为基础建设,研究建立了第一个汉语听觉视觉双模态数据库和数据库建设的通用工具平台.(2)研究提出了分组尺度自适应立体视差匹配算法,用于提取嘴
8、唇唇突的视觉特征.(3) 研究提出了用广义主动模型进行唇形定位与跟踪的方法.对 Tulipsl 数据库作唇形定位的结果达到了很好的准确度,特定人模型和多人模型的平均定位精度分别为 96.6%和 90.2%.这些工作为进一步研究听觉视觉双模态语音识别和语音合成莫定了必要的技术基础.在国际合作研究方面:从一般性的互访,学术交流,小项目短期合作等研究,开始转向大项目长期的科技攻关合作研究.负责主持的中国科学院一 ATT国际合作五年计划“汉语一英语语音翻译研究 “进展顺利,开始在国际科技研究与发展的大循环中展示竞争发展的实力.3 年间发表研究论文 44 篇,其中 2 人获得出席国际会议的海外资助.完成
9、国家自然科学基金项目,国家 863 项目,国际合作项目,所长基金项目,企业委托项目共 8 项.争取其它研究经费 623 万元.培养博士 3 名,硕士 3 名.为建设一个有利于技术储备和人才成长的科研环境,在“百人计划 “的基础上建立了 “语音交互信息技术研究中心“,在科技研究目标 ,科研价值观念,业绩评价标准,人员激励措施,人员竞争流动方面进行试点探索.配置了语音交互信息技术研究的先进科研设施和工具,正在培育一支充满创新活力的年轻科研群体.现有研究员 1 人,归国博士 1 人,副研究员(博士)和高级实验师 3 人,助理研究员(硕士)1 人,砌?6?am 田如量瞄 57中国基础科学? 科学技术人
10、员 2 人.国外高级访问学者 1 人,博士后 1人,博士研究生 6 人,硕博研究生 7 人,硕士研究生 2名.在杜利民博士领导下,语音交互信息技术研究中心的近期工作目标是围绕正在主持的中国科学院.ATT 国际合作五年计划 “汉语一英语语音翻译研究“.在应用目标的牵引下开展高技术创新研究,将现有的阶段研究成果不断地完善和提高,努力在国际科技攻关中达到新的水平和新的高度,并向产业应用领域推进.中,长期工作目标是围绕正在主持的国家重点基础研究发展计划“973“项目“ 图像,语音,自然语音理解与知识发掘“中的“ 自然口语人机对话的理论和实验平台研究“项目,在学科的前沿开展研究 ,努力在理论方法,技术基
11、础和应用系统方面做出更多国际同行首肯的创新成果.5目陈勇另;/f 陈勇.君,1957 年 6 月生,淅讧宁波人.1981 年牛生于南京化工土学,1993 年于日本名古土学羲工学博士学幢.观任中国科学眈广州能源 JI究所 JI宽 l,所长镰所科凌斯技术有限公司,九能高斯技术工程有限公司董事长 .i 要从事浩峥碟技术,城市挂最地理反利瑁技术,生枷质能利瑁技术的 JI究与开杰工作.入选 1997 年主国家人事部“百千万人才工程“. 协广州市摹九届喜 l 套喜 l,广州市人民 鹰决末顾问,中国科技土学,太原理工土学曩职麓授,广东省能源学套斟理事长.庸特棘津贴最得者.陈勇科研小组工作介绍陈勇博士 199
12、6 年应聘回国执行中国科学院“百人计划“,经过 3 年的积极努力 ,其研究小组已经全面完成了计划任务并取得显着的绩效,各项工作均达到院“ 百人计划“ 提出的目标 .政治思想陈勇同志热爱祖国,敬业爱岗,务实求真,为人直率,能团结人,具有坚实的理论基础.较强的学术水平和组织管理能力.他带领的研究小组已经成为所里一支新型学科的年轻团队,进行了卓有成效的科学研究和技术开发工作,其良好的思想品德和奋进不息的工作精神得到研究所科技人员的好评.科研工作 1996 年 lO 月,研究所以“百人计划“为契机.新组建了洁净燃料室,建立了一支 9 人(包括流动人员)构成的研究团队.由“百人计划“ 入选者陈舢-6-口鼬轴岫冀