1、人性化的人机交互方式自然语音 (于第四届中国国际呼叫中心和客户关系管理大会) Call Center & CRM China 2002 郑 方 2002年7月3日,公司简介,3,北京得意音通技术有限责任公司得意得到意思 d-Ear digital Ear中英文名字相互谐音,共成识别与理解,4,得意公司的理念,建立一个可持续地面向汉语语言处理的公司和具有国际水平的企业。成为语音识别与语言理解尤其是中文语音识别和语言理解的国际性的技术提供商。 创建一种文化和氛围,以便员工可以充分发挥他们的聪明才智,并在得意公司找到他/她一生的事业。,5,得意公司的目标,把语音技术融入数字世界的主流。 扩展语音技术
2、,以便:- 使计算和通讯设备的使用更容易和更安全; 提高所有数字化产品的娱乐性和教育价值; 且 创造新的和有创造性的服务。 使汉语成为信息技术中的一种更有效的媒介。,6,清华大学智能技术与系统国家重点实验室,与清华大学智能技术与系统国家重点实验室保持良好的关系; 1994年第一次全国重点实验室评比中为A; 1997年第二次全国重点实验室评比中为A; 2002年第三次全国重点实验室评比中仍为A; 其旗下语音技术中心(CST)拥有23余年的语音和语言处理技术的成果和经验,成果丰硕; 双方已经达成建立“清华得意语音技术联合实验室”的意向,以实现“产学研”的无缝链接。,7,公司核心技术概述三大技术方向
3、,语音识别(ASR): “音字”的转换,语言理解(NLU): “字意”的转换,声纹识别(SpkID): 谁的声音?,声学模型,语言模型,语义分析,对话管理,共性特征提取,规则提取,声纹辨认,声纹确认,个性特征提取,8,公司核心技术概述六大应用方向【现阶段】,中文整句输入法 d-Ear IME 得意输入法,声纹识别 d-Ear ID 得意身份证,语音命令与控制 d-Ear Command 得意命令,语言理解 d-Ear Parser 得意分析器,语言学习 d-Ear Teacher 得意教师,关键词检出 d-Ear Word-Spotter 得意关键词检出器,刑侦:辨认,国防监听:辨认,银行证券
4、:确认,嵌入式命令导航,声控拨号,家电控制,智能玩具,网上智能信息检索,计算机辅助教学,智能玩具,口语对话系统,呼叫中心,随意语音命令导航,自动总机接驳,国防监听,呼叫中心,笔划输入法,数字输入法,拼音输入法,个性化:确认,9,技术关系图,得意命令,得意输入法,得意关键词检出器,得意教师,得意分析器,得意身份证,语言模型,特定领域规则集,声学模型,个性化特征,语音数据库,文本语料库,API 应用,语音和语言处理技术分类,11,人类嘴巴的模拟语音合成技术 用以把文本转换成声音 完全人性化的、自然的语音合成需要语言理解技术的支持,12,人类耳朵的模拟识别和理解技术 共性特征相关技术 语音识别把声音
5、变成文字 语言理解把文字变成语义 其他相关技术 汉语整句输入法(利用中文语言模型) 汉语语言学习(利用语音识别技术) 个性特征相关技术 声纹识别从声音中提取出说话人信息,13,得意公司与竞争对手同类产品现行指标的比较,14,今天将为大家介绍与CTI相关的得意公司的三个技术和产品 得意接线员 得意身份证 得意语义理解,得意接线员技术,16,d-Ear Word-Spotter (得意关键词检出器),连续语音中的关键词检出技术。应用于一些具有特定要求的场合, 人们并不需要识别出整个句子,更不需要理解整个句子,而只关注那些包含特定词(称为“关键词”)的句子。根据一些应用的特殊需要,关键词检出器有一些
6、有别于其他语音识别器的地方。包括: 有的应用需要限定或假设一个句子只能含有一个关键词(如自动分机接驳),而有的应用则不希望有这样的限定(如电话监听)。 有的应用希望“宁错勿漏”( 如电话监听),而有的应用则希望“宁漏勿错”(如自动分机接驳)。术语漏识;误警或虚报;操作点,17,得意关键词检出器(d-Ear Word-Spotter)的API V1.0,从内核到接口是完全自主知识产权的,有如下的特征: 非特定人,连续语音。 词表可随意定制。 句中关键词个数可以设定。 良好的拒识性能。 很低的漏识率和很低的误警率。 操作点易于调整。 实时响应。 适应各种不同的信道(如固定电话、手机和IP电话)。,
7、18,得意接线员(d-Ear Attendant),得意接线员(d-Ear Attendant)的API V1.0,是从得意关键词检出器派生而来的,它是专为下面用途而定制的: 实现24小时无人值守的电话自动转接,从而可以降低成本并且提高公司、企业形象。 外线转接不再需要查询分机号码表或依赖前台接线员,内线语音拨号可以使内部员工之间畅通无阻地沟通与合作从而提高工作效率。注:二次开发人员完全可以利用得意关键词检出器API自己开发类似的自动总机应用:单关键词;操作点偏向低误识率,19,得意接线员系统构架: 完全不需变动用户原有电话交换机 架构及设定,20,得意接线员(d-Ear Attendant)
8、的API V1.0,除具有得意关键词检出器的特点外,还有如下特点: 高检出率。检出准确率高达98%。 与硬件无关。得意接线员的识别引擎不需要引入额外的硬件即可实时处理语音流。与电话卡无关的特性使得用户可以基于任何电话卡构建自己的得意接线员。 图形化界面的词表编译器可以辅助用户高效、正确地管理和维护用户词表。超强的模糊校验能够智能地报出由于用户词表疏忽所带来的词表歧异问题。 简捷实用的例子程序。用户可以基于该例子程序了解得意接线员的功能及其特性并在此基础上定制开发自己的得意接线员。,21,图形界面的用户词表编译器 公司或单位进行人员维护(人员增减、电话号码变化等)时使用 名字有多音字时,管理员可
9、以设定对此名字有一种或多种读法 在发生重名时提示管理员输入“确认信息”,以便得意接线员与来电者交互确认(一般地,确认信息不是必需的) 编译器自动产生得意接线员所需要的内部格式,对管理员完全透明,22,应用举例 右图是某公司人事部管理的人员名单;下面是应用对话示例:系统:请于哔声后说出要找的人的姓名,按跨过该提示,按0进入人工服务哔 用户:你好,我找张总。 系统:转接张三,请稍后 转接1001分机。系统:请于 用户:按 系统:哔 用户:王王五在吗? 系统:转接王五,请稍后转接1003分机。系统:请于 用户:按 系统:哔 用户:麻烦你给我转接李四先生。 系统:请问你找市场部的还是财务部的? 用户:
10、市场部的李四。 系统:转接市场部李四,请稍后转接1002。系统:请于 用户:按 系统:哔 用户:请接张山。 系统:如果您是找张三,按1;按可重说;按0可转人工服务 用户:按1。 系统:转接张三,请稍后转接1001。,声纹识别技术,24,d-Ear ID (得意身份证),每个人的指纹都是唯一的,与此类似,每个人的声纹也是唯一的。 说话人识别,也称声纹识别,就是根据人的声音特征,“闻声知人”。声纹识别有两方面: 说话人辨认(Speaker Identification):用以判断某段语音是若干人中的哪一个所说的 说话人确认(Speaker Verification):用以确认某段语音是否是指定的某
11、个人所说的,25,得意身份证(d-Ear ID)的API V1.0,从内核到接口是完全自主知识产权的,有如下的特征: 文本和语言无关性。 对语音长度没有特殊要求,是二次开发人员可以定制的。训练语音最长8秒;使用时测试语音最长4秒(可以不断累积)。 很高的识别精度:说话人辨认的正确率不小于98%;说话人确认的误识率和误拒率均低于1%; 所需模型存储空间小。用以存储每个人声纹的空间5KB。 操作点调整方便。 “准确率不确定率错误率100”。,26,应用范围: 说话人辨认: 刑侦破案; 罪犯跟踪; 国防监听; 个性化应用;等等。 说话人确认: 证券交易、银行交易; 公安取证; 个人电脑声控锁,汽车声
12、控锁; 身份证; 信用卡;等等。,27,应用举例得意通行证(d-Ear Passport) 结合d-Ear Word-Spotter技术和d-Ear ID技术,目的是双保险地防止有人恶意窃取声纹信息。 应用举例如下: 在银行开户时,要求他/她“书面”给出一些问题和答案(不必录音),如母亲的姓名、自己的生日、宠物、汽车牌照等等他人不易知道、自己无需记忆的“问题/答案”对,当然越多越安全。然后要求他/她说几秒钟的话,以记录声纹。 当用户需要用过电话进行交易时,系统“随机”地从用户地问题集中选出两三个进行提问,根据用户的回答,系统既可判断其声纹,又可判断其答案。可有效防止有的人把其声音录下来再放音,
13、或模仿他说话。 d-Ear Passport可以省掉用户记密码的苦恼,降低密码被窃取的风险。,28,应用举例得意声纹屏保(d-Ear ID Screen Saver) 在用户的个人电脑上安装得意声纹屏幕保护程序后,可以设定允许进入此电脑的用户名列表并为每个用户采集其声纹信息。当机器空闲一段时间且自动激活此屏保后,任何一个被授权的用户只要对着电脑说几秒钟的话,即可通过声纹的身份验证而获得电脑的使用权;而其它非被授权的用户,无论对电脑怎样说或者说什么,都将被拒之门外。 得意声纹屏保的声纹验证机制,再加上Windows系统原有的屏保密码验证机制,将使您个人电脑的安全性进一步得到提高。 得意声纹屏保可
14、以让您找到阿里巴巴“芝麻开门”的感觉。,29,得意声纹屏保 超级用户管理可以增加用户并记录声纹、自适应现有用户的声纹、减少用户,或调整操作点阈值 登录界面可以检验用户是否是自己宣称的那个人,中文语言理解技术,31,d-Ear Parser (得意语义分析器),“得意”语义分析器,特定领域的汉语自然语言理解的分析器。可用在诸如电话、手机、无线通讯等没有键盘可以输入文本的地方,进行智能查询、信息获取等。包括: 基于文本:在互联网络或短信上用于理解用户问题,并为用户提供相应的服务; 基于语音:在无线互联网络或电话网络上用于与用户进行语音对话。 该技术可以为CTI和Call Center带来革命性的服
15、务理念。 相对于规范语言,对自然语言的理解具有更大的难度。这是因为自然语言包含大量的口语语言现象,诸如:省略、指代、更正、重复、强调、倒序等等。涉及到语音的口语对话系统将还包括噪音、含混不清、口头语、吃音、音变等等口语语音现象。 相对于基于关键词的技术,语言理解技术的优势是: 直接。在信息查询时,用户可以不必进行多级菜单的选取而直奔主题。 灵活。用户在查询时不必严格按照某些“关键词”进行询问,只要用户的叙述在“语义”上与要查询的一致即可。,32,得意语义分析器(d-Ear Parser)的特点包括: 支持上下文相关理解,允许用户进行一些省略; 用户可以自由变换话题的特点; 系统与用户可以混合主
16、导对话:内部的对话管理器可以知道还有哪些问题已经得到用户的回答,哪些问题需要得到用户的回答, 并且可以提醒系统主动询问用户来获取足够的信息。 把d-Ear Word-Spotter和d-Ear Parser结合起来,可以实现基于语言理解的口语对话系统(SDS, Spoken Dialogue System),使得人们与计算机可以进行相互对话,进而让计算机理解人们所说的话,清楚人们的需要,并提供相应的信息服务。,未来CTI中的语音处理技术,34,当前在CTI中,IVR所使用的语音处理技术主要包括: 语音合成技术 孤立词语音识别技术,或关键词检出技术 主要劣势是: 繁琐的菜单驱动 受限的说话方式 不远的未来可以使用的语音处理技术包括: 完全自然的语音合成技术 语音理解技术 语音识别 语言理解,技术演示,36,d-Ear Word-Spotter,语音命令 关键词检出器 (实际系统),37,d-Ear ID,说话人辨认 (实际系统),38,d-Ear Parser,航班信息查询 (实际系统) 校园导游系统 (实际系统),Q/A,语音处理技术包含哪些分类?,问题1:,说话人识别有哪两类?各有什么应用领域?,问题2:,得意语音 与您心意相通的人性科技,The End.,