1、语音识别的研究现状和应用摘 要 11 背景介绍 .12 发展历史 .13 具体应用 .14 语音识别系统原理 .25 现有算法介绍 26 尚未解决的问题及值得研究的方向 .3摘 要语音识别技术是一门涉及面很广的交叉学科。随着新理论的提出和应用,语音识别技术取得了很大的进步,许多产品已经得以实际的应用,但在其进一步的发展进程中,还有许多棘手的问题有待解决。 关键词:语音识别;动态时间规整算法;人工神经元网络。1 背景介绍 语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相
2、连。 语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。 2 发展历史1952 年贝尔实验室的 Davis 等人研制成功了能识别十个英文数字发音的 Audry 系统,标志着语音识别技术研究工作开始。20 世纪 60 年代计提出了动态规划(Dynamic programming)和线性预测分析技术( Liner Predictive)等重要成果。20 世纪 70 年代,语音识别领域取得了突破。实现了基于线性预测倒谱和 DTW 技术的特定人孤立语音识别系统。20 世纪 80 年代语音识别研究进
3、一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进入 20 世纪 90 年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20 世纪 80 年代,近年来发展迅速,并取得了一系列的成果。 3 具体应用 随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。 在许多政府部门、商业机构,语音识别技术的应用,
4、可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP 电话和 IP 传真、电子商务、自动语音应答系统、自动语音信箱、基于 IP 的语音、数据、视频的 CTI 系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168 自动信息服务系统, 112、114、119 等信息查询系统) 等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。 当今,语音识别产品不仅在人机交互中,占到的市场
5、比例越来越大,而且在许多领域都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。4 语音识别系统原理 语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。 语音识别过程如图所示。下面对该流程作简单介绍:(1)语音采集设备如话筒、电话等将语音转换成模拟信号。(2)数字化一般包括预滤波、采样和 A/D 变换。该过程将模拟信号转变成计算机能处理的数字信号。 (3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。 (4)参数分析是对短时信号进行分
6、析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。 (5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。 (6)该过程是语音模型的学习过程。 5 现有算法介绍 语音识别常用的方法有:模板匹配法、人工神经网络法。 (1)模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征提取和特征维数的压缩,这个过程常用的方法是采用矢量量化(VQ )技术。然后采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音
7、模式的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。研究表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在 70 年代提出的动态时间伸缩算法(DTW )很好的解决了这一问题。DTW 算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题 。设测试的语音参数共有 M 帧矢量,而参考模板有 N 帧矢量,且 MN,则 DTW 就是寻找一个时间归整函数 tn=f(tm),它将测试矢量的时间轴 tm 非线性地映射到模板的时间轴tn 上,并使该函数满足第 k 帧( k=1,2,M)测试矢量
8、I 和第 f(k)帧(f(k)=1,2N)模板矢量 J 之间的距离测度之和最小: 另外,在实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语音的端点检测会存在较大的误差。DTW 算法起点点可以固定在(tm,tn)=(1,1) ,称为固定起点;也可以选择在(1,2) 、(2,1)等点,称为松驰起点。同样,中止点可以选择在(M,N)点,称为固定终点;也可以选择在(N 一1,M)、(N ,M 一 1)等点,称为松弛终点。松弛的 DTW 算法的起始点从(1 ,1)、(1,2) 、(2,1)等点中选择一最小值,终止点从(M,N)、(M,N-1)、(M-1,N)等点中选择一最小值,两语音样
9、本之间的相互距离在相应的点放松后选择一最小距离。松弛 DTW 可以克服由于端点检测不精确引起的误差,但运算量加大。 6 尚未解决的问题及值得研究的方向 (1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。 虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展