1、语音遥控器的设计摘 要本文采用凌阳SPCE061A单片机设计了一种基于16 位单片机的语音遥控器系统。本文采用了一种具有较高识别率,硬件电路成本低的特定人孤立词语音识别技术。其中介绍了SPCE061A的主要特点,给出了基于SPCE061A的语音遥控器的硬件模块电路构成和相关程序流程。本设计依据非特定发音人识别原理,将经过处理的输入语音的特征参数作为未知模式,与预先存储的标准模式进行比较,通过调用SPCE500A 的C 函数库和语音处理函数库中的函数来实现语音识别、处理与控制,并采用SACM S480 音频编码算法播放提示语音. 该遥控器用语音命令代替按键输入,具有更友好的人机界面和更人性化的操
2、作方式。关键词:SPCE061A;语音识别;音频编码 Voice Control DesignAbstractIn this paper, Sunplus SPCE061A microcontroller design based on a 16-bit microcontroller voice remote control system. In this paper, a high recognition rate, low cost hardware circuits of isolating the specific terms of speech recognition techno
3、logy. SPCE061A which introduced the main features are based on the remote control SPCE061A the voice of the hardware module circuit processes and procedures. The design based on non-specific pronunciation recognition principle, will be processed the input parameters as the voice of the unknown model
4、s, and pre-storage standard model, by calling SPCE500A of C functions and voice processing functions in a function to achieve voice Identification, treatment and control and use of SACM S480 Audio Coding play voice prompts. The voice commands used in lieu of a remote control button input, a more fri
5、endly interface and more humane methods of operation.Keywords: SPCE061A; speech recognition; audio coding SCM; TV; Channel election1 绪论1.1引言语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。用语音命令控制各种应用系统,能够给使用者带来极大的方便,尤其是在人的双手被占用而无法操作时语音控制尤为重要,这必将成为智能控制系统的一种发展趋势。而家用电器发展的一个重要方面是让用户界面更加人性化,更加方便自然,做到老年人和残疾人可以无障碍地运用。利用语
6、音识别技术实现语音控制是提高家电产品用户界面质量的一条重要途径。本文以语音控制遥控器为例,说明语音识别技术如何应用在家电器领域。近几年来由于电子技术的迅猛发展,语音识别技术及其应用研究越来越受到人们的重视。让机器听懂人的语言已成为可能。本文介绍了一种具有较高识别率,硬件电路成本低的特定人孤立词语音识别技术。利用这种技术研制的语音控制型空调遥控器能准确方便的对电视机进行正常操作控制。随着科技的发展和社会文化事业的进步,电视机可供观众选择的频道数目日益增多。但是传统的电视遥控方法需要观众记忆每个电视台对应的频道序号,否则就无法快捷地将频道切换到所需位置,这显然给许多用户带来了很大的困难。利用凌阳科
7、技有限公司专门为语音处理而设计研制出的 16 位单片机SPCE061A 设计了一个彩电智能声控选台系统。该系统无需对电视机做任何改动,在保留原有遥控功能的基础上,实现语音控制选台,较好地解决了记忆频道这个难题。1.2本文的主要内容本文主要介绍了以下几个方面的内容,第一章为绪论,简单介绍了语音遥控器的一些应用背景及设计意义;第二章是设计的总体方案,第三章为系统的硬件电路设计,详细介绍了系统的各个模块电路的设计。第四章为系统的软件设计,主要介绍系统各部分的软件设计流程。然后是对完成本论文的一个总结。2 系统总体设计方案本文所设计的电视语音遥控器,主要由键盘输入电路、MIC 输入电路、语音输出电路、
8、红外发射电路组成,电路框图如下图 2.1 所示:图 2.1 系统总体设计图用户通过按键,完成遥控功能保留按键功能、语音报温和报时功能。SPCE061A 有 1 路专用于采集语音信号的 A/D 转换电路(MIC 输入)和 7 路用于其它功能的 A/D 转换电路。前者能用来进行语音识别、录音等的语音信号的输入,在本遥控器里用来采集语音信号,进行语音识别;后者中,选择其中 1 路进行温度采集,由按键控制温度的播报。SPCE061A 有丰富的时基信号,采用 2Hz 的时钟进行计数,并进行万年历计算,由按键控制播报时间。 单片机键盘输入MIC 输入语音输出楚红外发射3. 系统硬件电路设计3.1 SPCE
9、061A单片机简介本系统采用 SPCE061A 单片机作为主控芯片。SPCE061A 不但具有微控制器的功能,还具有 DSP 运算功能,可用来进行数字语音(音乐)信号处理。在存储器资源方面考虑到用户资源 的需求较少以及便于程序 调试 等功能 ,SPCE061A 只内嵌 32 K 字的闪存(FLASH)和 2 K 字的 SRAM。较高的处理速度 , 能非常容易、快速地处理复杂的数字信号。因此,以为核心的 SPCE061A 微控制器是适用于数字语音识别应用领域产品的一种非常经济的选择。其主要特点如下: 共有 84 个引脚 ,封装形式为 PLCC84。工作电压: DD 为 2636 V(CPU),
10、DDH 为 VDD55 v(io)。CPU 时钟为 03249152 MHz。 2 个 16 位可编程定时计数器 (可 自动预置 初始计数值);2 个 10 位 DAC (数模转换)输出通道 ;32 位通用可编程输入,输出端口;具备键唤醒能力;14个中断源可来 自定时器 AB、时基 、2 个外部时钟 源输 入和键唤醒 。SPCE061A 是一款基于 内核的 16 位单片机,使用凌阳科技的音频编码 SACM_$240 方式(24 Kb,s)能容纳 210 S 的语音数据。 其芯片特性如下:工作电压:内核工作电压 VDD 为 3.03.6V(CPU) ,I/O 口工作电压 VDDH 为2.45.5
11、V(I/O) ;CPU 时钟:0.32MHz49.152MHz;内置 2K 字 SRAM 和 32K 闪存 ROM;系统处于备用状态下(时钟处于停止状态) ,耗电小于 2A、3.6V具备触键唤醒的功能;32 位通用可编程输入/输出端口;2 个 16 位可编程定时器/计数器(可自动预置初始计数值) ;7 通道 10 位电压模-数转换器(ADC)和单通道声音模-数转换器;2 个 10 位 DAC(数-模转换)输出通道;14 个中断源可来自定时器 A/B,时基,2 个外部时钟源输入,键唤醒;具备串行设备接口;低电压复位(LVR)功能和低电压监测(LVD)功能;内置在线仿真(ICE,In-Circui
12、t Emulator)接口 最小系统接线如图 3.1 所示,在 OSC0、OSCI 端接上晶振及谐振电容,在锁相环压控振荡器的阻容输入 VCP 端接上相应的电容电阻后即可工作。其它不用的电源端和地端接上 0.1F 的去藕电容提高抗干扰能力。图 3.1 最小系统图3.2 SPCE061A开发方法SPCE061A 的开发是通过在线调试器 PROBE 实现的。它既是一个编程器(即程序烧写器),又是一个实时在线调试器。用它可以替代在单片机应用项目的开发过程中常用的软件工具硬件在线实时仿真器和程序烧写器。它利用了SPCE061A 片内置的在线仿真电路 ICE(In- Circuit Emulator)接
13、口和凌阳公司的在线串行编程技术。PROBE 工作于凌阳 IDE 集成开发环境软件包下,其 5 芯的仿真头直接连接到目标电路板上 SPCE061A 相应管脚,直接在目标电路板上的 CPU-SPCE061A 调试、运行用户编制的程序。PROBE 的另一头是标准 25 针打印机接口,直接连接到计算机打印口与上位机通讯,在计算机 IDE 集成开发环境软件包下,完成在线调试功能。图 3.2 是计算机、PROBE、用户目标板三者之间的连接示意图:图 3.2 用户目标板、PROBE、计算机三者之间的连接图3.3 键盘电路设计键盘电路设计如图 3.3 所示:图 3.3 键盘电路设计图硬件上共设计了 13 个按
14、键,采用 44 的行列式键盘,IOB0IOB3 设置成输入口,IOB4IOB7 设置成输出口,预留 3 个按键作为备用键。 为了能输入字段号,惟便建立语音样本,SPCE061A 单片机扩展了一个行列矩阵式非编码键盘。键盘共有 13 个按键其中十个定义为:09 数字键,一个定义为:语音样本建立键(TRN) ,一个定义为:语音样本清除键(CLR) 。由于控制面板只在建立语音样本时使用,为防止误操作,应将这 13 个按键用塑料外壳封闭起来。3.4 语音命令提取单元语音命令提取单元在电视话音和其它噪音背景下,完成提取出操作者语音命令功能,MIC 选用驻极体送话器, 它具有结构简单、重量、体积小、频率响
15、应宽保真度好等优点,但灵敏度低, 必须再加放大器才行。由于输出阻抗可高达 10 数量级,所以必须进行阻抗变换后才能与放大配合使用。放大器采用差分放大电路,一个驻极体话器面对送话者,其输出接放大器正向输入端; 另一个驻极体送话器背对送话者,其输出接放大器负向入端。由于两个送话器相对于电视机和其它噪声源位置基本一样,可以近似认为通过二者输入的干扰是一样的。但考虑语音命令提取单元到送话器具有方向性,前者送入的操作者语音命令远远大于后者, 适当选择各电阻值可以抵消掉各种干扰。图 3.4 语音命令提取单元3.5 语音命令识别单元语音命令识别单元采用凌阳公司的 SPCE061A 单片机,这是一种语音识别系
16、统级芯片,实际上是一个 DSP+MCU,并将 A/D、D/A、RAM、ROM 以及预放、功放等电路集成在一个芯片上的系统,拥有强大的语音数据处理能力并具有良好的接口功能。语音识别电路如图 3.5 所示:图 3.5 语音识别电路图语音识别分为特定发音人识别(Speaker Dependent )和非特定发音人识别(Speaker Independent )两种方式。特定发音人识别是指语音样板由单个人训练,对训练人的语音命令识别准确率较高,而其他人的语音命令识别准确率较低或不识别。非特定发音人识别:是指语音样板由不同年龄、不同性别、不同口音的人进行训练,可以识别一群人的命令。语音样板的提取非常重要
17、。例子程序就是采用特定发音人识别方式。我们将标准模式的存储空间称之为“词库” ,而把标准模式称之为“词条”或“样板” 。所谓建立词库,就是将待识别的命令进行频谱分析,提取特征参数作为识别的标准模式。识别过程首先要滤除输入语音信号的噪音和进行预加重处理,提升高频分量,然后用线性预测系数等方法进行频谱分析,找出语音的特征参数作为未知模式,接着与预先存储的标准模式进行比较,当输入的未知模式与标准模式的特征相一致时,便被机器识别,产生识别结果输出。如果输入的语音与标准模式的特征完全一致固然好,但是语音含有不确定因素,完全一致的条件往往不存在,事实上没有人能以绝对相同的语调把一个词说两遍,因此,预先制定
18、好计算输入语音的特征模式与各特征模式的类似程度,或距离度的算法规则固化在 ROM 中,把该距离最小,即最类似的模式作为识别相应语音的手段。当然,影响识别率的因素还有一些,如连续发音(如英语)与断续发音(如汉语)的不同(二者区别在于单词间隔有 200ms 以上的空隙时间) 。例子程序采用特定人识别方式,将训练的标准样板存于内部 RAM 中(掉电丢失) ,每次上电复位后都要进行训练,用户可以扩展一块 FLASH ,将训练的标准样板存于 FLASH ,这样就不需要在每次上电复位后再次训练。3.5.1 语音识别控制系统语音识别控制系统结构如图 3.5 所示:图 3.5 语音识别控制系统结构3.5.2
19、语音识别算法消费类电子产品中的语音识别主要为孤立词识别,它有两种实现方案: 一种是基于隐含马尔科夫统计模型(HMM)框架的非特定人识别; 另一种是基于动态规划(DP)原理的特定人识别。它们在应用上各有优缺点。DP 特定人识别的优点是方法简单,对硬件资源要求较低。此外,这一方法中的训练过程也很简单,不需预先采集过多的样本,不仅降低了前期成本,而且可以根据用户习惯,由用户任意定义控制项目的具体命令语句,因而适合大多数家电遥控器的应用。1) 端点检测方法影响孤立词识别性能的一个重要因素是端点检测准确性。在 10 个英语数字的识别测试中 60 毫秒的端点误差就使识别率下降 2%。对于面向消费类应用的语
20、音识别芯片系统,各种干扰因素更加复杂,使精确检测端点问题更加困难.为此,李虎生等在参考文献5中提出了称为 FRED(Frame-based Real-time Endpoint Detection)算法的两级端点检测方案,提高端点检测的精度。第一级对输入语音信号,根据其能量和过零率的变化,进行一次简单的实时端点检测以便去掉静音得到输入语音的时域范围,并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的 FFT 分析结果,分别计算出高频、中频和低频段的能量分布特性,用来判别轻辅音、浊辅音和元音;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。FRED 端点检测算法根据语音的
21、本质特征进行端点检测,可以更好地适应环境的干扰和变化,提高端点检测的精度。2) 模板匹配算法DTW 是典型的 DP 特定人算法,为了克服自然语速的差异,用动态时间规整方法将模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得出识别判决的依据。为了提高 DTW 识别算法的识别性能和模板的稳健性,采用了双模板策略,第一次输入的训练词条存储为第一个模板,第二次输入的相同训练词条存储为第二个模板,希望每个词条通过两个较稳健的模板来保持较高的识别性能。综上所述,本语音识别系统采用了改进端点检测性能的 FRED 算法,12 阶 Mel 频标倒谱参数(MFCC)作为特征参数使用双模板训练识别策略。通过
22、一系列测试,证明该系统对特定人的识别达到了很好的识别效果。3.6 控制面板为了能输入字段号, 以便建立语音样本,SPCE061A 单片机扩展了一个行列矩阵式非编码键盘。键盘共有 12 个按键其中十个定义为: 09 数字键,一个定义为: 语音样本建立键(TRN) ,一个定义为: 语音样本清除键(CLR ) 。由于控制面板只在建立语音样本时使用,为防止误操作,应将这 12 个按键用塑料外壳封闭起来。3.7 操作指示电路采用两片数码管和译码驱动电路 CC4558 组成操作指示电路。在本系统中,操作指示电路的作用是: 建立语音命令样本时,用于显示存入的字段号; 语音命令识别时用于显示识别结果及芯片识别
23、结果的处理报告。3.8 逻辑控制电路整个逻辑控制电路如图 3.6 所示。SPCE061A 单片机通过并行接口输出识别结果,经过逻辑控制电路进行必要的译码后,用来控制后面的红外发射装置。图 3.6 逻辑控制电路图3.9 遥控发射电路红外遥控发射器主要由三大部分组成: 一是键盘矩阵,二是发射专用集成电路,三是放大驱动和红外线发射部分。该电路与电视机的特定型号有关,可以根据电视机品牌选用适当的专用红外发射电路。需要说明的是: 由于不同品牌电视机的红外发射、接收电路各不相同,因此它只对兼容电视有效。3.9.1 原理分析 1) 遥控指令编码规律 遥控器所发送的功能指令码一般采用多位二进制串行码,本例程序
24、是海尔29T6B-T 型彩色电视的红外遥控码,其编码规律为:头脉冲、系统码、资料码、资料反码和结束位。头脉冲用作一帧命令的起始位;系统码用于区别不同类的电器;资料码用于完成命令功能。海尔 29T6B-T 型彩色电视的系统码为 0x08,资料码见表 8.1,资料反码是将资料码按位取反的码。每次进行发送都是先发送脉宽4510us、周期 2*4510us 的头脉冲,然后连续发送两次系统码、接着发送资料码及资料反码、最后发送结束位,波形见图 3.7。图3.7 遥控指令编码图表3.1 遥控器资料码表2) 数据的脉冲编码 红外通讯数据采用脉冲编码,所谓脉冲编码,就是将每位数据信号用一个脉冲来表示。例子程序
25、的红外编码以脉宽561s、周期4*561s代表“1” ;以脉宽561s、周期2*561s代表“0” 。脉冲信号都调制在占空比为1/3,频率为38kHz的载波上再发送出去,调制后的信号“1”和“0”如图8.15所示。这样做有两点好处:第一,减少了有效的发射时间,有利于降低平均功耗,这对于采用干电池供电的发射器十分重要;第二,外部干扰信号多为缓变信号,有利于抗干扰。图3.8 信号0和13.9.2 硬件电路 系统由键盘电路和红外发射电路组成,利用SPCE061A的IOA口扩展了4*8键盘矩阵;发射电路中三极管Q1(选用8050)用于对信号放大,R4选用200电阻,R5选用10电阻,C5选用220F,
26、D1为红外发射管。见图3.9。 各个按键功能如表3.2所示:表3.2 按键功能表图3.9 红外线遥控装置硬件连接3.9.3 程序设计SPCE061A的IOA0-IOA7设置为输入时具有按键唤醒功能,例子程序中将其设置为带下拉电阻的输入口,IOA8-IOA11设置为带数据缓存器的输出口。键盘程序比较简单,此处不做详细介绍。串行码的发送主要用到SPCE061A的TimerA和TimerB两个定时器,IOB8编程为第二功能时,可以由定时器TimerA控制输出占空比可调的脉宽调制信号APWMO,38K载波信号就是利用TimerA的APWMO输出产生,将APWMO信号频率设置为38K,串行码为1时打开A
27、PWMO输出,为0时关闭APWMO输出(输出低电平) ;用TimerB控制脉冲宽度,发射流程见图8.17(a),头脉冲、0信号、1信号的发射流程见图8.17(b)。图3.10 程序流程图4. 系统软件设计在软件设计方面,采用模块化程序结构。4.1 主程序系统控制模块由单片机、红外接收发送器、电源管理电路组成。单片机负责整个遥控器的系统控制。单片机作为主控芯片,进行键盘扫描,根据用户通过键盘输入的指令,分别完成学习遥控码;控制 DSP 进行语音训练、回放、识别;将识别结果转换成相应的遥控码,通过红外发光管发射出去。单片机与 DSP 之间通过标准的 RS232 串行协议通讯。主程序流程如图 4.1
28、 所示:图 4.1 主程序流程图系统初始化的过程:先对系统时钟、IO 口、中断(打开按键唤醒和 2Hz 中断)进行初始化,然后扫描按键,如果有按键,进行相应处理,无按键则进入睡眠模式。在使用前,按“学习键“ 进入学习状态,用户先对学习型遥控器训练语音命令,并使其学习与各语音命令相对应的原遥控码型。使用时按“识别键“ ,进入语音识别状态,等待语音处理模块返回结果,若返回正确的识别结果,则把相应的遥控码发射出去。例如,原电视遥控器数字键“1“对应中央 1 台,用户的训练命令为“中央 1 台“ ,学习了原遥控器的数字键 “1“的遥控码,并使其与训练命令“ 中央 1 台“对应起来。于是使用时只需对着学
29、习型遥控器的麦克风说出“中央 1 台“,电视就会切换到中央 1 台。这样用户不需要记住每个电视台与台号的对应关系,相对于枯燥的频道数字,用户自定义的命令更容易记住。 4.2 键盘扫描程序 由于机械触点的弹性作用,在键被按下或弹起时会出现电压抖动,从最初按下到接触稳定要经过数毫秒的弹跳时间,如图5.3所示。为保证键识别的准确,必须进行去抖动处理,去抖动有硬件和软件两种方法。硬件方法就是加去抖动电路,从根本上避免抖动;软件方法有很多种,本例中主要是利用主程序的循环扫描,主程序循环一次,扫描一次按键,当连续N次扫描到的键值都一样时,则说明是稳定的按键值。图4.2 键按下的过程图 4.3 按键处理流程
30、图4.3 语音模块语音播放模块应用凌阳科技提供的音频编码算法,首先在 PC 机上录好提示语音文件(WAV 文件),并经所提供的压缩工具进行压缩处理以形成二进制文件,加载到用户程序中,编译链接后存储到单片机 FLASH 中,播放时再解压缩送 D/A 还原出语音。对于应用 unSPTM 内核的 SPCE 系列芯片,向用户提供三种不同压缩率的算法,各种压缩算法的名称及编码率类型列在表 4.1: 表 4.1 压缩算法的名称及编码率类型压缩算法名称 语音压缩编码率类型 SACM_A2000 16KBits/s、20KBits/s、24KBits/sSACM_S480 4.8KBits/s、7.2KBit
31、s/s SACM_S240 2.4KBits/s这三种压缩算法的区别在于压缩率和音质的不同。SACM_A2000 算法的压缩率相对较小,音质较好,相应地,占用的资源较多。SACM_S240 算法的压缩率最大,音质相对较差。SACM_S480 算法介于这两者之间。每种算法都有完整的供程序调用的库函数,软件编写非常方便。 本语音遥控器采用 SACM_S480 算法。语音提示背景播放程序: SACM_S480_Initial(1); /播放硬件资源初始化 ACM_S480_Volume(15); /初始化音量 SACM_S480_Play(result,3,3); /播放函数 while(SACM_
32、S480_Status() /播放服务函数 SACM_S480_Stop(); /停止播放 主播放函数 SACM_S480_Play(int Index,Int Channel,Int Ramp_Set)有三个参数:1. Index:播放索引号; 2. Channel:播放通道。1通过 DAC1 通道播放,2通过 DAC2 通道播放,3通过 DAC1 和 DAC2 通道播放; 3. Ramp_Set:消除开始放音时的“啵”声。 程序包括三部分:训练样本.识和别和语音提示。由于语音样本是存在 内部 RAM 中,掉电将丢失,所以在每次上电复位时都必须重新训练,训练过程主要是靠调用库函数 BSR_T
33、rain 来完成,为了防止误命令,每条语音命令训练 2 遍,只有 2 次命令相同时才成功,BSR_Train 函数有 8 种可能的返回值:0 训练成功;-1 没有检测到命令;-2 需要再训练一次,每条命令训练 2 次;-3环境太吵;-4 存储器满;-5 两次命令不一样;-6 命令序号超出范围; -7命令已存在;训练成功则训练下一条,否则继续训练。语音识别程序包括识别程序和中断服务程序。识别程序完成选取词库、初始化A/D 和定时器 TimerA 、识别运算及识别结果处理,流程如图 。中断服务程序定时读取 A/D 转换结果,并存入缓冲区,A/D 的输入为 MIC 通道的语音信号。语音识别和放音分时
34、复用 TimerAFIQ 中断,由标志位判断是语音识别处理还是放音处理。中断服务程序的流程图如图 4.4 所示:图 4.4 中断服务程序的流程图识别程序如下:BSR_InitRecognizer(BSR_MIC); /初始化识别器,包括 AGC、ADC、TimerAFIQ 中断 while(1) res = BSR_GetResult(); /主识别函数,识别成功则结果为语音命令的顺序号 if(res 0) /结果0,表明识别成功,相应处理 中断服务程序如下:_FIQ: PUSH R1,R4 TO SP /寄存器入栈 R1 = P_INT_Ctrl /读中断标志位 R1 /放音服务函数 FIQ
35、_ret: R1 = 0xa800; P_INT_Clear = R1; /清中断标志 POP R1,R4 FROM SP; /寄存器出栈 reti;5 总结与展望5.1 总结本文介绍了采用 SPCE061A 来完红外遥控、语音遥控器,系统只用了个芯片来完成语音处理和控制功能专用的语音处理芯片相比,具有结构单、成本低 、易实现的特点,并且凌阳技公司提供了丰富的 C 函数库和语处理函数库 ,供用户调用 ,缩短了开周期。该产品稍作改动,就可用来控空调机 、录像机等电器 ;利用 SPCE061A 的语音处理优势可组成语应答系统、语音合成系统 、互动式玩等,具有较高开发价值。从实验室走向市场的过程中,
36、可靠性与成本是遇到的最大挑战。采用双模板的 DTW 和两组端点检测 FRED 算法,可在系统资源和反应延时增加极小的情况下,有效地提高识别率和稳健性。该项技术成功地运用在学习型遥控器上,展现了语音识别技术在家电领域的广阔前景。5.2 展望当代,芯片设计行业发展十分迅速。可以预见在不久的未来,将出现速度更高、价格更低廉的专用语音识别芯片。在同一块芯片中,将集成与语音信号处理相关的各种模块,以降低产品的成本,同时在计算速度与存储容量上也将出现大的飞跃。开发人员不会再受到芯片速度与成本的严格限制,拥有更加自由应用语音处理的新技术、新成果的便利,同时产品的识别率也将有大幅度的提高,为语音识别产品的迅速
37、市场化铺平道路。1)语音模型的进步未来的语音识别模型的研究,将分为两种方向:一种是致力于小型识别系统模型的研究,主要考虑降低模型本身对硬件的速度和存储量的要求,同时兼顾语音识别的准确率;另一种则主要集中在大型识别系统的研究,着眼点在提高模型的识别率,同时尽量扩充识别的词汇量,使计算机可以完成对人的自然语音的识别工作。当前,一个重要的发展方向就是建立语音识别的混合模型,以达到在减少计算量的同时,提高识别率的目的2)对语音冗余信息的利用众所周知,在自然语音中,有轻重音之分和语音音调的不同等冗余信息。这些信息在某些情况下,对识别的正确性影响很大.将来的研究重点之一就是将语音的冗余信息也加入识别信息的
38、提取范围,从而提高机器识别的人性化程度。3)开发新技术未来将自适应技术、稳健识别技术等近些年发展的新技术应用于小规模的语音识别中.其中稳健语音识别技术可以更有效的提取语音信号中的信息,从而大大加强识别系统在强噪声、高干扰环境下的识别精度;提高系统鲁棒性能,使识别的数学模型可以适用于多种硬件平台,加快产品开发的速度。这种特性对小型语音识别系统而言,显得尤为重要。参考文献1赵力语音信号处理M .北京: 机械工业出版社,2003.2李晶皎嵌入式语音技术及凌阳 l6 位单片机应用M.北京:北京航空航天大学出版社 2003.3李虎生,等. 高性能汉语数码语音识别算法J.北京:清华大学学报( 自然科学版)
39、2000,404孙景琪. 遥控彩色电视机集成电路及应用M北京:人民邮电出版社,1995.5胡延平,等. 电视机智能声控选台系统设计与实现J通讯与电视,20016周季华,等. 语音识别在家电遥控器中的应用 J 计算机应用,20027杨行峻 迟惠生 语音信号数字处理 北京 电子工业出版社8郑 方 系列处理器原理及应用 北京 清华技术研究中心9胡汗才 单片机原理及其接口技术 北京:清华大学出版社10何立民 单片机应用系统设计 北京:北京航空航天大学出版社11陈铖,簿云飞 串行的接口方式及应用 信息工程学院学报12王侠 语音识别应用无限 计算机世界报,13杨行峻,迟惠生,等 语音信号数字处理 北京:电
40、子工业出版社14易克初,田斌,付强 语音信号处理 北京:国防工业出版社,15Lawrence Rabiner Bring-Hwang Juang. Fundamentals of Speech Recognition .Bei Jing: Tsinghua Univecity Public, 1999,12-7316李哲英等 tDSP 为核心的嵌 ATI 系统技术 电子产品世界,2001:117王田 M.嵌 A 式系统设计与开发 IKI IMP 清华大学出版祛 2002,1-2018Dreamtech 软件研发组,王勇等译. 嵌入式系统编程源代码解析 北京:电子工业出版社,2002 39-46
41、19李品皎 语语音识别方法研究与实现 沈阳;东北大学博士学位论文,1998,1-7520陈永彬 .数字信号处理技术 北京 :国防工业出版社,1987,12-1621张雄伟. DSP 的原理与开发应用 :电子工业出版社,1998,4-822杨行峡,迟惠生等编著. 语音信号数字 北京:电子工业出版社 1995,6-2023胡航 语音信号处域 M1,哈尔滨:哈尔滨工业大学出版社 ;2000,1-3024谢锦辉.隐马力科夫模型及其在处理中的应用 :北京航空航天大学出版2002,1-525B.David, J.GWilpon. Wither Speech Recognition: The Next 25
42、 Years.IEEE Comm. Magazine, 1993,31(11):54-6226L.R.Rabiner. Speech-processing Applications: The Goals for 2001. AT&T Technology, 1995, 10(2):26-3027Furui, Sadaoki. Speech Recognition Past, Present, and Future. NIT Review, 1995, 7(23 一 18Joseph Picone. Continuous Speech Recognition using Hidden Marko
43、v Models. IEEE Assp Mag, 1990, 7(7):26 4128Kai-Fu Lee. Automatic Speech Recognition: The Development of The SPHINX System.KluwerAcademic Publishers, 198929F.Jelinek. Continuous Speech Recognition by Statistical Methods. Proc IEEE, 1976,64(4):532-556.30R.Cole et al. The Challenge of Spoken Language Systems: Research Directions for Ninties. IEEE Trans. Speech&Audio, 1998, 3(l):1-2031S.Young. Large Vocabulary Continuous Speech Recognition: A Review. IEEE Signal Processing Magazine, 1996,10(2):45 一 57