收藏 分享(赏)

一种利用人工神经网络优化语音识别的方法.doc

上传人:无敌 文档编号:162994 上传时间:2018-03-22 格式:DOC 页数:5 大小:80.50KB
下载 相关 举报
一种利用人工神经网络优化语音识别的方法.doc_第1页
第1页 / 共5页
一种利用人工神经网络优化语音识别的方法.doc_第2页
第2页 / 共5页
一种利用人工神经网络优化语音识别的方法.doc_第3页
第3页 / 共5页
一种利用人工神经网络优化语音识别的方法.doc_第4页
第4页 / 共5页
一种利用人工神经网络优化语音识别的方法.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、一种利用人工神经网络优化语音识别的方法 魏爽 三亚学院信息与智能工程学院 摘 要: 语音识别就是利用机器通过识别和理解, 将语音信号转变为文本, 已经在很多行业得到了应用。由于每个人说话的方式都不同, 其说话的特征都不一样。说话人识别就是通过一段语音识别出说话人的技术。结合人工神经网络对语音识别进行优化, 平均准确率达到了 94.5%。关键词: 神经网络; 人工智能; 语音识别; 数据挖掘; 反向传播; 作者简介:魏爽 (1984) , 女, 湖北鄂州人, 硕士研究生, 讲师, 研究方向:数据挖掘。收稿日期:2017-09-02A Method to Optimize Speech Recog

2、nition with Artificial Neural NetworkWei Shuang Sanya University School of Information and Intelligence Engineering; Abstract: Speech recognition means to transfer speech signal into a text with a machine by. It has been applied in many fields. Because every speaker speaks differently, there are dif

3、ferent characteristics in their speeches. Speaker recognition refers to recognize the speaker of a spoken phrase with a machine. By using ANN, the average accuracy of the proposed recognition model is 94.5%.Keyword: Neural Network; AI; Speech Recognition; Data Mining; BP; Received: 2017-09-021 引言受生物

4、神经网络启发, 1943 年心理学家 Mc Culloch 和数学家 Pitts 合作提出了形式神经元的数学模型。人工神经网络 (Artificial Neural Network, ANN) 由大量高度互联的信息处理单元组成, 这些信息处理单元共同合作完成信息处理工作。这使得 ANN 特别适合于处理直觉和形象思维信息。经过了半个世纪的发展, ANN 已经在图像处理、语音处理、以及人工智能的其他领域得到了广泛的应用。语音识别就是利用机器通过识别和理解, 将语音信号转变为文本。近20 年, 语音识别领域得到了快速发展。市场上在家电、通信、消费电子产品等领域已经有一批语音识别的应用。本文通过将 A

5、NN 和数据挖掘技术应用到语音识别上, 优化语音识别性能, 平均识别准确率达到了 94.5%。2 基本概念2.1 人工神经网络ANN 是一种非线性的预测模型。它模仿生物神经网络的结构, 经过训练学习, 可以通过相对简单的函数组成的网络, 以任意的精度近似任何非线性函数。经过多年的发展, 现在的神经网络模型有很多种, 如自适应谐振理论、反向传播 (Back-Propagation, BP) 网络以及 Hopfield 网等, 其中 BP 网络应用的最为广泛1-3。人工神经网络的结构基本上可以分为递归 (反馈) 网络和前馈网络两类。神经网络由单个的神经元组成。每个神经元由多个输入 xi, i=1,

6、 2, , n 和一个输出 y 组成, 中间状态 e 由输入信号的权和表示如公式 (1) , 为阈值。输出 y 一般采用二值函数或者 S 形的函数, 如 (2) 、 (3) 所示, (3) 为常用的 Sigmoid 函数。构造好了神经网络后, 需要训练样本集对神经网络进行训练学习。一般来讲, 训练样本集包含了输入信号 (X1、x2) 和输出值的希望值 z。神经网络的训练是一个迭代的过程。每一次的迭代都根据训练样本集中的数据对权值进行修正。2.2 数据挖掘数据挖掘就是从大量的数据中发现隐藏在数据里面的信息。使用数据挖掘, 可以让拥有大量数据的机构将其关注的重点放在最重要的信息上。2.3 语音识别

7、语音识别即是从听到的语音或者音频文件中识别出其中特定语言的语句, 输出对应的文本。说话人的场景、语气以及说话发音习惯等都会对语音识别的精度有较大影响。此外, 从某种程度上来讲, 词汇量是无限的, 语音识别系统应该具备智能识别未知词的能力4-6。3 实验方法特征提取就是通过对原始数据进行变换得到最能反应分类本质的特征。线性预测系数就是一种能够有效表示语音信号的特征:通过对若干过去的语音采样进行线性组合来逼近当前的语音信号, 可以得到一组唯一的预测系数, 即线性预测系数。其优势在于可以用极少的参数来正确地表示语音信号的时域和频域特性7,8。在本文中, 每一个语音信号样本都用 p 个之前采集的语音样

8、本的权和加上一个激励表示, 如公式 (4) 。sn表示表示语音信号样本, ak表示预测系数。在保证最小预测误差的情况下, 获取线性预测系数。总的平方预测误差为:线性预测分析就是要确定 ak的值, 使得 (5) 的值最小。可以通过使 (5) ak对应的偏导数为 0, 获取最终的 ak。表 1 实验结果统计 下载原表 具体的实验步骤为:首先, 从包含有预先定义好的输入和目标向量集的数据文件中加载数据, 通过数据挖掘提取特征信息并优化, 创建神经网络, 再用加载的数据对神经网络进行训练, 直至找到输入和目标之间的关系。4 实验结果二层前馈网络是最常见的采用反向传播算法的神经网络。反向传播算法的主要思

9、想是通过输入信息经输入层和隐层逐层计算出各单元的输出值, 然后将输出误差逐层向前计算出各单元的误差并利用此误差修正前层的权值。文中实验采用的就是这种二层前馈网络, 在其隐层使用了 20 个神经元, 输出层的神经元为1 个。实验先对神经网络进行训练。然后, 采用了 25 个人的 100 组语音数据对神经网络进行测试, 实验结果如表 1 所示。此模型总的准确率为 94.5%。5 结语通过实验可以看出, 采用反向传播算法的神经网络模型适合于语音识别。下一步, 通过优化数据挖掘算法, 进而语音特征进行进一步的优化, 进一步提高模型的性能。参考文献1毛健, 赵红东, 姚婧婧.人工神经网络的发展及应用J.

10、电子设计工程, 2011, 19 (24) :62-65. 2汤素丽, 罗宇锋.人工神经网络技术的发展与应用J.电脑开发与应用, 2009, 22 (10) :59-61. 3于俊婷, 刘伍颖, 易绵竹, 李雪, 李娜.国内语音识别研究综述J.计算机光盘软件与应用, 2014, 17 (10) :76-78. 4禹琳琳.语音识别技术及应用综述J.现代电子技术, 2013, 36 (13) :43-45. 5詹新明, 黄南山, 杨灿.语音识别技术研究进展J.现代计算机 (专业版) , 2008, (09) :43-45+50. 6纪友芳, 刘桂斌.一种改进的线性预测语音编码技术及实现J.计算机工程与应用, 2009, 45 (15) :163-165. 7孔俊宝.语音信号的线性预测编码技术J.电讯技术, 1987, (05) :31-40. 8王山海, 景新幸, 杨海燕.基于深度学习神经网络的孤立词语音识别的研究J/OL.计算机应用研究, 2015, 32 (08) :2289-2291+2298.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报