1、 J I A N G S U U N I V E R S I T Y本 科 毕 业 论 文口语考试试题分类器的设计与实现The Design Budget Implementation of The Test Classifier for The Oral Exam学院名称: 电气信息工程学院 专业班级: 电信 1102 班 学生姓名: (3110503041) 指导教师姓名: 指导教师职称: 副教授 2015 年 6 月江苏大学本科生毕业论文-口语考试试题分类器的设计与实现口语考试试题分类器的设计与实现专业班级:电信 1102 学生姓名: 指导教师: 职 称:副教授摘要 随着计算机多媒体技术
2、的快速发展,多媒体阅卷越来越受到教育部门的重视。这使得口语考试试题分类系器越来越受人们重视,而支持向量机和口语考试试题分类有着良好的结合点,从而使得基于支持向量机的口语考试试题分类成为这个领域的研究热点,支持向量机是一种基于结构风险最小化准则的分类学习机模型,它的应用十分广泛。口语考试试题分类中,口语文本特征的提取和合理选择是实现口语文本分类的一个关键步骤。口语文本分类一般分为预处理、统计、特征提取、训练和测试评价这几个步骤。本文主要研究基于支持向量机的口语考试试题分类,首先,把口语考试的语音转化为文本作为语料,在根据口语考试得分不同将口语语料进行分类,把口语分类的问题转化为文本分类的问题;其
3、次是对这些口语文本进行特征的提取,组成特征向量,这些特征主要包括口语文本中的字符长度、名词代词比和定冠词频率误差等方面;最后利用支持向量机分类器根据提取的特征对口语进行分类,对比语料分类结果、看分类器的准确率,调整惩罚参数 c 来提高分类器的性能。实验表明 15.4 时,分类器的准确率达到最高 81.80%。c关键词:特征提取 文本分类 支持向量机江苏大学本科生毕业论文-口语考试试题分类器的设计与实现IThe design budget implementation of the test classifier for the oral examAbstract With the rapid
4、development of computer multimedia technology, multimedia scoring more and more attention to the education sector. This makes Oral Exam classification system is more and more peoples attention, and support vector machines and classification Oral Exam has a good combination of points, so that based o
5、n SVM classification oral examination papers become a hot topic in this area, support vector machine is a structural risk minimization criterion of classification based learning model, which is widely used. Oral Exam classification, extraction and reasonable choice spoken text feature is a critical
6、step towards spoken text classification. Spoken text classification is generally divided into pre-processing, statistics, feature extraction, training, testing and evaluation these steps.In this paper, based on support vector machine classification Oral Exam, First, oral exam voice into text as a co
7、rpus, in Speech and different will be classified, will be classified according to oral question oral exam score into a text classification problem ; Followed by the extraction of these features spoken text, composition feature vector, these features include aspects of spoken text characters in lengt
8、h, nouns and pronouns than the definite article the frequency error and the like; Finally, support vector machine classifier based on extracted features of spoken language to classify, compare corpus classification, see classifier accuracy, adjust the penalty parameter c to improve the classificatio
9、n performance. Experimental results show that 15.4, the classification accuracy of 81.80% the highest.Keywords: feature extraction text classification support vector machines江苏大学本科生毕业论文-口语考试试题分类器的设计与实现II目 录第一章 绪论 .11.1 课题研究背景和意义 .11.2 国内外研究的现状与发展 .11.3 论文内容的介绍 .2第二章 语音分类 .42.1 语音自动分类概述 .42.2 语音文本分类的
10、发展历史 .42.3 语音文本分类关键技术 .62.3.1 语音文本的表示 .62.3.2 语音文本特征的提取 .82.3.3 权重计算 .102.3.4 常用的文本分类算法 .112.4 文本分类的主要应用 .12第三章 支持向量机的产生与发展 .143.1 SVM 产生与发展 .143.2 支持向量机简介 .153.3 支持向量机分类 .153.3.1 线性可分支持向量分类机 .153.3.2 近似线性可分问题 .173.3.3 线性不可分问题 .173.4 常用的核函数 .193.4.1 核函数及特征 .193.4.2 核函数的判定和常用的核函数 .193.4.3 常用的核函数 .19第
11、四章 基于支持向量机的二分类文本分类器设计 .21江苏大学本科生毕业论文-口语考试试题分类器的设计与实现III4.1 实验平台简介 .214.2 语音分类特征简介 .214.3 特征提取流程 .224.4 语音特征数据处理 .274.4.1 特征数据分析处理步骤 .274.4.2 单词文本特征数据降维 .334.4.3 整体特征数据降维 .344.4 惩罚参数 C 的选取 .354.5 分类器性能测试 .36第五章 总结 .385.1 本文总结 .385.2 工作展望 .38致谢 .40参考文献 .41江苏大学本科生毕业论文-口语考试试题分类器的设计与实现0江苏大学本科生毕业论文-口语考试试题
12、分类器的设计与实现1江苏大学本科生毕业论文-口语考试试题分类器的设计与实现2第一章 绪论近年来,伴随着互联网的崛起,人们对口语考试试题自动分类器的需求越来越大。口语考试试题分类就是利用计算机技术对口语进行评分和评估。而且当下考试也已成为一种重要的考核形式,选拔人才、学生晋升、官员晋升等,但是如何利用计算机进行对口语评分的问题,仍然是一个亟待解决的问题。眼下对口语的评分主要还是由阅卷老师进行,这样的方法耗费了大量的人力物力,而且阅卷老师还带有主观性,会因阅卷老师的兴趣爱好、心态情趣和当时的状态等多种主管因素带来偏差,从而造成不公平。因此最大限度的降低主观因素对评分造成的影响是很有必要的,实现客观
13、有效而方便快捷的口语自动评分系统就很有必要。1.1 课题研究背景和意义随着全球计算机与通讯技术的飞速发展、互联网络的普及与应用, 传统口语考试的考试形式的弊端日益明显。传统口语考试效率低下,耗时长、成本高,需要大量的口语考官进行面试,一场考试只能对几名学生进行考评,若想对全体专业学生进行一次统一的口语考试,将是一项巨大的耗时耗力的工程;难以保证评分的公正、公平性,考官的考查点不同,势必会影响学生的分数,存在印象分,很难有一个水平的考评标准。但是,口语考试试题分类器的技术将口语考试的文本语料进行文本分类进而判定其与主题的相关性,恰恰解决了传统考试存在的一些弊端。节省人力物力,是口语考试更加的客观
14、,公正。同时语言文本信息的激增不仅增加了对于快速、自动文本分类的迫切需求,而且又为语料信息与客观主题的方法做了充分的准备。1.2 国内外研究的现状与发展现行高校所采用的口语考试形式主要是师生间“人人对话”这种面对面的考试形式。这种“人人对话”式口语考试的主要优点有:真实情景性(考虑到交际真实情景) 、交互性 (师生交互、考生之间交互 ),这让学生能够在真实的情景环境中进行自我发挥,利于互动交流。而这种考试形式也有其缺陷:考试效率低下,耗时长、成本高。人人对话就需要大量的口语考官进行面试,一场考试只能对几名学生进行考评,若想对全体专业学生进行一次统一的口语考试,江苏大学本科生毕业论文-口语考试试
15、题分类器的设计与实现3将是一项巨大的耗时耗力的工程;难以保证评分的公正、公平性,考官的考查点不同,势必会影响学生的分数,存在印象分,很难有一个水平的考评标准。所以 “人人对话”式的口语考试形式不能满足学校英语口语考试的需求,我们必须要重新规划和设计全新的口语考试模式,以适应高校日常的考试要求。针对传统的人与人面对面口语考试模式的弊端,利用文本分类技术设计并开发出一套“语音-文本语料-文本分类-与主题相关性”的自动评分系统 8。上个世纪 50 年代末开始的自动文本分类研究,其中 H.Puhn 在这个领域的研究拥有开创性的表现。到了 1961 年,Maron 发表了他的第一篇自动分类的论文,在当时
16、引起了不小的轰动,在这之后还有很多比较有影响力的科学家发表了自己关于自动分类的论文,其中著名的如情报学家 Sparck,Salton 等在这一领域进行了卓有成效的研究,直到 90 年代以来,统计方法和机器学习的这俩种方法被人们引进到文本自动分类中,并且取得了一定的成果而且逐渐取代了知识工程方法;机器学习方法较少的考虑文本语料的语义信息,因此将文本语料的的特征值提取并依据特征值判断主题匹配性的分类十分重要 1。相比于外国的口语考试语料分类器的研究,口语考试语料分类器的研究在国内还是比较晚的,据相关资料而知,国内的口语考试语料分类器研究工作是在上个世纪 80 年代开始的,大体而言国内的文本分类基本
17、上还是处在一个实验阶段。1.3 论文内容的介绍本文主要研究基于支持向量机的口语考试试题分类算法,文中主要介绍了支持向量机、以及支持向量机在口语考试中的应用,惩罚参数对 SVM 的影响等,结构安排如下:第一章,绪论。主要介绍了课题的研究背景、研究意义、国内外现状,概述本论文的的主要工作以及结构安排。第二章,语音文本分类相关知识。由于基于支持向量机的文本分类是众多文本分类方法中的一种,它以文本分类为基础。因此本文对文本分类的相关知识做了详细的介绍,如语音文本表示、特征选择。权重计算。文本分类算法等文本分类的关键技术。第三章,支持向量机相关知识。支持向量机的应用领域十分广泛,口语考江苏大学本科生毕业论文-口语考试试题分类器的设计与实现4试试题分类器是其中中一种比较典型的应用。本文研究的是基于支持向量机的口语考试语料分类的算法,所以也有必要介绍支持向量机的相关知识。本章中主要介绍了支持向量机的基本原理、支持向量机的分类、支持向量机的核函数。支持向量机的应用步骤以及支持向量机分类方法的优缺点。第四章,主要讲使用支持向量机在口语语料自动分类方面的应用,详细的介绍了如何建立二分类文本分类器,以及对支持向量机的性能的测试,从而使支持向量机的性能达到最佳第五章,总结和展望。本章总结了通过实验得出的结论,并叙述了本文中所用方法的不足,对将来的工作进行展望。