口语测试模糊评分方法设计及实验研究.doc-道客多多

资源描述

1、口语测试模糊评分方法设计及实验研究2008 年 5 月第 31 卷第 2 期现代外语(季刊)ModemForeignLanguages(Quarterly)May2008Vo1.31No.2口语测试模糊评分方法设计及实验研究上海交通大学金檀王琰宋春阳郭曙纶提要:本文对口语测试模糊评分方法进行设计及实验研究 .在分析不同口语测试评分方法的基础上,本研究将语言测试理论与模糊控制理论相结合,提出了口语测试的三种模糊评分方法:(1) 整体主观模糊评分法;(2) 分项主观模糊评分推理法 ;(3)分项主观模糊评分加权法.采用这三种模糊评分方法对 34 名汉语言专业留学生进行实验,结果表明,三种方法所得的分

2、数均服从正态分布,之间没有显着差异,并且与现行评分方法所得的口试分数,笔试分数之间分别呈显着相关及切实相关关系.关键词:口语测试,模糊评分,评分方法中图分类号H319文献标识码 A文章编号1003.6105(2008)02-0157-081.引言1.1 选题评分方法是测试过程中至关重要的环节(BachmanPalmer1996),在现行的口语测试评分方法中.评分员往往要根据整体或分项评分量表通过某一特定的数值对考生的表现进行评价(Underhill1987;Fulcher2003;Luoma2004).在实际的口语测试评分操作中,我们发现仅使用某一特定数值进行评价较为困难.因而本研究尝试设计口

3、语测试模糊评分方法,先对考生的表现进行“范围“ 上的评价,而后推算出明确的“数值“.1.2 解题口语测试评分方法是评分员根据评分规则对考生表现进行评价的方法.根据评价的“前 “中“后“三个阶段.评分方法可有如下分类:(1)评价“前“:根据评分规则 (或评分员)对口语能力是否可分所持的观点(整体或分项),评分方法可分为整体评分法和分项评分法.(2)评价“中“:根据评分员评价的主观或客观性质.评分方法可分为主观评分法和客观评分法.(3)评价“后“:根据评分员给出的分数是“数值 “还是“范围“,评分方法可分为精确评分法和模糊评分法.关于模糊评分法,张文忠,郭晶晶(2002) 提出了模糊评分这一思路,

4、具有创新意义.图 l 是 I=I 语测试评分方法分类图.由于现阶段采用真正意义上的客观评分并不现实并且本文主要研究模糊评分,因而本研究不考虑“ 客观评分“ 和“精确评分“.经过评价的“前 “中“后“三个阶段(虚线框表示),模糊评分方法具体实现为整体主观模糊评分法和分项主观模糊评分法.本研究还对分项模糊评分采用推理和加权两种方法进行处理,因此.本研究中的口语测试模糊评分方法主要指以下三种:(1)整体主观模糊评分法;(2)分项主观模糊评分推理法;(3)分项主观模糊评分加权法.1.3 研究问题本研究中的模糊评分方法主要根据智能感谢现代外语编辑部和匿名审稿专家提出的宝贵意见.感谢上海交通大学国际教育学

5、院提供的帮助.本文受到上海交通大学人文社会科学基金项目“汉语水平机助自适应测试系统题库建设理论研究“(编号 o431)和上海交通大学文科科研创新基金项目“留学生汉语口语语料库建设及研究“(编号 07QN008)的资助.158 口语测试模糊评分方法设计及实验研究一一一一一一一1.一一一一一一一一一一一lt一一一一一一一一一评价“ 前 “:评价 “中“.I:评价“后“图 1 口语测试评分方法分类图控制理论中模糊控制的原理设计而成.模糊控制是扎德在 1965 年首次提出的,它是一种应用模糊集合理论的控制方法,它不仅提出了一种用于实现基于知识(规则)甚至语义描述的控制规律,而且为非线性控制器提供了一个

6、比较容易设计的方法(蔡自兴 1998).本文尝试将模糊控制原理运用到口语测试评分中,旨在解决以下两个问题:(1)评分方法设计:三种模糊评分法具体如何设计?(2)评分方法效果:三种模糊评分法的实验结果如何?2.口语测试模糊评分方法设计2.1 整体主观模糊评分法整体主观模糊评分法是对考生表现的整体评价,由“模糊化 “和“清晰化“两个步骤组成.“ 模糊化 “过程是指评分员通过模糊集合对考生的表现打分.本研究将每个模糊集合vO)1用 5 个等级表示:不及格,及格,一般,良好,优秀.所有的模糊集合都用这 5 个元素及其隶属度来表示(图 2 是隶属度函数示意图).隶属度表示对应分数属于某个概念的程度,例如

7、,某评分员对考生口语整体水平的 5 个模糊概念的隶属度进行打分:考生在 10%的程度上属于“不及格“ 概念 ,在 65%的程度上属于“ 及格 “概念 ,在 20%的程度上属于 “一般“ 概念 ,在 5%的程度上属于“ 良好“概念,在0%的程度上属于“ 优秀“概念 .其实,模糊概念的评分就是语言变量 T(整体评价)=不及格,及格,一般,良好,优秀中每个元素的隶属度.应当指出,所有元素的隶属度之和须为定值,本研究中隶属度之和取 100,便于评分员理解和操作.同理,分项主观模糊评分即为4 个考察项目(语音,内容,准确度和流利度)分别进行类似的操作.由于整体主观模糊评分和分项主观模糊评分的等级标准是一

8、致的,因此两者的模糊集合隶属度函数图也相同柏 5O607O8O图 2 隶属度函数示意图金檀王琰宋春阳郭曙纶本研究的“清晰化 “主要通过重心法进行,通过取模糊隶属度函数曲线同基础变量轴所围面积的重心的横坐标作为清晰值.例如,某评分员采用整体主观模糊评分法对某考生的表现进行整体评价,结果为l0,65,Ulu)l20,5,0,化为标准隶属度表示为0.10,0.65,0.20,0.05,0.00,图 3 中的阴影部分就是这个隶属度函数曲线与基础变量轴所围成的图形,这个图形重心的横坐标就是清晰值,也就是该考生的精确分数.405060708090l00图 3 清晰化过程2.2 分项主观模糊评分推理法分项主

9、观模糊评分推理法由“模糊化“,“模糊推理“和“清晰化“三个步骤组成.首先获取考生“语音“,“内容“,“准确度“ 和“流利度 “四个分项的模糊集合分数,即“ 模糊化 “过程 (同 2.1 模糊化方法 ).然后进行模糊推理,模糊推理是通过模糊逻互./辑理论和推理规则将多个模糊集合推理成一个模糊集合的过程,“它是在二值逻辑三段论的基础上发展起来的“(蔡自兴 1998:119)本研究在推理过程中采用两级推理的方法(如图 4):4 个输入先两两分别进行一级推理,其结果进行二级推理,然后再进行“ 清晰化 “.巨堕一匝_ 一图 4 分项评分两级模糊推理本文使用 Mamdani 直接推理算法进行推理(易继锴

10、,侯媛彬 1999).以下以某评分员对某考生“语音“ 和“内容“的评分为例进行说明.首先对表 l 中对应的两个模糊集合的隶属度两两进行取小操作,然后根据研究需要制定模糊推理规则(见表 2),将表 l 中的结果对应到表 2 中可得到表 3.对表 3 中的25 个结果按照所属的“不及格 “,“及格“,“一般“,“良好“,“优秀“ 分别进行归类,可得:不及格=0, 及格=0,0,5,5,15,15,60,一l60 口语测试模糊评分方法设计及实验研究般=0,0,5,5,5,5,20,20,30,良好=0,0,5,5,5,优秀 =0,0,5.然后对每个类别进行取大操作:max 不及格=max0=0,ma

11、x 及格=max0,0,5,5,15,15,60=60,max 一般=max0,0,5,5,5,5,20,20,30=30,max 良好=max0,0,5,5,5-5,max 优秀=max0,0,5_5. 因此,该考生语音和内容推理结果为0,60,30,5,5.“准确度“和“流利度“ 的推理同上述方法 .再将两个推理的结果进行二级推理(同上述方法),得到的结果再进行“ 清晰化“(同 2.1 清晰化方法).可得到该考生的精确分数.表 l 某考生语音和内容分数的推理(1)2.3 分项主观模糊评分加权法分项主观模糊评分加权法由“模糊化“,“加权 “和“清晰化“三个步骤组成 .首先获取考生“ 语音 “

12、,“内容“,“准确度“和“流利度“ 四个分项的模糊集合分数,即“模糊化“ 过程(同2.1 模糊化方法).然后将四项模糊分数按照设定的权系数(本研究中均取 1)进行加权,得到一个加权后的模糊集合后再进行“清晰化“(同 2.1 清晰化方法 ).以下用某评分员对某考生的评分为例进行说明(见表 4),加权后的模糊集合为5,38.75,46.25,8.75,1.25,然后将该模糊集合进行清晰化,可得到该考生的精确分数.金檀王琰宋春阳郭曙纶 1613.口语测试模糊评分方法实验3.1 实验对象本研究以上海某高校汉语言专业二年级留学生为实验对象(被试),共 34 人参加了本次口语测试实验,表 5 是被试的总体

13、情况.3.2 实验工具(1)测试工具: 试题,评分标准及评分表,口语测试说明,准考证及考场情况记录表,录音设备.(2)数据处理工具:MATLAB7.0 和表 5 被试总体情况一览表SPSS13.0.3.3 实验过程2007 年 7 月 9H 和 7 月 l0 日实施口语测试,考生分别通过候考教室,准备教室及测试教室完成测试任务,两名评分员独立评分.测试后将相关材料存档,并完成评分数据的输人和校对工作.使用 MATLAB7.0 为评分方法编写程序并获取实验结果,图 5 是程序流程图.3.4 实验结果实验得到以下结果(见表 6):(1)整体主观模糊评分法结果(记为“整体“);(2) 分项主观模糊评

14、分推理法结果(记为“推理“);(3)分项主观模糊评分加权法结果(记为“加权“).3.5 结果检验3.5.1 正态性检验对三种方法所得的实验结果通过 SPSS13.0 进行正态性检验.表 7 正态性检验表中包括 KolmogorovSmirnov 检验和 Shapiro.Wilk 检验的结果.从表 7 中可知,这两项检验的结果都没有拒绝零假设,显着值均远远大于 0.05,因此,这三种方法所得分数的分布均服从正态分布.3.5.2 单因素方差检验这三种方法所得的分数是否存在显着差异?我们通过 SPSS13.0 进行单因素方差检验来回答这个问题.表 8 是方差齐性检验表.表中显着值为 0.563,大于

15、 0.05,表明各组方差是同质的,可以进行单因素方差检验.表 9试题题型参照高等学校外国留学生汉语言专业教学大纲对二年级学生言语能力中“说“ 的要求 (国家对外汉语教学领导小组办公室 2002:13)设计;评分标准参照“口语考试五级标准“(北京语青大学汉语水平考试中心 2003:14)及英语专业四级口试“评分标准 “(文秋芳 1999:106107)制定了整体和分项评分标准.l62 口语测试模糊评分方法设计及实验研究图鱼图 5 程序流程图表 6 实验结果数据表表 7 正态性检验表真显着性的下限.aLilliefors 显着性校正.金檀王琰宋春阳郭曙纶是单因素方差检验表.表中显着值为 0.555

16、,大于 0.05.因此我们可以得出结论,三种模糊评分方法所得的分数之间不存在显着差异,即三种不同的方法对评分结果没有显着影响.表 8 方差齐性检验表表 9 单因素方差检验表3.5.3 相关分析在语言测试中.四项技能存在着实质上的相关联系(Wood1993)2o 本研究选取“ 汉语视听“,“汉语口语“,“ 汉语阅读“ 和“汉语写作“ 分数 (采用现行评分方法)与三种模糊评分法所得的分数进行相关分析.应当指出,本实验的口语测试于 2007 年 7 月 9 日和 7 月10 日进行.该批考生在 2007 年 7 月 9 日和 7月 11 日还参加了“汉语视听 “,“汉语写作“和“汉语阅读“ 的期末笔

17、试 ,具有较好的共时效度:同时考虑到本次实验是“汉语口语“ 的期末考试,因而还选取了该批学生“汉语口语“的期中考试分数(采用现行评分方法,以下记为“ 汉语口语“)进行相关分析.表 l0 是相关分析数据,从表中可知,三种模糊评分方法所得的分数与“汉语口语“ 分数的相关系数均在 0.O1 水平上显着,分别为0.806,0.761,0.799,平均值为 0.789(保留小数点后 3 位),与笔试分数的相关系数均在0.O1 或 0.05 水平上显着,最低为 0.398,最高为 0.505,平均值为 0.459(保留小数点后 3位).表 l0 相关分析数据注:?表示相关在 0.01 水平上显着(双尾检验),表示相关在 0.05 水平上显着(双尾检验).笔者认为,在汉语作为第二语言的测试研究中,由于汉字的因素以及学生第一语言背景的不同(例如 13 韩学生的汉字认读

展开阅读全文