1、1第十一章英语测试语言教学和语言测试是学校整个教学过程中相互依赖、相互作用的两个最重要的方面。英语测试是英语教学过程中的一个重要环节,与此同时,英语测试也具有着特殊的意义。 首先,外语测试是六十年代初形成的一门新兴学科。它通过研究各种外语考试和测验的内容、方法、命题技巧和对测试的评价及成绩的评估,探讨外语测试的规律。外语测试是一个跨领域的学科,它的理论和应用涉及语言学(理论语言学、应用语言学、心理语言学和社会语言学) ,外语教学法,心理统计,教育测量和计算机科学等。其次,英语语测试的作用越来越多地被社会化。与测试关系最为密切的领域当然是英语教学,使用测试最为频繁的也是英语教师。但是,随着现代科
2、学技术的发展,英语测试已经现代化,并广泛应用于各种机构的人才选拔与职务晋升等工作中。因此,英语测试的发展及其研究成果引起了广大外语教师、测试专家、外语科研工作者、甚至一些部门行政管理人员的关注,英语测试的影响已经远远超出了英语教学领域本身。语言测试是教学的产物,自然会受到语言教学的影响,但另一方面,测试也会反过来影响教学。这种反作用,在相关文献中用得最多而且得到比较一致认可的术语是“backwash“,即反拨作用或反溅作用,它形象地说明了测试与教学之间的关系。设计科学有效的英语测试会对英语教学起到良性的促进作用,而当测试与教学目标不一致,或当测试被滥用以致于干扰了正常的教学秩序时,就会对教学产
3、生负面的影响。在最近几年我国英语教学改革的许多争论都与英语测试有关,因此,掌握英语测试的基础知识对于英语教师来说是非常重要的。11.1 外语测试的发展语言测试(主要指外语测试)是随着外语教学的出现而出现的,也就是说,有了外语教学也就有相应的外语测试。但是在上个世纪 40 年代之前,语言测试一直处于一种自发的、分散的状态。在这一阶段,语言学虽然有了一定的发展,但是尚未形成指导外语教学的系统理论,对于外语测试而言,更谈不上有什么科学的理论依据,缺乏明确的指导思想和科学的评价原则。从 20 世纪 40 年代开始,外语测试逐渐从教育测量学中分离出来,成为一门独立的学科。近 50 年来,外语测试己经形成
4、了多种学派、理论和方法。外语测试的形成、发展和完善同语用学、心理学和教学法密切相关。每一时期流行的语言学流派和教学法流派相应地产生了不同的外语测试理论,并依次经历了分离式测试(discrete-point testing) 、2综合性测试(integrative testing) 、交际性测试等阶段。分离式测试是伴随着现代测试理论的开始而产生的,它的理论基础是结构主义语言学和心理测量理论。结构主义语言学派认为语言是一个完整的体系,这个体系有相应的结构,任何一种语言都可以按照结构分解成不同的语言层次和语言单位。在教学中我们可以将语言知识分解成语音、语法、词汇等传授,将语言技能分解成听、说、读、写
5、等进行训练,而语言测试则可以分项测量以上这些方面的知识和技能。分离式测试具有以下几个主要的特点(李清华,2001):(1)测试可按语言结构层次由低到高进行,可以从听、说、读、写等方面测定学生的语言能力;(2)一道试题测试一个语言点,因此题项较多,测试内容覆盖面较宽;(3) 语言情景无限,但语言成分有限,因此测试语言成分更有效;( 4)测试精确客观,测试结果便于统计分析各项指标(如,难度、区分度等) ,最典型的题型是多项选择。分离式测试一度成为最受欢迎的英语测试方法,但是随着语言学与英语教学研究的不断发展,到了 20 世纪 60 年代,它的理论基础以及测试本身开始受到人们的质疑。首先,结构主义语
6、言学理论受到了挑战。Chomsky 提出了语言能力( linguistic competence)和语言行为(linguistic performance)的概念,与此同时,心理语言学也发展起来成为一门独立的学科。语言学理论和心理语言学的研究发现语言结构并不是可以那么容易地层层分离开来,语言技能不能完全被分割成孤立的成分。语言具有生成性和冗余性等基本特征,语言成分的简单相加并不完全等于语言体系的总和。人的人脑先天具有掌握语言的机制,人使用语言是人脑的创造性活动,语言能力包括语言使用者关于语言的全部知识。到 60 年代后期,社会语言学也开始受到人们的关注,社会语言学强调语言的使用受到人们的社会地
7、位和环境等社会因素的制约,也对外语教学和外语测试产生了很大的影响。与此同时,分离式测试本身也暴露出了一些问题。分离式测试更多地重视语言的形式而轻视语言的运用。多项选择题似乎仅仅考查受试者的鉴别能力,许多学生在考试中得到高分,但是实际的语言使用能力却很低。而且,分离式测试对英语教学也产生了一些负面的影响,学生为了准备考试而沉溺于多项选择题的题海之中,过多的精力被放在了猜题的技巧上面,而忽视了语言能力的真正的提高。在此背景之下,人们提出了综合性测试的方法。综合性测试把听、说、读、写等技能综合起来测试,从而衡量学生者的综合语言能力,它同时也强调语境在语言使用中的作用,测试考生在一定语境中使用语言的能
8、力。综合性测试主要题型有完形填空和听写等。综合性测试的提出并没有完全终止分离式测试的使用,许多外语测试都是采用折中的方式,把分离式测试和综合性性测试结合起来使用。Weir (1990: 2)总结说“ 应该3承认在实践中无论是采取的测试题型还是评价过程多数测试都含有分离和综合的成分”。从 20 世纪 70 年代开始,交际教学法开始逐步占据外语教学的主流,外语测试也随之发生了一系列的变化。Hymes(1972)认为,语言的运用涉及到一系列的社会文化因素,语言和文化是紧密联系的。无论是讲话,还是写文章,除了语法正确之外,还要考虑听者和读者的文化背景,考虑别人能否理解,能否接受。与此同时,Hallid
9、ay 也提出了语言的功能作用,即同一句话,在不同的场合之下,会有各种不同的意思,同时会产生不同的效果(转引自刘润清,韩宝成,2003) 。这些理论使得人们对于语言能力的认识得到了扩展,并提出了交际能力的概念。交际教学法的目标在于培养学生的交际能力,因此对于交际能力的定义就决定着教学与测试的内容。从上个世纪 70 年代以来,对于交际能力的构成存在着两种相反的观点。第一种观点认为人使用语言,靠的是一种单一的能力,不可划分为多个因素。这就是所谓单一能力假说(UCH,unitary competence hypothesis) ,这一观点显然与分离式测试不一致的,必需用一种综合性试题。其代表性试题形式
10、是完形填空,还有整段短文听写,短文改错等。但是,单一能力假说很快就被否定了。人们更倾向于认为交际能力是由多种因素构成的,并且这种观点成了主流。持这种观点的学者提出了好几种交际能力的组成模式,其中影响较大的有 Canale 和 Swain(1980)模式和 Bachman(1990)模式。前者认为交际能力包括语法能力、社会语言能力、语篇能力和交际策略能力四个部分。这一模式在 80 年代很流行,但也有缺陷:第一,它没有明确指出这四种能力之间的关系;第二,它没有得到以后语言测试实践的验证。进人 90 年代,Bachman(1990,1991)提出了一个新的语言交际能力(communicative l
11、anguage ability,CLA)的模式。他认为,语言交际能力就是把语言知识和语言使用的场景特征结合起来,创造并解释意义的能力,它由语言能力、策略能力和心理生理机制三部分组成。语言能力包括语言组织能力和语言使用能力。语言组织能力包含生成或辨认语法正确的话语能力、理解话语中主题内容的能力和把话语组织成口语或者书面语篇的能力。语用能力包含在具体的语境中语言的表达能力和解释在语段中符合社会习惯的语用行为。语言能力所涉及的各个方面及其之间的关系可以用图 1 表示(刘润清,韩宝成,2003:25):4图 1. 语言能力示意图Bachman 认为 Canale 和 Swain 提出的策略能力既不够全
12、面,因为它仅仅将策略能力看作是由于语言能力有限而使交际中断时使用的弥补手段,也没有说明策略能力运作的机制。Bachman 的策略能力实际上是人们使用语言进行交际时的心理认知过程,由评估策略、确定目标策略、制订计划策略和执行计划策略。评估策略主要完成这三种功能:第一,评估场景的特征,即找出与某一特定交际目标有关的语言使用的场景持征,以便确定实现这一交际目的是否可行,如果可行,在某一特定场景下达到这一目标需要哪些知识;第二,评估自己是否具备完成上述交际目标所需的知识;第三,评估交际目标实现的程度。Bachman 指出,在完成上述功能时,评估策略要使用各种知识和图式。就评估策略的第三种功能而言,如果
13、发现交际目标没有达到,就要从以下一个方面找出原因:第一,语法错误太多;第二,没有正确理解说话者的意图;说出的话与语境不相符;第四,知识图式使用不当或匮乏;第五,由于测试任务太难或其他方面的干扰,感到力不从心,不去积极地完成任务。前三条原因属于语言知识范畴,后两条则分别属于知识图式范畴和情感图式范畴。确定目标策略主要是决定你要做什么,对考生来讲,需要完成以下任务:1确定一系列可能的交际目标;2从这些可能的目标中选择一个或多个目标;3决定是否想达到上述目标。对命题人员来讲,则意味着:1.选择语言能力的一个或几个方面;2确定所要测量的语言能力的水平;3选择合适的任务。制订计划策略的主要功能是:1选择
14、有关的语言知识、知识图式和情感图式来完成特定的交际目标;2制订计划以完成在说出或理解某一话语时所需的知识或图 式。执行计划策略的功能在于通过适当的心理生理机5制把上述计划付诸实施。如在接受性语言使用过程中,要使用听觉和视觉技能等。心理生理机制本质上指在语言使用的实施阶段所牵涉的神经的和生理的过程。听和看是不同的,接收和输出也是不同的。在接收性的语言使用中,我们使用听和看的技能;而在输出性的语言使用中,我们使用神经肌肉技能(如发音器官和手指) 。例如,在考接收性语言时,考生需要使用眼睛和耳朵(生理的) ,而在处理所听和所看的语言时,则需要使用大脑(神经的或心理的) 。同样,在考输出性语言技能时,
15、考生在考虑说什么和写什么时,需要用大脑,而在说和写的时候,则牵涉到发音器官和手指。Bachman 认为,在任何场景下使用语言,这些元认知策略和语言知识的各个方面都是结合在一起互相作用、相互影响的,并且是不可分割的。不难看出,Bachman 的语言交际能力模式充分吸取了近年来语言学及应用语言学研究领域的最新成果,对交际能力的构成因素的描述更客观,更全面。它不仅指出交际能力应当包括语言能力、语篇能力和语用能力等范畴,而且还指出它们之间不是一个简单的并列关系,而是一种互动的关系。也就是说,语言的使用是一个动态的过程,各种知识、技能和心理过程交织在一起,相互影响、相互作用。语言测试的目的是测量学生的语
16、言运用能力,根据 Bachman 的理论,既然在语言运用时,交际能力的各种因素结合为一个整体而起作用,在语言测试中,自然也应该把交际能力的各种因素结合为一个整体加以测试。语言测试的真实性也是过去 20 年来测试界一直关注的问题。1984 年的国际语言测试大会对此进行了专门的讨论。Spolsky(1985)总结道:“ (语言测试的)真实性标准给测试领域提出了语用和伦理的问题。测试材料缺乏真实性对找们根据测试成绩所作出的推论也提出了疑问” 。对于语言测试的真实性,人们对此看法不一。一些人将此定义为“直接性”,即不通过语言能力的中介表现就能测量考生的语言能力。实际上,语言能力是不能直接考察出来的,因
17、为大脑神经的活动过程无法用试卷来测量。从这个意义上来说,所有的语言测试都是间接测试。另一些人将真实性定义为与现实生活的相似程度。由于现实生活中语言的使用作用变化很大,我们不知道哪种语言任务可以作为真实性的标准。还有人把真实性和测试的表面效度等同起来。这一定义也有问题,因为测试的表面效度完全是由评估者主观决定的。再有,在测试专家看来很真实的试题,在老师、学生或学生家长看来未必真实。针对上述不足,Bachman(1991 )提出应该从情景真实性和交际真实性两个方面来定义测试的真实性。所谓情景真实性,就是指测试方法特征与将来某一特定目的语使用的情景特征相关的程度。也就是说,我们在命制考题时,考试任务
18、的特征必须与将来目的语的6使用的情景特征相一致,做到了这一点,考试任务才具有了情景真实性。举例来说,参加商务英语证书(BEC)考试的考生在其工作中应当具有与客户用英语就商务活动面对面交谈的能力,该项考试的口试中就安排了考生之间面对面交谈这一活动,因此该口试具有很强的情景真实性。交际真实性是指考生在完成某一测试任务时,其语言能力的哪些方面参与了完成该测试任务的活动,参与的程度如何。与情景真实性不同,交际真实性强调的是考生与测试任务之间的交际关系。Bachman 认为,情景真实性和交际真实性只是两个相对的概念,我们只能说某测试的真实性“高”或“ 低”,不能简单地说它“ 真实”或“不真实”。此外,考
19、试的真实性通过直接观察是看不出来的,我们必须考虑考生的有关特征以及具体的语言使用场景。再以 BEC 考试为例,该考试对那些正在或将要从事商务活动的考生来说,其交际真实性很高,但对在校的师范英语专业学生来讲,其交际真实性就不足。11.2 测试的种类Henning(1987)指出,有多少测试的目的,就会有多少种类型的测试。这话的确很有道理,我们设计任何测试,并非总是按照一种模式,测试的目的不同,试卷的内容和要求也大不一样。按照不同的分类标准,语言测试可以被分为不同的类型。11.2.1 按照测试的用途划分语言测试根据用途的不同可以分成成绩测试、水平测试、诊断测试和潜能测试。成绩测试(achievem
20、ent test)以教学内容为基础,目的是要衡量学生对授课内容或是教学大纲要求内容或是教科书及其他资料的掌握程度。一般的随堂测验、期中期末测试多属于这一类测试。我国的高考外语试题严格来讲属于成绩测试,因为它必须参考中学的外语教学大纲:但它又是水平测试因为它常常包括一些考查学生解决问题和分析问题的能力的项目。相比之下,水平考试(proficiency test)不针对教学内容,不考虑考生学过什么内容,也不考虑是怎么学的,而是测试考生的语言能力,看考生是否达到某一水平,从而决定他是否胜任某一任务。如考查被测试人是否掌握进行学术研究所应具备的语言能力。像美国的托福(TOEFL) 、英国的雅思(IEL
21、TS)就属于水平测试。诊断测试(diagnostic test)用在课程进展一段时间之后,检验学生到目前为止的学习情况,通过评估学生拥有的某一方面的知识,确定修正错误所需要的知识。诊断测试可以考查单个项目(如被动语态) ,也可以是综合性的。由于考试只限于近期教学内容,所以考试时间不长。诊断测试的目的是为了发现教与学的问题以及学生知识与技能掌握的不足之处,以便因人而异,对症下药,调整教学计划,改进教学。潜能测试(aptitude test)用来预测学生的学习潜力和天赋。这种测试在我国使用不太多,在这儿也不多讲,仅举一例。美国的学术潜能测试(Scholastic 7Aptitude Test, S
22、AT)预测高中生在大学的学习能力,由于 SAT 成绩与考生的大学学习成绩相关系数比较高,很多美国大学在录取招生时都把 SAT 成绩视作一个重要的判断依据。11.2.2 按照学习阶段划分根据学习阶段来分,一个学期之内可以有编班测试、随堂测试、期中测试和期末测试四种。分级测试(placement test)是新生入学后进行的全面考查,目的是帮助教师掌握学生的语言水平,以决定教材的难易、教学进度等问题。有时还会根据学生的水平,将程度相对一致的学生集中在一起学习,以做到因材施教。分级测试需要拉开学生成绩的差距,所以一般试题设计的内容比较全面,从易到难的坡度也比较大,以求把学生分数的档次拉开。随堂测试(
23、classroom tests)指每教完一课书之后进行的小型测验。这种测试分量小,时间短,不超过一周的教学内容,形式可以多样: 拼写、听写、填空、释义、翻译等,但是,设计这种测试也不是信手拈来,教师应从长计划分课安排保证这一系列的测试有目的性、连续性、系统性。 在学期中间停课一周,进行复习,然后进行一次比较系统的考试,就是期中测试( mid-term tests)。这种测试不仅让学生在心理上有阶段感、轻松感,而且使学生有机会独立思考,对知识进行系统化。期中测试不仅要体现教学大纲的要求,突出重点项目,还要在随堂测试的基础上,要具有一定的综合性和系统性。期末测试(terminal tests)有三
24、个目的: 促使学生巩固所学知识,评价一学期的教学效果,调整下学期的教学安排设计。期末测试的原则是,以教学大纲为依据,全面反映该学期学生应该掌握的教学内容,但不再严格参考教科书的具体内容,而是变化语言材料来考查学生对所授知识的掌握,同时测试学生解决问题的能力。11.2.3 按照测试成绩的判别标准划分从考试成绩判别的标准来看,我们又可把测试分为常模参照性测试和标准参照性测试。常模参照性测试(norm-referenced test)是把某一考生考试的结果与参加同一次考试或同一种类型考试的其他学生的分数作比较,在小规模考试中,常模指同一组学生的平均分数。在大规模的标准化考试中,常模代表不同地区、不同
25、时间参加同一种类型考试(不一定是同一份试卷)的学生的平均水平。这种测试的目的是确定学生在掌握英语知识和运用英语能力上的差异,因此,必须使学生的测试分数档次拉开,然后参照每个学生的成绩把他们区分出好、中、差等,这种考试多用于选拔学生。标准参照性测试(criterion referenced tests)是以某种特定的语言能力标准作为判别标准的测试。通过这类考试,我们可以了解考生实际运用某种语言的能力,但不将其与其他考生相比较。其目的是根据考生能否令人满意地完成某一项或某些任务而将其进行分类。任务是固定的,只是对考生完成的情况进行评估。原8则上讲所有的考生都通过或一个也不通过都没有关系。11.2.
26、4 按照试卷的评阅方式划分根据试卷的评阅方式,语言测试可分为主观性测试和客观性测试。主观性测试(subjective test)是指试题的答案比较灵活,需要阅卷人对考生的作答情况作出主观判断的测试。语言测试中,简述题、翻译题、作文、口试等都属于主观性题目。主观性测试命题比较容易,考生不容易通过猜测得分,而且题目一般要求考生自由地表达思想,所以容易测出考生实际使用语言的能力。但是主观性测试也有明显的缺点。首先,主观题考察的语言现象有限。其次,评分比较困难。例如,对于同一篇作文,让不同的人打分,结果差异可能会很大。与主观性测试相反,客观性测试(objective test)答案唯一,不受评阅人的影
27、响。多项选择题属于典型的客观性题目。客观性测试的主要优点在于答案固定,评分简单,多数情况下可以使用机器来阅卷,因此能节省大量人力、物力和时间。另外,客观性测试覆盖面一般较大,针对性强,特别适合分离式测试。然而,多数客观性测试只要求学生打勾、填图字母、画圈等,再加上不少猜测因素,无法测量学生实际使用语言的能力,因此,遭到许多人的反对。12.3 测试的要素衡量一次测试的好坏,主要的标准是测试的效度和信度。效度(validity)是看一次考试是否测试了想要测的项目。例如,早期的托福考试用多项选择题的形式测试学生的写作水平,结果发现学生可能做选择题时对时态、主谓一致等内容都似乎掌握了,但到他们真正用英
28、语写作时,问题就都出来了。这就是一个没有测到真正想测内容的例子。正因为此,从 1987 年起,托福考试增加了一项写作的内容。效度往往要涉及以下几种类型:表面效度、内容效度、编制效度、共时效度和预测效度。表面效度(face validity)是指卷子首先看上去得让人觉得合适,尤其是让考生觉得合适。表面效度高的测试容易引起考生的兴趣。比表面效度更重要的是内容效度(content validity) ,这个要基于语言教师或测试者的专业判断,他们在自己对语言知识和教学大纲掌握的基础上,判断考卷中是否应该考查的语言要素和技能都有所体现。例如,如果要考查的技能之一是学生的写作技能,而卷子全部由多项选择题组
29、成,可能内容效度就不会太高。编制效度(construct validity)是说一套测试要以一定的语言行为理论和语言学习理论为依据。内容效度和编制效度联系非常密切。共时效度(concurrent validity)是将一次测试的结果,同另一次时间相近、公认效度较高的测试的结果相比较而得到的系数。例如,比较在某年元月先后参加了托福考试和清华大学英语水平考试的学生两次考试的成绩,如9果得分情况相似,即两组成绩的相关系数较高,那么清华大学英语水平考试就有较高的共时效度。预测效度(predictive validity)是将一次测试的结果,同后来的测试结果相比较而得到的系数。这涉及到测试的预测能力,即
30、测试结果在多大程度上能预测考生未来的学习成就。类似地,假设参加清华大学英语水平考试的一些学生一段时间后又考了托福考试,如果得分情况相似,即两组成绩的相关系数较高,那么清华大学英语水平考试就有较高的预测效度。信度(reliability)是指测试结果的一致性(consistency ) 。以水平考试为例,如果一项水平考试每年都举行两次,那同一个学生在准备程度相似的情况下,在哪一年或在那一年的哪一次参加考试,对他/她的成绩造成的影响应该可以忽略不计,这项考试的信度才高。同时,从阅卷人因素来看,同一份卷子由不同的阅卷人阅卷所得分数大致相同,或是由同一个人在不同时间阅卷所得分数也大致相同,这项考试的阅
31、卷人信度才高。影响信度的因素很多。例如,有的学生上午考试更能发挥水平,有的学生则下午考试更能发挥水平,这样,同样的考试究竟是在上午举行还是在下午举行对不同的学生可能就有不同的影响。又如,有的考试需要使用录音机,如果不同考场使用的录音机放音效果不同,甚至同一考场内考生坐的位置离录音机有远有近,都有可能对考生的成绩造成影响。不过,影响信度最主要的因素有两条:试题的采样和评分。决定测试信度的一个重要因素是试题是否有代表性,覆盖面够不够大。效度主要看项目的内容,信度还要看试题采样的多少。采样越多,信度越高。因为客观测试的试题量一般比主观测试大,所以更有代表性,也更有可能排除各种偶然因素,即信度一般更高
32、。决定测试信度的另一个重要因素是阅卷人因素。如果同一份卷子由不同阅卷人阅卷所得分数区别较大,或是由同一个人在不同时间阅卷所得分数区别较大,这项考试的阅卷人信度显然不高。因为客观测试的评分不太受阅卷人的影响,因此信度较高;而主观测试则由于评分常常在较大程度上因阅卷人而异,因此难以达到较高的信度。一次好的测试应该既有较高的信度又有较高的效度。效度和信度有着密切的关系,但又不能混淆起来。对测试来说,信度是必不可少的,但信度离不开效度,效度起决定性作用。如果一份试卷信度差,则必然不可能准确测试出学生对所考查知识和技能的掌握程度,因此效度也差;但一套卷子却有可能完全没有测出想要测的语言要素和技能(即效度
33、差) ,却有不错的信度,不过这样的试卷同样也起不到应起的作用。归纳起来,信度差则效度差,但效度差不一定信度差。不过只有信度和效度都不错,测试才能真正起到应起的作用。12.4 测试的总体设计10英语试卷的设计是一件很复杂的工作,尤其是对一些大型的考试来说,需要涉及很多方面,必须要有一个专门的小组,既要有懂考务的行政人员,又要有懂统计分析的专业人员和懂英语测试理论的专业人员。即使是一些小规模的测试,也需要教师本身懂得整个测试的设计流程及要求。在进行总体设计时,首先要确定考试的类别和目的。如上文所述,考试因目的和用途的不同而会有不同的类型。考试的目的不同,试卷的内容、要求也不一样。在确定考试的类别之
34、后,紧接着就要确定考试的内容。成绩测试的内容是由教学大纲规定的。一般来讲,教学大纲不仅规定了教学的内容,同时也规定了教学目标,即学生除了要掌握规定的教学内容之外,还应达到相应的行为目标和能力层次。在确定测试目的和内容的基础上,还要确定考试所使用的题型。一个考试到底应该采用那些题型,要看考试的类型、目标和要求。题型选择的好坏会直接影响到学生语言能力的测量。考试的类型、内容和题型确定之后,下一步就是安排试卷的总体结构,确定不同类型的题型在整体中所占的比重。语言测试界多年来存在着这么两种观点。以Oller(1979,1983)等人为代表的整体语言能力观认为, “语言能力可以归结为由这样一个期待语法生
35、成系统组成,而这一系统又是一个不可分割的整体。语言水平的构想也许更像粘性物质而不像一部现成的可以被拆成部件的机器。 ”他认为, “把英语作为第二语言的教学中,把听。说、读、写活动分离开来,不仅是无意义的,而且是有害的。 ”同样,在英语测试中,按照整体语言能力的观点,只需要设计出一种能衡量考生整体水平的试卷就够了。然而,不少学者认为语言能力是可分的。Palmer 和 Bachman(1981)的研究表明, “两种语言使用技能一口语和阅读,既在方向(输人和输出)又在途径(听与读)方面不同,在心理上也有明显区别,可以被单独地衡量”。Hughes 和 Woods(1981)的研究也证明语言能力整体说是
36、站不住脚的。既然语言能力可分,那么语音知识、词汇知识、语法知识可以分开来教,听、说、读、写等语言技能也可分开来进行操练。同样,语言知识和语言技能也可分开来进行测试,然后再综合评定一个人语言能力的高低。事实上,许多的英语测试也都是这样做的。需要指出的是,尽管语言能力可以划分为具体的语言知识和语言技能,但它们之间不是孤立的,而是相互联系的,是整体语言能力的一个组成部分。具体的语言能力提高了,整体语言能力自然也跟着提高。整体语言能力是看不见、摸不到的,我们必须借助各项具体语言能力来推断整体语言能力。既然语言能力可分,接下来我们就可以根据考生水平、考试的目的、规模、时间长短等来确定试卷各个部分的内容及
37、其所占的比重。比重的确定不是一个很简单的问题。首先,11要确定试卷各部分的比例;其次是研究每一部分有多少题目才能保证测试起码的效度;第三,题目数确定了,还要看考试时间是不是够。所以说,试卷的设计,必须要通盘考虑。下面我们分析一些试题的总体结构。某次中学英语水平调查测试中,初三和高三试卷的总体设计和分数分配如下:语音 语法 词汇和阅读 满分初三20 45 55 120语音 语法和写作 词汇和阅读 满分高三10 35 75 120表 1 初三、高三试卷总体设计尽管这两套试卷的总体设计还有一些不尽人意之处,例如,没有听力考察的部分,但是有一点是比较明确的:初三和高三的测试应该有所区别,分数分配也不一
38、样。初三试卷中,语言和语法占的比重大一些,没有测试写作知识,而高三试卷中,词汇和阅读的比重大一些,这是合理的。试卷的总体设计并没有一定之规,它是受考试目的制约的,同时也体现了命题的指导思想。总的来说,如果把语言能力分为接收能力(receptive skills)和运用能力(productive skills)两大项,测试初学者时,接收能力的题目多些;测试水平较高的学生时,运用能力的题目要多些。尤其是近些年来,人们越来越重视考查语言运用能力,这种项目的比重不断增加。根据考试目的,决定了考试的类型、内容、题型及各种试题的比重之后,接下来的工作就是命题。应该说,命题是整个考试工作中最重要的一环。这是
39、因为,考试目的再明确,考试要求再具体,题目设计不好,考试质量就无法保证。整个命题过程包括选材、编写试题、审题等环节,哪个环节出了问题都会影响到试题的质量。试题编写完之后,就要把它们拼成一套完整的试卷。拼成试卷后,还应从这几个方面对试卷进行审查:第一,设计的题目是否如实地反映出考试细目表中的内容和要求?第二,题目的要求是否明白无误?第三,试题前后是否有提示?如果发现有这样的问题,必须将这样的题目换掉。第四,题目的难度是否适中?第五,题目的覆盖面是否够广?等等。此外,编排试卷时还要注意先出现容易的题目,后出现较难的题目。题型相同的题目应放在一起。当一份试卷中既有客观试题又有主观试题时,一般将客观试
40、题放在前面,主观试题放在后面等等。规模大、影响大的测试在正式实施前还要进行试测,以验证试卷有没有缺欠,要不要作一些改动等。1212.5 英语测试常见题型英语测试中常见的题型包括多项选择题、是非题、配对题、填充题、听写、写作、口试等。12.5.1 多项选择题(multiple-choice items)多项选择题是英语测试中常用的一种题型,由一个题干和 45 个选项组成,其中一个为正确答案或最佳答案,其余的称为干扰项。多项选择题最突出的优点在于多项选择题(第四章有详细介绍)是外语测试中常用的一种题型。多项选择题是由一个题干和 45 个选项组成,其中一个为正确答案或最佳答案,其余的称为干扰项。多项
41、选择题的优点是:1)测试目的明确。多项选择题的设计者在设计此类题目时,其测试的目的是非常明确的。每个多项选择题只测试一个语言点。2)具有很好的诊断作用。多项选择题可以将测量的内容分解为若干个项目进行测量,老师可以通过分析考生在各个项目中出现的错误,及时发现问题,予以纠正;3)可以测试各个层面的语言知识和技能;4)答案固定,评分客观,不受评分人的主观影响,可以用机器来阅卷,省时省力,这也是为什么在许多大型的考试如高考、英语四、六级考试等多项选择题都占有相当比例的原因。5)试题覆盖面广,测试信度高。多项选择题的缺点是:1)题目很难设计,费时费力。在多项选择题中,有时要设计出高质量的干扰项是非常困难
42、的。2)不能测量考生的表达能力和综合语言能力。例如,多项选择题不能用于测试受试者的口语能力。而学习英语的主要目的是用英语进行交际,而口语能力是最重要的交际能力。这一点也是多项选择题受到批评的重要原因之一。另外,多项选择题用于英语语言测试时,有时测试的可能是受试者的逻辑推理能力。在做多项选择题时,如果受试者无法确定正确答案,那么他可能会采取排除他所认为是不正确答案的方法而选出答案。在这种情形下,该题所测试的就不是受试者的实际语言能力,而是受试者的逻辑推理能力。这是多项选择题的致命弱点之一。3)对教学和学习的反拨作用不好。由于多项选择题的选项中不停地出现错误信息,这必然会在某种程度上使受试者对自己
43、已有的知识产生困惑和疑问,甚至把错误的信息当成正确的知识。另外,由于考生可以通过猜测等所谓的做题技巧来解答多项选择题,容易造成学生在平时的学习中不注意语言水平的提高,而是把精力放在应试的准备上面。11.5.2 是非题(true-false items)是非题实际上是二项选择题,也叫做正误判断题。是非题首先是由教育测量学家 Ebel和 Friesbie 在上个世纪 70 年代开始大量推广的。他们(1986)主张使用该种题型的理由是:1)教育的本质是使学生获得可用语言表达的知识;2)这种知识可表述为命题;3)所有的13命题都有正或误;4)判断命题真伪的能力表明学业水平。是非题的问题以陈述句的形式出
44、现,要求考生指出其正误。是非题的优点是:1)命题容易,不需要提供多项选择题所要求的选择项,命题人员可以在短时间内编制大量的是非题;2)作答迅速,节省时间。考生在短时间内可以完成许多测试题目;2)适合于随堂测试使用,老师可以随时利用学生易犯的错误编写是非题;3)评分客观。是非题的主要缺点是猜测机率大。由于考生只在“是”和“非”之间进行选择,因此猜中的机率高达 50。因此,在重要的考试中人们一般不使用这种题型。为了降低猜测率,除了“是”和“非”这两个选项外,一般再加一个选项“没有提到”(NOT GIVEN 或者 DOES NOT SAY) 。11.5.3 配对题(matching items)配对
45、题可以看作是一种改良的多项选择题。它与多项选择题的区别是:前者是若干题目共同使用几个选项,而后者是一道题有几个选项。配对题一般分两组,一组是问题,另一组是与之相配的选项,一般选项的数量要多于问题的数量。要求考生从选项中给每道题选配上一个最合适的答案。配对题的形式有多种多样,可以用来考察词汇(例如词与词的配对、词与意义的配对) 、阅读(段落大意与段落的配对)等。例如:例 1:把下列两组词进行配对,使之构成另外一个英语单词。1. car A. room2. cup B. pet3. bed C. dress4. night D. board例 2:把下列的词与相应的反义词进行配对。1. long
46、A. weak2. smart B. wide3. strong C. handsome4. narrow D. shortE. silly例 3:从右栏所给选项中选出与左栏各项意义相符的选项。1. People go to see films there. A hospital2. People study things here. B restaurant3. People buy things with this. C cinema4. People buy meals and eat here. D school145. People go to work in this. E mon
47、ey F bus配对题的优点是:1)在小篇幅内测量大量内容,经济实惠;2)题目编制容易,很适用于随堂测试;3)能够有效地测量知识上的相关性,有利于培养学生观察、辨别、比较、分析等方面的能力。其缺点是:1)不适于测量较高层次的教学目标;2)由于配对题结构特殊,考生每答一题都要把所有选项进行比较,因此浪费时间。11.5.4 填充题(gap-filling items)填充题要求考生在句子的空白处把答案填写出来。答案可以是一个词,一个词组,一句话,一个数字或一个符号。填充题设计得好,对于测量学生的语法、词汇运用能力很有效。另外,填充题也用于听力、阅读等技能的测试之中。与多项选择题相比,填充题所测量的
48、多是语言的运用能力,而不是辨认能力,因此比多项选择题更受欢迎,测试效度也高。综合型填充题又称作完形填空(cloze) 。这种题型是把一篇短文中的一些词按照一定的规律删除掉,要求考生根据上下文把删掉的词再填出来,使其成为一篇连贯的、意思完整的文章。完型填空是系统测试学生语言知识的有效手段之一。短文文字越难,去掉的词越多,学生做完型填空测试需要的语言水平就越高。完型填空出题的一般做法是,根据使用对象的语言水平确定选择什么难度的短文;短文选定后第一句或第一句和最后一句或前两句保持完整,目的是为了给学生提供上下文语境;然后从第二句开始,每隔一定数目的词(通常是 5 到 11 个)去掉一个。一般认为,如
49、果相隔不到 5 个词就去掉一个,测试太难;如果相隔 11 个以上再去掉一个,测试又太容易,所以通常是相隔 5 到 11 个词去掉一个。研究表明,有规律地去掉词,即两空之间所隔词数相对固定,才能保证测试的信度和效度;没有规律地去掉词,例如,一会儿隔 5 个词去掉一个,一会儿又隔 11 个词去掉一个,信度和效度都会降低。下面是一个比较标准的每隔九个词去掉一个的例子:There are many different approaches to grammar, all of which serve different kinds of purposes. First of all, there is the approach those people 1 have learned a language formally will recognize, which can 2 found in the “grammar book” that are used in 3 and second language classrooms, and which are designed to 4 you the “correct” way to write and speak a 5. This approach is