第三章考试的质量指标教案(2周).doc-道客多多

资源描述

1、1沈阳大学教案课程名称：英语语言测试技巧编写时间：年月日授课章节第三章考试的质量指标目的要求要求学生掌握衡量考试质量的四个主要指标，运用效度和信度对考试的质量进行分析。要求掌握难度和区分度的计算的方法和影响难度和区分度的主要因素。重点难点效度的概念、效度的分类; 信度的概念、影响信度的因素、信度与效度的关系难度的计算方法、影响难度的因素; 区分度的计算方法、其与难度之间的关系教案内容：I. 教学方法: 交际式教学法II. 教学过程复习与导入 1. 讨论题: 外语测试有哪些分类？本章导读本章的一些基本概念虽比较抽象，却与提高考试质量有着密不可分的关系。建议学员在学习

2、本章时，结合考试实践展开讨论，这样有助加深对本章的理解。本章是“语言测试 ”最重要，也是最抽象、难懂的一章，但可以毫不夸张地说，掌握了本章，也就掌握了“ 语言测试 ”的精髓。建议学员在这一章多化一些时间，把基本概念梳理清楚。在衡量考试质量的四个主要指标中，效度和信度是最重要的两个指标。要求能够运用这两个概念对日常教学考试的质量进行分析。而难度和区分度则要求掌握计算的方法和影响难度和区分度的主要因素。本章的一些基本概念虽比较抽象，却与提高考试质量有着密不可分的关系。建议学员在学习本章时，结合考试实践展开讨论，这样有助加深对本章的理解。 “相关系数”的概念对于加深理解 “效度”和“信度” 有一定

3、帮助，但不作为必读的材料。练习中的难度和区分度的计算题一定要做，这样可以检验一下是否正确理解了这两个概念和计算公式。本章的一些基本概念虽比较抽象，却与提高考试质量有着密不可分的关系。建议学员在学习本章时，结合考试实践展开讨论，这样有助加深对本章的理解。第三章讲授新课一、效度的概念与分类1）效度的概念考试的效度指的是考试在多大程度上测出预期要测量的东西，或者说考试在多大程度上完成了预期的测量任务，达到了预期测试的目标。效度概念包含了两层含义，一是考试究竟测量的是什么(what)；二是测出的程度有多大 (how well)。例如，我们举行一次英语考试目的是想测定学生使用英语进行交际的能力，那么这

4、次Teaching aids:（教学手段）10602考试的质量高低可以用效度这个指标来衡量，效度高表明：（1）这次考试测量的的确是学生的交际能力，而不是其他东西；（2）这次考试能很好的测出学生的交际能力。如果考试考的不是学生的交际能力，则认为它效度很低。因此，效度也可以理解为从测验的成绩中能作出什么样的推断，它的有效程度如何（教育评价百科全书），或根据美国心理学会的定义，效度是一个从测验分数中能恰当地推断出什么结果的问题。效度是一个相对的概念。效度的有效性总是相对于一定的目的、功能和范围而言。对于某一目的是有效的考试，用于另一目的就未必有效。效度相对性的另一层含义是程度的相对性，即效度不是有或

5、无的关系，而只是高低程度上的不同。由于语言能力是一个抽象的概念，我们只能通过测量学生的语言行为，间接地推断出他的能力，因此不可能说一次考试是绝对有效的；另一方面，由于影响语言能力的各种因素是相互联系的，所以不同形式的语言考试总有一定的相关，这也决定了语言考试也不存在绝对无效的情况。根据美国心理学会 1974 年出版的教育与心理测验标准一书，考试的效度可分成三大类：内容效度、结构效度和效标关联效度。严格地说，我们可以从以上三个方面来评估考试效度的高低。2）效度的分类内容效度(Content Validity)内容效度指考试内容是否真实地代表了它所要测量的内容，或者说，考试的题目在多大程度上能代

6、表它所要测量的目标。它可以从三个方面进行判断：（1）测试内容是否和测试目标有关；（2）测试内容（试题）是否具有代表性；（3）测试内容是否适合测试对象。内容效度对于成绩考试和标准参照考试都具有特别重要的意义。因为成绩考试的用途是测定学生对过去学过的知识和技能实际掌握的程度，因此教学大纲是成绩考试的命题依据；，标准参照考试以原先制订的标准作为评价考试成绩优劣的依据，所以这两类考试都必须重视内容效度。构想效度(Construct Validity)考试的构想效度指考试实际测得的东西与理论所假设的能力要素或心理特征相吻合的程度。就语言测试而言，构想效度指考试结果能在多大程度上解释人的语言能力及与语言有

7、关的心理特征。如果考试所测得的东西与理论对语言能力的构想相吻合，我们就认为考试有很好的构想效度。我们通过外语考试，除了想了解学生掌握语言知识情况外，最希望了解学生的语言能力和交际能力。能力是一个抽象的概念，我们无法对学生的语言能力进行直接测试，而只能通过测定可以看得见的语言行为，并借助有关的语言学习理论来间接地推断学生的语言能力。这样就存在着考试所测得的结果与理论所构想的能力结构之间是否吻合的问题。由于我们需要借助理论构想来判断考试成绩是否能代表一个人的真实能力，所以构想效度也称理论效度。3构想效度是一个相对的概念，它是相对一定的理论构想而言的。随着语言理论的发展，对构想效度的研究也应不断改进

8、。效标关联效度(Criterion-related validity) 效标是效度标准的简称，是检定考试效度的一个参照物。所谓效标关联效度就是以考试分数与效标分数之间的相关来表示的一种效度，也称为统计效度。效标关联效度表示的是考试与效标之间彼此拟合的程度。根据测验分数和效标分数获得的时间关系，可以将效标关联效度分为预测效度和共时效度。预测效度的考试分数获得在前，效标分数获得在后，这两个分数获得的时间间隔可能数周，数月，甚至数年；而共时效度两个分数几乎可以同时获得。这两种效度的共同之处在于都利用数理统计的方法通过相关系数来表示效度的高低。二、不同的考试对效度的不同要求效度是一个相对的概念，效度的

9、高低是相对一定测试目的而言的，因此不同目的的考试对各类效度的要求也不尽相同，它们之间的关系可以用表 3.2 表示。表 3.1 考试类别与效度之间的关系考试类别效度判断标准方法成绩考试水平考试学能考试诊断考试内容效度效标关联效度(预测、共时)构想内容效度大纲将来要从事的任务语言学习理论大纲专家判断相关系数统计法理论判断因素分析专家判断上表所列各类考试和效度之间的关系并不意味着一类考试只需一类效度。对所有考试来说都要注意构想效度。表 3.1 所列关系只表明各类考试应特别注意的效度。表 3.2 效度分类及其测试方法类型所要解决的问题方法目的举例内容效度是否考了

10、要考的内容；试题是否有代表性将题目与考试大纲规定的内容作比较检查成绩期中、期末考试、毕业考试构想效度是否与理论构想一致；是否与经验一致与理论、实际经验进行比较对心理特征与能力倾向作检验学能考试4预测效度对未来的工作和学习做出预测对比学习前后的成绩选拔分类大学入学考试、水平考试共时效度对目前的学习成绩做出估计对比考生同时参加的两次考试的成绩建立常模把某一考试和另一标准化考试成绩比较三、信度的概念信度(Reliability)是指考试结果的可靠性和稳定性。所谓考试的信度是指同一个测验（或相等的两个或多个测验）对同一组考生测试两次或多次，其结果的一致性程度。也就是说，考生多次参加某种测验

11、，如果每次得到近乎一样的分数，那么可以认为该测验的信度是高的；如果每次分数忽高忽低，说明该测验可靠性不够、信度低。任何考试只有可靠才能有效。因此信度高是效度高的必要前提。信度通常以两次测验结果的相关系数来表示，称之为信度系数(Coefficient of reliability)。相关的程度越高，信度也越高。信度也可用测量的标准误差表示。凡是测量都会有误差，信度实际上表示的是测量的精度。从理论上讲，每一个考生在测验中所获得的分数都包括两部分，一部分是真分数，它完全由学生的实际语言能力决定的；另一部分是测量误差。这一关系可以表达为：或用图表示为：四、影响信度的因素影响测试信度的因素有很多。在诸

12、多因素中，下列因素对信度有较大影响。1）测验的长度5所谓测验的长度就是通常所指的试题的数量。在可能情况下，一次测验的试题越多越好。但一次测验包括的题目太多，考试时间过长会使学生筋疲力尽，结果反而影响测验的信度。对于年龄较小的学生，应注意保持适当的测验时间，不至于因注意力等心理因素而影响测验的信度。2）考生的能力差异考生的能力越是参差不齐，利用这组考生所计算出来的信度系数就越高。这一情况能很好地说明为什么大规模测试一般更为可靠，因为人数越多，能力差异就越大，从而信度就越高。这也就是为什么我们要求大规模考试的信度应比课堂考试信度高的原因。3）答题时间答题时间必须充裕。如果测验时间不够，考生在

13、规定时间内完不成所有的试题，必然增加他们的紧张情绪，以及猜题、随意答题的可能性。在考试中偶然因素起的作用越大考试的可靠性就越小。4）评分的客观性评分越主观片面，考试的信度越差。评分是否客观是影响信度的一个重要因素。为了提高考试的信度，应该注意主观型试题在试卷中占适当比重，或提高主观型考试的评分客观性。除了上述因素外，还有一些其它因素也能影响测试的可靠性，如考试的环境条件、考生的应试心理等，。为了提高考试信度应注意如下几个方面：1) 在许可的情况下，试题的覆盖面要广，题量要尽量大；2) 试题的难度要恰当，题目的要求要准确、清楚；3) 考试时间应充裕，考试的程序应严格划一；4) 评分必须有客观统

14、一标准，尽量提高评分的客观性；5）增强考生对应试环境的适应性，端正考试动机。五、信度与效度的关系（见“ 术语与难点解释”）六、难度的计算难度(Power 或 difficulty)指试题的难易程度。表示试题难易度的数量，称为试题的难度指数，一般用 P 表示。由于试题的记分方法不同，所以难度的估计方法也不同。在外语考试中有两种计算方法：0、1 记分（间断记分法）和非 0、1 记分法（连续记分法）。所谓0、1 计分的测验，就是二分记分法的测验，即每题答对给 1 分，答错给分。这种记分法只有得分与不得分之分，分数是间断的，用于多项选择题、配对题等客观型试题。非 0、1 记分法指连续记分法，常用于

15、主观型试题，例如，英语写作题总分为25 分，学生的得分可以从分、1 分到 25 分不等，这种试题的得分是连续的。61） 0、1 记分法试题的难度估计0、1 记分法试题的难度指数的计算一般采用如下公式：其中：P 表示试题的难度指数R 表示某题答对的人数N 表示考生的总人数2）非 0、1 记分法的试题难度估计非 0、1 记分法的试题难度可以用下列公式进行计算：在计算和解释难度指数时应注意如下三点：（1）在计算试题的难度指数时，所选择的考生样本越有代表性，算出的试题难度指数越准确。（2）考生的样本容量不得少于 32 人。人数过少，计算出的结果误差就比较大。(3) 以难度指数作为评估考试质量的依

16、据时，应从试题本身的难度、学生的水平和教学质量等因素全面的考虑问题、分析原因。七、影响难度的因素根据难度的定义，试题的难度应该由试题本身的复杂性所决定，但是根据难度指数的计算公式，一个题目的难度不仅受该题特征的影响，而且是下列三个因素的一个函数，即题目的复杂程度、学生的能力水平及教学质量（是否分析过类似的题目）。首先，题目本身的复杂性决定了题目的难度。但是难度指数是由答对该题的人数占总人数之比表示的，同样一道题目，如果参加考试的人中，能力强的比较多，那么计算出来的难度指数就大，表示题目较易；相反如果能力差的人占考生总数的比例大，计算出的难度指数就小，表示题目较难，因此，目前计算难度指数的方

17、法（或称经典测试理论）难度指数受考生能力的影响。此外，试题难度指数还受第三个因素教学质量的影响。同样的题目，同样能力的学生，如果教师在教学中讲解过类似题目的解法，学生得分率就高。反映出来的题目难度就小。因此，一个题目的难度指数实际上是题目复杂性、学生水平和教学质量这三者相互作用的一个产物。7八、区分度的计算试题的区分度 (Discrimination)是指试题区分学生水平的鉴别力。计算试题区分度的方法很多，最常用的一种方法是用每个试题与试卷总分的相关系数来表示。一个试题的区分度的估计是基于这样的假设：能力强的学生（以考试的总成绩表示）应该比能力差的学生答对该题的比例要大。因此某一试题得分和总分

18、之间的相关性越高，说明区分度越大。我们也可以用下列比较简单公式来计算实际的区分度：式中 D = 区分度指数H = 高分组答对某题的人数L = 低分组答对某题的人数N = 高分组(或低分组)人数上述公式只适用于 0、1 计分的试题，其计算步骤如下：（1）将全部试卷按总分从高到低排列。（2）确定高分组和低分组。如果总人数多，可取前三分之一（或 27%）作高分组，后三分之一（或 27%）作为低分组，且高分组人数与低分组人数相等。（3）算出高分组答对某题的人数(H) 和低分组答对该题的人数 (L)。(4）按公式算出该题的区分度。九、区分度与难度的关系试题的难度和区分度存在着一定的关系，因此教师在命

19、题时可以根据自己预估的试题难度来推测试题的区分度。一般而言，试题的难度指数在 0.5 左右时，试题的区分度最大。试题的难度和区分度最大值之间有如下关系。试题难度与区分度极大值的关系难度区分度极大值1.00 0.000.90 0.200.70 0.600.50 1.000.30 0.600.10 0.2080.00 0.00 上表只是从统计学角度看，试题难度和区分度的极大值之间有如此的关系。在实际测试中，这两者之间的关系往往要复杂得多，并不一定出现如表中所示的一一对应关系。但命题人员可以按理论上的这种关系预测试题的区分度。这比无的放矢的命题要科学得多。难点解释 1. 效度一份试卷是否有效，即

20、试卷的效度(validity)，指的是这份试卷是否测量了它所要测量的东西，是否达到了它所预定的测试目的。一份英语试卷应该测试的是英语语言本身，而不是其它学科的知识。例如，包含下列试题的试卷，尽管全是英语，但是用于测试学生的英语水平，其有效性就有问题，因为它实际上还在测试数学运算知识。A group of workers are paid 700 for decorating a house. The head of the group receives twenty-five percent of this amount and the other five members share the

21、 rest equally. How much does each of the five other workers receive效度是个相对概念，而不是绝对概念。效度的相对性指条件的相对性和程度的相对性。一份试卷是否有效是指这份试卷是否符合原先预定的目的、功能和范围等特定条件，而不是一般的目的、功能和范围。例如，原先设计用于水平考试目的的试卷对于诊断考试可能不一定十分有效。在甲校有效的试卷拿到乙校就可能就是那么有效了。所谓程度的相对性是指效度只有高低之分，而没有全部有效和全部无效之分。这是因为个人或群体的语言能力特征只能通过其行为样本间接地推测，而不可能直接测得，所以推测结果不可能绝对有

22、效。因此，效度高低是就程度而言。实践中，人们往往规定一个界限，作为参考标准。效度的评估，可以从四个方面考虑，它们为内容效度、构想效度、预测效度和共时效度。2. 信度与效度的关系会不会出现这种情况，月队虽然多次测试都得出同样脸结果，但实际上却仍然没能达到我们所要考查的目的妮当然会有这种情况。想知道课桌的长度却去称它的重量，就是一例。同样的道理，分列式测试的评分固然可靠，但是否有效呢我们最终的兴趣所在，是学生运用英语进行交际的能力。遗憾的是，分列式测试恰恰没有直接衡量出这一点，它考查的只是词汇和语法。这就是有效性的问题。也就是说，可靠的测试不一定都有效。正如称重量得不出长度一样，考语法也不一定能检

23、查出学生的理解能力。我们再看看问题的另一个方面。一个不可靠的测试可能是有效的吗我们说，只要测试的结果是可靠的，就能引出一定的结论;但如果结果不可靠，就不可能从9申得出任何结论。因而，失去了可靠性，有效性也就不复存在了。确定了可靠性后，才能谈到它是否有效。正因为如此，赞成分列式测试的人才指出，综合性测试的评分往往是不可靠的。同一篇作文可能会得到两个不同的分数。既然评分不可靠，还有什么有效性可言呢再举两个例子:其一，如果我要考查你们的英语水平，方法是让你们在一分钟之内写出你能想得起来的所有的英语单词，根据写出的单词的数量来判定你们英语水平的高低。这种测试可靠吗可能很可靠。但这是考查你们英语知识的有

24、效方法吗你们认为这样的测试公平合理吗当然不。它检查不出你们运用英语的能力，只是检查了你们写字的速度。所以即使它很可靠，也仍然不是考查英语水乎的有效方式。其二，假设你在课堂上向学生宣布:明天我要检查大家最近三周的学习情况，重点是现在完成时和现在进行肘。“可是第二天你却用了教育局出的英语期申考试的试卷。这个考试可靠吗换句话说，如果把这份试卷分两次考完，学生会不会得到同样的分数我们相信他们的分数会是基本不变的，因为教育局为了保证测试的可靠性，是肯定会下一番功夫的。但它对你所宣布的测试目的却是无效的。你的目的是检查最近三周的学习情况，重点是现在完成时和现在进行时的用法，而教育局的这份试卷里可能只有一、

25、两个题是有关现在完成肘和现在进行时的。那些回家后认真复习了这三周功课的学生会抱怨说:“这次测试包括了词汇、翻译等多种项目，但是只有一、两个题是检查现在完成时和现在进行时的用法的。“他们是在抱怨你这次测试虽然可靠，但对于你所宣布的那个目的来说却是无效的。再举一个语言寮赋测试的例子。假设有很多学生报考我校，想学习英语，但我们只能招收两个英语班。那么这些机会应该给哪些学生呢我们可以进行一次语言票赋测试，看谁学习语言的能力最强。问题是考什么内容。知果我们考的是他们己经学会了多少英语，这也许是可靠的，但用这个测试来判断学生学习英语的潜在能力，却不是有效的。再从分数差异的角度分析可靠性和有效性的问题。每

26、次测试，学生的分数都不尽相同。无论是高校招生考试学校的期申考试、“托复“测试或课堂成绩测试，可以肯定，学生不会都得相同的分数。这就是分数差异。导致分数差异的原因很多，按照差异的性质可以归为三类(图 1)。现在分别对它们加以分析。10有些差异来自学生的情绪。人人都有顺心的时候，也有烦恼的时候。有的学生早上一醒来心情就很好，家里人也都和颜悦色。起床后，吃了可口的早饭，就愉快地去学校参加测试。一切称心如意，测试也顺顺当当。另一个学生一起床就跟妹妹吵了一架。接着又因为公共汽车晚点，上学迟到了。他急急忙忙地跑进教室，气喘吁吁地坐下来匆忙答题。显然。我们很难指望他会发挥出自己的最好水平。有些分数差异就是出

27、于这类与测试无关的小事造成的。这样的事每天都会重演吗当然不会。比如因汽车误点而迟到的学生，下次可能会早些动身，以免再迟到。由这些情况造成的分数差异是偶然性的，叫做不可靠差异。引起不可靠差异的偶然因素，每人每天部可能遇到，难以预料，学生自己控制不了，教师也爱莫能助。假如你们参加一次重要测试，知高校招生考试，偏偏赶上了不顺心的日子，那是很令人遗憾的。你的成绩会因此受到影响，造成不可靠的分数差异。 3. 总体、样本和抽样在心理、教育以及其他许多领域的调查研究中，绝大部分不可能也没有必要对所要研究的总体中的每一个个体，逐一进行调查研究。一般的做法是，从总体中抽取一部分个体作为研究样本，然后应用参数估计

28、或假设检验等统计方法，根据样本的研究结果对总体特征进行推论，如下图。这种推论的可靠性，一方面依赖于研究过程中无关变量的控制和数据处理的准确性，另一方面则依赖于样本的代表性。如果样本不能很好地代表总体，即使无关变量控制得很好，统计方法运用得确切，对总体的推论也是缺乏可靠性的。考试实际上也是一个抽样过程。我们不可能在几小时内，把学生几年甚至十几11年中掌握的语言知识和技能（总体）都考一遍，而是抽取一部分内容（样本）进行考核。然后根据考试成绩推断学生的总体语言能力。因此，试题的代表性具有很重要的意义。 4. 构想效度1）结构效度的概念“结构效度”这一词是由柯龙巴赫 (Cronbach)和米海尔(Me

29、ehl) 于 1954 年首创。所谓结构效度是指测验对于人的假设属性或理论概念测量到的程度。这些假设属性或理论概念是决定人们外部行为的内隐或潜在的特性。但是这种特性无法给于操作性的定义。它所支配的行为也无法直接观察到。也可以说，在现实世界中并没有与这种属往直接相对应的东西存在，而是一种假设存在的属性。例如，智力、成就动机、语言流利、焦虑、等等。而教育测量有时虽然也涉及到假设结构的问题，但大多数目的在于测量学生对知识、技能的掌握程度，而且测验的内容与特定的知识或行为有一对一的配合形式，对于这种属性一般都能予以操作性的定义。因此它不属于假设的结构。对于这种假设的心理属性，在现实中并没有效标能够加以

30、测量，在检定测验的结构效度时，也无法直接得到效标分数，只能寻求其它方法估计效标分数。检定结构效度的目的，既不在于考查测验对效标的预测效果，也不在于考查测验内容的代表性程度，其目的在于从理论上探究所建构的假设属性或理论概念是否能够成立。2）结构效度的建立过程在编制测验时，建立结构效度的过程有以下几个步骤：对所欲测量的属性根据某种理论提出假定的结构。根据假定的结构拟定测题，编制测验。抽取样本进行预备测验，并对测验的信度进行检定。寻求测验分数与其它评定之间的关系。例如，为建立学能测验的结构效度，可以考察一组被试的测验分数与其教师评定结果之间的相关。如果发现测验分数与教师评定结果之间相关低，是

31、由于测验作答的语言流畅性和测题的类型所造成，则为修改测验、排除无关因子的影响提供了依据。以测验结果为根据来验证假设结构中的各种因素是否成立，其验证的方法，可从差异性上寻求证据。假如道德品质好的与道德品质差的被试，所居住的地区环境有显著差异，那么，居住的地区环境就是形成青少年道德品质倾向结构中的因素之一。通过实验研究也可以验证假设结构中的各种因素是否成立。例如，对一般性焦虑作实验研究，在学期开始时将一个班级的学生随机分成两组，向其中一组学生宣布，学期末考试总分只有 10%的人会得甲等，有一半人会不及格；而向另一组学生宣布，所有的人都会及格，有一半人会得甲等。然后对两组学生进行焦虑测验，如果两组

32、测验分数有显著性差异，则可表明事先宣布可能的学习成绩与一般性焦虑有密切关系。将与假设结构相违背的测题删去，对测验进行修改之后，再重新实施第12和第个步骤。5. 相关系数1) 为什么要研究相关首先让我们来考虑以下几种情况。第一种情况: 假定某一班先后参加了两次测试，结果每个学生都得到两个分数。我们需要知道的是学生两次测试的分数在多大程度上是一致的。这个问题直接关系到测试的可靠性和有效性。在相同的条件下，一次可靠性强的测试，知果再进行一次，将会得出与第一次相同的结果。如果同一测试采用的两种形式都可靠的话，它们就应当能把学生分成同样等级。一个效性高的测试考查的是它所应当考查的东西，因此，它对学生程

33、度的划分应当和考查同一技能的其它有效性强的测试相一致。可见，两种测试能否把学生分成同一等级，这一问题对测试的可靠性和有效性都是很重要的。第二种情况:某一班学生先后参加了一次阅读理解测试和一次阅读速度测试。我们很想知道这两种技能的关系。换句话说，我们想知道在多大程度上从学生的阅读速度上能推断出他的阅读理解能力;或者与此相反，阅读理解的测试能在多大程度上预示阅读的速度。第三种情况:假定某班学生写了一次作文。鉴于批改作文常常缺乏可靠性，每篇作文都由两名教师分别评分。这样，我们就有必要知道这两次评分在多大程度上是一致的。以上这三种情况有一个共同点，即从同一组学生中产生了两组分数，我们需要知道这两组分数

34、的关系如何。这就要靠统计学来帮忙了。我们可先画出这两组分数的分布图。以阅读速度和阅读理解的测试为例，如果座标上的点能够连成一条向上的直线，就说明这两组分数把“生分成完全一样的等级。阅读速度越快，理解越好。我们完全可以从学生的阅读速度上推测出他的理解能力。(见图 10)如果座标上的点组成一条向下的直线，就说明一种完全相反的情形，即阅读速度越快，理解越差。但是我们仍旧可以从阅读速度中看出阅读理解能力。(见图11)13如果座标上的点零散地分布在图上，形成一片，那就说明两者之间没有任何联系。( 见图 12)再以作文为例，如果两名教师对每篇作文都给予相同的评分，座标上就会显示出一条向上的直线。(见图 1

35、3)如果其中一名教师的评分始终是另一名所评的分数的一半，座标上仍会呈现出一条直线，但其倾斜度会稍有不同。(见图 14)14在实际教学申，就普通规模的班级而言，完全一致的两组分数几乎是不可能出现的。通常出现的情形是在两组分数间有一定的联系，座标上分布的点接近于一条直线，但还有许多点分散在直线两侧。这种座标图叫做散点相关图(scatter plot)。(见图 15)当遇到这种情况时，就应求助于统计学了。用来表示相关程度的数据叫做相关系数。 2) 相关系数相关系数的范围是+1.O 到-1.0。+1.0 意味着从一组分数上完全可以推算出另一组分数;学生在一组分数里的分越高; 在另一组里的分数也就

36、越高。-1.0 同样意味着从一组分数上可以完全推算出另一组分数，不过学生在一组里的分数越高，他们在另一组里的分数就越低。相关系数等于 0 的时候，说明两组分数之间没有任何联系。不能从一组分数中推算出另一组分数。要注意，相关系数是正数还是负数并不重要。重要的是它的数值的大小。相关系数的绝对值越大，就越能从一组分数里推算出另一组分数。在实际教学中，相关系数很少是+1.0。如果我们在一个五十人的班级里进行两次英语水平测试的话，相关系数能达到 0.70 就很不错了。一个试卷的总分和同一试卷上其一部分的分数间的相关系数可能会高一些，如 0.80。同样考查英语能力，但侧重点有所不同的测试间，如听力和作文间

37、的相关系数,可能会低一些，如0.60。一一个学生所得的卷面分数和他试卷上出现的错误数目间的相关系数可能会是-0.60 。相关系数达到 0.80 或 0.90 时，就意味着两者间相互推断的可能性15很大了。我们可以通过几个实例来说明怎样分析相关系数。到美国威斯康星大学就学的外国留学生都要通过英语作为第二语言的测试，即密执安英语水平测试(Michigan Test of English Language Proficiency)。其中有三部分: 语法、词汇和阅读埋解。我们很想知道这三部分之间有多大相关性。比如说，能在多大程度上从一个学生的语法分数上推测出他的词汇分数，或能在多大程度上从词汇分数上推

38、测出阅读理解分数。我们可以预期它们之间会有相当的联系，因为考查的内容都属于学生语言能力。如果一个学生在词汇部分得了最高分，而在阅读理解部分却得了最低分，我们一定会感到意外。在另一方面，这几部分又不可能完全一致，因为考查的毕竟是不同的技能。如果三者相关度很高，就没有必要把一个测试分成三部分了。我们实际得到的结果如下:Grammar VocabularyVocabulary 0.70 1.00Reading 0.58 0.64表中数字表明，三者间确有一定程度的相关。在看到实际数字前，可能有人会预料词汇和阅读理解间的相关系数最高。但事实上是词汇和语法间有更密切的联系。不出多数人的预料，语法和阅读理解

39、是最不相关的两项。显然，一般学生并不见得需要懂得许多语法，就能够看明白整个篇章。下面是另一个实例。威斯康星大学每年暑期都举办英语作为第二语言的补习班。补习班结业时，每位参加学习的留学生都要通过三项测试: 密执安英语水平测试，听力测试和作文。这三者之间到底有什么联系比如，听力和写作之间有多少一致的地方它们是否是完全不同的技能如果是不同的技能，两者间的相关系数就会很低。我们需要了解这些情况的原因之一，就是要确定有无必要进行全部三项测试。假如密执安测试和作文的相关系数很高，就可以只进行一项，而把节省下来的时间用于课堂教学。另外，批改作文需要花很长的时间。为了保证可靠性，每篇作文都要请三名老师批

40、改，而这个工作量是很大的。我们实际得到的结果如下: Michigan Test Listening ComprehensionListening Comprehension 0.70 1.00Composition 0.64 0.49这三者间的关系有的很一般，有的属于中等或偏上。这说明它们之间的相似之处并不很多。三项测试考查的是虽有联系，但又不相同的能力。因此，三项测试都进行还是有必要的。3) 怎样分析相关系数当相关系数不是+1.0 或-1.0 时，分析相关系数要按照以下四个步骤 :1. 首先要核对该相关系数是否达到一定的值，以便确定该系数的出现是否具有偶然性。具体做法是查对一个标明数值意义的

41、表格。从表格上可以知道，就一定数量的学生而言，相关系数达到多少时，它的出现才没有或有很少的偶然性。具体16说，在一个 52 个人的班级里，相关系数大于 0.27 时，它的出现就只有 5%的偶然性。换句话说，假定两个测试间没有任何关系(如任意取两个数字)，那么产生大于 0.27 的相关系数的可能性就只有 5%。当然，任何数值的相关系数都可能在偶然中产生。也正因为这样，我们必须知道某-数值出现的纯偶然性究竟有多大。2. 计算出两个分数间可以互相推断的程度。从相关系数本身并不能看出这一点。也就是说，相关系数是 0.50 时，并不意味着两个测试的评分中有 50%是一致的。我们必须要算出相关系数的平方，

42、所得的数字就代表两个测试中相同因素的比例。比如，相关系数是 0.50 时，0.500.50 = 0.25，即 25%。这说明两个测试的分数中只有 25%的因素是一样的。相关系数的平方可直接反映出在多大程度上可以从一个测试分数上推测出另一个测试的分数。3. 确定相关的程度是否具有实际意义。例如，数值为 0.27 的相关系数所代表的相同因素，只有 7%(0.270.27=0.07)。在实际工作中，这个数值就没有什么意义了。它表明两组分数间没有什么共同性，它们不足以把学生分成相应的等级。上文提到威斯康星大学暑期英语补习班结束时要举行三项测试，究竟有无必要全部进行呢回答是肯定的，从三个相关系数的平方值

43、可看出，三项测试问相同的因素并不多。密执安测试和听力测试间的相同因素最多，但也只有大约 50%。其它两个数值就更小了。总之，三项测试说明了不同的问题，它们考查的技能虽有联系，但并不相同。判断的标准还要视情况而改变。比如，密执安测试有多种不同的编号。在两次平行的密执安测试间应有多大的相关系数呢应该不小于 0.90。再如，两名教师对同一组作文的评分的相关系数应该比较高。虽然两组作文分数间很难有很高的相关系数，但如果数值低于 0.70，那也是出乎意料的。分析相关系数没有一个绝对的标准，要根据情况而定。4. 分析一下为什么会出现这种程度的相关。较明显的原因可能是两个测试在一定程度上考查的是相同或相近

44、的技能(高相关系数) ，或者是不同的技能(低相关系数) 。比如，知果一个语法测试和一个词汇测试高度相关，可能是由于语法测试中有许多难懂的词，使得语法测试成了一个变相的词汇测试。还有一些其它的因素，也能影响相关的程度。比如，测试时如果只让两个极端的学生参加(即只有学习最好的学生和学习最不好的学生，而没有中等水平的学生)，也会使相关系数显得很高而足以使人误解。因为两类学生的水平悬殊太大，所以在一次测试中得高分的学生，肯定也会在另一次测试中得高分;同样道理，在一次测试中得低分的学生，也肯定会在另一次测试里得低分。相反的情形也会影响相关系数。如果有一组分数相差不大，那么不管两个测试在实际上有没有关系，

45、都会使相关系数变得很低。以作文为例，如果一位教师所评分数的范围是从 A 到 D，另一位教师所评的分数只限于很小的范圈内，如 B+,B,B-等，这样两组分数间的相关系数就会很小。分析相关系数时还应注意以下几点:1. 相关的程度和可推断性并不直接和相关系数成比例关系。0.80 和 0.90 之17间可推断性的差别比 0.20 相 0.30 之间的差别大得多。(大家自己计算一下，就可看出差别了。)2. 知果甲和乙高度相关，我们不能得出结论，说甲是造成乙的原因，也不能说乙是造成甲的原因。这样下结论是一种很常见的错误。例如，在上文所举的密执安测试的第一个例子中，0.70 是否意味着只要词汇量大，就可以把

46、语法题目做得很好呢不是的。真正的原因可能在于词汇考得好的学生学习英语的时间较长，所以他们的语法也考得较好。如果是这样，这两部分高度相关的原因在于它们都和第三个因素有关，即和学生学习英语的时间有关。3. 一般说来，相关系数可以座标图上的直线来表示，这种相关又称为线性相关。如果两个因素的关系在座标图上呈曲线，线性相关这一概念就不能充分反映出两者间的可推断性。亚力山大吉欧拉(Alexander Guiora)曾做过一个饮酒对外语发音影响的试验。在教学生练习泰国语发音之前，他让一部分学生喝了数量不等的酒。结果很有趣。没有喝酒的学生在练习这个完全陌生的语言时，发音不很准确。喝了少量酒的学生的发音比较好

47、，这可能是由于酒使他们精神放松，减少了一些不必要的顾虑。喝酒多的学生的发音又不准确了，这可能是因为酒喝得过多，以致使他们都不能控制自己的舌头了。如图 16 所示，饮酒量(alcohol)和发音之间存在一个曲线关系。总之，当有这种曲线关系出现时，再分析线性相关就不适当了。对于推断性而言，曲线和直线是两种不同的基础6. 考试的价值语言测试的有用程度 = 信度构想效度测试的真实性交往程度与类型考试的影响可行性原则 1：应最大限度地提高总体有用性，而不是个别方面的有用性。原则 2：不能对每个方面进行单独的评估，而必须评估其在总体中的作用。原则 3：不能笼统地谈论考试的有用性及考试质量各方面的平衡

48、，而必须在具体的测试情景中看待它的有用性。巩固练习（一）单项选择题 15181 如果在一次考试中，大量使用下列试题以测试学生的口语能力，它的最大问题是 _ 得不到保证。答案 B A. 信度 B. 效度 C. 难度 D. 区分度口语：从 A、B、C、 D 中选一组正确的排列顺序，使所给的语句成为一段文理通顺的话语。 Fine, thank you. And you Hi, Lucy! How are you today Im fine, too.A. B. C. D. 2内容效度对于_具有特别重要的意义。答案 A会考高考出国选拔考 TOEFL 考试 3预测效度对于_ 具有特别重要的意义。答

49、案 B A. 毕业考 B. 高考 C. 期末考试 D. 市民等级考 4为了计算高考英语的预测效度，应以_作为效标。答案 C 大学各科成绩会考英语成绩大学外语成绩市民等级考成绩 5. 在口试中采用分解评分和多人评分的目的是为了提高口试_ 。答案 AA. 信度 B. 效度 C. 可行性 D. 积极的反拨作用（二）判断说明题 ( ) 1. 效度高的考试，其成绩能真实地代表学生的交际能力。F。效度的高低总是相对一定考试目的和用途而言的。如果是效度高的交际性测试，那么考试成绩能真实地代表学生的交际能力；如果是分离式测试，那么考试成绩不能真实地代表学生的交际能力。( ) 2. 会考不必以内容效度为主要的质量指标。F。会考属于成绩测试，它主要测试学生对过去学过的知识、技能掌握的情况，内容效度是衡量这类考试的主要质量指标。( ) 3. 只要选择信

展开阅读全文