1、第二章 教育测量的质量指标第一节 信度第二节 效度第三节 难度第四节 区分度一、 信度的概念信度指的是测量结果的稳定性或可靠的程度。也就是测量结果是否真实、客观地反映了考生的实际水平。具体而言,可以从以下三方面来理解测量的信度。(一)信度指实测值与真值相差的程度测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真实值。由于各种原因,实测值一般不会完全等于真实值,两者之差称为测量误差。测量误差越小,测量的信度就越高。用一个等式表示如下:x = T + E式中,x 表示实测值,T 表示真值,E 表示误差。但测量的真实值是未知的,因此,误差也就无法求出来。当然,可以把很多次测量的实测值的平均
2、值作为真实值的近似值,但这在实践上不具有可操作性。所以,根据这种理解,无法求出信度的大小。(二)信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。统计量是指样本上的各种数字特征(如样本的平均数、标准差等) ,参数是总体上的各种数字特征(如总体的平均数、标准差等) 。统计量越接近参数,这个统计量的可靠性就越高,因此,信度就越高。要知道统计量对参数的接近程度,可以对参数进行区间估计。这种方法对估计真分数也很有用的。但这种理解也无法计算出信度。(三)信度指两次重复测量或等值测量之间的关联程度如果对同一对象进行两次重复测量或者等值测量以后,计算两次测量的相关系数,相关系数越高,说明
3、测量的信度就越高;反之,就越低。对于信度的这种理解,有利于信度的计算。但重复测量会受到被测对象的经验、知识增长等因素的影响,等值测量又较难编制,因此,采用这种方法计算信度时,也是有误差的。信度是任何一个测量的必要条件,对于教育测量来说,它具有更为重要的意义。因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值。只有信度高的测量才能成为教育工作者有用的工具,否则,测量的结果是无意义的、无效的。二、 信度的理论公式根据上述对实数的分解,可将实得分数的方差分解为: = + ,其2xT2E中, 表示真分数的方差
4、, 表示随机误差方差。2T2E信度的计算公式为:r = =1x2T2xE从以上公式可以看出,随机误差的方差越小,测量的信度就越高。信度的取值范围为0,1,如果测量误差的方差为 0,那么,测量的信度等于 1,如果测量误差的方差等于观察分数的方差,则测量的信度为 0。三、信度的类型采用上述的理论公式是计算不了信度的,因为真分数根本不知道,这样也就计算不出误差分数。因此,上述理论公式只能帮助我们更进一步地理解信度的含义。那么,在实际测量中,如何计算或估计信度的大小呢?下面介绍几种常用方法。(一)稳定性系数(1)稳定性系数又称重测信度。它是指用同一测验试卷,在先后两个不同时间内对同一组被测试卷,两次测
5、验实得分数的相关系数。稳定性系数是估量信度最简单的方法,只需用同一份试卷对同一被测试卷测验两次即可。(2)估计稳定系数的基本程序是:适当时距测验 A (A) 测验 A (A)1 2A 表示两次测验试卷相同,A 和 A 表示同一测验经过适当时间间隔施行两1次。时距可以是几天或者几个月。(3)使用重测法要注意几点:1重测法只适用于速度测验而不适用于难度测验;2所测的信度大小,常常受两次测验时间间隔长短影响;3第二次测验没有吸引力,不易引起学生的兴趣;4要实施两次测验,耗费人力、物力和时间较多。(二)等值性系数(1)当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另一平行型测验或者复份
6、。复份在测验的内容、题数、格式、难度、平均分、标准差等方面应与原测验一样,否则,估计的等值系数就会出现较大误差。(2)决定等值系数的方法是。先实施第一次测验,然后在最短的时间内实施第二份等值的测验,再求它们得分的相关系数。这个相关系数即为信度的等值性系数。(3)其基本程序为:最短时距测验 A 测验 B1 1A 表示用试卷 A 进行的第一次测验,B 表示用试卷 B 进行的第一次测验,试卷1 1A 和 B 等值。这种确定信度系数的方法称为复份法。(4)采用复份法估计信度系数要注意:1两次测验试卷要等值,即在内容、题型、题数、难度、区分度等方面要基本相同;2两次测验要尽可能在较短的时矩内进行;3确定
7、两次测验是否等值,还要考察两次测验结果的平均数与标准差。4在实际操作中,要编制两份等值的测验非常困难。(三)内部一致性系数前两种估计信度系数的方法都要测验两次。该种估计信度系数的方法只需测验一次。方法是把一次测验人为地分成两个部分,比较两个部分的一致性程度,从而估计信度系数。根据分成两部分的不同,内部一致性系数的估计方法有两种:(1)分半信度这种方法是将一次测验分成两个假定相等而独立的两部分来记分,通常是以题目的奇数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼布朗公式校正,求得整个测验的信度系数。斯皮尔曼布朗公式为: xytr12式中,r 为两组测验分数的相关系数,r 表示整个测验的
8、信度系数。xy t(2)库德尔理查德森公式法用这种方法只需测验一次,然后以各个问题的正确反应数为基础,或根据各人总分的平均数和标准差,计算信度系数,常用的库德尔理查德森公式有 r 和 r 。20KR211r 的用法:这个公式以每题能正确回答的人数占总人数的百分数0KR为基础(每题只有通过或未通过两种分数) 。r =20KR)1(2spq式中,r 为整个测验结果的信度系数。K 为测验题目数,p 为各题正确反应20人数占总人数的百分数,q 为各题错误反应人数占总人数的百分数,s 为各应2试者各题得分之和的方差。2r 的用法:这个公式以各反应者总分的平均数和方差为基础计算,21KR无需各题难度的信息
9、。公式如下:r =1-21KR2)(8.0sx式中, 是各人总分的平均分, 是各人总分的方差,K 是题目数。x2s3计算内部一致性系数,需要注意下列问题:1若用分半法时,以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两半,一方面前半部试题和后半部试题未必等值,另一方面被试者在完成后半部试题时可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。2若速率是测验的重要因素,则不宜用分半法。因为速度测验中试题的难度低,被试者得分的多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而会夸大分半法的信度估计。3如果答案多种多样,得分也多种多样时,则不能用上列公式计算一致性系数
10、。(四)论文式测验的信度系数论文式测验的评分,没有严格的评分标准,以致同样的一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫所创的 系数公式: = 式中, 为信度系数,K 为题目数, 为)1(2TisK2is每题各应试者得分的方差, 为每题各应试得分的方差之和;s 为所有被应i 2T试者所得总分的方差。(五)评分者信度一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不同的评分者对同一份试卷给分不同,甚至有很大的悬殊。在作文测验、投射测验、品德测验、创造力测验等的评分中,都存在这个问题。评分者所评的分数越一致,评分的信度越高。要计算评分者评分
11、的一致性系数,需区分评分者的人次数。若为 2 人评 N 份试卷,可用斯皮尔曼等级相关的公式计算;若三人以上的评分者评 N 份试卷时,则需计算肯德尔和谐系数 。四、提高信度的方法(一)信度系数以多大为宜信度系数究竟以多大为好,没有明确的标准。要看测验的目的和类型。对于学科测验,信度系数要求达到 0.9 以上,智力测验要求达到 0.8 以上,品德测验能达到 0.6 以上就算不错了。(二)测量误差的来源(1)测验本身所引起的误差1测验本身的有些因素会直接产生误差。例如,有些测验题目的格式,如判断题,猜测的可能性很大,这就引起测验的不稳定性。2如果测题的难度过大,以致每个被试者大量猜测,则所有被试者的
12、总分接近于随机分布,所以测题越难,其信度越低。另一方面,测题越易,分数离差越小,而信度也就越低。3规定时限可以鼓励人们加速作出反应,但常常会引起不稳定的测验分数。4测题的用词模棱两可也会引起不稳定的分数。5测验本身长度也会影响信度,一般说来,测题越多,测验越可靠。6测验所包含的测题样本也会引起测量误差。测题取样所引起的误差在测验的单一形式中也可能出现。如果测验是要测量单一特性,那么,这个测验上的每一个测题都应该测量它,而不该测量其他的东西。但是实际上,有些测题能测量多种心理特性,因此,在一个测验中所包含的特定测题的抽选就变成了一个误差的可能来源。(2)测验的实施所引起的误差1由于测验的经验日益
13、丰富,测验的实施更加标准化,实施条件的变化所引起的误差可能性就大为减少。然而,由于对实施指导语的错误理解,对答案纸的错划,时间记录的错误以及一些不能预见的干扰等,都会产生误差。2对一组被试实施测验不是同一个主试,而是由多个主试实施,以及主试本身在安排测验上有较多的余地,这些也会引起误差。3记分也会产生误差,如论文式的测验和其他自由反应的测题各格式,记分就很难做到完全客观,从而产生误差。(3)被试所引起的误差这是最难控制的误差。甚至当我们具有测验的等同形式,在标准化的实施和记分程序下,测验的情境以最理想的方式加以安排,由于被试本身的不一致性也会使测验的分数不一致。具体表现为:动机的作用;学习、发
14、展和教育的影响;对于测验的经验;测验的焦虑;生理因素等。(三)提高测验信度的方法(1)适当增加测验题目的数量测验题目的数量越多,题目的代表性就越大。这种方法既可提高信度,也可提高效度。因此,一次测验的题目不能太少。但题目太多也无法操作。所以,只能适当增加测验题目的数量。(2)测验的难度要适中因为测验的难度中,能使测验难度达到最大,也能使测验的区分度达到最大,所以,必须使测验的难度适中。(3)测验的内容应尽量同质如果测验的内容过于庞杂,必然要求考生具有不同的能力、知识或技能,致使测验的信度降低。例如,外语、数学测验的信度常高于语文、历史测验的信度。因此,为了提高测验的信度,测验内容应尽量同质。(
15、4)测验的程序应统一测验的过程直接关系到信度的高低,可以说,信度主要是在测验的实施过程中要重点保证的。测验的程序统一包括试卷统一、测验开始时的指导语、回答问题的方式、分发及回收试卷的办法、测验时间的掌握等,这是关系到测验信度的重要因素。要严防舞弊现象的出现,特别是集体舞弊现象,更不能泄露考题等恶劣行径。(5)测验的时间要充分测验的时间限制也会影响信度的高低,如果安排的时间不购,考生不能从容回答所有问题,也就不能真实地反映应试者的实际水平。因此,测验的时间要充分。当然,这里不是说,要保证所有考生都能做完试题,要以大多数考生为标准制定考试的时间。(6)评分要尽量做到客观化、减少评分误差对于主观性测
16、验,很难制定明确的评分标准,由于各评分者的标准不统一,很多主观因素也能对评分产生消极影响。所以,首先要有明确的评分标准;其次,最好多个专家同时评一份试卷,或者是单个评分者反复多次评一批试卷,对于几次结果误差较大的,要复评。(7)应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数,从而影响测验信度。第二节 效度一、 效度的概念效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。我们可以从以下几个方面来理解效度:(一)测量的效度始终是对一定的测量目的而言的。一般而言,任何测量都有某种特定的目的和功能,判断效度的高低,就是判断测验达到目的的程度。如果能正确真实地测量出所想测
17、量的东西,那么,对这一目的的效度是高的;反之,则是低的。例如,一个智力测验,结果实际测量的不是智力的高低而是知识的多寡。那么,此测验的效度就低了。即使某种公认效度较高的测量,也不能要求它在不同目的的测验中保持相同的效度。(二)测量的效度也是对测量的结果而言。一种测量工具只有经过实际测量,才能根据出来的结果判断它的效度。所以,也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度。不言而喻,对于任何一种测量来说,只有当它的测量结果真实、正确地反映所欲测量的功能和特性时,才能认为这种测量是有效的或效度较高的。(三)一种测量的效度只是高或低的问题。因为,一种测量在编制时,总是针对一定的目的而
18、编写的。例如,要编制学生的数学能力,我们不会用语文题目来作为测题,总会用一些数学题。因此,学生数学能力或多或少会反映出来一些,不会毫无反应,换言之,测验结果总有一定的效度,只是效度高低不同罢了。(四)在教育测量中,效度问题比在其他领域的测量更为重要。因为:首先,教育测量的对象大多是精神现象,只能通过对其具有可测性的外部表现的测量,以间接认识其心理活动、心理特征或知识水平等;其次,学生的心理活动、心理特征与其外部表现之间,一般具有相关关系而无函数关系,外部行为并不能准确无误地反映某种心理状态。此外,教育测量的对象不是物而是具有主观能动性的人。人能有意识地调节自己的外部行为,掩盖自己的内心活动,这
19、就增加了认识其精神现象的难度。所以,每当进行教育、心理之类的间接测量的时候,必须考虑是否测量到了索要测量的东西,在多大程度上测量到了这些东西。也就是说,必须考虑测量的效度问题。二、效度的理论公式实得分数的方差可进一步分解为: = + = + + 2xT2EV2IE其中, 为潜在真分数方差, 为系统误差方差VI潜在真分数方差 系统误差方差 随机误差方差2V 2I 2E效度的计算公式为: =xyr2V由效度的计算公式可以看出,如果随机误差分数的方差和系统误差分数的方差之和越小,则效度越高。从以上实得分数方差的分解,可以看出,信度与效度之间的关系:第一种是高信度、高效度;第二种是高信度、低效度;第三
20、种是低信度、低效度。高信度、高效度高信度、低效度低信度、低效度因此,在信度与效度之间,首先要重点保证是高效度,因为,高效度必然高信度;反之,则不然。特别是对于教育测量而言,效度问题显得更为重要。三、效度的估计(一)内容效度(1) 什么是内容效度内容效度是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。也就是测量内容的代表性程度。在编制测验时,内容效度是一个相当复杂和不易解决的问题。以成绩测验来说,固然要求测验题目能代表所学习过的全部内容,但仅仅在形式上做到这一点还不能保证足够的内容效度,因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几种行为反应去考察,如果测验题目大多是只
21、需牢记教材就可以回答的问题,那么,对全面测验学生的成绩这一目的来说,内容效度仍然不高,也就是说,还没有完全测验到所想测量的特性和功能。(2) 估计内容效度的方法1逻辑分析的方法这是根据教育学和心理学的理论,根据教学大纲的要求,勾画出学生应掌握知识内容的范围和深度,提出应形成的技能名称等,然后以逻辑分析的方法估计测验在多大程度上代表了这些内容,在多大程度上能够测量出所要测量的特性和功能。2用测验题目与教材内容比较的方法2V 2I 2E2V 2I 2E2V 2I 2E先制两个表:1测验的双向细目表,列出所要测量的各单元教材内容在考题中应占的百分比和所要求的各种行为反应在全部反应中的百分比。2测验试
22、题分类表,根据各单元教材内容列出试题,并注明该题所要求的行为反应及其应占的百分比。对照这两个表,根据各个部分相符合的程度,判断内容效度的高低。(二)效标关联效度(1)效标是用来衡量测验效度的尺度。1效标就是足以显示测验所欲测量的特性的变量或足以显示测验所要预测的特性的变量,作为检定效度的参照尺度。2具体而言,效标是辨别真伪的尺度,当事物满足该原则时,才能存在。效标是不能违反的。当然,标准可以提高,也可以降低。效标不仅随测验的种类的不同而不同,而且可能随时间而改变。现在是好的成功的效标,将来就不一定是。(2)选择效标是一件困难而重要的工作1教育测验所依循的效标,可采用各学科成绩和教师的评定结果;
23、2智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事务;3能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;4职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;5人格测验的效标,很难找到,只能按编制者的主观的标准来评判,或以被试以后的行为或临床资料作为效标。(3)效标关联效度又可称为经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验的效度的高低的。(4)效标关联效度又可分为同时效度和预测效度。1同时效度是指测验与当前的效标之间的关联程度;2预测效度是指测验与将来的效标之间的关联程度;3例如,用全国高考的成绩作为效标来检验高中毕业会考的成绩,
24、计算两者之间的相关系数就是会考的同时效度;用大学一年级的成绩作为效标来检验高考的成绩,计算两者之间的相关系数就是高考的预测效度。(5)效标关联效度的计算方法参阅有关的教育统计学教材(三)结构效度(1)所谓结构效度,是指一个测量能实际测量出理论上的构念或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义,也就是说从心理学的理论观点就测验的结果加以解释和探讨。这里结构的含义是心理学理论所涉及的抽象而属假设性的概念、特性或变量,如智力、焦虑、机械能力倾向、成就、动机等。(2)结构效度的确定方法:1从某一结构理论出发,导出各项关于心理功能或行为的基本假设2据此编制测验;3由果溯因,以相
25、关、实验和因素等方法,检验测验结果是否符合心理学上的理论见解。(3)确立一个测量的结构效度需要两个步骤1必须指出,这个测量和所有理论上认为应与之有关的其他测量,有显著的相关。2必须指出这个测量与所有理论上认为不应与之有关的其他测量,没有显著的相关。四、提高效度的方法(一)各种效度系数的要求(1)不同的测验对效度系数有不同的要求,例如,智力测验分数与教师对学生的等级评定之间的效度系数一般在 0.300.50 的范围内;相同科目的标准测验成绩与教师对学生名次排列之间的相关系数一般应达到 0.600.70;两种不同的智力测验或标准测验之间的相关系数应达到 0.600.80,才符合要求。(2)对效度系
26、数大小的要求,也受原测验与获得效标的测验之间的相似性的制约。若二者不相似,则效度系数偏低;若相似,则效度系数会高些。所以,有的测验效度系数达到 0.35 即已符合要求,有的却要达到 0.650.77 才能被认为是有效的测验。(二)影响效度的因素(1)测验组成方面测题是构成测验的要素。而测题的性能是影响测验效度的因素之一。例如,测验的取材、长度,侧题的鉴别力、难度及其编排方式等都和效度有关。如果测验材料经审慎地选择,测验的长度恰当,测题具有相当的鉴别力且难度分布适当,并对测验作出合理的安排,就能提高测验的效度。(2)测验实施方面一个测验的效度要得到保证,主试应当适当控制测验情景,遵照测验守则的各
27、项规定实施。例如场地的布置、材料的准备、回答方式的说明、时间的限制等。如不遵照标准化的程序进行,则必然使效度降低。(3)被试主观状态方面被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等,都能影响测验结果的可靠性和自己正确性。无论是能力测验还是人格测验,只有借助被试者真实的反应,才能正确地推断其心理特性和适应状况。(4)估计效度所依据的效标选择适当的效标是统计效度的先决条件。从统计的观点来分析,一个效标关联效度受下列三个因素影响:1 测验的信度2效标变量测量的信度3测验变量和效标变量之间真正的相关程度。(5)样本方面1适用的对象一个测验应用于不同的对象,由于他们在性别上、年
28、龄上、教育程度上以及经验背景上的差别,其测验功能不一致,效度也随之而异。2规模的大小当样本容量增加时,测量的误差有相互抵消的趋势,因而所得的结果较稳定。3异质性如果其他条件相同,样本分数全距愈大,则效度系数愈高。(三)提高效度的方法(1)控制系统误差效度的高低主要受系统误差的影响。例如,仪器没有校准、题目和指导语有暗示性、答案有明显的组型等因素都会影响测验的效度。因此,必须控制这些因素。(2)精心编制量表1测验内容要确实能反应测验目的;2题目表述必须清楚、简明,所用字、词、句为学生理解,内容应能引起被试者的兴趣,排列由易到难,但前面的题目不应暗示后面的答案;3题目难度合适,有足够的区分度;4试
29、卷印制清楚,无错误和遗漏,并力求精美。(3)妥善组织测验严格按照测验手册进行,不作超出规定的解释,要掌握好测验时间。评分时务必遵循评分标准,仔细登记,避免错误。两次测验间隔时间也影响效度,所以,间隔长短,一定要按测验目的合理安排。(4)扩大样本的容量和代表性加大样本容量,可以增加样本对总体的代表性,而且使随机误差相互抵消,使测量更可靠。同时,样本加大了,被试者差异也就加大了,潜在真分数的方差随着增加了,效度也就提高了。(5)合理处理效度与信度的关系1信度是效度的必要条件。虽然信度高的测验效度不一定高,但效度高的测验,信度却一定比较高。效度和信度的关系是:效度的最大值等于信度的平方根。但是,既要
30、有高效度,同时又要有高信度,是不大可能的。例如,同质性测验信度较高,但对于预测来说,效度高,但是信度却比较低。所以,要提高预测效度的一个重要方法,是增加非同质性,即增加新因素。2 在处理信度与效度关系问题上,首先要保证高效度。(6)适当增加测验的长度增加测验的长度可以提高信度,而效度的最大值又与信度有关,所以,也可以提高效度。增加测验长度对信度的影响大于对效度的影响。适当增加测验题目的数量既可以提高信度,又可以提高效度。第三节 难度一、难度的概念难度是指测验试题的难易程度。例如,在教育测量中,客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示。其公式为:P= NR式中,P 代表
31、试题难度,R 为答对试题的人数,N 代表参加测验的总人数。这里,难度实际上表示的是易度,与试题的实际困难程度正好相反。这是传统的难度计算公式,应用已极为广泛。一则是习惯;二则与后面的难度转换也是一致的。因此,只要理解它的意义,并不会造成认识上的混乱。难度是试题对学生知识和能力水平的适合程度的指标。试题的难度不但对题目的区分度(见本章第四节)有影响,而且对试卷的信度和效度也有较大的影响。很明显,难度是一个相对的概念,难度的高低与被试的水平直接相关。一种测量对这一组被试是高难度的,可能对另一组被试是低难度的。也就是说,难度是由参与测量的被试群体的整体水平决定的。因此,我们不能笼统地说,这种测量的难
32、度如何,而应该谈这种测量对某类被试的难度怎样。二、难度的计算(一)计算难度的基本公式1客观题难度的计算P= NR式中,P 表示难度指标,N 表示参加考试的总人数,R 表示答对某道客观题的人数。很显然,这里的难度指标,表示的是试题的通过率。通过率越高,题目越容易;反之,越难。例如,100 人参加测验,某题有 60 人答对,则此题的难度为:P= = =060NR106此题的通过率为 60,难度适中。 2主观题难度的计算:P= KX式中,P 还是表示难度指标, 表示所有考生在这道题上的平均X得分,K 表示这道论文题的满分。例如,某道论述题满分 12 分,所有考生在这道题上的平均得分为 3.6 分,则
33、此题的难度为:P= = =0.3KX126.3此题偏难。(二)用极端分组法计算试题的难度当考生人数较多时,用基本公式计算难度需要对所有考生的得分情况进行统计,工作量很大,而且常常出错,这时可以用“极端分组法”求试题的难度。不管是客观题还是主观题都可采用这种方法,而且还可以同时计算试题的区分度(见本章第四节)。1用极端分组法计算客观题的难度具体步骤如下:(1)先按测验总分的高低,按由高到低的顺序,依次排列试卷。(2)从得分最高的一份试卷开始依次向下选出全部试卷的7,作为高分组。(3)从得分最低的一份试卷开始依次向上选出全部试卷的27,作为低分组。(4)按下列公式计算难度,P= 2LHP式中,P
34、为难度,P 为高分组的难度,P 为低分组的难度。高HL分组和低分组的难度计算按照求难度的基本公式进行计算。2用极端分组法计算论文题的难度论文试题一般不能简单地判定对、错或通过、不通过,难度计算比较复杂一些。具体步骤如下:(1)按测验得分排列试卷,确定高分组与低分组,各占总人数的 25(方法与前面相同)。(2)分别为高分组、低分组编制每道试题的分析表。(3)按下列公式计算难度,P= )(2LHnX上式中,P 表示难度指数,X 表示高分组得分总和,X 表示低H L分组得分总和,n 表示总人数的 25,H 为这道题的最高得分,L 为这道题的最低得分。例如,某道论文题,高分组得分总和为 40 分,低分
35、组得分总和为 15 分,有 40 人参加考试,这题最高得分为 8 分,最低得分为 2 分,则此题的难度为:P= = =0.125)(LHnX)28(1054此题偏难。三、难度对测验的影响1测验难度影响测验分数的分布形态难度值过大或过小,都会造成测验分数的偏态分布。难度值越接近 0,测验的难度就越大,正确回答试题的人数就越少,测验分数就越是集中在低分段,其分数分布呈正偏态;相反,难度值越接近 1,其难度就越小,正确回答试题的人数就越多,测验分数集中在高分段,分数分布呈现负偏态。 2测验难度影响测验分数的离散程度 测验难度直接影响测验分数的离散程度,因为难度过大或过小,测验分数的分布都呈偏态分布,
36、亦即测验分数都分布在高分段或低分段,这样,测验分数的离散程度就变小了。而这不一定符合考生的实际情况,因为考生的差异是客观存在的。只有难度适中的测验,其分数的分布范围才有可能达到最大。3测验难度影响测验的鉴别能力这里实际上谈的是难度对区分度的影响。适中的难度可使试题的区分度达到最大。这在后面还要说明。四、测验的适宜难度从以上难度值的计算公式,我们可以得出难度值 P 的取值范围为:0P1,当 P=0 时,试题的实际困难程度最大(所有的考生都得 0 分),当 P=l 时,试题的实际难度最小(所有的考生都全对)。在常模参照性测验中要求试题难度适中,即大多数题目的难度在 0307 之间,少数题目可在这一
37、范围之两边且题数(或题分)大体相当,使整个试卷的平均难度为 05 左右(045055 之间)。只有适中的题目难度,才能使试题产生区分不同程度考生的最大效果,也才能使考生得分呈正态分布。而对全部考生都能做或都不会做的题目则应予删去。对于其他类型的测验,目的不同对难度的要求也不同。比如,选拔奥林匹克数学竞赛的学生,难度值就得偏小;而选择补习功课的学生,难度值就得偏大。 五、控制题目难度的基本方法一般说来影响题目难度的主要因素有:考查知识点的多少;考查能力的复杂程度或层次的高低;考生对题目的熟悉程度(如本来较易的题目会因考生均未注意而造成很难,或本来较难的题目会因为考生普遍练习过而变得较容易);命题
38、的技巧性(如同一个问题,可以命得容易,也可以命得较难)。控制题目因素除了考虑上述因素,还可以通过其它方法来控制。在平常的教学考试中,由于老师对学生的情况比较了解,因而主要凭经验来控制难度,使之与老师的教学难度相适应。而在大规模的测试中,就要通过预测来掌握难度了。首先由命题人员根据上述因素估计一个难度范围;然后通过测试看这个估计的准确程度,分析原因,进而提高评估能力。经过预测取得难度的题目可以进入题库,以备后用。第四节 区分度一、区分度的意义(一)区分度的概念区分度是指测验对考生实际水平的区分程度,用符号 D 表示。具有良好区分度的测验,实际水平高的应该得高分,实际水平低的应该得低分。所以,区分
39、度又叫鉴别力。它是评价试题质量,筛选试题的主要指标与依据。区分又分为正区分(D0)、零区分(D=0)和负区分(D0),正区分又称积极区分,负区分又称消极区分。所谓 1)正区分是指实际水平高的考生得了高分,实际水平低的考生得了低分;负区分正好相反;零区分是指实际水平高低与得分之间没有太大的关系,呈现出零相关。 任何测验的目的之一,都是希望能够鉴别考生的实际水平。这实际上也是测验的信度和效度在题目上的具体要求。区分度的高低直接影响到测验的信度和效度。(二)区分度与测验信度、难度的关系1区分度与信度的关系表 3.2 区分度与测验信度的关系此表是 1962 年 RL艾伯发表的,这里是假定全部试题区分度
40、 信度0.1225 0.000.16 0.420.20 0.630.30 0.840.40 0.9150.50 0.949的难度均为 050 时所预测的信度系数。里面的区分度指的是平均值。可见,要想达到理想的测验信度,提高区分度是一个好方法。2区分度与难度的关系表 3.3 区分度的最大值与难度的关系难度(P) 1.00 0.90 0.70 0.50 0.30 0.10 0.00区分度的最大值 0.00 0.20 0.60 1.00 0.60 0.20 0.00由上表可知,难度适中,可使区分度达到最大值。二、区分度的计算区分度的计算有多种方法,这里介绍几种。(一)用极端分组法计算区分度1客观题区
41、分度的计算用这种方法计算区分度与计算难度的方法基本相同,只是最后一步按下列公式计算区分度:D=P PHL以上公式中 D 表示区分度,P 表示高分组的难度,P 表示HL低分组的难度。例如,某题高分组有 70的人答对,低分组有30的人答对,则此题的区分度为 04。2主观题区分度的计算主观题区分度的计算方法与客观题不同。首先,在分组方面,高分组和低分组各取 25的总人数,然后按以下公式计算:P = )(LHnX上式中,D 表示区分度,X 表示高分组得分总数,X 表示低分H L组得分总数,n 表示总人数的 25,H 表示这道题的最高得分,L 表示这道题的最低得分。(-)用内部一致性系数计算区分度用极端
42、分组法分析测验项目的区分度虽然计算简便、易于理解,但所得结果不精确,通常只在教师编制的课堂测验中使用。在标准化的或大规模的测验中,多采用相关法分析试题的区分度。计算区分度可以采用点二列相关、二列相关、 相关系数等方法计算相关系数来表示区分度(参见有关教育统计学的教材)。点二列相关适用于计算客观题的区分度;二列相关适用于计算多重选择题的区分度; 相关系数适用于二个变量都是二分名义变量的区分度。计算区分度时,要根据不同的测验目的选用适宜的方法。只有这样,才能正确地判定测验的区分度。三、提高区分度的方法1使题目的难度适中,使整个考试难度适中难度与区分度的关系在上表中已有说明,题目的难度适中可使区分度达到最大值。因此,使难度适中是提高区分度的重要方法。2着重考察复杂的学习结果尽量考察复杂的学习结果,使高能学生能得高分或最高分,低能学生得低分甚至最低分,使分数尽量分布在整个分数量尺上。这样,可以提高区分度。四、区分度的评价标准区分度自然是越高越好,但要做到这一点较难。一般说来可参照下表标准。对于有些要求不高的测验,有些试题的区分度低一些也是容许的。区分度 评价0.40 以上 非常良好0.300.39 良好,如能改进更好0.200.29 尚可,用时需作改进0.19 以下 劣,必须淘汰或改进以提高区分度方可使用表 3.4 采用极端分组法计算的区分度的评价标准