1、3 物理测验的评价,1测验与评价中的几个基本概念: 学生通过测验所得的分数称为原始分数。 要客观地评价学生成绩,评价测验和测验题的质量,就必须对原始分数进行统计处理和分析解释。 (1)次数分布表与频率分布表 次数分布表: 测验结束后,将各分数段和人数列表统计。这样的统计表就是简单的次数分布表,这种分数在各个分数段的散布情况叫做次数分布。,频率分布表:,所谓频率即某一分数段上的人数所占总人数的比例。 将各分数段和每一分数段上的人数所占总人数的比例列表统计。 (2)集中量数和差异量数 频率分布表描述了分数集中趋势和离散程度,即这批考生的一般成绩如何,成绩差异有多大。,集中量数:,描述分数向某点集中
2、的趋势的量数称为集中量数。 在教学测量中最常用的集中量数是平均分数。 平均分数的计算公式如下:X=Xi /N 。 如果被测人数很多,可用次数分布来计算平均分数: X=(f1Xc1+f2Xc2+fNXcN)/N=fi Xci /N 。 式中fi代表第i个分数段的人数;Xci代表第i个分数段的组中值。,差异量数:,差异量数是用来描述分数的离散程度。 差异量数包括: 全距、平均差以及标准差等。 a.全距(R): 全距(R):表示一组数据中的最大数与最小数之差。 R =Xmax -Xmin。 全距只能反映差异的大致情况。,b.平均差(AD):,离均差(x): 每个变量(例如每个人的分数)与平均数的差。
3、 即:x=X-X。 平均差(AD): 各个变量的离均差的绝对值的平均值。 即:AD=(X1-X+X2-X+XN -X)/N=xi/N。,c.标准差(S):,标准差(S): 将各个离均差的平方取平均值再开方,所得的数值叫做标准差。 即:S=(x2/N)1/2。 如果直接利用原始分数计算,则:S=X2/N-(X/N)21/2。,(3)相关,二列变量之间的相互关系,叫做相关。 如果一列变量变动时,另一列变量也发生变动,而且变动的方向相同,则这两列变量是正相关。 如果一列变量变动时,另一列变量也发生变动,而且变动的方向相反,则这两列变量是负相关。 两次物理测验是负相关,说明测验结果的稳定性极差,不能反
4、映学生的真实水平,测验是完全不可信的,即信度极低。,两列变量X、Y之间的相关程度,用相关系数r表示。,相关系数的计算分式为:r=xy/(NSxSy), 式中x、y是变量X、Y的离均差x=X-X、y=Y-Y;Sx、Sy是变量X、Y的标准差,即: Sx =(x2/N)1/2 =X2/N-(X/N)21/2, Sy =(y2/N)1/2 =Y2/N-(Y/N)21/2。 如果用原始分数来表示,相关系数的计算公式可写成: r=(NXY-XY)/NX2-(X)21/2NY2-(Y)21/2。 应当指出:相关系数的计算,N应在30以上。,2物理测验的评价,科学地评价考试质量,主要反映在四项指标上: 信度、
5、效度、难度和区分度。 (1)信度: 信度是测验的可靠性指标,它反映测量的稳定性程度。具体地说,是指两次测验关联的程度。,某一次测验的信度怎样计算呢?,通常是将一次测验的试卷,等值地分成两半,相当于两份试卷,即相当于两次测验。 这样,前一半的分数,以变量X表示,后一半的分数以变量Y表示。 计算出相关系数r,r=(NXY-XY)/NX2-(X)21/2NY2-(Y)21/2, 再根据公式:rXX=2r/(1+r)计算出rXX的数值。 rXX的数值就是信度的数值。 信度值在0.8以上为基本合格。,影响信度的主要因素有:,评分的随意性。 要尽量排除主观随机因素,最好是客观评分。 题量(在教育测量学中叫
6、做测量的长度)。 某次测验的题量多,信度就高。 如果某次测验的题目数量较少,信度rXX低。为了提高信度,使其达到rKK,则应增大题量。 设增加后的总题量与原题量的比值为K,则有: K=rKK(1-rXX)/rXX(1- rKK)。 例如,某次测验的信度rXX=0.64,为了提高信度,使其达到rKK=0.80,则K=2.25。 如果原题量为12个,则应增到27个题目。,(2)效度:,效度是测验的准确性指标。要保证测验具有较高的内容效度,应当编制测验。 编制测验时要列出双向细目表,然后进行分析: 试卷内容的覆盖面如何? 各级行为目标所占的分数比例是否恰当? 各个题目的内容是否合理?是否与要求相符?
7、,(3)难度:,难度是指每个试题的难易程度。 对于选择题来说,以被测者答对(或通过)某个题目的人数(R)与总人数(N)的比值,作为该题目的难度数值(P)。则:P =R/N。 应当指出的是,P值越大,说明难度越小。 难度H定义为:H=1-R/N。H值越大,难度就越大。 对于一般非选择型题目,可用某个题目所得的平均分数X与该题满分X满的比值,来计算难度的数值。 即:难度值P =X /X满,或难度H=1-X /X满。 难度值P在0.40.6为适中。H在0.70.9范围内为较难;H在0.30.1范围内较易。,(4)区分度(D):,区分度是指每个试题对考生的水平(或能力)区分开来的程度。 一般常用两极端
8、组通过率的差异作为区分度的指标。 首先,将被测者的试卷,按总成绩的高低依次排列。取出27%高分数的试卷,作为高分组(H);再取出27%低分数的试卷,作为低分组(L)。 然后,分析每个试题的区分度(用符号D表示):,对于选择型题目,区分度计算公式为: D=(RH-RL)/n。 式中RH和RL分别为高分组和低分组答对(通过)某个题目的人数 n为高分组或低分组的人数(n=N27%) 对于非选择型题目,区分度的计算公式为: D=(XH-XL)/X满。 式中XH和XL分别是高分组和低分组某个题目的平均分,X满是该题目的满分。,美国伊贝尔(L Ebel)提出对试题评价的区分度指标,如下表所示:,难度适中的题目,区分度较高。 一个较好的测验,其平均难度应在0.5左右,各个试题的难度应显正态分布,这样,试题本身和整个测验才具有较高的区分度,分数分布才能是正态。,