1、第二章 教育测量的质量指标,第二节 效度,第二节 效度,一、效度的概念 二、效度的统计学原理及其与信度的关系 三、效度的估计 四、提高效度的方法,一、效度的概念,效度(Validity)是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。 第一,效度是一个相对的概念。 1.测量的效度始终是对一定的测量目的而言的。 2.测量的效度是相对于测量的结果而言的。 第二,一种测验的效度只是高或低的问题。 第三,在教育测量中,效度问题比在其他领域的测量中更为重要。,一、效度的概念,这是因为: 教育测量的对象大多是精神现象,只能通过对其具有可测性的外部表现(如语言或动作等)的测量,以间接认识其
2、心理活动、心理特征或知识水平等。 学生的心理活动、心理特征与其外部表现之间,一般仅具有相关关系而无函数关系,外部行为并不能准确无误地反映某种心理状态。 教育测量的对象不是物而是有主观能动性的人。人能有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难度。,二、效度的统计学原理及其与信度的关系 1、效度的统计学原理,在实际测量中,影响效度的主要因素是系统误差。因而在讨论效度时,还必须把真分数方差分解为两个部分,一是潜在真分数方差(V2),另一部分是系统误差分数方差(I2) ,它与由随机误差引起的变异(E2)不同。,2、效度与信度的关系,根据公式(2-2)和(2-3),可将
3、效度与信度的关系图解于后:,根据分析,可得结论如下:1)高信度是高效度的必要条件,而非充分条件。2)效度系数不会大于信度系数的平方根。可以用下式表示:,高效度、高信度,低效度、高信度,低效度、低信度,三、效度的估计,效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。 1974年美国心理学会发行的教育和心理测量的标准一书将效度分为三大类:内容效度、效标关联效度和结构效度。,(一)内容效度(Content validity),又称合理效度或逻辑程度,是指测验内容或行为取样的代表性和适当程度;即测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量
4、的属性的明确反应;测验的结果是否是一个有代表性的行为样本。 估计内容效度的方法:,估计内容效度的方法:,(1)逻辑分析的方法。其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。 (2)统计分析法。从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。 采用求统计量的公式进行计算,其公式有以下三种形式: 内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。 内容效度不适合用于能力倾向和人格测验。,(二)效标关联效度,又可称为经验效度或统计效度,是以测验分数和效标之间的相关系数来表
5、示测验效度的高低的。 效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲预测的特性的变量。它是用来检验测验效度的外在的、客观的标准和尺度。 效标关联效度又可分为同时效度和预测效度。 (用全国高考的成绩作为效标来检验高中毕业生会考的成绩,计算两者之间的相关系数就是会考的同时效度;而用大学一年级的成绩作为效标来检验高考的成绩,计算两者的相关系数就是高考的预测效度。) 估计效标关联效度可采用积差相关、二列相关或点二列相关、四格相关和多元相关系数等计算各种相关系数。,1、用积差相关系数的方法估计效度,积差相关,是计算两个变量线性相关的一种方法,由英国统计学家皮尔逊提出,因此也称为皮尔逊(Pea
6、rson)相关。要使用积差相关必须同时具备如下几个条件: 两个变量都是由测量获得的连续性数据,即等距或等比数据。 两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称分布,当然样本并不一定要正态。 必须是成对的数据,而且每对数据之间是相互独立的,即各自互不影响,本条件是难以检验的。 两个变量之间呈线性关系。一般用描绘散点图的方式来观察,最好是先各自转化为Z分数,单位会统一些。,例:某中学数学教研组的教师积多年的教学法经验,认为刚入高中的学生学习立体几何感到困难的主要原因是空间想像力弱。为了证明这个论点,他们让刚入高中的103名学生作10道题,测量其空间想像力。为避免知道了某些学生的刚入高
7、中时的成绩影响以后考试的评分,试卷暂不评阅。立体几何学完后,进行考试,按得分多少把成绩分为五等(A、B、C、D、E)分别得5、4、3、2、1分。这时才评阅入学时的试卷,统计出期末得5、4、3、2、1分者在入学测验中分别答对1道题至10道题的人数(见表2-1)。就现有资料,用什么方法可以判断教师们的意见是否正确?,表2-1:,解:(1)设期末考试的等第为y,空间想像力测验答对的题数为x,列出二重交叉次数分布表:,(2)用积差相关系数公式计算效度系数:,二列相关,适用于两个变量就其实际含义而言是等距或等比数据,它们服从正态分布,其中一列人为地划分为两类。,点二列相关,适用于一列数据为等距或等比且总
8、体服从正态分布(实际上只需要单峰对称分布,如分布),另一列变量是按事物的性质划分为两类的变量,也可以是一个双峰分布,人为划分为两类,如文盲与非文盲。这种相关系数多用于测验中评价题目的区分度。对选择题、判断题在整个测量中作用作出判断。基本计算公式:,例:有一位教师自编了一套测验题,用来预测学生一年后的某科成绩,自编测验按百分制评分,一年后考试评分只把学生分为及格者和不及格者。试就所获资料估计自编测验的预测效度。 解:1)把两次测验成绩成对排列:,2)计算出二列相关公式所需统计量:,(三)结构效度(Construct validity),结构效度是指一个测量能实际测量出理论上的构想或心理特性的程度
9、。它的目的在于从心理学的理论观点就测验的结果加以解释和探讨。 这里的结构的含义是心理学理论所涉及的抽象而属假设性的概念、构想、特性或变量,如智力、焦虑、机械能力倾向、成就、动机等。 结构效度主要用于智力测验、人格测验等一些心理测验方面。 例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。,(1)结构效度的特点,结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。 当实际测量
10、的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度的获取更为困难。,(2)建立结构效度的步骤,A、提出理论假设; B、根据假定结构拟定测题,编制测验; C、以测验结果为根据来验证假设结构中的各种因素是否成立。,(3)结构效度的估计,A、因素分析法 其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。 B、多元特质多重方法矩阵法 是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。 这种方法的设想:若采用两种
11、方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。,四、提高效度的方法,(一)各种效度系数的要求 (二)影响效度的因素 测验的构成(要素) 测验实施方面(过程) 被试主观状态方面 估计效度所依循的效标 样本方面,四、提高效度的方法,(三)提高效度的方法:1、控制系统误差2、精心编制量表3、妥善组织测验4、扩充样本的容量和代表性5、合理处理效度和信度的关系6、适当增加测验的长度,表2.1 测验长度与信度和效度的关系,第三节 难度及其计算,一、难度的概念 难度是指测量试题的难易程度。 一个题目的难度大小,除了所测的内容本身的难易程度有关以外,还与测验的编制技
12、术和被试的知识经验有关。 这就是说测验的难度具有相对性,正因为此,必须让试题通过实践来对难度作出检验。,二、难度的计算,(一)计算难度的基本公式 1、客观题难度的计算,2、主观题难度的计算,P表示难度指标,N表示参加考试的总人数,R表示答对某道客观题的人数。,二、难度的计算,例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难? 例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度? 例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难度? 例4:60人参加考试,某题满分为12分,正确得
13、分累积是480分,求该题难度?,(二)用极端分组法计算试题的难度,1、用极端分组法计算客观题的难度 具体步骤如下: 1)先按测验总分的高低,按由高到低的顺序依次排列试卷。 2)从得分最高的一份试卷开始依次向下选出全部试卷的27%作为高分组;从得分最低的一份试卷开始依次向上选出全部试卷的27%作为低分组。 3)按计算公式计算难度,例题5: 某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度? (约为0.44)如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度?,2、用极端分组法计算论文试题难度,步骤如下: 1)按测验得分排列试
14、卷,确定高分组与低分组,各占总人数的25%(方法同前)。 2)分别为高分组、低分组编制每道试题的分析表。 3)按下列公式计算难度,,例:某道论文题,高分组得分总和为40分,低分组得分总和为15分,有40人参加考试,这道题最高得分为8分,最低得分为2分,则此题的难度为多少?(0.125),计算,解:依据主观题极端分组法计算公式=0.125,三、难度的分析与控制,1、难度分析 进行难度分析的主要目的是为了筛选题目。 A、测验题目难度水平的确定 测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。 当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而
15、只当P值接近于0.50时,题目才能把被试做最大的程度的区分。 但在实际工作中,若每一题的难度值均为0.50,那么此测验很可能只能区分出好与差两种极端被试的差异,却不能对各种被试作更精确的区分。因此,一般各题的难度可在0.50+20之间。,B、测验难度对分数分布的影响,1)测验难度影响分数的分布形态。 难度值越接近0,测验的难度就越大,测验分数就越是集中在低分端,其分数分布越呈现正偏态;反之,难度值越接近1.00,其难度就越小,测验分数越集中在高分端,分数分布呈负偏态。 2)测验难度影响测验分数的离散程度 测验难度过大过小,都会造成测验分数偏离正态分布,从而使分数的全距缩小,使测验分数的离散程度
16、变小。 3)测验难度影响测验的鉴别能力 在测验中,考生之间相互配对比较的可能性越多,就越有利于准确地鉴别考生的不同能力。,2、难度的控制,一般说来,影响题目难度的主要因素有: 考察知识点的多少; 考察能力的复杂程度或层次的高低; 考生对题目的熟悉态度; 命题的技巧。 难度控制: 正确估计考生水平; 弄清弄懂各知识点; 掌握命题技巧。,第四节 区分度及其计算,一、区分度的意义 (一)区分度(Discrimination)是指测验对考生实际水平的区分程度,用符号D表示。又叫鉴别力,它是评价试题质量,筛选试题的主要指标与依据。 区分度(D)的取值范围介于- 1.00+1.00之间,值越大,区分度的效
17、果越佳。 区分度D0为正区分,D0为负区分,D=0为零区分。 区分度的高低直接影响到测验的信度和效度。,(二)区分度与测验信度、难度的关系,1、区分度与信度的关系(见下表2.2)这里是假定全部试题的难度均为0.50时所预测的信度系数。区分度指的是平均值。可见,要想达到理想的测验信度,提高区分度是一个好办法。,(二)区分度与难度的关系,表2.3 D的最大值与试题难度的关系由上表可知,难度适中,可使区分度达到最大值。,二、区分度的计算,(一)用极端分组法计算区分度 1、客观题区分度的计算:DPH PL 2、主观题区分度的计算:,二、区分度的计算,例1: 有道试题,高分组有70%学生通过,低分组有3
18、0%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?,例2:,高分组 低分组 得分X 人次f 得分X 人次f5 4 5 04 3 4 13 2 3 12 1 2 31 0 1 40 0 0 1,例2:,解:根据公式:,n=10 H=5 L=0 XH=54+43+32+21+10=40 XL=50+41+31+23+14+01=17 D=0.46,(二)用内部一致性系数计算区分度,极端分组法分析通常只在教师编制的课堂测绘中使用。在标准化的或大规模的测验中,多采用相关法分析试题的内部一致性。 由于测验总分属于连续变量,测验项目(试题)多属二分称名变量(对、错或通过、不通过),所以,用相关法计算区分度时,多采用点二列相关、二列相关、系数等方法计算相关系数。,(三)提高区分度的方法,1、使题目的难度适中,使整个考试难度适中 题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。 2、着重考察复杂的学习结果 使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。 3、掌握区分度的评价标准。,