1、第六章 测量的效度,导 学,效度是科学测量工具最重要的必备条件,一个测验若无效度,则无论具有其他任何优点,一律无法发挥其真正的功能。因此,选用标准测验或自行编制测验,必须首先评鉴其效度。高效度是一个良好测验最重要的特性。,通过这一章的学习,可解决四个问题 一、明确效度的理论定义即操作定义; 二、清楚信度与效度之间的关系;(重点) 三、掌握三种效度的定义、性质及估计方法;(重点) 四、了解影响效度的因素,在效度估计时尽量避免由此造成的误差。,内容细目,第一节 效度的性质 第二节 内容效度 第三节 构想效度 第四节 效标效度 第五节 影响效度的因素,第一节 效度的性质,一、效度的定义 二、效度的性
2、质 三、效度的种类 四、效度和信度的关系,一、效度的定义效度指的是测量的准确性,即一个测验或量具能够测量出其所要测量东西的程度。效度所要回答的基本问题是:一个测验测量什么特性?它对所要测量的特性测得有多准?,在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率,即效度= SV2 / Sx2=rxy2式中rxy代表测量的效度,SV2代表有效变异数, Sx2代表的是分数的变异数,即总变异数。,一个测验的效度表明,在一组测验分数中,有多大比例的变异数是由测验所要测量的变因引起的 。,二、效度的性质 (一)效度是针对测验结
3、果的即测验效度是“测验结果”的有效性程度。(二)效度是针对某种特定的测验目的的效度是针对某种特殊用途而言的,不具普遍性。所以在描述和评价一个测验的效度时,必须考虑这一测验的特殊用途,指明该测验对测量什么有效。,(三)效度只有程度上的差异效度只有程度上的差别,而不是“全”或“无”的差别。从上述后两条性质可看出,效度与信度一样,是个相对的概念,即相对于某种特殊的用途,具有较高或较低的效度。,三、效度的种类 内容效度所涉及的问题是,从所感兴趣的行为总体中取样的测验项目,其代表性如何。构想效度是指一个测验对某种心理学所涉及的抽象概念或心理特质测得如何。 效标效度又称实证效度或准则关联效度,指的是测验对
4、我们所感兴趣的外在行为能够做出多好的预测。这种外在行为是衡量测验是否有效的标准,简称效标。,四、效度与信度的关系(一)高信度是高效度的必要而非充分的条件(二)测验的效度受它的信度制约信度系数的平方根是效度系数的最高限度,第二节 内容效度,一、内容效度的性质 二、确定内容效度的方法 三、内容效度的特点 四、内容效度的应用与评价,一、内容效度的性质内容效度指的是测验题目对欲测的有关内容或行为范围取样的适当性,从而确定测验是否是所欲测量的行为领域的代表性取样。即测验用的测题对整个测验内容范围的代表性程度。由于这种测验的效度主要与测验内容有关,所以称内容效度。,一个测验要具有内容效度必须具备两个条件:
5、 首先,要有定义完好的内容范围,并使测验的全部项目均在此范围内。所谓内容范围可以是具体知识或技能,也可以是复杂行为。,其次,测验题目应是所界定的内容范围的代表性取样。所谓代表性取样,意味着根据材料与技能的重要性来选题目,而非随机取样,以便使选出的题目能包含所测内容范围的主要方面,并使各方面题目比例适当。,二、确定内容效度的方法 (一)专家判断为了确定一个测验是否有内容效度,最常用的方法是请有关专家对测验题目与原定内容范围的符合性作出判断,看测验的题目是否代表了规定的内容。由于这种衡量效度的方法是一个逻辑分析的过程,所以又称作逻辑效度。,为了使内容效度的确定更为客观,弥补不同专家对同一测验内容效
6、度判断可能不一致。可采用以下几个步骤:1定义好测验内容的总体范围,并描绘出有关知识与技能及所用材料的来源;2划分细纲目,并根据重要性规划好各个纲目的加权比例,做出尽可能详尽的描述;,3确定每道题所测的知识与技能,将自己的分类与测验编制者的纲目作比较;4制定评定量表来测量测验的整个效度,如测验包括的内容、技能、材料的重要程度、题目对内容的适用性等。由每位评分者在评定量表上作出判断,总估获得测验内容效度的证据。,(二)统计分析除了描述性语言外,内容效度的确定也可采用一些统计分析方法。例如计算两个评分者之间评定的一致性(评分者信度)作为内容效度指标,虽然考察的是评分者的判断信度,但由于来自两个独立的
7、评判者,因此符合程度越高越能反映测验的内容效度。,克伦巴赫提出,内容效度可由一组被试在独立取自同样内容范围的两个测验复本上得分的相关来作数量的估计。若相关低,说明二者至少有一个缺乏内容效度;若相关高,一般可推论测验有内容效度。,另外,再测法也可用于内容效度的评估。先将测验施测于被试,由于被试对测验内容了解甚少,因而得分较低,然后对他们进行教学训练,结束时再测一次,如果成绩提高很大,则说明测验对于教学具有较高的内容效度。,(三)经验推测法这种方法是通过实践检验效度的。如儿童发展量表是否有效,通过对不同年龄阶段儿童的调查,分析其结果,观察不同年龄阶段儿童对每个题目的反应是否依年龄的发展而有所不同,
8、若通过率随年龄的增加而增加,就可推测该测验有内容效度。,随堂练习 如何考查学业成绩测验的内容效度?主要方法有哪些?,1、考察学业成绩测验的内容效度要从以下几方面入手:(1)分析测验项目所考核的知识技能覆盖面:(2)测验内容的深度、广度与结构比例:(3)能力水平的考核情况。2、考察学业成绩测验的内容效度的主要方法:(1)请学科专家做出系统评判:(2)实证研究的方法,令被试“出声思考”了解题目引起被试怎样的加工过程,以确定测验实有的测量考核功能。,三、内容效度的特点 (一)内容效度的特定性一般说来测验使用者总是将测验应用于特定情况。他在每种情况下应用测验时,都是要测量他认为重要的行为。从这一观点来
9、看,内容效度是由特定情况决定的。(二)要求内容效度的测验,并不一定要求测验为同质。,(三)内容效度常与表面效度搞混表面效度是在受测者、使用测验的行政人员及其他没有受过专门训练的观察者看来这个测验是否有效,也就是从表面上看起来,测验题目与测量目的是否一致。表面效度是由外行对测验做表面上的检查确定的有效性,而内容效度是由够资格的判断者(专家)详尽地、系统地对测验作评价而建立的。虽然二者都是根据测验内容做出的主观判断,但判断的标准不同。,表面效度不是效度的客观指标,它虽然不能保证测量的正确性,但能对受测者的动机产生影响,因而也会影响到效度。所以编制测验时,表面效度是一个必须考虑的特性。最高行为测验要
10、求有较高的表面效度;典型行为测验却要求有较低的表面效度。,四、内容效度的应用与评价内容效度对于学绩测验、各种人员选拔和安置的职业测验等都是适用的。但对于能力倾向测验和人格测验一般是不适用的。 内容效度的主要缺点是缺乏理想的数量指标,因而妨碍了信息交流和各测验间的相互比较。,第三节 构想效度,一、构想效度的定义 二、确定构想效度的方法 (一)测验内方法 (二)测验间方法 (三)研究测验的效标效度 (四)实验操作法 三、对构想效度的评价,一、构想效度的定义构想效度的概念是1954年提出的,是处理效度的一种新方法。在心理学上,所谓构想是指用来解释人类行为的理论框架或心理特质,它是心理学中抽象的假设性
11、的概念、特性或变量。如智力、焦虑、内向、动机、创造性等都可称为构想。,构想效度主要涉及的是心理学的理论概念问题,是指测验对某一理论上的构想或特质测量的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。应解决好三个问题:一、一个测验测量什么心理结构?二、对这构想测得有多好?三、测验分数中有多少比例的变异是来自测验所欲测之构想?,二、确定构想效度的方法构想效度没有单一的效度指标,要从多方面的资料来源,经过长期的、艰苦的搜集和积累证据资料的过程,才能逐步验证测验的构想效度。常用于搜集构想效度资料的方法有如下几种:,(一)测验内方法这类方法主要是通过研究测验内部构造(如测验
12、的内容、对题目作反应的过程、以及题目间或分测验间的关系)来分析测验的构想效度。,主要包括:1测验的内容效度可以作为构想效度的证据。对测验所取样的内容或行为范围确定后,就可利用这些资料来定义测验所要测的构想效度的性质。即确定了测验的内容效度便提供了有关构想效度的证据。,2分析被试对题目作反应的特点,可以作为构想效度的证据。通过观察受测者的操作,询问他如何处理题目,以及必要的统计分析,可发现究竟哪些变量影响了反应,因而可确定测验是否测量了所要测的特质和心理结构。例:“当事情不顺利时,我常发怒”题目除了反映被试的行为外,也包括了社会赞许和道德评价。此类题太多,构思效度不会太高。,3考察测验的同质性可
13、以为评估构想效度提供证据。这种方法以测验的内在一致性系数(比如库德理查逊的K-R20、K-R21公式以及系数等)为指标,判断测验测的是单一性质还是多种性质,看它与所预期的结构的相符度,也就是测验的同质性问题,从测验的一致性就可以为构想效度提供证据。,(二)测验间方法通过研究几个测验的相互关系,找出它们的共同特点,进而推断出所测的共同特质是什么,便可确定这些测验是否有构想效度。具体方法如下:,1相容效度确定构想效度最简单的方法。计算受测者在新测验上的分数与另一个效度已知的同类测验上的分数之间的相关。若相关高,说明两个测验所测的是相同的特质。,2会聚效度(求同效度)如果两个测验是测量同一特质的,即
14、使使用不同的方法进行测量,它们之间的相关也应该是高的。,3区分效度(求异效度)一个有效的测验不仅应与其他测同一构想的测验有关,而且还必须与测量不同构想的测验无相关。换言之,测验要有效,必须测量与其他变量无关的独立的构想。,4因素效度建立构想效度的常用方法是因素分析。通过对一组测验进行因素分析,可以找到影响测验分数的共同因素。这种因素可能就是我们要测量的心理特质(构想)。每个测验在共同因素上的负荷量,亦即测验与各因素的相关,称作测验的因素效度。而在测验分数的总变异数中来自有关因素的比例,便可作为构想效度的指标。,(三)研究测验的效标效度若一个测验有理想的效标效度,那么该测验所预测的效标的性质与种
15、类就可作为分析测验构想效度的指标。另一种证实效标效度的方法是心理特质的发展变化。,(四)实验操作法观察实验前和实验后分数的差异也是验证构想效度的方法。根据所要测量的特质的理论构想,我们可以预测在某种情况下或经过某种训练,被试的测验得分将会有所变化。如果预测得到证实,那就给构想效度提供了证据。,三、对构想效度的评价总的看来,构想效度的最大贡献是把着眼点放在提出假设、检验假设上,使测验有了更广阔的发展前景。构想效度的主要缺点是:(一)有些构想概念模糊,缺乏一致的定义。由于其定义不同,研究结果无法比较;,(二)确定效度时没有明确的操作步骤与程序,因此当预测失败或假设得不到证实时,我们无法知道失败的确
16、切原因; (三)构想效度是通过对测验测量什么、不测量什么的证据加以累计确定的,因而没有单一的数量指标来描述有效的程度。,第四节 效标效度,一、效标效度的定义 二、效标 三、确定效标效度的方法,一、效标效度的定义所谓效标效度,又称实证或准则关联效度,是指一个测验对处于特定情境中的个体行为进行预测时的有效性,也就是对于我们所感兴趣的行为能够预测得怎么样。,这里被预测的行为是检验测验效度的标准,简称效标(准则)。由于这种效度是看测验对效标预测的如何,所以称效标效度。这种效度需在实践中检验,所以又称实证效度。根据效标资料搜集的时间,效标效度又可分为同时效度和预测效度。,同时效度的效标资料可以和测验分数
17、同时搜集。此种效度通常与心理特性的评估及诊断有关。预测效度的效标资料需过一段时间才可搜集到。此种效度对人员甄选、分类与安置工作甚为重要。,同时效度和预测效度的逻辑差异不是来源于时间,而是来自测验的目的。前者与用来诊断现状的测验有关,后者与预测将来结果的测验有关;前者是以测验来取代效标,后者是以测验预测效标。,二、效标(一)效标定义所谓效标,即检验测验效度的参照标准,指的是可以直接而且独立测量特性的变量。通常是以一种测验分数或活动来表示。,(二)效标测量的条件效标要为效度的验证提供参考标准,它的确定与测量必须科学才能为效度的验证指明方向。故必须具备以下几个条件:1有效性2可靠性3客观性4实用性,
18、(三)效标的特性1多样性2复杂性3特殊性4时间性,三、确定效标效度的方法(一)相关法相关法是评估效标效度最常用的方法,通常用效标系数来表达。效度系数是指测验分数和效标分数之间的相关系数。,(二)区分法(分组法)1基本思想如果根据被试在效标上的行为表现,将他们分为不同的组别,那么,这些组在预测分数上也应该有显著性差异。如果这些显著性差异确实存在,那么,就说这个预测的效度是较高的。这实质上就是两个独立样组的差异显著性检验,即t检验。,2、重叠量的计算 一组内被试得分超出另一组平均数的人数与另一组被试中超出其均数的人数的比率 两组分数分布共同区域的百分比,第五节 影响效度的因素,一、测验本身的因素
19、二、测验实施和计分方面 三、被试的主观方面 四、进行效度化所依据的有关准则 五、样组方面,一、测验本身的因素试题是构成测验的要素,测验之效度取决于试题性能。 (一)试题质量1试题中所用词汇和句型不能过于困难,应适于被试的文化水平;2试题的意思应清楚,避免产生歧义;,3所编试题应适合所要测量的学习结果; 4试题中不能提供额外线索; 5试题的编制要合理,一般由易到难的顺序排列;6选择题的正确答案不能有明显的组型; 7项目的难度应适当:常模参照测验平均难度应为0.50左右;标准参照测验应与教学目标要求一致。,(二)试题数量增加测验长度可提高测验效度,改变后的效度值由下式估计: r(nx)y=nrxy/n(1-rxx+nrxx),二、测验实施方面和计分方面 测验的实施必须严格按照标准化程序进行。 三、被试的主观方面 被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等,都会影响到测验的可靠性和正确性,即效度和信度。,四、进行效度化所依据的有关准则效标效度是用测验分数与准则间的相关表示的。效标的选择一定要慎重。,五、样组方面 (一)样本代表性 (二)样本规模 (三)样本的异质性如果一个团体的测验分数完全相同,即样本具有同质性,则这个团体的测验分数与效标分数的相关为零,也就是效度系数为零。因此,如果其他条件相同,样组分数全距越大,测验效度越高,反之越低。,