1、测量的信度和效度,你如何解释下述现象?,一个很聪明的孩子,测得智商是80分 一个学习很好的学生,考试成绩为60分 一个人缘很好的人,人际关系测量低于常模值,误差的含义 在测量中与目的无关的因素所引起的不准确或不一致效应。,测量的误差,系统误差(system error) 由与测量无关的变量引起的一种恒定而有规律的误差。,测量误差的种类,随机误差(random error) 由与测量无关的变量引起的一种无规律的误差,不易控制,心理测量误差的来源,测验本身测验题目取样不当;测验题目格式不妥;测题的难度过高或过低;测题的指导语用词不当;测验时限过短。 测验实施物理环境;主试方面;意外干扰;评分不客观
2、,计算、登记分数出错。 被试应试动机;焦虑;生理因素;学习、发展和教育;测验经验;反应倾向;生理变因。,两种误差的关系系统误差只影响测值的准确性,与效度有关随机误差既影响准确性,又影响一致性。与效度和信度都有关。,测量误差的关系,经典测量理论:真分数理论,测验分数真分数误差( XTE )真分数T:被试不受任何因素影响的条件下应该得到的测验分数,不可直接测量;在统计上用无数次测量的平均值代替。误差E:引起测量结果不一致的偶然误差,可正可负。例:学绩测验得分真实掌握程度或能力随机误差(猜测、身体状况、动机水平、考试焦虑、环境影响、手表看错等),信度的概念,信度(可靠性):测量的一致性程度一个好的测
3、量工具必须稳定可靠,即多次测量的结果要保持一致。信度只受随机误差影响,系统误差产生恒定效应,不影响测量工具的信度。,信度的操作性定义,测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率,即:,ST2 :真分数的变异数; SX2 :测验分数的变异数。,SX2 = ST2 + SE2 ST2 = SV2 + SI2(与测量目的有关的变异,与测量目的无关的变异)SX2 = SV2 + SI2 + SE2,信度的性质,信度:一组测验分数或一列测量的特性,不是个人分数的特性;真分数的变异数不能直接测量,是理论上构想的概念,只能根据一组实得分数得出估计。,估计信度的方法,重测信
4、度 复本信度 内在一致性信度(同质性信度) 评分者信度,重测信度(Test-Retest Reliability),定义:同一量表,同一被试群体,在不同时间,两次施测,求其相关。实质:表示测验结果的稳定性。故称之为稳定性系数(Coefficient of Stability) 形式:施测适当时间再施测,时间间隔的把握,间隔时间越长,稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。 年幼儿童,间隔要小;年长群体,间隔可大。智力测验的间隔不能太短,成就测验的间隔不能太长。 一般间隔时间不超过六个月。(即不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识
5、产生遗忘),复本信度(Alternate-form raliability),因为任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验,叫做复本。,复本等值要符合下列条件:,各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等,难度和区分度大体相同。各份测验的分数分布(平均数和标准差)大致相等。复本编好后,应再测一次,以确保各份测验的等值。,A卷:你是一个喜欢热闹的人吗?,1=绝对是 2=是 3=不一定 4=不是 5=绝对不是,B卷:你是一个喜欢安静的人吗?,1=绝对是 2=是 3=不一定 4=不是 5=绝对不是,
6、定义:两个复本施测同一被试群体,求其相关。,等值性系数:同时连续施测,反映内容变异。 形式:复本A最短时间复本B 稳定性与等值性系数: 时间间隔施测,内容变异重测信度误差 形式:复本A适当时间复本B,分半信度(Split-Half Reliability),定义:在测验没有复本且只能实施一次的情况下,可将测验项目分成对等的两半,根据被试在这两半测验中所得的分数计算相关系数,即得分半信度。 计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值。,分半信度(Split-Half Reliability),为了使两半基本等值,可将项目按由易到难的顺序排列编号,然后按奇数和偶数序号将项目分半
7、。要注意使那些性质相同、联系紧密的项目分在相同的一半,否则会使信度值偏高。由于分半信度实际上只是半个测验的信度,测验越长、项目越多,两半分数的相关就越高。因此,对长度不同的测验,要用校正公式。,斯皮尔曼-布朗校正公式rx1x2 表示两半测验分数的相关系数,分半信度的估计,如果两半测验不等值,亦即两半测验分数没有相同的平均数和标准差,弗朗那根公式:Sa2 和Sb2 :两个半测验分数的变异数;Sx2 :测验总分的变异数。卢龙公式:Sd2 :两半测验分数之差的变异数,Sx2 :测验总分的变异数。,同质性信度(Homogeneity Reliability),同质性指测验的所有题目测量的是同一种心理特
8、质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强。,同质性信度的估计,(1)测量同质性信度基本公式K:构成测验项目数, :相关系数平均数,Rkk:同质性信度值。,同质性信度的估计,(2)库德理查逊公式(K-R20公式)K:构成测验的题目数;pi:通过第i题的人数比例;qi:未通过第i题的人数比例;Sx2:测验总分的方差。,同质性信度的估计,(3)库德理查逊公式( K-R21公式)K-R20/21公式仅适用于答对一题得一分、答错无分的测验;,同质性信度的估计,(4)克伦巴赫系数对于多重记分的测验,用Alpha系数估计:K:测验的题目数;Si2 :某一题目分数的变异数;Sx2 :测验总
9、分的变异数。,评分者信度(Scorer Reliability),评分者信度是指不同评分者之间在测验结果计分上的一致性。 在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。,评分者信度(Scorer Reliability),最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。 如果评分者在三人以上,而且又采用等级记分时,就需要用肯德尔和谐系数来求评分者信度。,评分
10、者信度:K个评价者对N件被评价的事物评定一致性程度的度量(肯德尔W系数) :Ri:每一件被评价事物的K个等级之和; N:被评价事物的件数即等级数; K:评价者的数目或等级变量的列数。,评分者信度(Scorer Reliability),在一般情况下,间隔施测的复本信度最低,因为很多因素有机会影响到分数。相反,校正过的分半相关,因为影响的因素少,所得的信度估计为最高。,样本团体的性质 相关系数受到团体中分数分布的影响 信度系数受到团体异质性的影响 不同团体间能力水平的影响,测验的长度 测验越长,则试题取样或内容取样越恰当 测验越长,测验结果越不易受猜测的影响 测验的难度,信度影响因素,被试的同质
11、性,信度系数的应用,信度系数主要用途: (一)评价测验一般能力和学绩测验 0.9个性、价值观 .75 - .85.75时,可用于团体间的比较。 .85时,可用于鉴别个人。,信度系数的应用,信度系数主要用途: (二)解释分数1. 解释个人测验分数:谨防过分重视单一的数字分数,SE为测量标准误:一个人无数次重复施测一个测验所得到的标准差 rXX为测验的信度,为测验分数的方差,信度系数的应用,若某智力测验信度为0.95,标准差为15,某儿童得分为120分,就可以估计其真分数的范围了。E1510.95 3.35则他的真实智力测验分数的95的置信区间为(113.4126.6)。即他的智力测验分数有95%
12、的可能是在113.4和126.6之间。如果要提高估计的把握度,则可求出99%的置信区间。,效度的定义,效度指的是测量的有效性,即一个测验对它所要测量特质准确测量的程度。 在测量学中,效度被定义为与测量目的有关的变异(有效变异)与实测变异之比(Sv2/Sx2)。 测量的效度除受随机误差影响外,还受系统误差影响。可信的测验未必有效,而有效测验必定可信。信度是效度的必要条件。,SX2 = ST2 + SE2 ST2 = SV2 + SI2(与测量目的有关的变异,与测量目的无关的变异)SX2 = SV2 + SI2 + SE2,系统误差的影响,系统误差可能是由以下几方面原因造成的: 1)所要测量的特质
13、有多方面的含义,而量表本身未能全部包含这些方面; 2)测验题目中包含了与所测特质无关的题目; 3)计分方面的问题,如选择题的备选答案是不全面的,即没有完全体现被试情况的差异,因此答案就不是足够准确的,而且各题目得分是简单累加而未经加权处理,不同题目的重要性程度就没有得到区分。,效度的分类,弗兰士和米希尔提出的分类方法:(1)内容效度(2)构想效度(3)效标效度,内容效度(专家效度)-效度1,定义内容效度是指项目对欲测的内容或行为范围取样的适当程度。 条件: (1)确定好内容范围,并使测验的全部项目均在此范围内; (2)测验项目应是已界定的内容范围的代表性样本,即选出的项目能包含所测的内容范围的
14、主要方面,并使各部分项目所占比例适当。,内容效度-效度1,内容效度的应用 适合于测验所要测量的内容总体能够明确界定的情况:评价教育成就测验和职业选拔测验主要缺点缺乏可靠的数量指标妨碍各测验间的相互比较,构想效度-效度2,定义 构念:心理学家为更好地描述人的具有内在一致性的行为和心理现象而构想出的抽象概念。比如,智力、创造力、内外向、成就动机、抑郁、焦虑等 心理学的构念都是非常抽象的,但通过对一些外显行为的观察,将其拥有这种特质的程度数量化。 对同一心理构念有不同有测量方法。但无论怎样去测量,对一种特质的测量结果必须与该特质的理论解释相符合。 测验对理论上的构想或特质的测量程度;测验结果能够反映
15、所要测量的心理构念的程度,例子:智力测验的构想效度检验,对智力的构念,目前较为流行的观点认为智力代表了一个人获得、保持知识的能力,推理能力及适应环境的能力 根据智力的定义,可以推演出以下几点假设,1)智力不同于后天获得的知识,因此与遗传因素有关,且更为稳定,2)智力会随着人的生理变化而发展变化,3)智力会影响人的学习成绩和事业成功。 为验证以上假设,可以从三方面着手:1)计算同卵双生子、异卵双生子、其他同胞、非同胞间智商的相关,看相关系数是否依次降低;2)看智商与学业成绩间是否有高相关;3)智商是否随着年龄的增长而逐渐提高,在某一个阶段又是相对稳定的。 如果以上假设都得到了证实,则说明所编的智
16、力测验是有效的,如果假设得不到证实,则说明测验的效度不高。,构想效度的评价,优势:促使研究者把着眼点放在提出假设、检验假设上,使得测验成为理论研究的重要工具; 主要缺点:有些构想概念模糊,没有一致的定义;确定效度时没有明确的操作步骤;没有单一的数量指标来描述有效程度。,效标效度-效度3,衡量测验有效性的一个重要方法:根据测验所作出的预测能否证实 效标:被预测的行为,衡量测验是否有效的标准 效标效度:考察测验分数与效标的关系,又称为实证效度。 例: 高考成绩预测大学学习成绩 能力倾向测验预测工作成效,学术成就,特殊训练成绩,实际工作表现,先前有效的测验团体对照,常见效标,效标效度的分类,预测效度
17、与同时性效度1)同时效度:效标分数与测验分数同时搜集。如对一个人格测验的结果,可以用同学、家长对他人的评定作为效标; 2)预测效度:效标分数是过一段时间后搜集得到。用智力测验的结果预测一个人会不会成功,用人格测验预测人会不会患心理疾患。 同时效度的目的是检查测验测量现有的某种能力或特质的有效性,即描述当前状态时的有效性,而预测效度则表明测验对某种行为的预测的有效性。,测验本身的因素: 测验题目的质量 测验的长度 测验施测中的干扰,影响效度的因素-1,被试1. 身心状态2. 样本的特点 不同的团体对同一测验的反应可能会不一样。 同一个测验,效度团体的性质不同,效度也会有很大差别。 样本团体的异质性。,影响效度的因素-2,效标的性质 所测量的行为或心理特质与效标越相似,效度系数就越高; 效标与测验分数之间是否线性关系也是很重要的一个因素; 效标测量本身的可靠性如何亦是值得考虑的一个问题。,影响效度的因素-3,测量的信度只受随机误差因素的影响,不受系统误差因素的影响测量的效度既受随机误差因素的影响,又受系统误差因素的影响测量的效度系数总低于信度系数,信度和效度的关系,