1、心理测量学,Psychological Testing王孝玲. 教育测量. 华东师范大学出版社, 1989. 戴海崎等.心理教育测量. 暨南大学出版社, 1999.,基本概念,Test:是获取个体的最佳表现或典型表现的行为样本的程序,比如平时所说的各种考试。 Measurement:根据规则给事物属性(物理或心理属性)指派数字,比如记录测验总分或反应时。 Scaling:建立系统性的法则及有意义的测量单位来量化经验观察。 测验的性质: 间接性:人的心理只能间接测量 相对性:测量结果需要有常模进行比较,否则无意义 客观性:测验的标准化,测验的种类,根据测验的功能 :认知/能力测验人格测验 2.
2、根据测验的要求 : 最佳水平测验:要求被试尽力而为,测验有正确答案 典型反应测验:按通常习惯的方式反应,无正确答案 3. 根据评价参照的标准: 常模参照测验:将测验分数与常模相比,以确定被试在团体中的相对位置。 标准参照测验:将测验分数与某一标准相比,以评价被试是否达到该标准。,编制心理测验应具备的基本条件,行为样本:样本要有代表性 标准化:测验编制、实施、评分和分 数解释的统一 客观化:信度和效度、难度或应答率、鉴别力,测验编制要处理的测量问题,对任何结构的测量不存在普遍认同的一种方法; 心理测量通常是基于有限的行为样组的(类似于内容效度); 测量结果总会受到误差的影响; 测量量表缺乏定义清
3、晰的单位; 心理结构不能仅以操作定义来界定,还必须说明它与其它结构的关系(类似于校标关联效度)。,无关变量,种类: 被试方面:霍桑效应与安慰剂效应(参与研究的动机、焦虑、相关经验、生理状态、人格) 主试方面:实验者效应(年龄、性别、相貌、言谈举止、暗示) 研究方法方面:样本代表性、仪器灵敏性、测量工具完善性 研究实施环境方面的:温度、光线、声音、空间大小、突发事件 数据处理方面:数据输入错误、评分不客观、统计方法不当 影响: 研究结果不一致 研究结果不准确,无关变量的控制,随机化:选取和分配被试 消除:消除实验者效应、霍桑效应和安慰剂效应,可采用双盲程序 恒定与匹配:将某些无关变量保持在某个水
4、平 平衡:平衡顺序效应 纳入自变量: 统计控制:作为协变量,测量误差,定义:由那些与测量目的无关的变化因素所产生的一种不准确或不一致的效应。 种类: 系统误差:由与测量目的无关的变化因素引起的一种恒定而有规律的误差。它只影响效度。 随机误差:由与测量目的无关的偶然因素引起的难易控制的误差。它既影响信度,又影响效度。 来源: 测量工具:项目取样缺乏代表性 施测过程:不良的测试环境(温度、光线、声音空间大小)、主试因素、意外干扰、评分计分不客观或错误 测量对象:身心状态不好、测验焦虑、反应倾向、应试动机,测量误差的估计,S2E=S2T(1-rXX)=S2(X1-X2) /2【S2(X1-X2)为复
5、本或重测测验上两个实得分数之差的标准差】,系统误差,来源及控制: 测验本身:项目取样是否具有代表性、题目表达是否简洁清晰 被试因素:应试动机、测验焦虑、测验经验、练习效应、反应倾向、生理因素(疲劳、生病).,随机误差,来源及控制:主要来自于施测过程。 测试环境:温度、光线、安静程度、意外事件干扰 主试因素:年龄、性别、态度、言谈举止、是否给予暗示或威胁、是否按规定程序操作 被试因素:身体突然不舒服,情绪不好 评分计分:评分不客观,计分错误,经典测量理论 (CTT),真分数理论的几个假设: 真分数具有不变性。 误差是随机的,误差的平均数为零。 测验分数是真分数与误差分数的和()。 真分数与误差分
6、数不相关。,常模参照测验,常模参照测验的理论基础是CTT,其主要参数指标有信度、效度、难度和区分度。,信度,信度是测量结果的一致性程度、可靠性程度或稳定程度。它是测量过程中随机误差大小的反映。信度低,随机误差就大;反之,测量误差越大,信度越小rXX=ST2/SX2=ST2/(ST2+SX2)。 理论定义:真分数的变异与总变异的比率,即总变异中有多少比例是真分数造成的。rXX=ST2/SX2 =1-SE2/SX2 =决定系数R2 操作定义:两平行测验上实测分数的相关或同一测验对同一组被试施测两次或多次所得结果的一致性程度。,信度估计的方法,施测两次: 重测法:施测适当时间再施测 计算:用同一测验
7、对同一被试 前后两次或多次施测,求其相关系数或每两次测验结果相关系数的均值。Pearson相关 使用前提:所测特质必须是稳定的;练习与遗忘的效果基本抵消;间隔时间适当。 复本法:原测验适当时间等值测验 计算:同一被试群体在两个等值测验分数的相关系数。 使用前提:题目内容、数量、难度、区分度、指导语、时限等相似。,施测一次: 内在一致性法:适用于同质性测验 分半法:将项目按难度的顺序排列编号,然后按奇数和偶数序号将项目分半。要注意使那些性质相同、联系紧密的项目分在相同的一半,否则会使信度值偏高。测验越长、项目越多,两半分数的相关就越高。使用Spearman-Brown、Flanagan、Rulo
8、n公式(前一个公式需两分半测验的方差相等,后两个不需要)。 同质性法:所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强。使用库德-理查逊公式。以上两种方法适用于二值计分的情况 (答对一题得1分,答错得0分)。 Cronbach系数法:既适用于0、1计分,也适用于多重计分。它不是对信度的直接估计,而是对其下限的估计。,评分者一致性法:不同评分者之间在测验结果计分上的一致性。 由两个独立的评分者打分,可用积差相关或斯皮尔曼等级相关求其相关系数。如果评分者在两人以上,又采用等级记分,用肯德尔和谐系数来求信度。,各种信度系数相应误差的来源,影响信度的因素,样本特
9、征:样本团体异质性越大,分数分布范围就越广,则实测分数的方差就越大,从而信度就越高(rXX=ST2/SX2);样本越大,信度越高。 测验本身:项目越多,信度越高;项目取样代表性;题目的数量越多信度越高;测验过难或易,都使分数分布变窄;陈述是否明确;测验间隔时间 施测过程:两次测验相隔时间越短,其信度系数越大;主试不按规定操作.被试作答态度.环境吵闹 评分计分:,如何根据测验类型选择信度估计的方法,信度是测验分数的稳定性,它反映了随机误差的大小,通常采用重测法、复本法、分半法、内部一致性法、评分者一致法等几种方式来估计其大小,但由于每一种方法强调了对某方面误差的控制,因此不适用于所有类型测验。
10、重测法所测特质相对稳定的测验,比如,智力测验、能力倾向测验和人格测验。复本法和分半法多用于学业成就测验和智力测验。内部一致性法多用于智力测验、能力倾向测验和人格测验,但当测验所测特质包含性质不同的方面时就不能采用这种方法。对于速度测验,可以采用重测法、复本法和分半法。以上信度系数估计方法的选择是相对的,实践中可根据测验目的、性质不同采取多种估计方法。,效度,效度是测验结果的准确性,即测验实际能测出其所欲测的心理特质的程度。其最高限是信度的平方根。它是随机误差和系统误差的综合反映。 理论定义:所欲测量的属性引起的方差。,效度的估计,内容效度:测验项目对欲测内容取样的代表性程度。它要求明确测验的内
11、容范围(包含内容所有方面,使之比例适当)。只有成就测验和职业测验可以确定内容范围,而能力测验不能。 方法:主要采用逻辑分析法 专家经验判断法(对测题内容与原定内容范围的吻合程度) 再测法:在学习之前做一次测验,学过后再做一次,若后测成绩显著高于前测,说明内容效度较高。,表面效度:指测验表面上看来好像是测量所要测的东西。表面效度是外行对测验作表面上的检查确定的,而内容效度是专家对测验进行详尽的、系统的评价建立的。虽然两者都是对测验内容作出的主观判断,但判断的标准不同。前者只考虑测验项目与测验目的之间的明显的、直接的关系,后者则同时考虑到测验项目与测验目的和总体内容之间的逻辑的本质的联系。,结构效
12、度:测量结果与理论上的构想或特质假设之间的符合程度 。适用于能力、人格测验的编制。估计方法: 测验间相关法或多特质-多方法矩阵(MTMM):与同类具有较高效度的测验的相关程度 验证性因素分析:,效标关联效度:测量的结果与某种外在效标之间的一致性程度 。 估计方法: 相关法:是求测验分数与效标资料间的相关,这一相关系数称为效度系数。 分组法:区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。 命中率法:是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。,影响效度的因素,凡是能产生随机误差和系统误差的因素都会降低测验效度。 测验本身:项目代表性、测验长度、难度、区
13、分度、标准化程度 实测过程:主试和被试的影响因素 样本特征:样本容量大小(n,e)、样本代表性、样本异质性,信度与效度和区分度的关系,信度高效度不一定高(中间图片) 效度高 信度高(右边图片) 信度低 效度低(左边图片),rXX=1-SE2/SX2,其中SX2=(D)2/6D为区分度指数 区分度是以测题与总分的相关表示的,从这个意义上说,区分度既是信度又是效度,因此D大,则信效度都大。,难度,难度指项目的难易程度。难度数值属于等级数据。对于选拔测验,难度=录取率。 难度的计算: 0、1记分项目的难度:适用于选择、判断、填空题型,其难度P=R(答对人数)/N(总人数);当人数较多时,可将总分从高
14、到低排列,取两端27%的被试P=(PH+PL)/2 非0、1记分项目的难度:适用于论述、简答、计算题型,其难度P=X / Xmax(X为所有被试在某一项目上的平均分, Xmax为该项目的满分)。,难度的等距变换,根据正态分布表,将难度P作为正态曲线下的面积,转换成相应的Z分数,这就是等距量表。,区分度,区分度指项目对被试心理水平差异的区分程度或能力。它是测验是否有效的“指示器”。 区分度的计算: (A)0、1记分项目鉴别指数法:将总分从高到低排列,取两端27%的被试,这时D =PH-PL -1,1 ,适用于0、1记分的项目。由于计算机的方便使用,可以上下50%作为划分高低组的标准。 相关系数法
15、:一般用某题得分与总分的相关系数表示,系数越大,区分度越高。R0.4为佳,但要差异显著。,(B)非0、1记分项目鉴别指数法: 独立t检验:两端27%的被试在每一题得分的平均数差异是否显著,若显著,相关系数也显著。 Kline(1993)认为,最好的自评量表是采用整数计分点,一般是7点,以图例显示,并附有文字说明。Guilford(1956)的研究表明,一个量表的信度随计分点的增加而提高,在7点量表上达到最高,随后逐渐下降。(引自阎巩固:心理学一条整合的途径,华东师大出版社,2000,p1095.),区分度与难度的关系,测验编制的步骤,确定测验目的:明确测量对象和测量目标(内容和范围)及用途(性
16、质或功能)。 拟定编制计划:用双维细目表(一个维度是内容,另一维度是在教学中要达到的行为目标),并权重。 设计测试项目:维度要全面,可根据权重赋值;项目的数量要比最后所需的数目多一倍至几倍,以备筛选和编制复本 。,项目的试测和分析:预测对象应取自将来正式测验准备应用的群体;实施过程与情境应力求与正式测试时相似 。 合成测验:选择项目以合适的难度和区分度为准;项目顺序由易到难。 测验的标准化:按照 统一的标准和严格的规定进行,使所有被试的测验条件一致:测验材料相同;施测过程相同(指导语、时限、评分和分数解释);建立常模(某一团体在某一测验上的平均分数)。 计算信度和效度:使用该总体的其他样本 编
17、写测验手册:测验的目的和功用、理论背景以及选择项目的根据、使用方法,CTT的缺点,项目分析的特征指标信度、效度、难度和区分度依赖于具体的被试样本,比如,对于不同被试,同一测验的难度也会不同 被试的心理特质依赖于具体使用的测验,比如同一名学生再两个难度不同的学绩测验中的分数会不同,常模参照与标准参照测验之比较,定义不同:前者是以被测团体的常模为参照标准来衡量个体成绩的测验;后者是以应当达到的预定的目标为个体是否达到标准的测验。 对测验结果解释的参照系不同:前者的参照系是常模,它产生在测验之后的被试团体之内;后者的是个预定的外部标准,建立在测验之前的被试团体之外的绝对标准。,测验分数的形式不同:前
18、者以个体在团体中所处的相对位置来解释个体成绩优劣,一般以百分等级和标准分数等相对分数来表示;后者只需与既定的目标相比来确定优劣,一般用合格与否、达标与否等绝对分数来表示。 测验功能不同:前者主要是区分个体差异和相对水平,常用于选拔性和竞赛性活动中;后者主要是确定学生知识技能的实际水平和达到目标的程度,常用于诊断性活动中。,对测验结果的解释不同:前者是用平均数来说明某个被试的成绩在团体中的相对位置;后者将某个被试的测验分数与既定标准相比较,其成绩优劣不依赖于其他被试。,标准参照测验,标准参照测验的理论基础是IRT,其主要参数指标有信度、效度、识别度和敏感度。,信度,分类一致性信度:两次施测中均及
19、格和均不及格人数之和与总人数的比例。斯明旺内森方法(Swaminnathan) 、萨白考维克方法(Subkoviak)、惠恩方法(Huynh)、玛希尔方法(Marshall) 测验分数的信度:在重复施测时,被试分数距离分界分数离差的一致性程度。使用利文斯顿(Livingston)系数K2(X.T)。,效度,内容效度: 结构效度: 效标效度:,识别度,识别度指数是达标者与未达标者对某题答对人数比率之差,其D= P达标-P未达标 -1,1 。当D0时,该题很差;D0时,D越大,鉴别力越好。,敏感度,敏感度指测题对教学效果的反映能力,即同一组被试对某个测题在教学前后答对人数比率之差或对等的教学组与未
20、教学组对某题答对人数比率之差。S=(RA-RB)/TT为作答该题的总人数,S0,测题有效,越大越灵敏;S0,不能反映出预期教学成果。,项目反应理论(IRT),IRT是关于被试潜在特质(能力水平)与其对测验项目反应之间关系的理论。它既适用于CTT又适用于IRT。项目特征曲线是以支配人某种行动潜在特质的量表分数IV,以被试在试题上正确作答概率为DV,所求得的DV对IV的回归线。,IRT的基本假设,潜在特质一维性:即决定被试对项目反应的潜在特质只有一种,那就是被试的某种能力水平,而组成某个测验的所有项目都是测量同一种心理特质。 局部独立性:在某个项目上答对的概率不受其他项目反应的影响。,项目特征曲线
21、:被试对项目的反应与其潜在特质之间存在某种函数关系。 知道-正确假设:如果被测者知道试题正确答案,则正确作答;如果错误回答,则为不知道。但是没有“如果被测者给出了正确答案,他就一定知道答案”的假设。,IRT的优点,被试能力的估计与所施测的项目无关:CTT的分数不仅取决于被试本身的能力,还取决于项目难度,而IRT中,用其中任何一部分项目对同一被试施测,所估计出被试的能力都是该被试真实能力的无偏估计值,即能力参数不变性。 项目参数的估计独立于n: 若用同一批项目对来自一个总体的不同被试施测,所估计出的项目参数是一样的,因为能力为的被试在项目i上正确作答的概率仅依赖于,并不依赖于n。,能力参数与项目
22、难度参数的配套性:CTT中能力与难度是不一致的。被试能力是测验的总分,其参照系是测验的全部项目;项目难度是被试群体的得分率,参照系是群体。由于两者参照系不同,无法判断能力水平是否与难度匹配。IRT将能力参数与项目难度定义在同一量表上。对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。,分数合成与解释,原始分数若没有常模或参照标准没有什么意义。 常模:具有某种特征的团体在某一测验上的平均分数。它是一种相对的数量,随着时间和团体的不同而变化。它的建立要以有代表性的样本为基础。分层随机抽样是保证样本代表性的一种比较好的方法。,常见的常模,标准分数Z:Y
23、=SZ+(当S=10, =50时,为T分数; S=100, =500时,为CEEB分数; S=2, =5时,为九段分数) ,Z分数与原始分数分布形态相同,只有两个分布形态相同时,才可以比较,否则单位不等距,导致错误。 百分等级:指在常模团体中低于这个分数的人数的百分比。它以中位数为参照点,以百分等级为单位。 年级和年龄常模:IQ=15Z+100,标准化学绩测验与教师自编课堂测验之比较,学绩测验是对个体在一个阶段的学习或训练后知识、技能发展水平的测定。按测验编制的方法,它可分为标准化学绩测验和教师自编课堂测验,两者区别如下: 前者由学科专家与测量学专家共同完成,其步骤与一般心理测验的编制程序相同
24、;后者是教师根据自身经验编制。 前者灵活性和针对性不强,重于理解思维过程;后者测验形式灵活多变,紧密结合教学实际,重于具体知识。 前者编制费时费力,但可在大范围内使用;后者编制简易快速,应用范围较小,第二节 人格测验 一、自陈量表(self-report inventory)的性质 让被试自己提供关于自己人格特征的报告。 基本假设:只有被试自己最了解自己。 (一)自陈量表的题目形式是否式 是 否二择一式是否折中式 是 否 不一定文字等级式 非常满意 比较满意 无所谓 不大满意 极不满意数字等级式 5 4 3 2 1(5经常 4多次 3偶尔 4极少 1从不),(二)自陈量表的特点测量工具一般为调
25、查表。题量较大。在同一测验中往往包含几个分量表,测多个特质。通常采用纸笔测验,因而可以团体施测。计分规则简单而客观。自陈量表的问题:社会称许性自我防御:掩饰折中,(三)自陈量表的编制方法 1.逻辑分析法确定要测量的特质 编写题目 编制问卷爱德华个人偏好量表(EPPS)、詹金斯活动调查表、显性焦虑量表。2.因素分析法施测大量题目 相关题目构成因素,即人格特质16PF、EPQ,3. 经验法分组:选取具有某一特征的效标组,对照组试测能把两组分开的题目构成测验MMPI4. 综合法逻辑分析法 因素分析法 经验法杰克逊人格问卷(JPI),第三节 投射测验 一、投射测验(projective techniq
26、ue)及其理论基础投射测验是向被试题提供一些未经组织的刺激情境,让他在不受限制的情境下,自由表现出他的反应,分析反应的结果,便可推断他的人格结构。基本假设:人们对于外界刺激的反应都是有其原因且可以预测的;被试当时的心理状况及整个人格结构,对当时的知觉与反应的性质和方向,都起了很大的作用;人格结构的大部分处于潜意识中,当被试面对一种不明确的刺激情境时,就可以使隐藏在潜意识中的欲望、需求、动机等“泄露”出来,即把一个反映他的人格特点的结构加到刺激上。,投射测验的特点测验材料没有明确的结构和意义。受测者对测验材料的反应不受限制。测验目的具有隐蔽性。对测验结果的解释重在对受测者的人格特征的整体了解。不
27、受语言文字的限制。计分困难。,投射测验的分类根据被试的反应方式,可分5类:联想法罗夏克墨迹测验构造法主题统觉测验完成法句子完成测验选排法要被试根据某一准则,选择照片,或对照片进行排列表露法画人测验,四、投射测验的评价 优点:可以对人格作综合的、完整的探讨,对被试的内心生活作深层的探索,并作出动态解释;测验目的隐蔽,防止被试作虚假反应。 缺点:评分缺乏客观标准,难以量化;缺少充分的常模资料,测验结果不易解释;信度和效度不易建立;原理复杂深奥,非经专门训练者不易使用;被试的反应更容易受测验情境的影响。,第三节 评定量表评定(rating)指由熟知被试行为的第三者依照长期观察的结果对被试行为进行评定
28、。评定量表的种类:数字评定量表:用数字表示不同程度描述评定量表:用文字表示不同程度 Labeled Magnitude Scale Green, B. G., Shaffer, G. S. & Gilmore, M. M. (1993). Derivation and evaluation of a semantic scale of oral sensation magnitude with apparent ratio properties. Chemical Senses, 18(6), 683-702. Bartoshuk, L. M. (2000). Comparing Sensor
29、y Experiences Across Individuals: Recent Psychophysical Advances Illuminate Genetic Variation in Taste Perception. Chemical Senses, 25(4), 447-460.标准评定量表:评判被试属于哪一类型的人检选量表:给出一组形容词,把最能描述被试的形容词挑出来。强迫选择评定量表:每组中有多个选项,评定者必须从中选出一个最能代表被试的项目。,常见的评定误差严格误差:吹毛求疵宽容误差:趋中误差:逻辑误差:把自认为相互联系的特质作同样的评价“光环”效应:以偏概全,如何减少评定
30、误差明确界定所评定的行为特质评定等级不应过细,5级为宜。对评定者的训练多人评定采用相对评定法注明评定依据。分别评定各个特质,第四节 情境测验把被试置于特定的情境中,由主试观察其在此情境下的行为反应,从而判断其人格。 一、品格教育测验 用于测量诚实、自我控制、利他主义等品格。 如:让学生给自己的卷子打分(事先把卷子复印了1份),看其是否诚实。 让被试闭上眼睛,在圆圈中画记号,看其是否偷看过。,二、情境压力测验 选拔间谍 选拔领导无领导团体情境三、情境测验的评价 优点:真实,自然 缺点:施测困难,费时费钱;主观评定,误差较大;被试在不同情境中有不同表现。,第五节 人格测量存在的问题一、测量对象 人
31、格特质:复杂多样二、信度和效度 影响测验分数稳定性的因素复杂 缺乏可靠的效标(专家评定的可靠性不高) 人格测验的信度、效度比智力测验要低。,三、测验的题目 题目范围难以界定; 措辞的细微差别会导致反应的巨大差异; 题目含义笼统。(即使工作困难,你也会继续下去吗?) 在选项中,经常、有时、很少,每个人的理解也不一样。四、分数解释 相同的得分能否给予相同的解释? 不同人之间是否有共同的人格结构? 多数人的行为是否就是正常的?,第十四章 现代测量的应用 一、 测量在心理咨询中的应用 (一)在自我认识、人生规划咨询中的应用 (二)在神经症、人格障碍等咨询中的应用 二、测量在人事测评中的应用 (一)在人的心理特点评估中的应用:智力测验、个性测验、专业知识技能测验、特殊能力测验 (二)人员培训后的心理特点评估 (三)工作人员的绩效评估 二、测量在教育评价中的应用 (一)在测量学生的学习与发展状况中的应用 (二)测量在教师与管理者评价中的应用,结束,The end.,