1、第五章 人事测评质量分析,一项测评是否可靠、可信? 一项测评是否准确、有用? 一项测评是否公正、公平? 一项测评是否经济、合理?,本章教学内容:,5-1 测量的信度 5-1-1 信度及其影响因素 5-2-2 信度的评估方法 5-2 测量的效度 5-2-1 效度及其影响因素 5-2-2 效度的评估方法,5-1 测量的信度,信度是标准化人事测量的基本要求之一,如果测量工具的信度不理想,测量结果就无法被认为能代表应试者的一致、稳定和可靠的行为表现,就可能误导对应试者的评价。 5-1-1 信度及其影响因素 5-2-2 信度的评估方法,5-1-1 信度及其影响因素,如果我们用一个游标卡尺来测量一个钢管的
2、外直径,每次测量时都难免会有一定的误差。 首先,游标卡尺作为一种测量工具是有一定精度限制的,也就是说,测量工具本身存在误差。当然这种误差是必然存在的,而且误差是在一定范围中有规律的变动的,这种误差在测量工作中被称之为系统误差(systematic error)。 其次,我们每一次测量都可能出现操作上的差异,或者由于不可预见的外界因素的影响,产生测量误差。这些误差是很难控制的,而且无规律可循,有时大有时小,这种误差被称为随机误差(random error)。 前者在一定程度上可以控制,而后者很难控制. 1、信度的概念 2、信度的计算 3、信度的作用 4、信度的影响因素,1、信度的概念,信度(re
3、liability)信度是标示测验一致性高低的统计指标。主要指测量结果的可靠性或一致性,可以定义为测验结果不受测验情境或测验过程中无关变量影响的程度。,2 信度的计算:信度系数,信度指标的一般公式:测验分数 = 真实分数 + 测量误差 或者: X = T + e 信度的高低通常以相关系数表示,称为信度系数(reliability coefficient)。信度系数一般是同一样本所得的两组资料的相关,因此有: 测验分数方差 = 真实分数方差+ 误差分数方差 X2 = T2 + e2 信度系数: rxx= T2 / X2= T2 / (T2 + e2) 信度系数即是真实分数方差(变异数)与测验分数
4、总方差(变异数)之比。,3、信度的作用,测验信度要能够区分出: 导致一致性的因素: 个体稳定的特性(测量对象) 导致不一致性的因素: 可能影响测验,但又与测验对象 没有关系的个体和环境的特性 在人事测量中,对信度系数进行确定通常有以下作用: 解释真实分数与实得分数之间的相关 说明可以接受的信度水平,解释真实分数与实得分数之间的相关,信度可以解释为总的方差(标准差的平方的缩略语)中有多少比例是由真实分数的方差决定的,即测量分数的变化中有多少是真正反映了被测者分数的变化。 例如:当rxx = 0.90时,我们可以说,实得分数中有90%的方差是来自真实分数的变化,仅有10%是来自测量的误差。 信度系
5、数的分布是从0.00-1.00的正数范围,代表了从缺乏信度到完全可信的所有状况。 思考:如果rxx = 1.00表示什么? rxx = 0.00表示什么?,说明可以接受的信度水平,信度的理想水平是1.00,但是实际上是达不到的。 一般能力与成就测验的信度系数在0.90以上;人格、兴趣等测验的信度通常在0.80-0.85之间。 一般来说,当rxx 0.70时,可用于团体间比较;当rxx 0.85时,可用于鉴别个人。,几种心理测验的信度系数,4、信度的影响因素,受试者个体持久而泛化的特性: 进行测验的一般技能水平 理解测验指示语的一般能力水平 进行类似测验的一般的人格特质受试者个体持久而特殊的特性
6、: 进行某项测验(或其形式)需要的特殊的技能、能力 和特质;以及稳定的反映定势; 对某个测验项目内容的熟悉程度受试者个体短时而泛化的特性:健康、疲劳、动机、情绪状态、测验自如性;温度、 光亮、通风等测验外部条件,受试者个体短时而特殊的特性 对特殊测验的理解,测验所需要的特殊技巧;为做测验所进行的练习; 对测验项目内容的注意、记忆等的飘忽不定。影响测验过程和解释的外部因素系统改变 测验条件;对测验的各种限制;干扰程度;指示语的清晰度; 受试者在个性、性别、种族等与测验主试的交互作用; 对测验结果的不一致或有偏差的评判。 无法解释的变化(随机因素) 猜测、运气,以及暂时的干扰,4、信度的影响因素,
7、5-2-2 信度的评估方法,针对不同的误差来源,信度可以有不同的确定方法。,1、重测信度(test-retest reliability),又称为稳定性系数,是采用重测法计算信度的方法,即用同一测验在不同时间对同一对象施测两次,两次测量分数的相关系数即为重测系数。 人事测量所测查的特质中,有相当多的内容具有一定的稳定性,如人格、能力倾向等,因此,对于这些内容而言,重测信度对于衡量测量工具的质量是很重要的指标。 例如:如果用一个智力测验测量某人的智力,第一天测量得到100分,表示智力中等;第二天测量却变成了150分,这个分数意味着这个人在一夜之间变成了天才,如果没有特殊原因,这种事绝对是小概率事
8、件,不太可能发生,可信度极低。不能用这个结果帮助决策。,在日常生活中,你也许常常到市场上去买东西。如果你买了5斤瘦肉后觉得比上次少了点,没有那么重,那么你可以自己再用称称一下。如果也是5斤,那么你可能就会觉得确实有5斤。这是因为两次称得的结果完全一致,变异度为0。 人的素质测评没有这么简单,因为素质本身又是无法精确定义,因而我们常常把对个体测评结果的准确性检验,置于群体测评结果的相互关系之中,转化为两次位置关系的一致性分析。当同一对象的测评结果以同样的测评方式再次获得后,其顺序位置关系变异很小时,则说明测评结果比较准确。 例如:在技能测评中A分数88,在全体被测者中排名第一。这是否可靠可信?我
9、们可以再测一次,结果A分数95,还是排名第一,而且其他被测的位置顺序变化很小。这时我们可以说第一次的技能测评结果是可靠的(信度高)。,重测信度的考察对象,重测信度所考察的误差来源是时间的变化所带来的随机影响(气候、噪音的干扰、疾病、疲劳、情绪的影响等),根据重测相关系数的高低,可以得知测量结果在经过一段时间之后的稳定程度。重测信度表示测量能够应用于不同时间的程度,信度越高说明测量结果受环境中日常的随机因素影响越小,测量结果越稳定、可靠。 评估重测信度时,要注意重测间隔的时间,时间太短被试对测试题记忆犹新,必然会造成假性相关;时间太长,测验结果又会受应试者的身心特质改变的影响,使相关系数降低。间
10、隔时间的长短必须根据测验的性质和目的来确定。如果希望测量结果能预测较长时间的变化,则重测间隔时间应该长一些。例如人格测验一般间隔2-6个月比较合适。,应用重测信度应注意:,重测信度一般只反映由随机因素导致的变化,而不反映被测者行为的长久变化。例如被测者智力的发展与能力的提高,不是重测信度考察的因素。这些因素导致的重测相关系数的降低,不能说明测验的重测信度低。 不同行为受随即误差影响不同。例如手指敏捷性就比言语理解力更容易受疲劳、环境等因素的影响。因此必须分析测量目的和了解所预测的行为。当测量的行为或特质较为稳定时,重测信度的解释才有效。 只有不大容易受重复影响的测验,如感觉-运动测验或人格测验
11、,才比较适合用重测法计算信度系数。因为被测者一旦知道答案就不容易忘记,从而造成假性相关。,2、复本信度(alternative-form reliability),又称为等值性系数,它是以两个测验复本(功能等值但题目内容不同)来测量同一对象,然后求得被测者在这两个测验上得分的相关系数。复本信度反映了两个测验复本在内容上的等值性程度。 复本信度考虑的是内容取样误差的影响问题,计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。 例如同样是测量数学运算能力的测验,如果一个测验复本侧重于考核加减法的运算,而另一个复本侧重乘除法的运算,两者之间的相关必定不会抬高,即复本信度低,说明
12、必定有一项测验复本的取样有问题。,优点: 能够避免重测信度的一些问题,如记忆效果、练习效应等; 适用于进行长期追踪研究或调查某些干涉变量对测验成绩的影响; 减少了辅导或作弊的可能性。 缺点: 如果测量的行为受练习的影响,复本信度只能减少而不能消除这种影响; 有些测验的性质会由于重复测量而发生改变,例如某些问题解决型的测验,如果掌握了解题原则就有可能产生迁移,尤其当复本只是在题目具体内容上有改变时,这种正迁移的作用会很强; 有些测验很难找到复本。,3、一致性信度consistency reliability,一致性信度又称为同质性信度,是指一个测评活分测评中各个题目所测内容的一致性。 同质性是保
13、证测评只测量同一特质的必要条件。也就是说,评估一组测验题目内部一致性程度,对于确定测验题目是否测量了同一事物很重要。如果同质性差,则表示测评混淆了不同的测评内容,其结果就无从判断究竟是否反映了被测者的某一特质。 如果被测者在第一个项目上比其他人分数高,在第二个项目上又比其他人高,在第三个项目上也比其他人高相反另一个人在第一个项目上比其他人分数低,在第二个项目上又比其他人分数低,在第三个项目上也比其他人分数低那么毫无疑问,我们会认为测评结果比较可靠。,一致性信度的作用,重测信度和复本信度分别注重考虑测量跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度用内部一致性系数表示,主要
14、反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。 同质性的测验,其结果的解释较为明确。例如:在一个同质性的语言逻辑推理能力测验中,应试者的得分可以反映其语言逻辑推理能力的高低;而如果一个测验既包含有测查逻辑推理能力的试题,又含有测查数量分析能力的试题,那么在应试者得分低的情况下,就无法说明被测者到底哪种能力不足。,一致性信度应用实例,例如:在人格测评中,乐观情绪特质和外向特质是两个容易混淆的内容,这就要求测评设计时能够找到相应的题目把二者区分开来。 再例如:在考察管理技能时,预测和决策、监督和控制等都是不太容易区分的,对题目设计的要求就相当高,否则就会把不同技能混
15、淆,导致结论错误和用人失误。 在设计测评题目时,所有测评题目都要保证只测量一种特质或内容,如果需要在一个测评中测量不同内容,就应该将测评设计为几个分测评进行分别测评。例如16PF人格测评就包括16个分测评,每个分测评量表只对一种人格特质进行测评。,一致性信度的计算方法,分半信度项目折半分析,是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。通常的方法是在测验实施后将测验分为等值的两半,并分别计算每位被测者在两半测验上的得分,再求出这两个分数的相关系数。这个相关系数就代表了两半侧眼内容取样的一致性程度。 同质性信度系数分析,是指测验内部的各题目在多大程度上考察了同一内容,即所有测
16、验题目测量的只是单一特质或内容,表现为所有测验题目得分的一致性。,4、评分者信度(raters reliability),在有些测量情形中,评分者的评判也是误差的来源之一。例如投射测验、创造力测验、无领导小组讨论、管理者情境模拟等,都依赖于评分者的判断,这种判断的主观性往往造成不同评分者的评分很不一致,因此有必要考虑评分者信度。 评分者信度是指不同评分者对同一对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。评分者的评分越一致,评分者信度越高。(等级相关),信度小结:,各种信度评估的适用情景: 重测信度评估侧重考察测评跨
17、时间的一致性和稳定性; 复本信度评估侧重考察测评跨形式的一致性和等值性; 内部一致性信度评估主要反映的是一个测评内部题目之间的关系,揭示测评的各个题目是否测量了相同的内容或特质。 评分者信度评估主要是考察评分者的主观误差。,思考题:,与对某人品德测评分数的可靠性进行考察,随机抽取其中10个被试的分数,分别是:74、71、80、85、76、77、77、68、74、74,再次测评后10个被试的分数分别是:82、75、81、89、82、89、88、84、80、87。请问可以用什么方法评价测评的可靠性? 如果一个部门的三个经理分别给部门的几十位员工考核,你认为应当怎样检查三位评分者评定的可靠性? 某面
18、试考官对被试的7项素质进行测评,总共面试了8位被测者,其评定等级如下表,请考评一下这位面试考官的面试结果是否可靠?,5-2 测量的效度,5-2-1 效度及其影响因素 1、效度的概念 2、效度与信度的关系 3、效度的作用 4、效度的影响因素 5-2-2 效度的评估方法 1、内容效度content validity 2、效标关联效度criterion-related validity 3、构想效度construct validity,1、效度的概念,1、效度的概念 测量结果的效度就是指测量的有效性,是与测量目的有关的真实变异数与总变异数的百分比 。 一般被定义为测验能测量到所要测量东西的程度。在评
19、价任何测验时这都是最重要的考虑。 “效度指从分数进行推论的证据的程度。”英国教育和心理测验标准,2 效度与信度的关系,二者的区别:信度与效度的差别在于所考虑的误差不同。信度考虑的是随机误差的影响;效度考虑的误差包括随即误差和对测验目的无关的变量引起的系统误差。 例如游标卡尺的精度,可能由于设计原因或者工具制作工艺、刻度刻画、金属材料的温度特性等因素的影响,卡尺对长度的反映会出现误差。这些误差现象是由于测量工具本身的原因造成的,具有稳定性,不管什么人、什么时间使用都会出现。而另一方面,每次使用卡尺,不同的人造成的误差不同,这种误差是随机误差,是偶然性的不稳定的,属于信度考察的内容,指的是测量结果
20、的一致性如何。 二者的联系:信度是效度的必要条件,但不是充分条件。换句话说,信度高不一定效度必然高。但效度高必定信度高。,3、效度的作用,就好像用磅秤测量身高,每次测量的结果都很一直稳定(信度很高),但它并不能代表身高,也就是说其测量值并不反映身高这一属性(效度很低),所以说,磅秤不是身高这一测量对象的适宜测量工具。 例如一个数学测验可能对学生的数学成绩的预测效度很好,但对学生整体智力的预测效度就没有那么好,对学生的性格可能根本就没有预测效度。,4、效度的影响因素,一个测验效度的高低,很大程度上取决于该测验受无关因素影响的程度。凡是能造成测验结果误差的因素,都会影响测验效度。 测验题目的质量:难易程度、暗示性、题意表达、试题内容取样的代表性 实施测验时的干扰因素:指导语、计分错误 被试的影响因素:反应定势、测验动机、情绪 测验的长度:增加测验题目往往能增加测验的信度和效度。,