测量的信度.ppt-道客多多_道客多多docduoduo.com

资源描述

1、测量的信度,信度概述,信度指测量的一致性或可靠性程度。一个好的测量工具必须稳定，每次测量的结果要保持一致，否则便不可信。由于系统误差（也就是恒定误差）对测验的影响是恒定的，所以信度只考虑随机的、偶然的误差影响（如被试样本、实施条件、动机水平和注意力等）。随机误差越大，信度越低。 1、测验分数一致性的程度，即不同时间，不同测验条件下所得分数之间的一致性有多大；一个人的“获得分数”和“真实分数”之间接近程度如何；测验的测量一致性是否可以达到实际应用的程度。 2、关于分数不一致的原因：什么因素造成了这种差异，这些效应的相对作用如何。在测量理论中，信度被定义为：一组测量分数的真变异数与总变异数（实得

2、变异数）的比率。即： xx = S2TS2x 式中xx代表测量的信度， S2T代表真分数的变异数， S2x代表实得分数的变异数，即总变异数。,信度概述,大部分的信度指标都以相关系数表示，即用同一被试样本所得的两组资料的相关作为测量一致性的指标，称作信度系数。信度系数实际上是真正分数与实得分数之间的决定系数，可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。对信度系数要注意三点问题：在不同情况下，对不同样本，采用不同方法会得到不同的信度系数，因此，一个测验可能不止一个信度系数。信度系数只是对测量分数不一致性程度的估计，并没有指出不一致的原因。获得较高的信度系数并不是心理测量

3、追求的最终目的，它只是迈向目标的一步，是使测验有效的一个必要条件。,信度的估计方法,重测信度用同一种测验，对同一组被试，前后施测两次，再根据被试两次测验分数计算其相关系数，即得重测信度。这种信度能表示两次测验结果有无变动，反映测验分数的稳定程度，故又称稳定性系数。重测信度所考虑的误差来源是时间的不同所带来的随机影响，如气候、偶然的噪音或其他干扰，以及引起被试本身身心状态变化的因素（如疾病、疲劳、情绪类型、焦虑等）。重测信度代表测验成绩能够应用于不同时间的程度，信度越高，受测验环境中日常的随机因素的影响越小。用再测法估计信度的优点是能提供有关测验结果是否随时间而变异的资料，可作为预测被试将

4、来行为表现的依据。用再测法估计信度的缺点为易受练习和记忆的影响，前后两次施测间隔的长短必须适度。如果相隔时间太短，则记忆犹新，练习的影响较大；如果相隔时间太长，则身心的发展与学习经验的累积等都足以改变测验分数的意义，而使相关降低。另外，第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。,信度的估计方法,重测信度计算重测信度应当符合以下条件：所测量的心理特性必须是稳定的。例如，成人的性格特点一般是稳定的，所以许多人格测验常使用重测信度。但是，刚入学儿童的识字量是极不稳定的，只要两次施测的间隔时间稍长，儿童的识字量就会有很大变化。因此，重测信度不能用于这种情况，因为测量结果的不

5、一致很可能是被试水平的变化所致，而不能说明测量工具是否稳定。遗忘和练习的效果基本上相互抵消。在做第一次测验时，被试可能会获得某种技巧，但只要间隔的时间适度，这种练习效果会基本上被遗忘掉的。至于两次测验的间隔时间，这要根据问题的性质和测量目的而定。通常，智力测验的间隔时间一般在个月左右。在两次施测的间隔时期内，被试在所要测查的心理特质方面没有获得更多的学习和训练。这一点，也实际上是要保证被试具有稳定的心理特质。值得注意的是，同样一个量表，随着第二次测量的时间不同，它可以有不同的重测信度。因此，在报告重测信度时，应说明两次施测的间隔，以及在此期间内被试的有关经历。,信度的估计方法,复本信度

6、复本信度指的是两个平行的测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。不过，两个复本测验实施的时间不同，复本信度所表达的含义略有不同。如果两个复本测验是同时连续施测的，则称这种复本信度为等值性系数。等值性系数的大小主要反映着两个复本测验的题目差别所带来的变异情况。如果两个复本测验是相距一段时间分两次施测的，则称这种复本信度为稳定性与等值性系数。此时，两个题目间的差别、两次施测时的情境、被试特质水平等方面的差别都会成为测验结果不一致的重要原因。与其他信度系数相比，这种复本信度最小，也即是说，稳定性与等值性系数是对信度的最严格的检验，

7、其值最低。在实际工作中，为抵消施测的顺序效应，一般可以随机地选出一半被试先做卷后做卷，另一半被试先做卷后做卷。,信度的估计方法,复本信度计算复本信度的条件是：首先要构造出两份或两份以上真正平行的测验（即、卷）。所谓平行测验是指复本测验之间必须在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似。换句话说，平行测验就是那种用不同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测验。显然，严格的平行测验是很难构造出来的。被试要有条件接受两个测验。这种条件主要取决于时间、经费等几个方面。值得注意的是，在使用复本信度时，虽然能克服重

8、测信度的一些缺点，但被试在做第二测验时仍会受到练习和记忆等因素的影响，一些解题的策略等技能技巧也会产生迁移效应。对于稳定性与等值性系数，在报告结果时，也应报告两次施测的间隔，以及在此间隔内被试的有关经历。,信度的估计方法,分半信度分半信度指的是将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。分半信度可以和等值性系数一样解释，即可以把对等的两半测验看成是在最短时距内施测的两个平行测验。此外，由于分半信度描述的是两半题目间的一致性，所以它有时也被称作内部一致性系数。分半信度的计算方法和等值复本信度的计算方法类似，只不过被试在两半测验上得分的相关系数只是半个测验的信度，还必须用

9、斯皮尔曼布朗公式加以校正：xx = 2hh（hh）式中hh为两半分数间的相关系数，xx为整个测验的信度值。不过，斯布公式只有在两半测验分数的变异数（S2a和S2b ）相等时才能使用。否则，我们就应选择弗朗那根公式或卢仑公式这两个等价的公式之一。分半信度通常是在只能施测一次或没有复本的情况下使用。而且，在使用斯皮尔曼布朗公式时要求全体被试在两半测验上得分的变异数要相等。当一个测验无法分成对等的两半时，分半信度不宜使用。此外，由于将一个测验分成两半的方法很多，如：按题号的奇偶性分半、或按题目的难度分半、或按题目的内容分半等等，所以，同一个测验通常会有多个分半信度值。,信度的估计方法,同质性

10、信度同质性信度也叫内部一致性系数，它是指测验内部所有题目间的一致性程度。题目间的一致性含有两层意思：一是指所有题目测的都是同一种心理特质；二是指所有题目得分之间都具有较高的正相关。值得注意的是，这里讲的题目间的一致性是分数的一致，而不是题目内容或形式的一致。因此，若测验的各个题目得分有较高的正相关时，不论题目内容和形式如何，测验为同质的。相反，既使所有题目看来都好像测同一特质，但相关为零或负值时，这测验还是异质的。题目内部的一致性主要受两方面变异的影响：一是内容的同质性。二是所研究的行为的同质性。所要测量的内容或行为同质性程度越高，题目的内部一致性越高。当一个测验具有较高的同质性信度时，

11、说明测验主要测的是某一单个心理特质，实测结果就是该特质水平的反映。如果一个测验同质性信度不高，则说明测验结果可能是几种心理特质的综合反映，这时，测验结果不好解释。一种好的办法是把一个异质的测验分解成多个具有同质性的分测验，再根据被试在分测验上的得分分别作出解释。值得注意的是，一些表面上看起来是测量同一种心理特质的题目，如果其题目间不具有较高的正相关，则不能认为它们具有同质性。,信度的估计方法,同质性信度与前边几种信度估计不同，并不是所有心理测验都要求较高的同质性信度。在什么情况下需要考察题目的同质性，取决于测量目的。一般用于预测的测验或学绩测验可不考虑同质性。而在提出或验证某种心理学理论的构

12、想和假设时，却要求对所研究的心理特征或构想作出“纯粹”的测量，否则便不能由测验分数作出一意义明确的推论。可见，同质性测验是发展心理学理论所必需的。最后要说明一点：测验的同质性不但与信度有关，也与效度有关，特别是与结构效度的关系十分密切。用分半相关法可以对测验的内部一致性做出粗略估计，但由于对同一个测验划分两半的方法多种多样，而每一种划分方法所得的信度估计量是不同的，因此分半信度并不是内部一致性的最好估计。为弥补分半法的不足，有必要采用计算所有项目间一致性的方法。计算项目间一致性的方法主要有：1、库德一理查逊公式；、克伦巴赫系数；、荷伊特信度；、因素分析。有些测量学家认为因素分析是决定

13、测验同质性的最好方法。因素分析方法最初是由心理学家斯皮尔曼在研究智力理论时提出来的，后来发展成为一种复杂的统计技术，用于确定一组变量间的相互关系最少需要几个因素来解释。在测验上，如果一个因素就足以解释所有题目分数的变异时，这个测验就是同质的，假如需要一个以上的因素时，则测验的组成是异质的。,信度的估计方法,评分者信度评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。在心理测量工作中，客观题的评分很少出现误差，但主观题的评分常常会造成误差。因此，提高评分者信度也是心理测量的重要任务之一。考察评分者信度的方法是：随机抽取相当份数的试卷，由两位评分者按记分规则分别给分。然后根据每份

14、试卷的两个分数计算其相关系数，即得评分者信度。当评分者人数为时，评分者信度等于两个评分者给同一批被试的答卷所给分数的相关系数（积差相关或等级相关）。当评分者人数多于两个时，评分者信度可用肯德尔和谐系数进行估计。当评分者（）为3-20人，被评对象（考卷）为3-7个时，信度是否合要求可直接查表检验。当实际计算的值大于表中的相应值时，说明评分所得信度较高。一般要求在成对的、受过训练的评分者之间平均一致性达到0.90以上，才认为评分是客观的。,信度的作用,信度的作用主要表现在以下三个方面： 1、信度是测量过程中所存在的随机误差大小的反映。如果信度很低，测量的随机误差就很大，测量的结果就会与真分数发生较

15、大偏差。而且，这种偏差完全是随机决定的，这就让人无法相信测量的结果。应当指出的是，测量中的系统误差与信度无关。因此，系统误差只对测量结果产生恒定的影响，而不会使测量结果上下波动。 2、信度可以用来解释个人测验分数的意义。从理论上讲，一个人的真分数理论上是用同一个测验对他反复施测所得的平均值，其误差则是这些实测值的标准差。然而，这种做法是行不通的。因此，我们可以用人数足够多的一个团体两次施测的结果来代替对同一个人反复施测，以估计测量误差的变异数。此时，每个人两次测量的分数之差可以构成一个新的分布，这个分布的标准差就是测量的标准误，它是此次测量中误差大小的客观指标，有了这一指标，我们就可以对团体中

16、任何一个人的测验成绩做出恰当的解释（即能通过区间估计的办法指出测量的精度）。一个测量的标准误可用下式计算： SE = SX 式中SE为测量的标准误， SX为实得分标准差，xx是测量的信度。,信度的作用,3、信度可以帮助进行不同测验分数的比较。一般来说，来自不同的测验的原始分数是不能直接进行比较的，必须转化成标准分数才能进行比较。具体办法是采用“差异的标准误”来进行差异的显著性检验，其公式为： SE = SX 式中，Sx为相同尺度（如T分数的S=10）的标准分数的标准差，xx和yy，分别是两个测验的信度系数。值得指出的是：一个测验可以有多个信度估计值，因而其误差估计值也会有多个，在实际工

17、作中要注意选择。本理论假定同一个团体中所有人的测量误差都相同的，但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。测量的结果不能僵硬地看成是一个点，而应看成是一个以该点为中心，以SE的某个倍数为半径上下波动的一个范围（区间估计）。,提高信度的方法,影响测量信度的主要因素测量信度是测量过程中随机误差大小的反映。随机误差大，信度就低，随机误差小，信度就高。因此，在测量过程中凡是能引起测量的随机误差的因素都会影响测量信度。 1、被试就单个被试而言，被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态度等会影响测量误差，因为这些因素往往会影响被试心理特质水平的稳定性。就被试团

18、体而言，整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。这是因为，我们所计算的信息估计值大都是以相关为基础的，而相关系数的大小往往取决于全体被试得分的分布情况。当被试团体异质（即团体内水平彼此差异大）时，全体被试的得分分布必然较广，以相关为基础计算出来的信度值必然会偏大。这就很有可能高估实际的信度值。当团体内部水平相差不大（同质）时，其得分分布必定会较窄，以相关为基础计算出来的信度值必然会偏小。这时又有可能低估真正的信度值。此外，若团体的平均水平太高（大家都得高分）或太低（大家都得低分），同样会使测验总分的分布变窄，低估测量的真正信度。 2、主试就施测者而言，若他不按指导手册中

19、的规定施测，或故意制造紧张气氛，或给考生一定的暗示、协助等，则测量信度会大大降低；就阅卷评分者而言，若评分标准掌握不一，或前紧后松，甚至是随心所欲，也会降低测量信度。,提高信度的方法,3、施测情境在实施测验时，考场是否安静，光线和通风情况是否良好，所需设备是否齐备，桌面是否合乎要求，空间大小是否恰当等等都可能影响到测量的信度。 4、测量工具以测验为代表的心理测量工具是否性能稳定是测量工作成败的关键。因此，弄清楚影响测量工具稳定性的因素是十分重要的。一般来说，试题的取样、试题之间的同质性程度、试题的难度等是影响测验稳定性的主要因素。如果一个测验的试题取样不当（或题目数太少、或考察的方面不全

20、面），则难以测查到被试心理特质的全面情况。若是被试采取押题方式应考，则所得结果的随机性更大。既然心理特质被考察的方面是随机的，测查的结果也是随机的，那么，这种测量的信度就必然不会高。相反，当一份测验中的同质性的题目数量增多之后，同一心理特质被考察到的次数就会增多，被试的成绩也就越能被有效地拉开，整个团体的测验分数分布就会更广，从而提高测量的信度。信度提高的效果可用斯皮尔曼布朗公式计算： kk=Kxx1（1）xx 式中为改变后的测验长度与原来长度之比，xx为原测验的信度，kk为测验长度增加为倍后的测验的信度。如果一个测验内部的试题之间彼此异质（即测查的是不同的心理特质），则无法使测量的内部一致

21、性系数提高；如果测验的题目太难，则会引起被试的随机猜答，并使得大部分人的得分偏低，整个分数的分布变窄，从而影响测量的信度。如果题目太容易，则大部分被试都将获得高分，同样会使测验分数的分布变窄，影响测量的信度。,提高信度的方法,影响测量信度的主要因素 5、两次施测的间隔时间在计算重测信度和稳定性与等值性系数（复本信度之一）时，两次测验相隔时间越短，其信度值越大；间隔时间越长，其他因素带来影响的机会就多，因而其信度值就可能越小。提高测量信度常用的方法 1、适当增加测验的长度由于项目数量太少会降低测量的信度，所以，提高测量信度的一个常用方法是增加一些与原测验中项目具有较好的同质性的项目，增大测

22、验长度。这里有两点必须注意：第一，新增项目必须与试卷中原有项目同质。第二，新增项目的数量必须适度。事实上，增加测验长度的效果遵循报酬递减规律。即：测验过长有可能引起被试的疲劳和反感，降低测量信度。若已知测验的现有信度，而且知道所要求的信度标准，则可以代入公式kk=Kxx1（1）xx）求出值，得到一个恰当的增加数目。 2、使测验中所有试题的难度接近正态分布并控制在中等水平当测验中所有试题的难度接近正态分布并控制在中等水平时，被试团体的得分分布也会接近正态分布，且标准差会较大，以相关为基础的信度值必然也会增大。,提高信度的方法,提高测量信度常用的方法 3、努力提高测验试题的区分度区分度是测验题

23、目的质量指标。一份测验所有试题区分度高低直接影响测验的信度。努力提高测验中所有试题的区分度，可望获取较高的测验信度。 4、选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。由于被试团体的平均水平和内部差异情况均会影响测量信度，所以在检验测量的信度时，一定要根据测验的使用目的来选择被试。即在编制和使用测验时，一定要弄清楚常模团体的年龄、性别、文化程度、职业、爱好等因素。一个特别异质的团体上获得的信度值并不等于其中某些较同质的亚团体的信度值。只有各亚团体上信度值都合乎要求的测验才具有广泛的应用性。 5、主试严格执行实测规程，评分者严格按标准给分，实测场地按测验手册的要求进行布置，减少无

24、关因素的干扰。提高测量信度的方法还有很多，以上只是其中的几种常用方法。,信度的特殊问题,速度测验的信度在估计信度的方法中，凡只测一次所得到的信度系数对于速度测验都是不适用的。因为速度测验题目较为容易，除了在很少几个题目上由于马虎而造成的失误外，通常奇数和偶数题目上得分的相关，几乎接近+1.00，这当然是对信度的高估。同质性信度也不适用于速度测验，因为只有当所有的人都试过每个题目时，题目的变异数才是准确的。前面讨论的所有估计信度的方法都是以被试所犯错误数目的一致性为依据的。而被试在速度测验上分数的个别差异主要取决于作答速度，因此，对其信度的测量也应以作答速度的一致性为依据。分半法和同质法只

25、施测一次，无法对其速度的一致性作出估计。如果用重测法和复本法，则可根据被试两次回答的题目数量的变化对速度的一致性作出估计。另外，如果按时间将测验分为两半施测时，也可用分半法计算信度。,信度的特殊问题,标准参考测验的信度心理测验特别是教育测验，近几年来的一个新趋势是发展标准参考测验，这种测验不是把被试的成绩与其他人比较，以寻求个别差异，而是与一种既定的标准相比较，看被试对某种知识和技能的掌握是否达到了某一水平，所以又叫掌握测验。前面提到，任何相关（包括信度系数）都受获得该相关的团体的异质性的影响，样本的变异性小，相关系数也小。在一个团体中，假如绝大部分人都达到了所要求的水平，分数的变异很小

26、，在这种情况下，既使一个具有较高的稳定性和内部一致性的测验，信度系数也可能很低。这说明用通常的方法来估计标准参考测验的信度是不适当的。一般确定标准参考测验信度的简单方法是对同一组被试施测两个等值型测验，看在同一个掌握水平上，通过人数的百分比的差别，差别越小，信度越高。,信度的特殊问题,分测验的信度有些测验包括几个分测验，这些分测验分数可以合成一个总分，也可以分别处理。当一个测验有几个分测验时，如果整个测验只有一个总的信度估计，不能认为分测验分数将与合成分数一样地可靠。因为信度与测验长度有关，分测验分数往往不如合成分数可靠。因此，测验使用者必须查看每一个分测验是否有信度估计，若没有这方面的资

27、料，从分测验的得分作推论就会发生问题。差异的信度有时研究者要对一个人在两个测验上的分数作比较，如想知道一个学生的语文和算术哪门学得好，因为两组分数差异的标准误差同时受两组分数中的随机误差的影响，因此，它比每一组分数的标准误差都要大。换句话说，当两个分数都有点不可靠时，二者的差别更不可靠。,信度的特殊问题,变迁的测量信度表明的是测量的一致性，如果两次施测不一致便表示有测量误差。但有时研究者对于行为的变迁比一致性更感兴趣。当一个研究者想了解某一个教学计划或方法使学生的知识与技能增加了多少，几年的大学经历使态度与价值观改变了多少时，分数的稳定就表示教育与治疗的失败。此时，研究者需要的是分数的改变，而不是分数的稳定。这就遇到了可靠性与有效性的矛盾。如果测验有效，就应该对行为的变迁敏感，测出某种特性改变了多少，但这样前后分数就会不一致。因此，在这种情况下，要求高信度与高效度几乎是不相容的。,

展开阅读全文