15心理测量学复习要点14163.doc-道客多多

资源描述

1、15 心理测量学复习要点.txt21 春暖花会开！如果你曾经历过冬天，那么你就会有春色！如果你有着信念，那么春天一定会遥远；如果你正在付出，那么总有一天你会拥有花开满圆。心理测量学第一节概述第一单元测量与测量量表一、什么是测量测量就是依据一定的法则用数字对事物加以确定。定义中包括三个主要的元素：（1）事物（2）数字（3）法则。测量所用的数字具有自然数的特点，即具有：（1）区分性；（2）等级性；（3）等距性；（4）可加性。二、测量要素任何测量都应该具备两个要素：既参照点和单位。1、参照点有两种：a.绝对零点 b.相对零点2、好的单位必须具备两个条件：一为有确定的意义，即对同一单位，所有的

2、人的理解意义要相同，不能出现不同的理解。二是有相同的价值。即相邻两个单位点之间的差别总是相等的。三、测量量表测量的本质是根据某一法则将事物数量化，即在一个定有单位和参照点的连续体上把事物的属性表现出来，这个连续体称为量表。根据量表的精确度，斯蒂文斯将量表从低级到高级分成四种水平：命名量表：这是测量水平最低的一种量表形式，只是用数字代表事物或把事物归类。1、代号用数字来代表个别事物，如学生和运动员的编号等。2、类别用数字来代表某一具有某种属性的事物的全体，即把某种事物确定到不同的性质的类别中。如用 1 代表男，用 2 代表女，或用不同的数字代表不同的职业等。顺序量表：它比命名量表水平高，其中的数

3、字不仅指明类别，同时指明类别的大小或含有某种属性的程度，如学生的考试名次、工资的级别、能力等级等。在顺序量表中，既无相等单位，双无绝对零点，数字仅表示等级，并不表示某种属性的真正量或绝对值。等距量表：它比顺序量表又进了一步，不但有大小关系，而且具有相等的单位，其数值可以相互做加减运算，但没有绝对的零点，因此不能做乘、除运算。典型的类子就是摄氏温度。等比量表：是最高水平的量表，既有相等单位又有绝对零点。此种量表在物理测量中容易见到，长度、重量、时间等都是等比量表。所得的数值可以做加减乘除运算。一般说来，心理测量表是在顺序量表上进行的，因为对于人的智力、性格、兴趣、态度等，没有绝对零度是难以确定

4、的，而且，在心理测量中，相等单位也是很难获得的。第二单元心理测验的基本概念一、心理测验的定义：所谓心理测验，就是依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。四个要素：1、心理测量的对象是人的行为；2、心理测量必须选择有代表性的样本；3、心理测量必须有相同的条件；4、心理测量必须以常模作为测量依据。二、心理测验的性质（一）间接性：只能通过一个人对测验项目的反应来推论出他的心理特质。特质是个人对刺激作反应的一种内在倾向。是个体特有的、稳定的、可辩别的特征，它又是一个抽象产物，一个构思，而不是一

5、个直接测量到的有实体的个人特点。（二）相对性：对人的行为做比较，没有绝对标准。（三）客观性：包括（1）测验的刺激是客观的；（2）对反应的量化是客观的；（3）对结论的推论是客观的。测验的客观性实际上就是测验的标准化问题。包括测验用的项目或作业标准化、评分记分的原则和手段的标准化、分数转换和解释经过了标准化。测验的客观性不包括()的客观性。绝对的标准第三单元心理测验的分类一、按测验的功能分类（一）智力测验：其功能是测验人的一般智力水平。（二）特殊能力测验：如音乐、绘画、机械技巧、文书才能测验。（三）人格测验：个性中除能力以外的部分的测验。二、按测验材料的性质分类（一）文字测验：儿童和成人智力量

6、表中的言语量表部分均属文字测验。缺点是容易受被试者文化程度的影响。（二）操作测验：操作测验也称非文字测验。多属于对图形、工具、模型的辨认和操作，无须使用言语作答，所以不受文化因素的限制，可用于学前儿童和不识字的成人。三、按测验材料的严谨程度分类（一）客观测验：无须发挥想像力来猜测和遐想。（二）投射测验1概念：投射法是指向被试者提供一些未经组织的刺激情境，让他在不受限制的情境下，自由地表现出他的反应，分析反应的结果，便可推断出他的人格结构。 2投射技术的种类（1）联想法罗夏墨迹测验（2）构造法主题统觉测验（3）表露法主要有： a.画人测验 b.知觉运动测验（4）完成法（句子填充测验、逆境对话测

7、验）句子填充测验：我最喜欢。我最讨厌。四、按测验的方式分类（一）个别测验：以一对一的形式来进行。优点在于主试对被试的言语和情绪状态有仔细的观察，并且有充分的机会与被试者合作，所以结果可靠。缺点是时间不经济。（二）团体测验：一个主试者同时对多个被试者实施的测验。如著名的陆军甲种和乙种测验。五、按测验的要求分类（一）最高行为测验成就测验、学绩测验。（二）典型行为测验一般人格测验等。第四单元如何看待心理测验一、错误的测验观（一）测验万能论（二）测验无用论二、正确的测验观（一）心理测验是重要的心理学研究方法之一、是决策的辅助工具（二）心理测验作为研究方法和测量工具尚不完善。第五单

8、元心理测验在心理咨询中的应用在我国目前情况下，心理门诊中运用较多的大致有这样 3 类心理测验：一、智力测验；二、人格测验；三、心理评定量表。心理测验在咨询和心理治疗过程中并不是必不可少的一个环节，如果通过与咨询或治疗对象的交谈，对其问题已形成明确的看法，就可以放弃不必要的心理测验。有时过多的使用还会影响咨询、治疗的过程和效果。第六单元心理测验的发展史一、科学心理测验的产生与发展（一）三个重要人物：1、高尔登（F.Galton），首先倡导科学心理测验的学者。英国生物学家和心理学家高尔顿的主要贡献：（1）提出了不同气质特点和智能是按身体特点的不同而遗传的；（2）研究差异的遗传性

9、，便设计了测量差异的方法，典定了统计学基础；（3）第一个提出了相关的概念，创立了积差相关法，这使判定心理测验的信度、效度和进行因素分析成为可能。2、卡特尔（J.M.Cattell），卡特尔（1）在心理杂志上发表“心理测验与测量”一文，这是心理测验第一次出现于心理学文献中；（2）认为心理学应立足于实验与测验；（3）认为心理测验应有统一的标准。3、比内（A.Binet），编写了世界上第一个正式的心理测验。（二） 20 世纪心理测验的主要发展： 1、操作测验的发展 2、团体智力测验的发展 3、能力倾向测验的发展4、人格测验的发展二、现代心理测验在我国的发展（参见本课程教学参考资料：专栏 5-1

10、中国古代的心理测验思想）九连环是一种中国民间的智力游戏，其设计之巧妙，也可和现代的魔方、魔棍相配美。称为“中国的迷津” 。七巧板被称为唐图，即“中国的图板” 。近些年来我国的心理学学正在致力于测验的本土化。第二节测验的常模常模参照分数解释的测验：律师考试就是这样，即使大家考试都考得特别好，也只要前面的百分之几。根据大家的成绩。标准参照分数解释的测验：国家心理咨询师的考试，出了两份卷子：基础理论，操作技能，满分一百，及格六十。两科都满 60，可以得到分数。门槛已经设好了。大家都能跳过门槛，就都能通过。很多人都没有通过，也就不能过去了。通过与不通过，参照一个事先设定好的标准，来解释分数。叫

11、做标准参照分数解释。第一单元常模团体一、常模团体的性质常模团体是由具有某种共同特征的人所组成的一个群体，或者是该群体的一个样本。它用一个标准的、规范的分数表示出来，以提供比较的基础。任何一个测验都有许多可能的常模团体。对测验编制者而言，常模的选择包括：确定一般总体、确定目标总体、确定样本。对测验的使用者来说，要考虑的问题是，现有的常模团体哪一个最合适。二、常模团体的条件（一）群体的构成必须明确界定（二）常模团体必须是所测群体的代表性样本（三）样本的大小要适当。总体数目小，只有几十个人，则需要 100%的样本。如果总体数目大，相应的样本也大，一般最低不小于 30 或 100 个。

12、全国性常模，一般应有 20003000人为宜。在实际工作中，应从经济的或实用的可能性和减少误差这两个方面来综合考虑样本的大小。（四）标准化样组是一定时空的产物（具有新近性）三、取样的方法简单随机抽样系统抽样：系统抽样方法的关键是计算组距。系统抽样要求目标总体无序可排，也无等级结构存在。分组抽样：分层抽样：有分层按比例抽样与分层非比例抽样之分。此方法最常用。四、常模分数与解释常模分数：常模分数就是施测常模样本被试后，将被试者的原始分数按一定规则转换出来的导出分数。常模：常模分数构成的分布，就是通常所说的常模（norm），它是解释心理测验分数的基础。常模表示一种最简单、最基本的且常用的

13、呈现常模资料的方法，它的构成要素是：对常模团体的具体描述；原始分数；导出分数。导出分数的特性：具有意义；与原始分数等值；等单位；具有参照点。取样是指从()中选择有代表性的样本。目标人群第二单元常模的类型一、发展常模（年龄量表）（一）发展顺序量表。最早的一个范例是葛塞尔发展程序表。按月份显示儿童在运动水平、适应性、语言、社会性四个方面的大致发展的水平。4 周能控制眼球运动；16 周能使头部保持平衡；28 周能用手抓握东西并玩弄；40 周能控制躯干、坐立或爬行；52 周能控制腿脚运动、站立和行走。皮亚杰发现，儿童不同时期出现不同的守恒概念：5 岁时理解质量守恒；6 岁时掌握重量守恒；7 岁

14、时有容量守恒概念。皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展，尤其注重某些特殊概念的形成，其中最著名的工作就是对()概念的研究。守恒（二）智力年龄比内-西蒙量表中首先使用智力年龄的概念。计算方法：假如某儿童 6 岁组的题目全部通过，7 岁组通过 4 题，8 岁组通过 3 题，9岁组通过 2 题，其智龄为：6（岁）+42（月）+32（月）+22（月）=6 岁+18 月=7 岁6 个月。智力年龄，简称智龄，一个儿童在年龄量表上所得到的分数，就是代表他的智力水平的年龄。（三）年级当量：年级当量实际上就是年级量表，测验结果说明属哪一年级的水平，在教育成就测验中最常用。发展量表的基本要

15、素；（1）一组可以区分不同年龄组的题目；（2）一个常模团体；（3）常模表。二、百分位常模（一）百分等级：指在常模样本中低于这个分数的人数的百分比。公式（5-1）：PR100(100R50N)王红在 30 名同学中的物理成绩是 80 分，排名第 5 名，则其百分等级为（85）。(二) 百分点：也称百分位数。计算处于某一百分比例的人对应的测验分数是多少。直线内插法：例：高考的最高分为 695，其百分等级为 100，最低分为 103 分，百分等级为1，要录取 20的学生进入大学，百分等级为 80 的百分位数（PP）。按直线内插法：10080695PP801PP103 得 PP575（三）四

16、分位数和十分位数：四分位数和十分位数只是百分位数的两个变式，其含义相似。百分位数是将量表分成 100 份，而四分位则是将量表分成四等份，十分位则是分成十等份。三、标准分常模标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表。因为它的基本单位是标准差，所以叫标准分数。标准差的作用：一是可以直接反映被测值的离散程度；二是可以直接作为一个单位反映被测值偏离平均值的情况。1.线性转换的标准分数公式（5-2））Z=(X-X)/SD 其中 X 为任一原始分数，X 样本平均分数，SD 为样本标准差。由此可见 Z 可以用来表示某一分数与平均数之差的几倍。因为存在小数和负数，而且单位过大

17、，通常将 z 转换成另一形式：公式（5-3）：Z=A+BZ Z 为转换后的标准分数，A、B 为根据需要指定的常数。2.非线性转换的标准分数。当原始分数不是常态分布时，也可以使之常态化，这一转换过程就是非线性的。步骤为：A、对每个原始分数值计算累计百分比；B、在常态曲线面积中，求出位于该百分比的 z 分数。（1）T 分数：以 50 为平均数（即加上一个常数 50），以 10 为标准差（乘以一个常数10）来表示。（麦柯尔最早使用）公式（5-4）：T=50+10z 最早使用 T 分数的是麦柯尔。（2）标准九分：是以 5 为平均数，以 2 为标准差的一个分数量表。（3）标准十分：以 5(5.5

18、)为平均数，以 1.5 为标准差的一个分数量表。（4）标准二十分：以 10 为平均数，以 3 为标准差的一个分数量表。四、智商及其意义 1.比率智商（斯坦福大学推孟教授于 1916 年修订而成斯坦福-比内量表）。比率智商（IQ）等于心理年龄（MA）与实足年龄（CA）之比。为小数将商乘以 100。公式（5-5） IQ=MA/CA100 缺点：由于智力是由快到慢再到停止的一个过程，所以不适合年龄较大的被试。2.离差智商（韦克斯勒）：表示的是个体智力在年龄组中的位置。离差智商的平均数为 100，标准差定为 15。公式（5-6）：IQ=100+15Z=100+15(X-X)/SD 必须指出：从

19、不同的测验获得的离差智商只有当标准差相同或接近时才可以比较，标准差不同，其分数的意义便不同。（参见本课程教学参考资料：专栏 5-2 几种导出分数间的相互关系）离差智商的优点：（1）建立在统计学基础之上；（2）它表示的是个体智力水平年龄组中所处的位置；（3）是表示智力高低的一种理想指标。若儿童的心理年龄高于其生理年龄，则智力较一般儿童高，若心理年龄低于其生理年龄，则智力较一般儿童低。但在实践中发现，单纯用心理年龄来表示智力高低的方法缺乏不同()儿童间的可比性。年龄五、注意的问题1、发展常模换算及解释时需要注意的问题：只适合于所测特质随年龄发展变化的情况，对成年人不适用；只适用于在典型环境

20、下成长的儿童；一年的差异在不同年龄有不同的含义。2、百分位换算及解释时需要注意的问题：顺序量表，缺少相等单位。靠近中央的原始分数差异扩大，而两端的差异缩减。不能比较和说明不同被试间分数差异的数量。3、标准分数换算及解释时需要注意的问题：计算非线性转换的标准分数时，特质的分数实际上应该是常态分布。标准差不同，其分数的意义不同。第三单元常模分数的表示方法一、转换表法：最简单而且最基本的表示常模的方法就是转换表，有时也叫常模表。二、剖面图法：剖面图就是将测验分数的转换关系用图形表示出来，效果更直观。第三节测验的信度第一单元信度的概念一、信度的定义信度是指同一被试者在不同时间内用同一测验

21、（或用另一套相等的测验）重复测量，所得结果的一致程度。信度只受随机误差的影响。随机误差越大，信度越低。第一个测试的实际分数（X）总是由真实分数（T）和误差（E）两部分构成。（公式 5-7）：X=T+E如果用方差代表具体分数，就得到（公式 5-8）。在测量理论中，信度被定义为：一组测量分数的真实分数方差与总方差（实得分数的方差）的比率。（公式 5-9）。真实分数是无法统计的，因此公式 5-9 还可以转化为（公式 5-10）。二、信度的指标 1.信度系数与信度指数：大部分情况下，信度是以信度系数为指标，它是一种相关系数。是真分数方差与实得方差的比值。（公式 5-11）。信度指数的平

22、方就是信度系数。（公式 5-12）2.测量标准误测量的标准误与信度之间有相互消长的关系：信度越高，标准误越小；信度越低，标准误越大。第二单元信度评估的方法（四个）一、重测信度：使用同一测验，在同样条件下对同一组被试者前后施测两次测验，求两次得分间的相关系数，叫重测信度，又称稳定性系数。一般是两周到四周较宜，间隔时间最好不超过六个月。由于人的多数心理特征如智力、性格、兴趣等，具有相对的稳定性，间隔一段时间，不会有很大的变化。二、复本信度：又称等值性系数。它是以两个等值但题目不同的测验（复本）来测量同一群体，然后求得被试者在两个测验上得分的相关系数。这个相关系数就代表了复本信度的高低。复本

23、信度反映的是测验在内容上的等值性，故又称等值性系数。复本信度也要考虑两个复本实施的时间间隔。如果两个复本几乎是在同一时间内施测的，相关系数反映的才是不同复本的关系，而不掺有时间的影响。如果两个复本的施测相隔一段时间，则称重测复本信度或稳定与等值系数。复本信度的缺点：（1）如果测量的行为易受练习的影响，则复本信度只能减少而不能完全消除这种影响；（2）由于第二个测验只改变了题的内容，已经掌握的解题原则可以迁移到同类的问题；（3）对于许多测验来说，建立复本是十分困难的。三、内部一致性信度 1.分半信度：分半信度指采用分半法估计所得的信度系数。这种方法估计信度系数只需一种测验形式，实施一次测验。通常

24、是在测验实施后将测验按奇、偶分为等值的两半，并分别计算每位被试在两半测验上的得分，求出这两半分数的相关系数。这个相关系数就代表了两半测验内容取样的一致程度，因而属于内部一致性系数。修正公式是斯皮尔曼-布朗公式：（公式 5-14）。斯皮尔曼-布朗公式为经验公式，它的假设条件是两半测验的变异数相等，但实际资料有时未必完全符合这一条件。当假设不成立时，可采用弗朗那根公式或卢伦公式，直接求得测验的信度系数。2.同质性信度：同质性主要代表测验内部所有题目间的一致性。当各个题目的得分有较高的正相关时，不论题目的内容和形式如何，则测验为同质的。相反，即使所有题目看起来好象测量同一特质，但相关很低或为

25、负相关时，则测验为异质的。几个计算同质性信度的公式如下： (1)库德-理查逊公式（用于 0、1 记分）计算同质性信度，常用的是 K-R20 公式，在各测题难度相同或近似的情况下，还可采用计算更为简便的 K-R21 公式。K-R20 公式、K-R21 公式有别于克伦巴赫系数的是，它们只能用于()。是非题(2)克伦巴赫系数（不适用于多重记分）四、评分者信度：用于测量不同评分者之间所产生的误差。（0.90 以上，才认为是客观的）。为了衡量评分者之间的信度高低，可随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。当多个评分

26、者评定多个对象，并以等级法记分时，可采用肯德尔和谐系数作为评分者信度的估计。下列描述中正确的是：（1）随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度；（2）所有题目看起来好象测同一特质，但相关很低或负相关时，则测验为异质的；（3）人的多数心理特征如智力、性格、兴趣等，具有相对的稳定性，间隔一段时间，不会有很大的变化；（4）不同信度反映测验误差的不同来源。第三单元信度与测验分数的解释一、解释真实分数与实得分数的相关信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。二、确

27、定信度可以接受的水平当 rxx .70 时，测验不能用于对个人作出评价或预测，而且不能做团体比较；当.70 rxx .85 时，可用于团体比较；当 rxx .85 时，才能用来鉴别或预测个人成就或作为。三、解释个人分数的意义作用：其一是估计真实分数的范围；其二是了解实得分数再测时可能的变化情形。测量标准误可以通过第一次测验的结果及信度估计到：（公式 5-15）。例：在一个智力测验中，某个被试的 iQ 为 100，这是否反映了他的真实水平？如果再测一次，他的分数将改变多少？ X1.96SEXTX+1.96SE （公式 5-16）已知该智力测验的标准差为 15，信度系数为.84，则其 iq 的

28、测量标准误和可能范围为：套（公式 5-15）得 SE= 6 ，即： IQ=1001.96610011.7688112 我们可以说这个被试的真实性 IQ 可能性落在 88 与 112 之间，即若再测一次，他的智商低于 88、高于 112 的可能性不超过 5。四、比较不同测验分数的差异差异分数的标准误：（公式 5-17）。例；某被试在韦氏成人智力测验中言语智商为 102，操作智商为 110。已知两个分数都是以 100 为平均数，15 为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87 和 0.88。问其操作智商是否显著高于言语智商呢？首先计算出差异分数的标准误：SED=7.

29、 5 在统计上，经常要求两个分数的差异程度达到 0.05 的显著水平，才能承认不是误差的影响。因此，将差异标准误（7.5）乘以 1.96，结果为 14.7，这表明个体在韦氏测验两半得分的差异高于大约 15 分，才能达到 0.05 显著水平。上述被试的差异分数 110-102=8 是不显著的。第四单元影响信度的因素一、样本特征（一）样本团体异质性的影响若获得信度的取样团体较为异质的话，往往会高估测验的信度，相反则会低估测验的信度。（二）样本团体平均能力水平的影响因为每个题目具有不同的难度，对幼年者和能力水平较低者，其信度值相对较低。二、测验长度（一）测验越长，测题取样或内容取样越有代表性

30、（二）测验越长，被试的猜测因素影响就越小。（三）测验太长，有时反而会引起被试者疲劳和反感而降低可靠性。通过斯皮尔曼-布朗公式的导出公式可计算出最少应增加的题数：（公式 5-18）。例：一个包括 40 个题目的测验信度为 0.80，欲将信度提高到 0.90，问至少需要增加多少题目？根据斯皮尔曼布朗公式：K=0.90（10.80）/ 0.80（10.90）=2.25即要取得 0.90 的信度，测验长度就为原来的 2.25，即需要增加 402.25=50 个题目。三、测验难度（地板效应与天花板效应）洛德（Lord）提出在学绩测验中，为了保证其可靠性，各类选择题的理想平均难度为：五择一测题，0

31、.70；四择一测题，0.74；三择一测题，0.77；是非题，0.85。只有平均难度水平为 50时，才能使测验分数分布范围最大。四、时间间隔：两次测验相隔时间越短，其信度系数越大注意事项斯皮尔曼-布朗公式为校正分半信度的经验公式，它的假设是两半测验分数的变异数相等。当假设不成立时，可以采用弗朗那根（Flanagan）公式或卢伦（kulon）公式之一，直接求得测验的信度系数。对于一些复杂的、异质的心理学变量，采用单一的同质性测验是不行的，因而常常采用若干个相对异质的分测验。第四节测验的效度美国心理学会在 1974 年发行的教育与心理测量之标准一书中将效度分为：（1）内容效度；（2）构想效度；（

32、3）效标效度。第一单元效度的概念（有效性或者说准确性）一、效度的定义：在心理测验中，效度是指所测量的与所要测量的心理特点之间符合的程度，或者简单地说是指一个心理测验的准确性。（是科学测量工具重要的必备条件）。因为测验分数的总方差等于真实方差与误差方差之和（公式 5-8），而真实方差又分成两部分，即有关方差与无关的但稳定的方差：（公式 5-19）以公式 5-19 代入公式 5-8 得：（公式 5-20）在测验理论中，效度被定义为在一组测量中，与测量目标有关的真实方差（或称有效方差）与总方差的比率，即：（公式 5-21）二、效度的性质1.效度具有相对性任何测验的效度是对一定的目标来说

33、的，或者说测验只有用于与测验目标一致的目的和场合才会有效。效度具有相对性，在评鉴测验的效度时，必须考虑测验的（目的）与（功能）。2.效度具有连续性测验效度通常用相关系数表示，它只有程度上的不同，而没有“全有”或“全无”的区别。效度是针对测验结果的。测验效度是“测验结果”的有效性程度。第二单元效度评估的方法一、内容效度（content-related validity）什么是内容效度：内容效度指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。内容效度的评估方法：（确定）1专家判断法（描述性语言）请有关专家对测验题目与原定内容的符合性做出判断，

34、看测验的题目是否代表规定的内容。如果专家认为测验题目恰当地代表了所测内容，则测验具有内容效度。由这种估计效度的方法，是一个逻辑分析的过程，所以内容效度又称“逻辑效度” 。为了使内容效度内容确定过程更为客观,弥补专家的不足,可采用如下几个步骤：（1）定义好测验内容的总体范围，描述有关的知识与技能及所用材料的来源；（2）编制双向细目，确定内容和技能各自所占比例，并由测验编制者确定各题所测是何种内容与技能；（3）制定评定量表来测量测验的整个效度。2统计分析法：包括（1）对评分者一致性的评定；（2）两个测验复本的相关性和课程内容的学习等分析；（3）再测法。3经验推测法：通过实践来检验效度。内容效度

35、的特性：内容效度经常与表面效度（face validity）混淆。表面效度是由外行对测验作表面上的检查确定的，它不反映测验实际测量的东西，只是指测验表面上看来好像是测量所要测的东西；内容效度是由够资格的判断者（专家）详尽地、系统地对测验作评价而建立的。最高行为测验注重表面效度，测典型行为时则应该把表面效度降低，尽量不让你知道在测试的内容。这就是内容效度与表面效度的区别。二、构想效度（construct-related validity）构想效度指（1）测验能够测量到理论上的构想或特质的程度，（2）即测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。（3）涉及的是心

36、理学的理论概念问题。（4）构思效度。构想效度的估计方法：1对测验本身的分析：可以作为构想效度的证据有：测验的内容有效；测验内部一致性；被试者对题目的反应特点2测验间的相互比较：（1）相容效度：与其他测量同一构思的测验有相关；（2）区分效度：与测量不同构思的测验无相关：（3）因素分析法：种因素与原先的理论构思一致，则说明构思效度很高。）3效标效度的研究证明 4实验法和观察法证实三、效标效度（criterion-related validity）什么是效标效度效标效度又称实证效度，反映的是测验预测个体在某种情境下行为表现的有效性程度。根据效标资料是否与测验分数同时获得，又可分为同时效度和预

37、测效度两类。一个好的效标必须具备以下条件：效标必须能最有效地反映测验的目标，即效标测量本身必须有效；效标必须具有较高的信度，稳定可靠，不随时间等因素而变化；效标可以客观地加以测量，可用数据或等级来表示；效标测量的方法简单，省时省力，经济实用。效标效度的评估方法 1相关法：相关法是评估效标效度最常用的方法，它是求测验分数与效标资料间的相关，这一相关系数称为效度系数。效度系数的计算：积差相关法；点二列公式；二列公式；贾思朋多系列公式。2区分法：区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。3命中率法：命中率法是当测验用来做取舍的依据时，用其正确决定的比例作为效度指

38、标的一种方法。四种情况：预测成功而且实际也成功；预测成功但实际上失败；预测失败而事实成功；预测失败且实际上也失败。称正确的预测为命中，不正确的预测为失误。命中率高低常随划分测验分数成功与失败的临界分数的高低面变化。临界分数越高，正命中率也越高；反之，临界分数越低，则正命中率也越低。第三单元效度的功能一、预测误差：效度系数的实际意义常常以决定性系数来表示，意旨相关系数的平方，它表示测验正确预测或解释的效标的方差占总方差的比例。二、预测效标分数：如果 X 与 Y 两变量呈直线相关，只要确定出二者间的回归方程，就可以从一个变量推估出另一个变量。三、预测效率指数 E=100（1-K）预测效率

39、指数 E 值的大小表明使用测验比盲目猜测能减少误差，如一个测验的效度系数为 0、80，E=40，这表明由于该测验的使用，使得我们在估计被试的效标分数时减少了（40）的误差。第四单元影响效度的因素一、测验本身的因素：（1）测验取材的代表性；（2）测验长度；（3）试题类型、难度；（4）区分度以及编排方式等都会影响效度。二、测验实施中的干扰因素主试的影响因素被试的影响因素三、样本团体的性质样本团体的异质性：样本团体越同质，分数颁布分布范围越小，测验效度就越低；样本团体越异质，分数分布范围越大，测验效度就越高。一般而言，若获得信度的取样团体较为异质的话，往往会(高估)测验的信度，否则就会低

40、估测验的信度干涉变量：对于不同性质的团体，同一测验的效度会有很大的不同。美国心理学家吉塞利提出如何找出干涉变量的方法：1、用回归方程求得每个人的预测效标分数，将该分数与实际效标分数相比较，获得差异数 D。如果 D 的绝对值很大，说明测验中的可能存在干涉变量。2、根据样本团体的组成分析，找出对照组，分别计算效度，从而找出干涉变量。3、对于欲测团体，根据某些易见的干涉变量将其区分为预测性高和预测性低的两个团体。对于预测性团体低的，存在干涉变量。四、效标的性质效标与测验分数之间的关系是否是线性关系是很重要的因素。皮尔逊积差相关系数的前题条件是假设两个变量的关系是线性分布。如果是非线性分布则皮尔逊积

41、差相关系数会低估相关的大小。效标测量本身的可靠性是值得考虑的一个问题。效标测量的可靠性即效标测量的信度。（信度与效度的关系：信度是效度的必要而非充分的条件，效度是受信度的制约。）第五节项目分析包括定性分析和定量分析两个方面，定性分析包括考虑内容和效度，题目编写的恰当和有效性等；定量分析主要是指对题目难度和区分度等。第一单元项目的难度一、定义难度（difficulty），顾名思义，是指项目的难易程度。在能力测验中通常需要一个反映难度水平的指标，在非能力测验（如人格测验）中，类似的指标是“通俗性” 。难度的指标通常以通过率表示，即以答对或通过该题的人数百分比来表示（公式 5-31）：

42、P=R/N100（用 P 代表，P 值越大，难度越低）二、计算方法二分法记分的项目：通过记 1 分，错误记 0 分，对这类题目可直接用公式 5-31 计算难度。当被试人数较多时，则可根据测验的总成绩将被试分成三组：分数最高的 27被试为高分组，分数最低的 27被试为低分组，中间 46的被试为中间组。分别计算高分组和低分组的通过率，经两组通过率的平均值作为每一题的难度。（公式 5-32）由于选择题允许猜测，所以通过率可能因机遇作用变大，吉尔福特提出了一个难度校正公式（公式 5-33）： CP=KP-1/K-1非二分记分的项目当测验项目为问题答题或不能用二分法记分的形式时，一般用下面的公式

43、计算难度。（公式 5-34）三、难度水平的确定项目的难度：P 值越接近 0 或接近 1，越无法区分被试间能力的差异。相反，P 值越接近于 0.50，区别力越高。在选择题目时，最好使试题平均难度接近 050，而各题难度在 050020 之间。当测验用于选拔或诊断时，应该较多地选择难度值接近录取率的项目。对于选择题来说，P 值一般应大于概率水平。对是非题其难度值应该为 075 最为合适；而对于四选一题，其难度值约为 063 时最为合适。洛德(Lord)提出在学绩测验中，为了保证其可靠性，各类选择题的理想平均难度为：五择一测题，070；四择一测题，074；三择一测题，077；二择一题，()。0.8

44、5测验的难度如果样本具有代表性，对于中等难度的应该接近常态分配。但有些测验，如掌握性测验或标准参照测验，分数分布出现偏态是允许的。数学测验的第 7 题满分为 15 分，该题考生的平均分为 9.6 分，测该题的难度为(0.64) P=R/N100在 340 个学生中，答对项目的人数为 120 人，则该项目的难度为(0.6)在 70 名被试者中选为高分组和低分组的被试者各有 100 人，其中高分组有 70 人答对第一题，低分组有 40 人答对第一题，则第一题的难度为（0.55）第二单元项目的区分度一、定义项目区分度（item discrimination）,也叫鉴别力，是指测验项目对被试的心

45、理特性的区分能力。区分度取值范围介于-1 至+1 之间，假如项目得分与实际能力水平之间呈负相关，则区分度为负值；若呈正相关，则区分度为正值；相关系数越大，区分度越高。当区分度为负值时，则意味着被试实际能力越高，该项目的得分反而越低，这种情况一般很少发生，如果出现，该项目应该淘汰。二、计算方法在理论上，项目区分度是以项目得分高低与实际能力水平高低之间的相关来表示。而实际能力用的最多的是测验总分。计算项目难度的公式：（1）P=R/N100；（2）P=（PHPZ）2；（3）P= (P369 页）鉴别指数（注意排列顺序）1、按测验总分高低排列答卷；2、确定高分组与低分组，每一组取答卷总数 27；3、

46、分别计算高分组与低分组在该项目上的通过率或得分率；4、按下列公式估计项目的鉴别指数：（公式 5-35）：D=PHPC1965 年，美国专家伊贝尔提出评价项目性能标准是：0.40 以上为“很好” ；0.30-0.39为“良好，修改后会更佳” ；0.20-0.29 为“尚可，但需修改” ；0.19 以下为“差，必须淘汰” 。相关法 (记住它的方法及适用范围）计算区分度最常用的方法。即以某一项目分数与效标成绩或测验总分的相关作为该项目区分的指标。相关越高，表明项目越具有区分的功能。1点二列相关：适用于一类变量为二分变量，另一类变量为连续变量的成对变量相关的计算。2二列相关：适用于两个连续变量，但

47、其中一个变量被人为分成两类。3 相关法：适用于两个变量均为二分称名变量。若将测验总分按及格、不及格或录取、淘汰划分，便可计算相关系数。4、积差相关三、区分度与难度的关系总体上说，中等难度的项目区分度最高。一般说来，较难的项目对高水平的被试区分度高，较易的项目对水平低的被试区分度高，中等难的项目对中等水平的被试区分度高。第六节测验编制的一般程序第一单元测验的目标分析一、测验的对象：年龄、受教育程度、社会经济、阅读水平等。二、测验的用途：描述、诊断、选拔、预测。显示性测验：指测验题目和所要测量的心理特征相似的测验。如成就测验。古德纳夫分为：样本测验和标记测验。样本测验题目取自一个很明

48、确的总体的测验。如测综合运算能力。标记测验题目取自一个全开放的总体的测验。如智力测验。预测性测验：指预测一些没被测量的行为的测验。如 GRE 中的词汇测验。项目难度的分布一般以（常态）分布为好，这样不仅能保证多数项目有较多的区分度，而且可以保证整个测验对被试者有较高的区分力。三、测验的目标：是指编制的目标是用来测什么的，即用来测什么样的心理变量或心理特征。工作分析对于选拔和预测功用的预测性测验，它的主要任务就是要对所预测的行为活动作具体的分析，称之为任务分析或工作分析。包括两个步骤：第一是确定哪些心理特征和行为可能使要预测的活动达到成功；第二是建立衡量被试是否成功的标准，这个标准我们称

49、之为效标。对特定概念下定义如果测验是为了测量某种特殊的心理品质或特点，那么测验编制者就必须给所要测量的心理或行为特质下定义，然后必须发现该特质所包含的维量将通过什么行为表现出来或怎样进行测量。确定测验的具体内容如果测验是描述性的显示测验，它的目标分析的主要任务则是确定显示的内容和技能，从中取样。目标分析包括：（1）工作分析；（2）对特定的概念下定义；（3）确定测验的具体内容。第二单元测题的编写一、搜集资料（避免直接翻译国外的测验题）已出版的标准测验理论和专家的经验临床观察和记录二、命题的一般原则内容方面：（1）题目的内容符合测验的目的；（2）内容的取样要有代表性；（3）题目间的内容相互独立。文字方面：（1）使用当代语言；（2）语句要简明扼要；（3）最好

展开阅读全文