心理测量总结-理论部分.doc-道客多多

资源描述

1、心理与教育测量第一章心理与教育测量概论一测量的概述1.测量：就是依据一定的法则使用量具对事物的特征进行定量描述的过程。2.对测量精确度的影响：测量对象的性质（确定型、随机型、模糊型）和测量工具的精密性。3.测量分类：物理测量、生理测量、社会测量、心理测量。4.基本要素：参照点和单位。参照点即测量的起点，可以分为绝对参照点和相对参照点。绝对参照点以绝对的零点作为测量的起点，相对参照点以人为确定的零点作为测量的起点。心理测量都为相对参照点。理想的单位具备的两个条件：确定的意义、相等的价值。心理测量的单位既无同一单位也不符合等距的要求。5.量表：能使事物的特征数量化的数字的连续体，即具有参照点和单

2、位的连续体。6.量表的种类：根据测量中使用的不同参照点和单位以及测量的不同水平，斯蒂文斯将量表分成：命名量表、顺序量表、等距量表、等比量表。命名量表：用数字代表事物或用数字对事物进行分类。命名量表中的数字没有任何意义，不能做数量化分析。无参照点和单位，无法进行任何数学运算。顺序量表：表明类别的大小或某种属性的多少。数字仅表示等级并不表示某种属性的真正量和绝对值，无参照点和单位，无法进行数学运算。等距量表：存在大小关系，无绝对参照点，但有相对参照点，有相等单位，可以进行加减运算。等比量表：是最精确的测量，大多数是物理量表。心理量表最好只能达到等距量表水平。可以知道事物某特点上相差多少和它们之间的

3、倍数关系，有相等单位和绝对零点。二心理与教育测量1.定义：依据一定的心理学和教育学理论，使用测验对人的心理特质和教育成就进行定量描述的过程。2.著名心理学测量学家安娜斯泰西的定义：心理测验实质上是行为样本的客观和标准化的测量。根据这一定义，测验应当具备四个基本条件：行为样本（即找有代表性的少数行为作为全部行为的样本）、标准化（测验编制、实施、评分和分数解释的程序的一致性）、难度或应答率、信度和效度。3.心理测验的性质：相对性、间接性、客观性4.心理测验的种类：（1）（内容）智力测验、能力倾向测验、学绩测验、人格测验（2）（对象）团体测验和个别测验（3）（测验表现形式）文字测验和非文字

4、测验（4）（目的）描述、诊断、预测（5）（时间限制）速度测验和难度测验（6）（测验要求）最高行为测验和典型行为测验。前者要求被试尽可能做出最好的回答，有正确答案，后者要求被试按日常习惯回答，无正确答案。5.心理测验的功能：（1）从理论研究角度：收集研究资料、建立和检验理论假设、实验分组（2）从实际应用角度：选拔人才、人员安置、心理诊断、描述评价、心理咨询第二章心理与教育测量发展历史1、中国古代心理测量简述：（1）公元六世纪初，南朝人刘勰的著作新论专学中提到了类似现代“分心测验”的思想。（2）在中国古代， “七巧板”是很常见的一种儿童玩具，其实它可以作为创造力测量的工具。（3

5、）中国古代心理测量的思想中包含着典型的东方文化特点：定性描述及带有道德判断色彩。（3）三国时刘劭著的人物志一书，1937 年美国人把它译成英文，书名为人类能力的研究。2、中国近代心理测量的出现：（1） 1916 年，樊炳清先生首先介绍了比内-西蒙智力量表。（2） 1920 年，北京高等师范学校和南京师范学校建立了我国最早的两个心理学实验室，廖世承和陈鹤琴先生在南京高等师范学校开设心理测验课。1921 年，他俩正式出版心理测验法一书。（3）1922 年夏天，中华教育改进社聘请美国教育心理测验专家麦柯尔来华讲学。（4）1924 年，陆志韦先生发表了订正比内西蒙智力测验说明书，30

6、年代又与吴天敏再次做了修订。（5）1931 年由艾伟、陆志韦、陈鹤琴、萧孝嵘等倡议，组织并成立了中国测验学会。（6）1932 年测验杂志创刊。（7）至抗战前夕，由我国心理学工作者制定或编制出的合乎标准的智力测验和人格测验约 20种，教育测验 50 多种。 3、中国现代心理测量的发展：（1） 1936 年，苏联在批判“儿童学”时扩大化，心理测验也被一概禁止。（2）从 1978 年北京大学首建心理系开始，心理测验才重新得到恢复。（3） 1979 年，林传鼎、张厚等以国外资料为参考，编制了少年儿童学习能力测验。（4）1980 年初，北师大心理系开设了心理测量课。1984 年，在北京

7、召开的第五届全国心理学年会上，成立了心理测验工作委员会，加强了测验工作的指导和监督。 4、科学心理测验的产生：心理测验的产生，是出于实际需要。最初，人们用测验，是因为要治疗智力落后者和精神病病人。（1）法国的医生艾斯克罗尔第一个把智力落后与精神病分开。他认为，精神病以情绪障碍为标志，不一定伴随智力落后，而智力落后则是以出生时或婴儿期表现出来的智力缺陷为主要标志。（2） 50 多年后，法国的心理学家比内提出应该从正常学校学习的儿童中筛选出不适应的儿童，安排在特殊的班级里学习和教育。此举动导致了心理测验史上重大事件的发生-第一个智力测验的诞生。（3）实验心理学的诞生是心理测验产生的另一

8、个重要原因。实验心理学的诞生和发展，还给心理测量带来了另一个副产品：严格的标准化程序。标准化是现代心理测验的重要评价指标。 5、西方早期的心理测验尝试：（1）弗兰西斯高尔顿是第一个倡导心理测验的人。他于 1884 年在伦敦国际博览会上专门设立了一个“人类测量实验室” 。他的这一举动是心理测验史上第一个大规模系统地测量个体差异的尝试。（2）高尔顿还是使用评定量表和问卷法的先驱。并且他发展了分析个体差异资料的统计方法，不仅扩充了古特列特的百分位法，而且创造了粗浅的相关计算法。（3）美国心理学家卡特尔 1980 年发表心理测验与测量一文于心理杂志上，这是在心理学文献中首次出现“心理测验

9、”一词。 6、比内-西蒙量表的诞生及心理测验的发展：（1） 1904 年比内为了鉴别弱智儿童，他与西蒙合作编制成了世界上第一个科学的智力测验-比内-西蒙量表。1905 年，他在心理学年报上发表了文章诊断异常儿童的新方法，介绍了该量表，历史上称为“1905 量表” 。从此，比内-西蒙量表宣告诞生。（2）比内- 西蒙量表自 1905 年发表后，比内和西蒙亲自主持过两次修订，一次在 1908 年，一次在 1911 年，此时比内已不幸去世。（3）1905 年量表主要强调的是判断、理解和推理能力，也就是比内认为的智力的基本组成成分。1908 年版的量表删掉了 1905 年版中不合适的题目，

10、增加了新题目，题目总数大 59 个。所有测验题目按年龄分组，从 3 13 岁。测验的结果用“智力水平”来表示。人们常叫它为“智力年龄” 。它表示一个儿童能完成何种年龄水平的儿童所能完成的测验。（4）最有名的是 1918 年出版的美国斯坦福大学的推孟教授修订的“斯坦福-比内量表”这一量表首次使用了“智力商数”的概念，简称为 IQ，是心理年龄和实际年龄的比值。（5）比较有名的几个测验。 1 智力测验：推孟的研究生欧提斯编制的团体智力测验，而后在次基础上发展出美国陆军用甲、乙两种测验。有基于因素分析理论编制的测量多项能力的韦克斯勒的儿童智力量表。还有桑代克编制的标准化教育测验。 2 人格测验：1

11、917 年武德沃斯设计的“个人资料调查表” 。1912 年问世的罗夏克墨迹图测验（RIT）和于 1943 年首次出版，由哈撒韦和麦金利编制的目前影响最大的 MMPI-明尼苏达多相人格调查表。第三章经典测验理论的基本假设一经典测验理论模型1.心理特质：表现在一个人身上所特有的相对稳定的行为方式。具有概括抽象性、综合不同刺激、稳定性、多层次有机组合、预测性的特点。2.CTT 心理特质的可测性假设：凡客观存在的事物都有其数量（桑代克）、凡有数量的东西都可以测量（麦柯尔）。3.数学模型：X=T+E，即经典测验理论假定，观察分数（X）与真分数（T）之间有一种线性关系，并只相差一个随机误差（E）。

12、据此，引申出三个相关联的假设公理：（1）若一个人的某种心理特质可以用平行的测验反复测量足够多次，则其观察分数的平均值会接近与真分数。即 E 的分布是平均数为零的正态分布。（2）真分数与误差分数之间的相关为零。（3）个平行测验上的误差分数之间相关为零。即 E 是随机误差。注：用许多个平行测验反复测量同一个人的同一种心理特质的做法很难实现，所有用一个测验来同时测量许多被试，团体的观察分数的均值会接近于该团体真分数的均值。4.推导公式：S X2=ST2+SE2 ，而 ST2=SV2+SI2二测量的误差及其来源1.测量误差：在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应

13、。2.分类：随机误差和系统误差。3.随机误差：就是那些由与测量目的无关的、偶然因素引起的而又不易控制的误差。4.系统误差：那些由与测量目的无关的变因引起的一种恒定而有规律的效应。5.误差来源：测量工具、测量对象、施测过程。（1）测量工具：信效度（即是否稳定和有效）、难度、长度、指导语、题目形式等。（2）测量对象（被试）：被试误差可分为：应试技巧与练习、动机和焦虑、反应定势。a.应试技巧与练习：速度测验比难度测验更易受练习的影响。b.动机与焦虑：一般来说，适度的测验焦虑会使人提高兴奋水平，促进注意力，反应加快，有利于智力测验、成就测验和能力倾向类的测验。但焦虑水平过高过低都不利于测验。c.反应

14、定势：即反应风格。是被试的一种反应倾向，与测验内容无关。简言之，即被试的答题习惯。定势的种类：求“快”定势、求“精确” 定势、喜好正面叙述的定势、位置定势、长选项定势、猜测定势。（3）施测过程：a.物理环境：施测现场的温度、光线、声音、桌面好坏、空间阔窄等。b.主试者：主试者的生理物理因素、主试在施测时偏离规定程序、主试的态度动机（例如罗森塔尔效应）注：有几种状况主试能产生较大影响：a. 测验步骤复杂，指导语冗长繁琐。b. 测验题目本身模糊不定，灵活多变。c. 安排的施测条件宽裕，有较多灵活机动的余地。d. 被试属幼儿或情绪困扰者。第四章测量信度一信度概述1.信度：测量结果的一致性和稳定性

15、程度。即统一测量工具反复测量某人的同一心理品质，多次结果的一致性程度。2.三种信度定义：定义一：信度系数乃是一个被测团体真实分数与实得分数的变异数之比。定义二：信度系数乃是一个被测团体真分数与实得分数的相关系数的平方。定义三：信度溪水乃是两个平行测验的相关系数。注：信度的表示方法有信度系数和信度指数。信度指数即信度系数的平方根。3.测量的标准误：SE=S x1-r xx 分别代表测量的标准误、实得分数的标准差、信度系数。4.信度的意义：（1）信度系数可以解释为样本测验分数的总方差中有多少比例是真分数方差，它直接告诉我们测量的误差有多大（即 SE）。（2）测量的标准误可以告诉我们有多大可能性真

16、实分数在某一分数范围内，并且可以预测实得分数再测时的可能变化情况。5.信度的作用：（1）信度是测量过程中所存在的随机误差大小的反映。（2）信度可以用来解释个人测验分数的意义。（3）信度可以帮助进行不同测验分数的比较。注：它是确定测验好坏的一个指标。一般的原则是： a 当 rxx 0.70 时，测验不能用于对个人作出评价或预测，而且不能做团体间比较。 b 当 0.70rxx0.85 时，可用于团体比较。 c 当 rxx 0.85 时，才可以用来鉴别或预测个人成绩或作用二信度的分类和估计方法（根据误差来源）1.重测信度：也叫稳定性信度，误差来源是时间取样。即同一量表对同一组被试施测两次所得结果的一

17、致性程度。（1）采集数据：对同一组被试间隔一段时间重复测量一次。（2）计算方法：皮尔逊积差相关（3）使用条件：a.所测的心理特性必须是稳定的。b.遗忘和练习的效应基本上相互抵消。c.在间隔期内，所测心理特质没有得到更多的学习和训练。（4）重测信度的时间间隔选择依测验性质和目的而定，如果测验是用于长期预测，则测量间隔长一些。对儿童的智力测验一般是两周到四周为宜。对成年人，间隔可到半年，很少超过 6 个月。 2.复本信度：也叫等值性系数，误差来源是内容取样。即两个平行的测验测量同一组被试所得结果的一致性程度。（1）采集数据：对同一组被试施测内容等值但题目不同的平行测验。（2）计算方法：皮尔逊积差相

18、关（3）使用条件：a.要构造出两份真正的平行测验。b.被是要有条件接受两个测验。（4）复本信度的高低反映了两个互为复本的测验等价的程度，而不是反映一个测验本身受随机误差影响的大小。复本信度的高低关键取决于复本测验的选择，因而是题目取样问题，或者说是测验的内容取样问题。（5）复本信度优于重测信度的地方是：a.避免了重测带来的记忆效应和练习效应。b.可用于长期追踪研究前后测量。c.减少了作弊的可能性。（6）复本信度的缺点：a.有些测验的复本很难找到。b.一些解题的策略技巧可能产生迁移效应。c.如测量的内容很容易受练习的影响，复本信度也无法清除这种练习效应。（7）重测复本信度，即再不同的时间里施测两

19、个等值的测验（复本），得到的相关就是重测复本信度，也叫稳定等值系数。它比单一的重测信度或复本信度都要严格、全面一些。3.分半信度：即将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。误差来源也是内容取样，它与复本信度的差别是：分半信度考查一个测验内容的两半题目测量的是否是同一个心理特质。（1）采集数据：将一个测验分成两半（如按题号的奇偶性分半、按题目的难度分半、按题目的内容分半），求同一组被试在两半上得分的相关系数。（2）计算方法：a.皮尔逊积差相关，后用斯皮尔曼布朗公式校正。b.弗朗那根公式。c. 卢仑公式。4.内部一致性信度（同质性信度）：即测验内部所有题目的一致性程

20、度。测量单一特质是同质性高的必要条件。（1）计算方法：a.KR20,仅适合于二分法记分的测验题目。b.KR21 当所有题目难度接近时才适用。c.克龙巴赫系数。d.荷伊特信度。（2）从同质性信度的含义我们不难看出，分半信度是求测验两半之间的一致性或同质性，而同质性是求所有题目间的一致性。因此分半信度实际上是同质性信度的一种，可以作为测验同质性评价的粗略估计指标。因为可以根据测验得分来推论或验证某种概念或理论构思，因此同质性信度也是一种构思效度，或叫结构效度，它实际上介于信度与效度之间。5.评分者信度：指的是多个评分者给同一批人的答案进行评分的一致性程度。误差来源是评分者之间的差异。（1）计算方

21、法：a.评分者两人时，积差相关或等级相关。b.多于两人时，肯德尔和谐系数。三提高测验信度的方法1.影响测验信度的主要因素：（1）被试：单个：身心健康状况、应试动机、注意力、耐力、求胜心、作答态度。团体：团体内部水平的离散程度和团体的平均水平。注：样本团体异质性的影响：样本团体异质的话，测验分数的分布就比同质样本的要广，分数的离差就大，样本的方差就大，信度就高。实际上，高信度可能是假性高信度，是由样本团体的异质造成的。但如果常模总体要求各种各样的人，则异质的信度样本求得的信度就是真信度。这时，相反的情况就需要校正信度。（2）主试：施测者：若不按指导手册中的规定施测，或故意制造紧张气氛，或给予考

22、生一定的暗示、协助，信度低。评分者：评分标准掌握不一，或前松后紧，甚至随心所欲，信度低。（3）实测情境：安静与否、光线、通风、设备是否齐全、桌面是否合要求、空间阔窄等。（4）测量工具：试题的取样、试题之间的同质性程度、试题的难度、两次施测的时间间隔（针对重测信度和稳定等值性系数）。2.提高测验信度的方法：（1）适当增加试题长度。（2）使测验中所有试题的难度接近正态分布，并控制在中等水平。（3）努力提高试题的区分度。（4）选取恰当的被试团体，提高测验在同质性较强的亚团体上的信度。（5）主试者严格执行施测规程，评分者严格按标准给分，施测场地按测验手册的要求进行布置，减少无关因素的干扰。第五章测

23、量效度一效度概述1.效度：指一个测验或量表实际能测出其所要测的心理特质的程度。即测量的准确性。注：a.相对性。b.是随机误差和系统误差的综合反映。c.判断一个测验是否有效要从多方面搜集证据。2.与信度的关系：a.信度高是效度高的必要而非充分条件。b.测验的效度收到它的信度制约。3.公式：rxy 2 = SV2S X2 4.效度的指标：效度系数、统计推断参数、预期表等。其中效度系数是最常用的，效度系数的实际意义用决定性系数来表示，即 rxy2二效度的分类与计算1.内容效度：一个测验实际测到的内容与所要测的内容之间的吻合程度，即测验题目对有关内容或行为总体取样的适当性程度。（1）条件：a.内容范围

24、或行为总体必须界定明确。b.测验题目必须是所界定的内容范围或行为总体的代表性样本。（2）确定方法：a.专家评定法（逻辑分析法）。b.统计分析法。c. 再测法。（3）注：要避免与表面效度相混淆。表面效度是一个测验看起来好像是测量所要测的心理特质的程度。换句话说，当那些未经过训练的被试或测验应用者认为某测验是有效的测验时，该测验就有表面效度。 2.结构效度：一个测验实际测到所要测量的理论结构和特质的程度。（1）确定步骤：a.提出理论假设。b.依据理论框架，推演出有关测验成绩的假设。c. 用逻辑和实证的方法验证假设。（2）确定方法：a.测验内部（内容效度、答题过程、同质性信度）。b.测验之间（相

25、容效度发、区分效度法、因素分析法）。c.实证效度。d.多种特质-多种方法矩阵法。3.实证效度：指一个测验对特定情境中的个体的行为进行估计的有效性。即测验总分与外在标准之间的相关程度，由于外在标准成为考察测验有效性的参照标准，所以称为校标。（1）校标：衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。（2）阿斯丁把校标分成两个层次：a.理论描述水平的“观念校标” 。b.操作定义水平的“校标测量” 。为了使校标测量能真正反映观念校标，要做到：a.避免偏见影响校标测量。b.防止校标污染，即指个人的校标因评定者知道个体的测验分数（预测源分数）而受到影响。（3）

26、常用的校标：学业成就、等级评定、临床诊断、专门训练成绩、实际工作表现、对团体的区分能力、其他现成的校标。（4）分类：同时效度：其校标资料是与测验分数同时搜集的。主要用于诊断现状，预测效度：其校标资料是在测验后根据实际工作成绩来确定的。用于预测。（5）确定步骤：a.明确观念校标。b.确定校标测量。c.考察测验分数与校标测量的关系。（6）确定方法：a.相关法。b.区分法。c.命中率。注：总命中率：测验选出的人当中工作合格的人数，以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。正命中率：测验选出的人中合格者所占的比例。三提高测验效度的方法1.影响测验效度的因素：（1）测验的构成：试题样本没

27、有较好地代表欲测内容或结构、题目语义不清、指导语不明、题目太难或太易、题目太少或安排不当等，都会降低效度。（2）实施过程：如不遵从指导语的要求、或出现意外干扰、或评分记分出现差错。（3）被试：个体：应试动机、情绪、态度、身体状态等。团体：年龄、性别、文化程度与职业等方面的特征。（4）所选校标的性质（5）测量的信度2.提高测量效度的方法：（1）精心编制测验量表，避免出现较大的系统误差。（2）妥善组织测验，控制随机误差。（3）创设标准的应试情境，让每个被试都能发挥正常的水平。（4）选好正确的校标，定好恰当的校标测量，正确地使用公式。第六章测验的项目分析一项目分析概述1.项目分析：一种分析被试对测

28、验项目的反应的统计方法，而广义的项目分析还包括内容效度分析和项目编写的分析。狭义的指难度和区分度。二难度1.难度：指测验的难易程度。2.计算：（二分法记分）a.通过率：P=R/N。b.极端分组法： P=(PH+PL)/2（非二分法记分）P=X/X max3.确定：（1）项目难度为 0.5 最理想，此时的项目具有最大鉴别能力。（2）在实际操作中，一般只要是项目的平均难度接近 0.5，而各个项目难度在 0.50.2之间。（3）如果用于选拔、录用人员，将项目难度控制在接近录取率左右。（4）当项目形式是选择题时，要让 P 值大于概率水平，否则项目是无效的。4.以上难度指标属于顺序变量，不具有相等单位，

29、无法指出难度之间差异大小，所以要将其转换为等距量表，即转换成 Z 分数（方法：将难度作为正态曲线下的面积）。=13+4Z（美国教育测验服务中心采用的难度指标）5.难度对测验的影响：（1）测验难度影响测验分数的分布形态。（2）测验难度影响测验分数的离散程度。6.猜测校正：难度校正、分人分数校正三区分度1.区分度：测验项目对被试心理品质水平差异的区分能力。-1D12.鉴别力分析（区分能力分析）的设想基础：如果单个项目与测验测的是同一特质，那么我们可以预期在测验上的高分的人正确回答这一问题的概率大，而在测验上得低分的人正确回答这一问题的概率小。3.计算方法：（1）鉴别指数法：D=P H-PL （二

30、分法记分）注：艾伯尔提出鉴别指数评价题目效能的标准：0.19 以下差必须修改，0.2到 0.29 尚可仍需修改，0.3 到 0.39 良好修改会更好，0.4 以上很好。（2）相关法：即以项目分数与校标分数或测验总分的相关作为项目区分度指标。a.点二列相关。b.二列相关。c. 相关。d.积差相关。4.区分度和难度的关系：难度越接近 0.5，项目潜在的区分度越大。实际中，应使项目的难度分布广一点，梯度大一点，使整个测验的难度分布呈正态分布，且平均水平在 0.5 左右。 5.区分度的相对性：（1）不同的计算方法，所得区分值不同。（2）样本容量大小影响相关法区分值的大小。（3）分组标准影响鉴别力指数值

31、。（4）被试样本的同质性程度影响区分度的大小。第七章常模编制一分数转换1.原始分数：在被试接受测验后，根据测验计分标准，对照被试的反应所计算出的测验分数。2.导出分数：在原始分数的转换的基础上，按照一定的规则，经过统计处理后获得的具有一定参照点和单位，且可以相互比较的分数。3.常见的导出分数有：常模参照分数、内容参照分数、结果参照分数。二分数合成1.分数合成：将几个分数或几个预测源组合起来，以获得一个合成分数或作总的预测。2.类型：（1）由基本测验项目组合成一个分测验或一个测验。（2）由几个分测验上的得分组合成合成分数。（3）由几个测验的得分组合，获得合成分数或合成预测。3.方法：a.临

32、床诊断：根据直觉的经验，主观地将各种因素加权，而获得结论或预测的方法。优点：高度的综合性、灵活的针对性。缺点：易受决策者的偏见影响，不够客观；没有精确数量分析。b.加权求和：单位加权（根据每个变数与它的标准差成比例的加权）、等量加权（适合于个测验对预测校标有同等重要性的场合）、差异加权（根据各个变数与校标之间的经验关系加权）。c.多重回归：即利用测验结果对预测校标做出估计。条件：线性关系、同时获得。d.多重划分：在各个特质上都确定一个标准，从而把成绩划分成合格和不合格两类，只有每个测验都合格才算合格。(连续栅栏)三常模参照测验1.常模参照测验：度量与比较个体间的差异，以被试在团体中的相对

33、位置来评定和解释测量结果。2.常模参照测验的导出分数（常模分数）：常见的有百分等级、标准分数以及标准分数的各种变式等。（1）百分等级：a.定义：一个分数的百分等级是指在一个群体的测验分数中，得分低于这个分数的人数的百分比b.计算：未分组、分组。c.优点：1.是一种相对位置量数，具有可比性。2.易于计算，解释方便。3.不受原始分数分布状态的影响，即使原始分数分配不是正态的，也不会改变百分等级常模的解释力。d.缺点：1.单位不等，尤其在分配的两个极端。2.百分等级是顺序变量。3.在运用时应注意，百分等级是相对于特定的被试团体而言的。（2）标准分数：a.定义：标准分数是一种具有相等单位的量数，又称

34、Z 分数。它是将原始分数与团体的平均数之差除以标准差所得的商数，是以标准差为单位度量原始分数离开其平均数多少个标准差。b.计算。c.性质：1.Z 分数原始分数的分布形态相同。 2.平均数为 0，标准差为 1.3.是以一批数的平均数为参照点，标准差为单位的等距量表。d.缺点：1.常出现负数和小数。2.单位过大。c.标准分数的正态化：为了使来源于不同分布的分数进行比较，可使用非线性转换，将非正态分布的分数强制性地转换成正态分布。（先求百分等级，再求对应 Z 值）（3）标准分数的变式：将 Z 分数作线性变换。如 T 分数、离差智商等。a.T 分数：T=10Z+50(麦柯尔)。平均数为 50，标准差

35、为 10。b.离差智商:IQ=15Z+100c.美国大学入学考试委员会使用的：CEEB 分数=100Z+500d.出国人员英语水平考试：EPT 分数=20Z+90（4）标准九分数：a.定义：也是一种标准分数，它将原始分数划分为九部分，最高是 9 分，最低是 1 分，除去 1 和 9 的范围略大以外，其余均是以 5 为中心向两边各包含 0.5 个标准差的分数段。3.常模编制（1）常模：根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表。（2）常模团体：a.定义：具有某种共同特征的人所组成的一个群体，或是该群体的一个样本，大部分测验不止一个常模团体。b.确定常模团体注意事项

36、：1.群体构成的界限必须明确。2.常模团体必须是所测群体的一个代表性样本。3.取样的过程必须有明确且详尽的描述。4.样本大小要适当（一般情况，最小样本为 30 100 个；全国性的常模，一般地要求有 2000 3000 人为宜）。5.常模团体必须是近时的。6.注意一般常模和特殊常模的结合。（3）常模分类：a.发展量表：将个人的成绩与各种发展水平的人的平均成绩相比较制作出来，明确指出个人按正常途径发展的心理特征处于什么样的发展水平。年龄常模：定义：以智力年龄为代表，比内西蒙量表中首先使用了智力年龄的概念，即用年龄来表示测验分数。优点：易于理解与解释，可以与同龄团体做直接比较。缺点：智力年龄的单

37、位不是恒定相等的，而且不适用于成人，成人到某个阶段后智力发展相对稳定，显示不出一年与一年之间的差异。基本要素：1.一组可区分不同年龄组的题目。2.一个常模团体，该团体是由各个年龄的被试所组成的具有代表性的样本。3.常模表。年级当量：定义：即将被试的测验成绩与某一年级的学生的平均分数作比较，而说成相当于某一年级水平。缺点：1.教育内容在各个年级是不同的。2.解释比较困难。3.误用为标准。发展顺序量表：是直观的发展常模，因为它告诉人们多大的儿童具备什么能力或行为就表明其发育正常。b.商数：智商：智力年龄与实际年龄之比。IQ=MA/CA100教育商数：教育年龄与实际年龄之比。EQ=EA/CA100成

38、就商数：教育年龄与智力年龄之比。AQ=EA/MA100=EQ/IQ 100c.百分位常模d.标准分数常模：补充：标准九是标准化九分制的简称。它是以 5 为平均数，以 2 为标准差的一个分数量表，最早时被广泛应用于美国空军的心理测验中。名称 z 分数和 z分数 T 分数标准九标准十标准二十平均数 0 50 5 5 10 标准差 1 10 2 1.5 3 离差智商及其意义：传统比率智商的缺点：1.智龄与年龄的发展并不是呈线性关系。2.智力增长到何时达终点仍在争论。离差智商：通过与同年龄的代表性样本的平均数相比较来确定智商的高低。离差智商公式为：IQ = 100 + 15z。由于离差智商的

39、提出，过去使用比率智商的测验都改用离差智商，其公式为：IQ = 100 + 16z。两者唯一的区别是标准差：一个是 15，一个是 16。注：常态化使得 IQ 的评定对智力较低者打分偏高，对智力较高者打分又偏低，而对中等智力者打分最准确。（4）常模编制程序：a.取得常模团体。b.获得常模团体的测验分数。c. 确定常模分数类型，制作常模分数转换表，即常模量表，同时给出抽取常模团体的书面说明，以及常模分数的解释指南。（5）常模呈现方法：a.转化表：具备三个要素，即原始分数、导出分数、对常模团体的有关具体描述。b.剖析图：把一套测验中几个分测验分数用图表表示出来。从剖析图上可以很直观地看出被试在各个

40、分测验中的表现及其相对应的位置。第八章心理与教育测验的编制和实施一编制心理与教育测验的基本程序：1.确定测验目的：a.明确测量对象：明确测量那些个人或团体。b.明确测量目标：明确测量什么心理功能。目标分析依测验不同可分为工作分析、对特定概念下定义、确定测验的具体内容。c.明确测验用途：显示性测验（测验的题目要与测验的特征相似的测验）和预测性测验（为了预测一些没有被测量的行为的测验）。2.制定编题计划：确定测验内容和相对百分比。3.编辑测验题目：a.收集测验资料：资料要丰富性、普遍性、趣味性。测验题目的来源：已出版的标准测验、理论和专家的经验、临床观察和记录。b.选择项目形式：提供型和选择型

41、、口头和操作、团体和个人等等。c.编写测验项目4.预测与项目分析5.合成测验：a.项目的选择：指标有测验的性质、项目的难度、项目的区分度。b.项目的编排：并列直进式和混合螺旋式。编排时的原则：测量同一因素的题目放在一起、同类型的测试题尽可能组合在一起、题目的难度排列宜逐步上升。c.编制复本6.测验标准化：所谓标准化是指测验的编制、施测、评分以及解释测验分数的程序的一致性。7.鉴定测验：信度、效度、测验量表（即导出分数）和常模（测验量表与原始分数一起呈现）8.编写测验说明书二测验的实施1.施测前的准备工作：准备好测验材料、熟练掌握施测手续、熟记测验指导语并能用口语清楚而流利地表达出来。2.指导语

42、：即对测验目的的说明和对题目反应方式的说明。3.测验情境4.测验焦虑5.与受测者建立良好的协调关系6.评分技术三测验分数的解释1.如何看待测验分数：a.主试应充分了解测验的性质与功能。b.对导致测验结果的原因的解释应慎重，谨谨防片面极端。c.必须充分地估计测验的常模和效度的局限性。d.解释分数应参考其他有关资料。e. 对测验应以“一段分数”解释，而不应以“特定的数值。f.对来自不同测验的分数不能直接加以比较。 ”2.如何将测验分数告诉受测者：a.使用当事人所理解的语言。b.要保证当事人知道这个测验测量或预测什么。c. 如果分数是以常模为参照的，就要让当事人知道他是和什么团体比较。e.要使当事人

43、认识到分数只是一个估计。f.要使当事人知道如何运用他的分数。g.要考虑测验分数将给受测者带来什么影响。 h.对低分者的解释要慎重。i.报告测验分数时应设法了解当事人的心理感受。第九章测验等值一测验等值概述1.定义：把所有不同形式测验的分数都转换到同一个分数系统上。从本质上来讲，就是通过考核同一种心理品质的多个测验形式作出测量分数系统的转换，进而使得这些不同测验形式的测验分数之间具有可比性。2.测验等值的条件：同质性、等信度、公平性、可递推性、对称性、样本不变性。3.分类：（以何种测验理论作指导）经典理论等值、项目反应理论等值。（直接操作对象）测验分数等值、项目参数等值。（试卷的难度和被试能力

44、分布是否有差异）水平等值、垂直等值。4.误差：a.等值标准误差：由抽样引起的等值误差，是一个变量，随等值分数的大小而变，其总趋势是等值分数越接近分布的两端，等值标准误差越大。b.等值偏差：等值处理方法不当引起的误差。5.表示方法：列表法、公式法、图示法。6.计算方法：a.等百分位等值。b.线性等值。7.等值设计：a.定义：为了寻找不同测验形式之间的等值关系而预先对数据的采集方法、等值实现的途径、等值的计算方法进行周密的设计。b.常用设计第十章目标参照测验一概述1.目标参照测验：是根据某一明确界定的内容范围而缜密编制的测验，并且，被试在测验中所得结果，也是根据某一明确界定的行为标准直接进行解释

45、的。二项目分析1.内容范围的确定：a.特点：1.具有边界。2.每一内容范围内容均可分为几类。b.确定：当每一类的内容及其在此内容范围内的相对重要性确定以后，内容范围就有了明确的结构。当一个内容范围了明确结构和边界时就得到了确定。c.呈现：双向细目表（三要素：教学目标、教学内容、相对重要性）2.内容效度分析：a.定义：即检验题目与测验内容范围所要求的内容与目标的一致性。b.方法：专家评定。即由有关专家填写项目内容评定表，在五级量表上对每个题目所测内容与项目标志着所欲测目标内容之间的一致性作出评定。3.难度4.区分度： a.难度差值（掌握组-未掌握组鉴别指数、个人获得指数）。b.相关系数法。三信度和效度1.信度：分类一致性信度、分差分析方法-荷伊特信度。2.效度：内容效度、效标关联效度。

展开阅读全文