心理测量学(详细).ppt-道客多多

资源描述

1、心理测量学,Psychological Testing上传刘景波（snr5aliu）目的仅用于学习交流,一、说明（一）课程性质本课程适合于大学本科心理学、教育科学等专业的本科生及研究生教育。本课程的学习将有助于实验设计、教育评价、心理与教育统计学等学科的学习，是培养学生科学研究及掌握研究方法的基础性学科。（二）教学目的通过学习，要求学生掌握心理测量的基本知识、心理测量的编制和实施、以及良好测量所要求具备的基本条件。更重要的是，通过本课程的学习要使学生熟练掌握不同心理测量的实际应用。（三）教学内容本课程的主要教学内容有：心理测量的基本内涵及其评价和测量的一般步骤和方法两部分。内容

2、涉及一般测量解析，测量的要素及量表类型，测验信、效度、难度和区分度，测量的一般步骤和方法，智力测验、人格测验等心理测验，以及心理测量的综合应用和心理测量理论的新发展等内容。（四）教学时数 54个课时（五）教学方式课堂教学与实践应用相结合。,第一编心理测量的基本内涵及其评价第一章绪论教学要点：通过本章的学习，了解测量的基本性质及其要素，测量量表的四种水平，心里测量的本质、基本条件及功能，心里测量的发展以及心理测量的道德准则等内容，对心理测量有一个概括化的了解。教学时数：10学时教学内容：一、一般测量解析 1测量(Measurement)概论 2测量的分类 3心理测量的种类（

3、1）以测量对象来分，（2）以测量的目的来分，（3）以测量的方式来分类，（4）以项目结构或组成形式来分，（5）按评价参照的标准分类 4测量与测验（Test）、考试（Examination）、评价(Evaluation)联系与区别,二、测量的要素及量表类型 1测量的要素识记：单位（Unit），参照点(Reference Point)，量表(Scale) 2量表类型（1）称名量表称名变量只说明某一事物与其他事物在名称、类别或属性上的不同，并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。（2）顺序变量顺序变量是指可以就事物的某一属性的多少或大小按次序将各事物加以排列的变量，具有等级

4、性和次序性的特点。（3）等距变量等距变量除能表明量的相对大小外，还具有相等的单位。（4）比率变量比率变量除了具有量的大小、相等单位外，还有绝对零点。,三、心理测量的本质、基本条件及功能 1 心理测量的本质 2 编制心理测验的基本条件 3 心理测量的功能（1）理论研究功能，（2）实际应用功能四、心理测量发展简史 1 主观经验性考试阶段（1864年以前） 2 客观标准化测验阶段（1864年1940年） 3 客观测验的深入发展阶段（1940年） 4 西方心理测量的发展 5 心理测验在我国的发展,（五）心理测量的道德准则 1心理测量工作者的素质要求（1）心理测量工作的知识结构.（2）对心

5、理测量的态度 2心理测量工作者的道德准则（1）测验的保密和控制原则（2）测验中个人隐私的保护考核要求：1心理测量的种类 2测量与测验（Test）、考试（Examination）、评价(Evaluation)联系与区别 3测量的要素及量表类型单位，参照点，量表，称名量表，顺序变量，等距变量，比率变量 4.心理测量的本质、基本条件及功能 5.心理测量发展简史,第二章经典测验理论的基本假设教学要点：通过本章的学习，掌握经典测验理论的基本假设，心里特之及其特性，心里测量的误差和种类，以及真分数的含义等内容。教学时数：6学时教学内容：一、心理特质（Trait）及其可测性假设 1经典测验(Clas

6、sical Test Theory ,CTT)理论 2特质假设,二、测量误差及其来源 1. 测量误差的含义 2误差种类识记：随机误差，系统误差 3误差来源（1）来自心理测量工具，（2）来自测量对象，（3）来自实测过程(二)真分数模型及其假设 1. 真分数的含义 2真分数数学模型解析领会：（1）几个推理，（2）CTT的基本含义，（3）CTT的基本公式 3经典测验理论的不足考核要求：1心理特质（Trait）及其可测性假设2测量误差及其来源 3真分数模型及其假设 4经典测验理论的不足,第三章测验信度教学要点：通过本章的学习，掌握信度的意义，信度系数的计算，了解影响信度的主要因素以及提高信度

7、的常用方法等内容。教学时数：4学时教学内容：一、信度的意义 1 信度指实测值和真值相差的程度 2 信度指统计量与参数之间的接近程度 3 信度是指一种测验对相同的应试者再次测验时引起同样反应的程度二、信度系数的计算 1稳定性系数 2等值性系数 3等值稳定性系数 4 内部一致性系数 5 评分者的信度系数,三、提高测验信度的方法 1 信度系数以多大为宜 2 影响信度的因素 3 提高测验信度的方法考核要求：1.信度的意义 2.信度系数的计算识记：稳定性系数，等值性系数，等值稳定性系数，内部一致性系数，评分者的信度系数 3.提高测验信度的方法,请列举一些你所使用过或接触过的量表,思考: 量表的作

8、用是什么？,你如何解释下述现象？,一个很聪明的孩子，测得智商是80分一个学习很好的学生，考试成绩为60分一个人缘很好的人，人际关系测量低于常模值,量表帮助我们了解心理现象（心理特质），就像尺子帮助我们测量身高。,思考:我们如何知道我们有多高？有两个工具：尺子 / 秤,尺子的数据与我们的目测更一致，而秤盘的数据则与我们的目测不一致。因此，尺子是测量身高的有效工具效度。,什么材料的尺子？钢铁（热胀冷缩）涉及到一致性的问题。信度,物理不等于数学1.70与1.7的关系总结：量表是我们用来了解心理特质的工具，但这个工具是有误差的。误差要控制在一个许可的范围内。,回顾,什么是误差? 误差的种类?

9、误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。误差分为随机误差和系统误差。,高尔顿的智力观比奈的智力观判断题、选择题和问答题 SX2 = ST2 + SE2 ST2 = SV2 + SI2 SX2 = SV2 + SI2 + SE2,SX2,ST2,信度,稳定性可靠性一致性信度乃是一个被测团体真分数的变异数与实得分数的变异数之比。 rXX=ST2/SX2,信度的定义二,信度乃是一个被测团体真分数与实得分数的相关系数的平方。 rXX=P2TX 思考：相关系数的平方？,信度的定义三,信度乃是一个测验X与它的任意一个平行测验X的相关系数。 rXX=PXX,A卷：你是一个喜欢热

10、闹的人吗？,1=绝对是 2=是 3=不一定 4=不是 5=绝对不是,B卷：你是一个喜欢安静的人吗？,1=绝对是 2=是 3=不一定 4=不是 5=绝对不是,信度的估计方法,重测信度（Test-Retest Reliability）定义：同一量表，同一被试群体，在不同时间，两次施测，求其相关。实质：表示测验结果的稳定性。故称之为稳定性系数（Coefficient of Stability）形式：施测适当时间再施测,时间间隔的把握,间隔时间越长，稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。年幼儿童，间隔要小；年长群体，间隔可大。智力测验的间隔不能太短，成就测

11、验的间隔不能太长。一般间隔时间不超过六个月。（即不能让被试记住上一次测验的内容，又不能让其特质发生变化，或对所学知识产生遗忘）,复本信度（Alternate-form raliability）,因为任何测验只是所有可能题目中的一份取样（行为样本），所以可编制许多平行的等值测验，叫做复本。,复本等值要符合下列条件：,各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等，难度和区分度大体相同。各份测验的分数分布（平均数和标准差）大致相等。复本编好后，应再测一次，以确保各份测验的等值。,定义：两个复本施测同一被试群体，求其相关。,等值性系数：

12、同时连续施测，反映内容变异。形式：复本A最短时间复本B 稳定性与等值性系数：时间间隔施测，内容变异重测信度误差形式：复本A适当时间复本B,分半信度（Split-Half Reliability）,定义：在测验没有复本且只能实施一次的情况下，可将测验项目分成对等的两半，根据被试在这两半测验中所得的分数计算相关系数，即得分半信度。计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值。,分半信度（Split-Half Reliability）,为了使两半基本等值，可将项目按由易到难的顺序排列编号，然后按奇数和偶数序号将项目分半。要注意使那些性质相同、联系紧密的项目分在相同的一半，否

13、则会使信度值偏高。由于分半信度实际上只是半个测验的信度，测验越长、项目越多，两半分数的相关就越高。因此，对长度不同的测验，要用校正公式。,同质性信度（Homogeneity Reliability）,同质性指测验的所有题目测量的是同一种心理特质，表现为各个题目得分之间有较高的相关，相关越高则同质性越强。因素分析的思路,五、评分者信度（Scorer Reliability）,评分者信度是指不同评分者之间在测验结果计分上的一致性。在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。

14、,五、评分者信度（Scorer Reliability）,最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。如果评分者在三人以上，而且又采用等级记分时，就需要用肯德尔和谐系数来求评分者信度。,估计信度的方法与测验复本的数目以及施测次数的关系,在一般情况下，间隔施测的副本信度最低，因为很多因素有机会影响到分数。相反，校正过的分半相关，因为影响的因素少，所得的信度估计为最高。,各种信度系数相应误差变异的来源,实际上，有多少种误差来源，便有多少种估计信度的方法。一个测验哪种

15、误差大，便应该用哪种误差估计。有时一个测验需要有几种信度系数，这样我们就把总分数的变异数分成不同的分支。,假设对100个六年级学生以两个月的时间间隔先后施测一个创造力测验的AB两个复本，所得的等值性与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80 （先计算每个复本的分半相关系数。将二者平均后再用斯皮尔曼-布朗公式校正）。同时，我们让另一个评分者随机抽取50份卷子另外评分，得到评分者信度为0.92。然后，我们对这三种方法所产生的误差变异进行分析。,一个假想测验的误差变异来源分析,一个假想测验的误差变异来源分析,第四章测验的效度教学要点：通过本章的学

16、习，掌握效度的含义，效度估计方法，了解影响信度与效度的关系，影响效度的因素以及提高信度的几种方法等内容。教学时数：10学时教学内容：一、效度概述 1 效度的一般定义及其内涵效度是指测验的准确性，即测验能够测出他们所欲测的特质的程度。 2 效度的统计与原理 3 效度的信度关系（1）高效度，高信度（2）高信度，低效度（3）低信度，低效度,二、效度的估计 1966年美国心理学会在教育心理测验值标准中将效度分为三大类： 1 内容效度（Content Validity）内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。 2 结构效度(Construct Validity) 结构效度

17、是指测验对于被称作构想的某一理论概念或特质测量的程度。 3 实证效度(Criterion related Validity) 实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性。三、提高测量效度的方法 1 各种测量效度的要求 2 提高效度的方法（1）控制系统误差，（2）精心编制量表，（3）妥善组织测验，（4）扩充样本容量，（5）适当增加测验的长度 3 效度的一般定义及其内涵效度是指测验的准确性，即测验能够测出他们所欲测的特质的程度。 4 效度的统计与原理 5 效度与信度的关系（1）高效度，高信度（2）高信度，低效度（3）低信度，低效度,四、效度的估计 1966年美国心

18、理学会在教育心理测验值标准中将效度分为三大类： 1 内容效度（Content Validity）内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。 2 结构效度(Construct Validity) 结构效度是指测验对于被称作构想的某一理论概念或特质测量的程度。 3 实证效度(Criterion related Validity) 实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性。,五、提高测量效度的方法 1 各种测量效度的要求 2 提高效度的方法（1）控制系统误差，（2）精心编制量表，（3）妥善组织测验，（4）扩充样本容量，（5）适当增加测验的长度考核要求

19、：1.效度的一般定义及其内涵 2.效度的统计与原理 3效度与度的信度关系 4.效度的估计内容效度，结构效度，实证效度 5.提高测量效度的方法,第五章测验的难度和区分度教学要点：通过本章的学习，掌握测验难度和区分度的含义，以及难度、区分度的计算，了解难度、区分度对测验质量的影响等内容。教学时数：10学时教学内容：一、测验难度的计算 1 计算难度的基本公式（1）以试题通过率计算难度：P=R/N，（2）用平均数计算试题的难度 2 用极端分组法计算难度二、难度的转换难度转换的方法三、测验题目难度水平的确定,四、区分度的定义 1 定义：区分度是指测验对于考生实际水平的区分度程度或鉴别能

20、力。 2 区分度与测验信度、难度的关系五、区分度计算 1 用极端分组法计算（1）客观题计算，（2）论文题计算 2 用内部一致性系数（Internal Consistency）计算区分度 (1)用点二列相关计算区分度 (2)用二列相关计算区分度 (3)用相关计算区分度 (4)用四分相关计算区分度 (5)用皮尔逊相关法计算区分度（6）D（鉴别指数）的经验标准,考核要求：1.测验难度的计算 2.计算难度的基本公式 3难度的转换 4.测验题目难度水平的确定 5.区分度的含义 6.区分度与测验信度、难度的关系 7.区分度计算用极端分组法计算，用内部一致性系数（Internal Consiste

21、ncy）计算区分度,第二编测量的一般步骤和方法第六章测验的编制与实施教学要点：通过本章的学习，掌握编制测验的基本程序，测验的实施过程及须注意的事项等内容。教学时数：10学时教学内容：,第一节编制心理与教育测验的基本程序一、确定测验的目的 1 明确测量对象 2 明确测量目标 3 明确测量用途二、制定编题计划三、编辑测验项目 1 收集测验资料 2 选择项目形式 3 编写测验项目四、测验与项目分析 1 预测 2 项目分析,五、合成测验 1 测验项目的选择 2 测验项目的编排 3 编制副本六、测验标准化 1 测验内容 2 实测过程 3 测验评分 4 测验分数解释七、

22、鉴定测验 1 信度 2 效度 3 测验量表与常模八、编写测验说明书,第二节测验的实施一、测验的实施过程 1 实测前的准备工作 2 指导语 3 测验情境 4 测验焦虑 5 与受测者建立良好的协调关系 6 评分技术二、测验分数的解释 1 如何看待测验分数的意义 2 如何向受测者报告测验分数,考核要求：1. 编制测验的基本程序确定测验的目的，制定编题计划，编辑测验项目，测验与项目分析，合成测验，测验标准化，鉴定测验，编写测验说明书 2测验的实施过程及须注意的事项等内容 3.测验分数的解释,第七章测验分数的解释与应用教学要点：通过本章的学习，掌握测验分数的类型，常模及常模类型，以及测

23、验分数的解释和常模的应用等内容。教学时数：4学时教学内容：一、分数与常模 1 分数的种类和含义识记：（1）原始分数，（2）导出分数 2 常模 3 年龄常模 4 年级常模 5 百分等级常模 6 标准分数常模,二、测验的等值 1 测验等值的实质 2 测验等值的条件（1）同质性，（2）等信度，（3）公平性，（4）可递推性，（5）对称性，（6）样本不变性 3 测验等值的基本算法识记：（1）百分位等值（2）线性等值 4 常用等值设计 5 测验等值误差估计考核要求：1.分数原始分数，导出分数,2常模年龄常模，年级常模，百分等级常模，标准分数常模 3.测验的等值的实质与条件 4.测验等值的基

24、本算法：百分位等值，线性等值,第八章测验的项目分析项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等；定量分析主要是指题目难度和区分度的测量。对项目进行筛选和修订，可以提高测验的信度和效度。第一节测验的难度一、难度（difficulty）的意义难度，指项目的难易程度。在最高作为测验中，称为“难度”，而在典型作为测验中，则指“通俗性”。两者都是指在总体中，能够正确或确切回答某项目的人数。,二、难度的计算（一）二分法记分项目的难度 1通过率P=R/N2极端分组法（上下27%）P=（PH+PL）/2 （二）非二分法记分项目的难度P=X / Xmax X为

25、所有被试在该项目上的平均得分， Xmax为该项目的满分。,三、测验难度水平的确定效标参照测验、掌握测验：不考虑难度；选拔测验：难度=录取率；对于选择题来说，难度一般应大于猜测概率；无论是速度测验，还是难度测验，一般都应防止被试得满分，因为满分的意义是不明确的。大体而言，难度为0.50时最理想，此时项目具有最大的鉴别力。但在实际操作中，让所有项目难度都到达0.50困难很大，而且也不必要，一般只需使项目的平均难度接近0.50，而各个项目的难度在0.50 0.20之间变化。,四、难度的等距变换根据正态分布表，将难度P作为正态曲线下的面积，转换成相应的Z分数，这就是等距量表。PY0 Z,美国教育服务

26、中心以作为难度指标： =13+4ZP = .0013 Z = +3 = 25 P = .16 Z = +1 = 17 P = .50 Z = 0 = 13 P = .84 Z = -1 = 9 P = .9987 Z = -3 = 1,五、难度对测验的影响（一）测验难度影响测验分数的分布形态难度大，正偏态难度低，负偏态,（二）测验难度影响测验分数的离散程度测验过难或过易，分数全距缩小，信度降低。 P=0.50时最佳,第二节测验的区分度一、区分度的意义区分度（discrimination）是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。项目的区分度是测验是否有效的“指示器”。

27、二、区分度的计算（一）项目鉴别指数法 1鉴别指数（index of discrimination，D）的计算 D = PH - PL 取值范围：-1 +1,2极端组的划分 27%规则一般情况下，取上下25%33%均可。样本少时，可以取50% 注意：由于计算机的方便使用，可以上下50%作为划分高低组的标准，或者多分几组，对区分度和难度作详细分析。因为只取上下两端，只利用了一部分资料，浪费了很多信息，有可能得出错误结论。,（二）相关法（项目-总分相关） 1点二列相关Xp-Xqrpb= pqSt2二列相关Xp - Xq pq Xp - Xt p rb= 或 rb= St y St y,3

28、相关ad-bc r= (a+b)(c+d)(a+c)(b+d)4四分相关 5. 项目和总分相关重叠的校正当测验项目超过20个项目时，校正法通常毫无意义。rtpSt Sp rpq = St2+ Sp2 2rtpStSp,（三）项目特征曲线（item characteristic curve, ICC）项目特征曲线描述了效标分数不同的被试在该项目上的通过率。曲线坡度越陡，鉴别力越好，预测的误差越小。,率概的目项答回确正,1.00,0.00,0.50,低中高能力,鉴别力较好,低中高能力,鉴别力为负,鉴别力较低,难度不同的3个项目的ICC,多项选择中每个选项的ICC,

29、三、区分度与难度的关系,难度和区分度都是针对一定团体而言的。一般来说，较难的项目对高水平被试区分度高，较易的项目对低水平被试的区分度高。,四、区分度的相对性（一）不同的计算方法，所得区分值不同区分度有几种计算方法？（二）样本容量大小影响相关法区分度值的大小样本越大，区分度越（三）分组标准影响鉴别指数分组越极端，区分度越（四）被试样本的同质性程度影响区分度值的大小样本越同质，区分度越,第三节项目分析的特殊问题一、多重选择题的项目分析（诱答分析）对于多重选择题，除了分析难度和区分度外，还要对每个选项进行分析。下列哪一个最有可能是偏执型精神分裂症患者的次级症状： A 幻听 B 瘫痪

30、C 记忆丧失 D 厌食,如果所有被试都选择某一正确的选项，说明该选项如果没有一个被试选择某个错误选项，说明该选项如果所有被试都选择某个错误选项，说明该选项如果高分组被试的选择集中在两个选项上，说明该选项如果高分组和低分组对正确选项的选择没有区别，说明该选项如果所有被试都未回答某个题目，说明该题如果选择各个选项的人数几乎相等，说明该题,二、速度测验的项目分析对前面部分的测验项目，难度和区分度都对后面部分的测验项目，难度和区分度都三、标准参照测验的项目分析在标准参照测验中，无须考虑项目的难度和区分度，只要项目的内容很重要就行。也可以通过比较教学或训练的前测和后测结果来进行项目分析，用来说明教学

31、或训练的效果以及项目编制是否适当。,四、项目-团体的相互作用具有不同性质（性别、种族、职业等）的团体，在测验得分上也存在差异，即同样的项目可能有不同的难度。如果测验要求对所有个体都相对“公平”，那么，就应该排除那些有利于或不利于不同性质的亚团体的项目；如果测验的目的就是为了考察不同亚团体的差异，那么，就应选择使团体差异尽可能大的题目。,五、有效性与可靠性的矛盾同质性信度要求项目之间有高相关，各项目的难度均等；对于预测效度来说，因为效标的变异范围较大，如果项目越同质，那么效标关联效度则低；因此，效标关联效度要求各项目之间要有一定的差异，即项目之间相关低，这样才能保证测验得分与效标之间有高相关，即

32、高的效标关联效度。因此，对于多数心理测验来说，项目之间中等程度的相关，可使二者调和，获得较为满意的（同质性）信度和（效标关联）效度。,第九章学绩测验第一节学绩测验概述一、学绩测验的性质最高作为测验可以分为：学绩测验、能力测验、能力倾向测验。学绩，指经过一定的教学或训练后所学到的东西，是在一个比较明确的、相对限定的范围内的学习结果。能力倾向指学习的能力，是在给予适当的机会时获得某种知识或技能的能力。能力介于学绩和能力倾向之间，指的是当前的知识或技能的水平，既有正式学习的，也有非正式学习的结果，既包括学术技能，又包括非学术技能。学绩测验用来描述现状，指明一个人已经学会了什么和能做

33、什么。,二、学绩测验的基本假设 1 学绩测验所测量的知识和技术的范围能明确界定。 2 测验所测量的是研究者认为重要的东西，而不是与测量目的无关的东西。 3 被试有同样的机会学习测验所包含的材料。三、学绩测验的分类（一）按测验的编制方法分教师自编课堂测验，标准化学绩测验（二）按测验内容分单科测验，多科测验单元测验，总测验,（三）按测验的用途分考察性测验，诊断性测验，准备性测验，选拔与安置测验，职业水平测验，用于研究的测验（四）按测验评分的参照系分常模参照性测验，目标参照性测验（五）按测验的题型分客观测验，论文式测验,四、学绩测验的应用 1 反馈功能 2 诊断功能 3 辅助教学管理

34、4 研究工具 5 人才选拔与安置,第二节标准化学绩测验一、标准化学绩测验的基本要求1 命题组卷标准化测验目标，试题的措辞、难度、区分度，题型比例、题量 2 施测标准化环境、时间、指导语、主试 3 评分标准化标准答案、评分细则、评分者人数 4 测验分数解释标准化是常模参照还是目标参照,二、标准化学绩测验的编制由学科专家与测验编制专家共同完成，其步骤与一般心理测验的编制程序相同。（一）确定测验目的，选定测验编制的方法考察还是诊断，常模参照还是目标参照（二）分析测量目标，拟订测验编制计划双向细目表，题型，题量（三）编题征题与选题组卷编题征题试测组卷（四）调查测验质量参数，编制测验常模难度

35、、区分度、信度、效度、常模（五）编写测验指导书，正式出版发行,三、国外常用标准化学绩测验简介（一）斯坦福成就测验综合性学绩测验适用范围：19年级内容：词汇、阅读理解、拼字、听理解、词汇学习技能、语言、数学概念、数学计算、数学应用、社会科学常识、自然科学常识斯坦福早期学校成就测验（适用于幼儿园和小学一年级）斯坦福学业技能测验（适用于812年级）导出分数：百分等级、标准九、年级当量、量表分数、正态曲线当量分测验信度均在0.80以上。,（二）关键数学算术诊断测验适用范围：学前儿童小学六年级测验内容：内容块：数学、分数、几何、符号运算块：加法、减法、乘法、除法、心算、数字推理应用块：文字

36、题、补充、金钱、测量、时间诊断：总体水平诊断分块水平诊断分测验水平诊断项目水平诊断,四、标准化学绩测验的题库建设一个高质量的题库应具有的性质：有一种科学的测量理论；贮备一定数量的试题，所有试题品质优良，技术参数完备；题库内部结构层次清楚、分类严谨，试题检索方便；题库管理方便，可控性强，易于维护更新；保密性强。五、我国高考的标准化试验,第三节教师自编课堂测验一、教师自编课堂测验的特点测验形式灵活多变，与测验目的完全一致测验内容与教材内容完全一致测验难度切合学生的实际水平测验编制简易快速二、教师自编课堂测验的步骤与方法审查测验目的制定测验编制计划命题与组卷,三、教师自编课堂测验应注意的问题教

37、师要深入研究教材，深入研究学生要维护准确稳定的合格标准要客观评价自己的命题技术，合理使用各种题型要注意总结命题经验，提高命题技术要尽量控制评分误差，防止简单粗糙要做一些定量分析研究,第十章能力测验（上）第一节智力测验的理论基础（一）什么是智力？Spearman（1904，1923）：智力是一种普遍的能力，它主要涉及联系的引出（eduction）和相关的引出。Binet & Simon（1905）：智力是正确进行理解、判断和推理的能力。Terman（1916）：智力是形成概念，并且抓住其重要性的能力。Thorndike（1921）：智力是从真理或事实角度产生良好反应的能力。,Thurst

38、one（1921）：智力是抑制本能反应，灵活地想象不同反应，并且把修改后的本能反应转换为外显行为的能力。Wechsler（1939）：智力是个体有目的地行动，理性地思考以及有效地应付环境的总体能力。Piaget（1972）：智力是总括性的术语，指用来适应物理和社会环境的认知结构的组织和平衡的高级形式。Sternberg（1985）：智力是指自动信息加工和产生适合于新情况的行为的心理能量，它包括元成分、操作成分和知识获得成分。Eysenck（1986）：智力是将信息无错地传递过皮层的能力。Gardner（1986）：智力是解决问题，制造在某些文化范围内有价值的产品的能力或技术。,共同点： w 智

39、力是适应环境的能力 w 智力是通过经验进行学习的能力智力是人们在获得知识和运用知识解决实际问题时所必须具备的心理条件或特征。 Boring(1923):智力就是智力测验所测量的东西。 Sternberg等（1981）的研究专家认为：语词能力、问题解决能力和实际智能最重要外行认为：实际问题解决能力、语词能力和社会能力最重要,（二）智力的理论 Galton和感觉敏锐度 1二因素论Spearman的一般因素（G）和特殊因素（S）2多因素论 Thurstone的群因素（语文理解、言语流畅性、推理、空间想象、数字、记忆、知觉速度）,内容视觉听觉符号语义行为,3. Guilford的智力结构模型（内容

40、操作结果=150）,产品单元类别关系体系转换蕴涵,评价聚合思维发散思维记忆认知操作,4. 智力层次理论 VernonG因素言语和教育操作和机械数学语文空间知觉机械能力 ,5.二维结构模型希莱辛格和古特曼（1966）第一维：言语能力、数学能力、图形和空间能力第二维：规则应用能力、规则归类的能力、学术成就6 Cattell的流体智力与晶体智力7. Gardner的多元智力理论言语、逻辑-数学、空间、音乐、身体运动、社交、自知,8 智力的生物学理论（反应时）作出反应,9 智力的认知心理学理论 Sternberg 智力成分：元成分、操作成分、知识获得成分智力情境：适应环

41、境、塑造环境、选择新环境智力经验：处理新任务、自动化加工10 其他：情绪智力（EQ）、成功智力、实践性智力（practical intelligence）,第二节个体智力测验一、比内量表（一）比内-西蒙量表 11905年量表世界上第一个智力量表；内容：30道题（记忆、言语、理解、手工操作）。题目排列方式：从易到难。指标：通过项目数。如白痴最多只能通过6项，低能的成人可通过715项。,眼睛是否随动的物体移动。用触觉刺激唤起抓握反应。用视觉刺激唤起抓握反应。辨认食物。搜寻食物。执行简单的命令和模仿简单的手势。认识物体。认识图片。列举图片中的人物和物体。比较两条线的长短。

42、复述两个数字。比较两个重量。暗示。解说物体与人物的名称。复述句子。,说出二物的不同点。记忆图片中的物体。靠记忆重画图片。复述数字。说出二物的相同点。比较线的长短。比较重量。重量记忆。说出同韵字。填词。用三个词造句。对答问句。交换长短针的位置。剪纸。抽象名词的定义。,21908年量表内容：增至59道题。方式：把测验项目按年龄分组。每一岁一组。每个年龄组项目数量不等，最多8项，最少3项。年龄范围：313岁。指标：智力年龄。,例：一个4岁儿童心理年龄的计算,31911年量表题目：删旧补新，但总数仍为59题。增设一个成年组。除4岁组仅有4个项目外，其他每个年龄组一律为5

43、项，便于计算。,对比内-西蒙量表的评价成就：（1）比西量表是第一个采用复杂任务来测量高级心理过程的测验。以前的测验主要测量感知觉、运动等低级心理过程。（2）比西量表首次采用年龄作为智力的标准，这样可以对测验作出通俗易懂的解释。（3）比西量表首次从整体上测量智力，也就是测量智力的普通因素，而以往心理学家把感觉辨别力、记忆力、注意力等割裂开来测量。不足：（1）施测和记分没有标准化。（2）常模团体的代表性不够，因而有些项目的安排位置不当。（3）测验项目过少。,（二）斯坦福-比内量表 1斯坦福-比内量表的发展（1）1916年量表在修改基础上增设39个新项目，达到90个项目。最早对施测和记

44、分提供了详细的指导语。引入了智力商数的概念（比率智商）。适用年龄：313岁。样本：1000名儿童和400名成人。（2）1937年量表由 L 和 M 两个等值型量表构成年龄范围扩大：1.518岁样本：3184名1.518岁儿童，但仅限城市白人,（3）1960年量表合并了L和M两型中最好的项目，改为单一量表。年龄：2成人离差智商4498名1.518岁儿童（1937年量表的施测对象）。（4）1972年量表测验内容未变；取样范围扩大（地区、社会阶层、经济状况、民族）。共2100名被试，其中25.5岁每半岁选100名，618岁每一岁选100名。,2斯比量表的信度和效度（1）信度复本信度：L和M相关

45、在0.830.95之间。再测信度：高于0.90。（2）效度内容效度：测验内容属于公认的智力范畴。效标关联效度：与学业成绩、受教育年限的相关在0.40.75之间。结构效度：假设智力发展随年龄增长，先快后慢（证据：随年龄增长，再测稳定性逐步提高）；存在G因素（证据：各项目与测验总分的平均相关为0.66）,（三）中国比内测验陆志伟和吴天敏1924年、1936年、1982年三次修订内容：51题指标：离差智商年龄范围：2岁18岁生活常识知觉速度及观察力空间知觉力和想象力记忆力语言能力判断推理能力,二、韦克斯勒（Wechsler）智力测验生平： 1896年出生于罗马尼亚，6岁迁居美国。一战期间

46、从事心理测验工作，用陆军甲、乙种测验、斯比量表来甄选新兵，积累了丰富的经验。 1919年去伦敦大学，师从Spearman和Pearson，接受G因素理论。19201922年在巴黎与西蒙有过接触。 1925年，在哥伦比亚大学获博士学位，论文情绪反应的测量。 19321967年，任纽约贝尔韦精神病院的主任心理学家。,二、韦克斯勒（Wechsler）智力测验编制背景：寻找一种测量成人智力的有效方式当时的智力测验存在下列问题：测验项目引不起成人的兴趣；过多的项目涉及语词的操作；指导语过分强调速度，牺牲了准确性；计算心理年龄，不适合成人测验要求。测验者的实际测验分数 IQ=这一年龄测验者的平均测验分

47、数,韦氏智力测验家族： 1939年，韦克斯勒-贝利弗测验 1946年，韦克斯勒-贝利弗测验 1949年，韦克斯勒儿童智力量表（WISC） 1955年，韦克斯勒成人智力量表（WAIS） 1967年，韦克斯勒学前和小学儿童智力量表（WPPSI） 1974年，韦克斯勒儿童智力量表修订版（WISC-R） 1981年，韦克斯勒成人智力量表修订版（WAIS-R） 1989年，韦克斯勒学前和小学儿童智力量表（WPPSI-R） 1991年，韦克斯勒儿童智力量表第三版（WISC- ）,韦氏测验的特点：（1）1012个分测验：使用多个分测验，不仅可以得到总IQ，还可以分析个体在智力上的强项和弱点；（2）言语量

48、表和操作量表各由56个分测验组成，可以单独评价言语或操作的各项智力成分，体现了左右脑功能的整合，而且可以显示个体的职业能力倾向。（3）共同的IQ计分系统：对所有测验和所有年龄组，IQ平均为100，标准差为15。而且每个分测验的平均分为10，标准差接近3分。这样就可以比较被试的各项分测验分数，了解其相对强弱。（4）不同年龄组有相同的分测验：例如，WAIS-R，WISC-R，WPPSI-R有相同的8个核心分测验。这不仅方便施测者，而且有助于测验之间的相互比较。,韦克斯勒测验的分测验（1）常识(information) 33个一般知识性问题，如“谁发现了美洲？”“我国的首都在哪里？” “儿童节是哪一天？” 得分越高，说明兴趣越广泛，好奇心强，长时记忆好。把该测验放在首位，容易与被试建立关系，不易引起被试的紧张和厌烦。,

展开阅读全文