教育测量与评价第二讲.ppt-道客多多

资源描述

1、1,第2讲教育测量与评价,一、教育测量（一）测量的定义由于事物属性不同，以及所制定的规则不同，致使用数的特性来描述事物属性所达到的程度也不同。这就产生了不同的测量水平。史蒂文斯将测量的水平分成四种，每一种测量水平都产生与其相应的测量量表。,2,史蒂文斯(S.S.Stevens)于1951年曾给测量下了这样的定义：从广义而言，测量是根据法则给事物分派数字。这一定义概括了物理（实物）测量、社会测量和心理测量的共性。测量这一定义包含了三个要素： 1、事物属性测量的对象或目标 2、数字描述事物属性的符号 3、法则给事物的属性分派数字的依据,3,1、事物的属性是测量的对象,我们对事物进行测量，

2、确切地说，测量的对象是事物的某种属性。例如，物体的长度、重量、体积、温度以及一个事件发生的时间长短等，都是事物的物理属性。它们的存在形式比较具体，大多可以被人的感觉器官所直接感觉到，如看得见、听得到、摸得着、尝得出、嗅得到。但是，我们还往往需要测量人的心理属性，如学生的智力、个性、品德、知识、技能、习惯、能力、态度、兴趣、爱好等。它们的存在形式比较抽象，大多不能被人的感官直接感觉到。,4,2、数字是描述事物属性的符号数字在未被用来表示事物的属性之前，它仅仅是一个符号，它本身没有量的意义。当数字被合理地用来描述事物的属性时，我们才赋予它以量的意义，即从数字变成了数。数的特性为逻辑运算提供了许

3、多可能性。数的系统是非常合乎逻辑的。数的系统(指自然数)有以下几个特性：,5,(1)同一性和区分性所谓同一性就是指每一个数的独特性。例如，用同一个数字表示的事物必定是相同的。既然每一个数都是独特的，那么就没有任何一个别的数与它完全相同。这就是数与数之间的区分性。是1就不是2，是2就不是1，用1和2分别表示的事物是不相同的两个事物。数的同一性和区分性是一个问题的两个方面。,6,(2)等级性或位次性这是指若干个数之间按其大小所形成的次序关系。如321。若用数的等级性描述事物，那么，事物之间必有位次可循。 (3)等距性若第一个数与第二个数之差，等于第二个数与第三个数之差（例如，1、2、3三个数

4、， 3-2=1，2-1=1），那么，这三个数具有等距性。,7,(4)等比性若一个数可以表示为是另一个数的倍数，如桌子的长是宽的2倍，这类数具有等比性。上述数的特性从低到高排列。一个数若具有较高的特性，则必具有较低的特性。在实际测量中，由于测量的需要以及所欲测量的事物属性的不同，有时并不需要让数的各种特性同时具备。当然，能多具备一些更好，因为测量中运用数的效果，确实也与这些数所包括的特性多少相关联。,8,假如我们能用数合理地描述事物的属性，并且在允许的条件下，对数进行运算，我们就可以通过运算的结果，对所要测量的属性进行推测。如果事物的属性和数的系统之间，在性质上或形式上存在着高度的类似性，

5、我们就可以用数来描述事物的真实情况。,9,3、规则给事物属性分派数字的依据测量中最关键且最困难的事情就是制定规则。所谓规则就是指导我们如何测量的一种准则或方法，即在测量时给事物的属性分派数字的依据。例如，有一种规则可描述为：解某一道物理习题完全做对分派数字6，做对其中一个过程，则分派数字2，做对其中二个过程，则分派数字4。,10,在数学上，函数就是把某一集合中的事物分派到另一集合事物之上的规则。可以说，任何测量都呈现函数关系，而任何函数关系都是建立一种顺序配对的集合。一般来说，具体且稳定的事物属性，如性别、身高、体重等，其测量的规则就易于建立和使用;抽象且易变的事物属性，如人的智力、知识

6、、技能、人格、态度等心理属性，其测量规则就难以制定和使用。,11,（二）四种测量量表,量表一般称为测量工具。 1、名称量表（类别量表）最低水平的一种量表它只是用数字表明事物的类别或性质不同而已，没有任何数量大小的意义，不能作数量化分析，也不能将之进行加减乘除运算。即属于同一类的事物用同一个数字表示，属于另一类的事物用另一个数字表示。用来描述各类事物的数字仅仅是事物的名称：它只具有相同与不同的特性，没有数量大小的含义。用这类数字表示的量表叫名称量表。,12,例如，学生按性别进行分类，凡男生用1表示，女生用2表示。如果既按性别分类，又按对物理学科喜欢和不喜欢两个标准进行分类，喜欢用1表示，不喜

7、欢用0表示。于是男生喜欢者可表示为11；男生不喜欢者可表示为10；女生喜欢者可表示为21；女生不喜欢者可表示为20等。,13,在这里，用来描述事物的数字仅仅是代表事物的符号。它只能区分事物的类别，没有数量的大小、多少、位次和倍数关系。也就是说，它只具有数的同一性和区分性，而不具有等级性、等距性和等比性。因此，不能将之进行加减乘除四则运算。对于名称测量结果的数据所进行的统计处理，不是用来描述事物的数字本身，而是归人每一类中个体的数目（频数）。对这类点计数据所允许和适用的统计方法，有比率（相对频数，即某一类的频数与总频数之比）、百分比、相关系数、检验。,14,2、等级量表（顺序量表或位次量表）

8、用来描述各个类别的数字，不仅具有区分性，而且还具有等级性（或顺序性），因此，量表上的数字之间能表示事物大小的位次关系，但不具有等距性和可加性，也不能进行加减乘除运算。用这样的数字表示的量表叫等级量表或位次量表。,15,例如,将学生的动能定理的应用能力分成甲、乙、丙三个等级。甲等用3表示,乙等用2表示，丙等用1表示。于是对于学生动能定理的应用能力的评定构成了321的位次关系。但是这些数字只能确定事物相等或不等的关系。在不等的情况下,只能确定大于或小于的关系,如32、21，则31的关系，却不能确定甲等的3比丙等的1大多少个相等的单位。因为3与2和2与1之间的差距是不相等的。因此对于量表上的这些数

9、字不能进行加减乘除的运算。,16,等级量表所能适用的统计方法有：中位数、百分位数、等级相关系数、肯德尔和谐系数(多列等级相关)，以及符号检验、秩次检验、秩次方差分析。,17,3、等距量表有相等单位和人定参照点的量表叫等距量表。这种量表上的数值不仅具有区分性、等级性，还具有等距性，这类量表上的数值只能作加减运算，不能作乘除运算。但是量表上的参照点（读数的起点）不是绝对零点，而是人定的参照点。,18,例如，用摄氏温度计测量的温度，9与6之差等于6与3之差，即3。但是，这并不意味着9是3的3倍， 6是3 的两倍。这是因为，摄氏温度表是以冰点作为人定参照点。摄氏零度并不意味着没有温度，而摄氏温度表上的

10、绝对零点在零下273，即-273。时间量表上的参照点也是人定的。钟表上的零点，并不意味着没有时间。这类量表上的数值只能作加减运算，不能作乘除运算。它们所能适用的究计方法有算术平均数、标准差、积差相关系数以及Z、t、F检验等。,19,4、比率量表最高水平的量表有相等单位和绝对零点的量表叫比率量表。这种量表上的数值不仅具有区分性、等级性、等距性，还具有等比性。量表数值可以进行加减乘除的四则运算。,20,因为量表上有绝对零点。所谓绝对零点，就是量表上标着0的地方，表示所要测量的属性是无。这类量表上的数值既可以确定一个事物比另一事物大多少，又可以确定大多少倍。因此，量表值可以进行加减乘除四则运算。

11、在物理测量中，长度、重量、开氏温度量表(绝对温度量表)都属于比率量表。例如，甲生身高143 cm，乙生身高130 cm，可以说甲生比乙生高13 cm，也可以说甲生身高是乙生的1.1倍。它所适用的统计方法，除了等距量表所适用的统计方法之外，还可以计算几何平均数和差异系数。比率的测量，是测量的最高水平。,21,以上四种量表是依从低到高的次序排列的。量表的次序越高，对于描述事物的数所能允许的算术运算也就越多。后面每一种量表的性质，除包括前面各种量表的性质之外，还具有其特殊的性质。人们往往将运用名称、等级量表进行的测量认为是定性测量；而将运用等距、比率量表进行的测量认为是定量测量。,22,（三）什

12、么是教育测量,教育测量就是依据一定的法则，对教育活动中的某一现象给予数量化的描述。从广义来说，教育测量就是对于教育领域内的事物或现象，根据一定客观标准，作缜密的考核，并依一定的规则将考核的结果予以数量的描述。从狭义来说，教育测量是指对学生某些学科经过学习和训练之后，所获得的知识、技能的测量，又称成就测量、学业成绩测量或学科测量。,23,从教育测量的广义概念来说，它所测量的属性，虽然也包括了物理属性，如学生的身高、体重等，但它测量的主要对象是心理属性，如学生的知识、技能等。心理属性是否也可以客观地进行测量呢? 尽管教育测验（例如物理学科测量）在教学过程中已成为教师考核学生学习成绩不可缺少的

13、工具，但是由于人的心理属性是抽象的，不易捉摸，实现客观的测量比较困难，因此有人对心理属性测量的可能性就产生了怀疑。其实，心理属性与物理属性一样，都是可以测量的。,24,1904年，美国的桑代克发表了心理与社会测量导论一书，系统地介绍了统计方法和编制测验的基本原理，为心理属性测量的可能性提供了理论基础。 1、任何现象只要是存在的总有数量(桑代克) 2、凡有数量的现象都可以测量（麦柯尔）以上两个论断为教育测量奠定了理论基础，对教育测量学的建设与发展做出了巨大贡献。,25,(1)任何现象只要是存在的总有数量这个原则是由美国心理学家桑代克(E.L. Thorndike) 提出的。他说：“凡物的存

14、在必有其数量。”人的心理现象虽然看不见，摸不着，但它是客观存在的现实，是脑这块高级物质的属性，它也有数量的差异。例如，人的智力有高低之分，学生的学习成绩有优劣之别。这高低之间、优劣之间，存在着程度的不同。所谓程度不同，就是数量的不同。,26,(2)凡有数量的现象，都可以测量这个原则是由美国测验学者麦柯尔(W.A. Mc Cal)于1923年提出的。人的心理属性也是可以测量的，虽然我们不能用尺来量它，用秤来称它，但是它必定会反映在某种活动之中，或表现在某种行为之中，于是我们就可以通过对人的行为的测量来推测他的某种心理属性。当然实现这种测量是很困难的。,27,到目前为止，对于某些心理属性，如智

15、力、创造力、知识、技能、习惯、品德、理想、兴趣、态度等，我们尚不能一一加以测量或测量得还不十分准确可靠。这是因为测验学的发展历史还很短，许多测量工具还没有发明，已发明的测量工具还不十分完善。但是，我们不能因为某种心理现象的测量工具还没有发明，就说这种现象是无法测量的。,28,教育测量的特点,人的心理属性，往往是难以明确规定的，有些甚至缺乏公认的定义。另外，它们易受条件的影响而发生变化，制约它们变化的因素也甚多。因此，测量的实现较为困难。测量结果的间接性和推断性测量对象的复杂性和模糊性测量目的的针对性度量单位的相对性,29,二、什么是教育评价,（一）教育评价的界定 1、教育评价就是教育测

16、验； 2、教育评价是一种专业判断； 3、教育评价是把实际表现与理想目标相比较的活动； 4、教育评价是系统收集资料，为决策提供依据的活动。,30,教育评价：教育评价是根据一定的教育目标，运用可行的科学手段，通过系统地收集信息资料和分析整理，对教育活动、教育过程和教育结果进行价值判断，从而为教育决策提供依据的过程。,31,（二）教育评价的特征,1、教育评价=事实判断+价值判断 2、教育评价是对教育过程及其结果的评价 3、教育评价必须以教育目标为基准 4、教育评价是评价者与被评价者的双边合作活动,32,（三）在区别上理解教育评价,1、教育评价与教育测量联系：教育测量是教育评价的基础，教育测量是对

17、教育进行量的测定，所或得的结果是教育评价所需信息的主要的、可靠的来源，是对教育的状态和价值进行客观判断的前提；教育测量的结果只有通过教育评价这个环节才能获得实际意义，否则便成了一堆抽象而枯燥的数字。,33,区别：两者着眼点不同：教育测量是为了取得数据；教育评价是要分析解释，对教育价值作出判断。两者特点不同：教育测量是一种纯客观的过程，具有客观性特点；教育评价具有客观性与主体性相结合特点。两者复杂程度不同：教育测量是对教育数量化的描述，关心量的获得，活动较为单一；教育评价着眼于事物质的判定，含定性与定量分析，活动是多重的。,34,2、教育评价与教学评价,联系：教学评价是以教学为对象的教

18、育评价，只是教育评价的一个方面，用逻辑学术语讲，教育评价是一个上位概念，而教学评价仅是一个下位概念。区别：教育评价的范围比教学评价要广得多，它不仅关注教学评价，还有学校管理评价、教师评价、学生评价、课程评价、总务评价等等。,35,3、教育评价与教育督导,联系：两者皆以党和国家的教育方针、政策、法规为依据；目的都是为了加强对教育工作的科学管理，全面提高教育质量；督导工作过程主要有监督、检查、评价、指导、反馈若干环节，评价是诸环节的核心，无论是监督和检查，还是指导和反馈，都离不开评价这个手段。,36,区别：评价只是督导工作内容的一部分，只构成督导工作的前提和基础，而不是其全部；督导工

19、作中所使用的评价即督导评价是一种自上而下的他人评价，只是教育评价的一种形式，而不是教育评价的全部。,37,（四）教育评价的类别,1、从评价主体上分他人评价自我评价 2、从评价标准上分相对评价绝对评价内差异评价,38,3、从评价功能上分诊断性评价形成性评价总结性评价 4、从评价方法上分定性评价定量评价,39,三、教育测评的发展阶段,（一）教育测评的发展阶段 1、教育测评的萌芽阶段（1864年以前）（1）中国古代教育测评 A、中国是考试制度的发源地根据学记记载，早在我国的西周时期，就实行了教育考评。所以，教育测评发生的最早源头在中国。,40,B、中国科举制度的世界地位科举

20、考试始于隋，兴盛完备于唐，废于清末，是我国实行时间最长的一种选士制度，对我国乃至于对世界的考试制度有重要的影响。科举制是通过分科考试来选取人才，科举制自产生后，就不断探索考试的方法，经过唐代200多年的发展，终于形成了贴经、口试、墨义、策问和诗赋五种方法测试考生。,41,a、贴经,把所试的经书任揭一页，将其左右两边挡住，中间只开一行，再用纸帖盖住三字，令应试者填出来。贴经是各科考试中普遍应用的方法。起初简单，只要把经书及注释熟读熟记就可以应付。后来时间久了，许多经文及注释都考过了，考生过多，需要淘汰，所以帖经的条目也愈来愈难。有的贴经条目甚至是让帖年头月尾，孤章绝句，完全是有意刁难考生。这种

21、类似于现代填空的贴经，主要考察考生的记诵能力，对考生的其他能力是无法检查的。,42,b、口试,让考生当场口头回答问题。开始是由考官负责，问答时并不作记录，后来出现了舞弊现象。建中二年（781年），中书舍知礼部贡举赵赞曾奏请，以所问录于纸上，各令直书其文。元和二年（807年），礼部贡院又清皇帝废除口试。元和七年，权知礼部侍郎韦贯之奏请恢复口试。口试的方法比较灵活，但随意性较大，确实有复查无凭的缺点，容易给一些考官和考生提供联合舞弊的机会。,43,c、墨义,一种简单的笔试问答。不需要考生发挥自己的思想，只需熟读熟记经文和注释就能答出。这种方法主要考察考生的记忆能力，也较简单，所以一问便是几十条，甚

22、至几百条。如原问：“子谓子产有君子之道四焉。所谓四者何也？”对曰：“其行己也恭，其事上也敬，其养民也惠，其使命也义。谨对。”,44,d、策问,要求考生针对当时社会政治、经济、文化等方面出现的问题，发表自己的看法，类似于政治性的论文。策问的方法是从西汉时期发展而来的，到了唐代更为人们做重视。,45,策问让考生自由的发表自己的意见，相比口试、贴经和墨义来说，能够考察出一个人治国安邦的才能，能够促使考生开动脑筋去思考一些现实问题，有利于人们思维水平的提高。正因为如此，唐代各科考试的最后取舍，大多取决于策问。但长期采用这种方法，造成了一般考生束书不观，只拿缀辑的旧策习读，以应付考试。就连李白这样的名

23、流，也未能脱俗。,46,e、诗赋,要求考生当场写作诗赋一篇，主要考察考生的文学修养和文学创作能力。诗赋考试驶于唐高宗永隆二年(681年)，吏部考功员外郎刘思立以进士科考试只考时务策，知识太狭窄为由，要求加试杂文，于是下令加试杂文两首。但此时考试仍以策问为主。至神龙元年(705年)，才于策问之外增添了诗赋考试。后来唐朝的统治者也喜好诗赋，诗赋在考试中起的作用便日渐增大了。,47,诗赋考试在一定程度上推动了唐诗的繁荣发展，唐诗的发展盛行也促使诗赋考试越来越为人们所重视.诗赋最终成为人们获取功名利禄的便捷途径，以至于发展成为专门注重词藻、注重形式而不重思想内容的创作风格，造成了相互抄袭模仿的不良学风

24、。,48,（2）西方教育测量的发展,A、教育测量的诞生 18世纪以前的西方各国，由于学校尚未普及,学校考试主要是口试。 1720年，英国剑桥大学首先以笔试替代口试,开西方学校考试笔试之先河。 1845年，美国初等学校普及，学生人数激增,对毕业生一一口试已不可能，于是，美贺拉斯曼于1847年引进笔试，取代口试。,49,B、教育测量的蓬勃兴起,1864年，英国格林威治医院附属学校的教师费舍，收集了许多学生成绩样本，汇集了一本量表集，作为度量学生各科成绩的标准，这可以说是客观标准化测量的萌芽。引起人们对测验问题极大关注的是美莱斯博士的拼字测验。 20世纪初，比纳智力量表推出，比纳被称为智力测量鼻祖

25、。 1904年，美国心理学家桑代克出版心理与社会测量学导论，桑代克被称为教育测量鼻祖。,50,1905年，法国心理学家比纳和西蒙编制了第一个诊断异常儿童智力的测验,即著名的“比纳-西蒙量表”(Binet-Simon Scale)。该量表包括30个项目，从易到难排列，以通过题数的多少作为鉴别智力高低的标准。1908年和1911年作者对量表先后修订了两次，测验项目增加到59个，并按年龄分组，从3岁到15岁。该量表首次采用心理年龄(mental age，MA)即智龄来计算成绩，儿童通过哪个年龄组的项目，便表明他的智力与几岁儿童的平均智力水平相当。,51,比纳认为，智力是一种判断的能力，创造的能力，适

26、应环境的能力。因而他从复杂任务入手，着重测量判断、理解、推理等高级心理过程，即智力中的普通因素。美国斯坦福大学教授推孟(L.M.Terman)在1916年修订了比纳西蒙量表，即斯坦福比纳智力量表(Stanford-Binet Scale)。该测验有90个项目，其最大特点是引入智力商数(intelligence quotient,IQ，简称智商)的概念。所谓智商，就是心理年龄(MA)与实足年龄(chronological age, CA)之比，也称比率智商，作为比较人的聪明程度的相对指标。,52,1937年、1960年推孟对斯坦福比纳量表曾做过两次修订，1972年在测验内容不变的情况下，对19

27、60年修订本重新做了标准化，常模是从更具代表性的新样本中得到的。1960年修订后的斯坦福比纳量表共有100多个项目，这些项目被分为20个年龄组。25岁儿童每半岁为一组，每组有6个正式项目，一个备用项目；614岁每岁为一组，每组也有6个正式项目和一个备用项目。此外还有一个普通成人组和三个不同水平的优秀成人组的项目。仅以3岁、6岁和10岁组为例，测验包括以下内容。,53,3岁,1穿珠：要求将48颗珠子穿在一起。 2看图说出物体名称：有18张图片（图片中有马、树、衣物、球、飞机、轮船等），要求说出10张。 3用积木搭桥。 4回忆动物图片。 5临摹圆形。 6画直线。 7顺背3位数。注：只要完成6题便

28、可以，有一题为备选题。,54,6岁,1.词汇：在45个词中正确解释6个。 2.区分：说出两物的不同点。 3.图画补缺：指出画中物体缺少的部分。 4.数概念：从一堆积木中取出需要的块数。 5.类比：类似于“夏天热，冬天”这样的题目。 6.迷津：用铅笔画出最短通路。备用：看图讲故事。,55,10岁,1.词汇：在45个词汇中正确解释11个。 2.在一个三维的图中数出立方体的数目。 3.解释抽象词。 4.说明理由：说出一种规则和偏好的理由。 5.一分钟内说出28个词。 6.复述6位数。备用：指出一段话中的荒谬之处。,56,C、教育测量的深入发展,教育测量量表的编制突破了过去单一答案的求同思维题，发

29、展到有了求异思维题和论文题; 教育测量范围由过去偏重于学生学习成绩的测量，发展到涉及课程设计、教材、教育改革方案等的测量；教育测量由过去单一的常模参照性测验模式，发展到常模参照性测验与目标参照性测验相结合的模式；教育测量本身的理论研究与技术开发更加深入与完善。,57,（二）教育评价的发展,1、现代教育评价的产生教育评价产生于本世纪30年代对美国测量运动的反思与批判。教育评价产生的标志是“八年研究”。泰勒提出了教育评价的概念，且提出了以教育目标为核心的教育评价理论，泰勒被称为“教育评价鼻祖”。,58,2、现代教育评价的发展阶段,初步发展时期（19301958年）这一阶段教育评价仍然受泰勒模式的影响，注重教育目标的研究；迅速发展时期（19581972年）这一阶段泰勒模式受到挑战，出现了不少新的教育评价理论与模式；专业化发展阶段（1973年以后）这时期教育评价发展具有一个显著特点：就是走向专业化。,59,End,

展开阅读全文