收藏 分享(赏)

教育测量与评价第二讲.ppt

上传人:wspkg9802 文档编号:7820354 上传时间:2019-05-26 格式:PPT 页数:59 大小:248KB
下载 相关 举报
教育测量与评价第二讲.ppt_第1页
第1页 / 共59页
教育测量与评价第二讲.ppt_第2页
第2页 / 共59页
教育测量与评价第二讲.ppt_第3页
第3页 / 共59页
教育测量与评价第二讲.ppt_第4页
第4页 / 共59页
教育测量与评价第二讲.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、1,第2讲 教育测量与评价,一、教育测量 (一)测量的定义 由于事物属性不同,以及所制定的规则不同,致使用数的特性来描述事物属性所达到的程度也不同。这就产生了不同的测量水平。史蒂文斯将测量的水平分成四种,每一种测量水平都产生与其相应的测量量表。,2,史蒂文斯(S.S.Stevens)于1951年曾给测量下了这样的定义:从广义而言,测量是根据法则给事物分派数字。 这一定义概括了物理(实物)测量、社会测量和心理测量的共性。 测量这一定义包含了三个要素: 1、事物属性测量的对象或目标 2、数字描述事物属性的符号 3、法则给事物的属性分派数字的依据,3,1、事物的属性是测量的对象,我们对事物进行测量,

2、确切地说,测量的对象是事物的某种属性。例如,物体的长度、重量、体积、温度以及一个事件发生的时间长短等,都是事物的物理属性。它们的存在形式比较具体,大多可以被人的感觉器官所直接感觉到,如看得见、听得到、摸得着、尝得出、嗅得到。但是,我们还往往需要测量人的心理属性,如学生的智力、个性、品德、知识、技能、习惯、能力、态度、兴趣、爱好等。它们的存在形式比较抽象,大多不能被人的感官直接感觉到。,4,2、数字是描述事物属性的符号 数字在未被用来表示事物的属性之前,它仅仅是一个符号,它本身没有量的意义。当数字被合理地用来描述事物的属性时,我们才赋予它以量的意义,即从数字变成了数。 数的特性为逻辑运算提供了许

3、多可能性。数的系统是非常合乎逻辑的。数的系统(指自然数)有以下几个特性:,5,(1)同一性和区分性 所谓同一性就是指每一个数的独特性。例如,用同一个数字表示的事物必定是相同的。既然每一个数都是独特的,那么就没有任何一个别的数与它完全相同。这就是数与数之间的区分性。是1就不是2,是2就不是1,用1和2分别表示的事物是不相同的两个事物。数的同一性和区分性是一个问题的两个方面。,6,(2)等级性或位次性 这是指若干个数之间按其大小所形成的次序关系。如321。若用数的等级性描述事物,那么,事物之间必有位次可循。 (3)等距性 若第一个数与第二个数之差,等于第二个数与第三个数之差(例如,1、2、3三个数

4、, 3-2=1,2-1=1),那么,这三个数具有等距性。,7,(4)等比性 若一个数可以表示为是另一个数的倍数,如桌子的长是宽的2倍,这类数具有等比性。 上述数的特性从低到高排列。一个数若具有较高的特性,则必具有较低的特性。 在实际测量中,由于测量的需要以及所欲测量的事物属性的不同,有时并不需要让数的各种特性同时具备。当然,能多具备一些更好,因为测量中运用数的效果,确实也与这些数所包括的特性多少相关联。,8,假如我们能用数合理地描述事物的属性,并且在允许的条件下,对数进行运算,我们就可以通过运算的结果,对所要测量的属性进行推测。如果事物的属性和数的系统之间,在性质上或形式上存在着高度的类似性,

5、我们就可以用数来描述事物的真实情况。,9,3、规则给事物属性分派数字的依据 测量中最关键且最困难的事情就是制定规则。所谓规则就是指导我们如何测量的一种准则或方法,即在测量时给事物的属性分派数字的依据。 例如,有一种规则可描述为:解某一道物理习题完全做对分派数字6,做对其中一个过程,则分派数字2,做对其中二个过程,则分派数字4。,10,在数学上,函数就是把某一集合中的事物分派到另一集合事物之上的规则。可以说,任何测量都呈现函数关系,而任何函数关系都是建立一种顺序配对的集合。 一般来说,具体且稳定的事物属性,如性别、身高、体重等,其测量的规则就易于建立和使用;抽象且易变的事物属性,如人的智力、知识

6、、技能、人格、态度等心理属性,其测量规则就难以制定和使用。,11,(二)四种测量量表,量表一般称为测量工具。 1、名称量表(类别量表)最低水平的一种量表 它只是用数字表明事物的类别或性质不同而已,没有任何数量大小的意义,不能作数量化分析,也不能将之进行加减乘除运算。 即属于同一类的事物用同一个数字表示,属于另一类的事物用另一个数字表示。用来描述各类事物的数字仅仅是事物的名称:它只具有相同与不同的特性,没有数量大小的含义。用这类数字表示的量表叫名称量表。,12,例如,学生按性别进行分类,凡男生用1表示,女生用2表示。如果既按性别分类,又按对物理学科喜欢和不喜欢两个标准进行分类,喜欢用1表示,不喜

7、欢用0表示。于是男生喜欢者可表示为11;男生不喜欢者可表示为10;女生喜欢者可表示为21;女生不喜欢者可表示为20等。,13,在这里,用来描述事物的数字仅仅是代表事物的符号。它只能区分事物的类别,没有数量的大小、多少、位次和倍数关系。也就是说,它只具有数的同一性和区分性,而不具有等级性、等距性和等比性。因此,不能将之进行加减乘除四则运算。对于名称测量结果的数据所进行的统计处理,不是用来描述事物的数字本身,而是归人每一类中个体的数目(频数)。 对这类点计数据所允许和适用的统计方法,有比率(相对频数,即某一类的频数与总频数之比)、百分比、相关系数、检验。,14,2、等级量表(顺序量表或位次量表)

8、用来描述各个类别的数字,不仅具有区分性,而且还具有等级性(或顺序性),因此,量表上的数字之间能表示事物大小的位次关系,但不具有等距性和可加性,也不能进行加减乘除运算。 用这样的数字表示的量表叫等级量表或位次量表。,15,例如,将学生的动能定理的应用能力分成甲、乙、丙三个等级。甲等用3表示,乙等用2表示,丙等用1表示。于是对于学生动能定理的应用能力的评定构成了321的位次关系。但是这些数字只能确定事物相等或不等的关系。在不等的情况下,只能确定大于或小于的关系,如32、21,则31的关系,却不能确定甲等的3比丙等的1大多少个相等的单位。因为3与2和2与1之间的差距是不相等的。因此对于量表上的这些数

9、字不能进行加减乘除的运算。,16,等级量表所能适用的统计方法有:中位数、百分位数、等级相关系数、肯德尔和谐系数(多列等级相关),以及符号检验、秩次检验、秩次方差分析。,17,3、等距量表有相等单位和人定参照点的量表叫等距量表。这种量表上的数值不仅具有区分性、等级性,还具有等距性,这类量表上的数值只能作加减运算,不能作乘除运算。但是量表上的参照点(读数的起点)不是绝对零点,而是人定的参照点。,18,例如,用摄氏温度计测量的温度,9与6之差等于6与3之差,即3。但是,这并不意味着9是3的3倍, 6是3 的两倍。这是因为,摄氏温度表是以冰点作为人定参照点。摄氏零度并不意味着没有温度,而摄氏温度表上的

10、绝对零点在零下273,即-273。时间量表上的参照点也是人定的。钟表上的零点,并不意味着没有时间。这类量表上的数值只能作加减运算,不能作乘除运算。 它们所能适用的究计方法有算术平均数、标准差、积差相关系数以及Z、t、F检验等。,19,4、比率量表最高水平的量表 有相等单位和绝对零点的量表叫比率量表。这种量表上的数值不仅具有区分性、等级性、等距性,还具有等比性。量表数值可以进行加减乘除的四则运算。,20,因为量表上有绝对零点。所谓绝对零点,就是量表上标着0的地方,表示所要测量的属性是无。这类量表上的数值既可以确定一个事物比另一事物大多少,又可以确定大多少倍。因此,量表值可以进行加减乘除四则运算。

11、在物理测量中,长度、重量、开氏温度量表(绝对温度量表)都属于比率量表。例如,甲生身高143 cm,乙生身高130 cm,可以说甲生比乙生高13 cm,也可以说甲生身高是乙生的1.1倍。 它所适用的统计方法,除了等距量表所适用的统计方法之外,还可以计算几何平均数和差异系数。比率的测量,是测量的最高水平。,21,以上四种量表是依从低到高的次序排列的。量表的次序越高,对于描述事物的数所能允许的算术运算也就越多。后面每一种量表的性质,除包括前面各种量表的性质之外,还具有其特殊的性质。 人们往往将运用名称、等级量表进行的测量认为是定性测量;而将运用等距、比率量表进行的测量认为是定量测量。,22,(三)什

12、么是教育测量,教育测量就是依据一定的法则,对教育活动中的某一现象给予数量化的描述。 从广义来说,教育测量就是对于教育领域内的事物或现象,根据一定客观标准,作缜密的考核,并依一定的规则将考核的结果予以数量的描述。 从狭义来说,教育测量是指对学生某些学科经过学习和训练之后,所获得的知识、技能的测量,又称成就测量、学业成绩测量或学科测量。,23,从教育测量的广义概念来说,它所测量的属性,虽然也包括了物理属性,如学生的身高、体重等,但它测量的主要对象是心理属性,如学生的知识、技能等。 心理属性是否也可以客观地进行测量呢? 尽管教育测验(例如物理学科测量)在教学过程中已成为教师考核学生学习成绩不可缺少的

13、工具,但是由于人的心理属性是抽象的,不易捉摸,实现客观的测量比较困难,因此有人对心理属性测量的可能性就产生了怀疑。 其实,心理属性与物理属性一样,都是可以测量的。,24,1904年,美国的桑代克发表了心理与社会测量导论一书,系统地介绍了统计方法和编制测验的基本原理,为心理属性测量的可能性提供了理论基础。 1、任何现象只要是存在的总有数量(桑代克) 2、凡有数量的现象都可以测量(麦柯尔) 以上两个论断为教育测量奠定了理论基础,对教育测量学的建设与发展做出了巨大贡献。,25,(1)任何现象只要是存在的总有数量 这个原则是由美国心理学家桑代克(E.L. Thorndike) 提出的。他说:“凡物的存

14、在必有其数量。”人的心理现象虽然看不见,摸不着,但它是客观存在的现实,是脑这块高级物质的属性,它也有数量的差异。 例如,人的智力有高低之分,学生的学习成绩有优劣之别。这高低之间、优劣之间,存在着程度的不同。所谓程度不同,就是数量的不同。,26,(2)凡有数量的现象,都可以测量 这个原则是由美国测验学者麦柯尔(W.A. Mc Cal)于1923年提出的。人的心理属性也是可以测量的,虽然我们不能用尺来量它,用秤来称它,但是它必定会反映在某种活动之中,或表现在某种行为之中,于是我们就可以通过对人的行为的测量来推测他的某种心理属性。当然实现这种测量是很困难的。,27,到目前为止,对于某些心理属性,如智

15、力、创造力、知识、技能、习惯、品德、理想、兴趣、态度等,我们尚不能一一加以测量或测量得还不十分准确可靠。这是因为测验学的发展历史还很短,许多测量工具还没有发明,已发明的测量工具还不十分完善。但是,我们不能因为某种心理现象的测量工具还没有发明,就说这种现象是无法测量的。,28,教育测量的特点,人的心理属性,往往是难以明确规定的,有些甚至缺乏公认的定义。另外,它们易受条件的影响而发生变化,制约它们变化的因素也甚多。因此,测量的实现较为困难。 测量结果的间接性和推断性 测量对象的复杂性和模糊性 测量目的的针对性 度量单位的相对性,29,二、什么是教育评价,(一)教育评价的界定 1、教育评价就是教育测

16、验; 2、教育评价是一种专业判断; 3、教育评价是把实际表现与理想目标相比较的活动; 4、教育评价是系统收集资料,为决策提供依据的活动。,30,教育评价:教育评价是根据一定的教育目标,运用可行的科学手段,通过系统地收集信息资料和分析整理,对教育活动、教育过程和教育结果进行价值判断,从而为教育决策提供依据的过程。,31,(二)教育评价的特征,1、教育评价=事实判断+价值判断 2、教育评价是对教育过程及其结果的评价 3、教育评价必须以教育目标为基准 4、教育评价是评价者与被评价者的双边合作活动,32,(三)在区别上理解教育评价,1、教育评价与教育测量 联系: 教育测量是教育评价的基础,教育测量是对

17、教育进行量的测定,所或得的结果是教育评价所需信息的主要的、可靠的来源,是对教育的状态和价值进行客观判断的前提; 教育测量的结果只有通过教育评价这个环节才能获得实际意义,否则便成了一堆抽象而枯燥的数字。,33,区别: 两者着眼点不同:教育测量是为了取得数据;教育评价是要分析解释,对教育价值作出判断。 两者特点不同:教育测量是一种纯客观的过程,具有客观性特点;教育评价具有客观性与主体性相结合特点。 两者复杂程度不同:教育测量是对教育数量化的描述,关心量的获得,活动较为单一;教育评价着眼于事物质的判定,含定性与定量分析,活动是多重的。,34,2、教育评价与教学评价,联系: 教学评价是以教学为对象的教

18、育评价,只是教育评价的一个方面,用逻辑学术语讲,教育评价是一个上位概念,而教学评价仅是一个下位概念。 区别: 教育评价的范围比教学评价要广得多,它不仅关注教学评价,还有学校管理评价、教师评价、学生评价、课程评价、总务评价等等。,35,3、教育评价与教育督导,联系: 两者皆以党和国家的教育方针、政策、法规为依据; 目的都是为了加强对教育工作的科学管理,全面提高教育质量; 督导工作过程主要有监督、检查、评价、指导、反馈若干环节,评价是诸环节的核心,无论是监督和检查,还是指导和反馈,都离不开评价这个手段。,36,区别: 评价只是督导工作内容的一部分,只构成督导工作的前提和基础,而不是其全部; 督导工

19、作中所使用的评价即督导评价是一种自上而下的他人评价,只是教育评价的一种形式,而不是教育评价的全部。,37,(四)教育评价的类别,1、从评价主体上分 他人评价 自我评价 2、从评价标准上分 相对评价 绝对评价 内差异评价,38,3、从评价功能上分 诊断性评价 形成性评价 总结性评价 4、从评价方法上分 定性评价 定量评价,39,三、教育测评的发展阶段,(一)教育测评的发展阶段 1、教育测评的萌芽阶段(1864年以前) (1)中国古代教育测评 A、中国是考试制度的发源地 根据学记记载,早在我国的西周时期,就实行了教育考评。所以,教育测评发生的最早源头在中国。,40,B、中国科举制度的世界地位 科举

20、考试始于隋,兴盛完备于唐,废于清末,是我国实行时间最长的一种选士制度,对我国乃至于对世界的考试制度有重要的影响。 科举制是通过分科考试来选取人才,科举制自产生后,就不断探索考试的方法,经过唐代200多年的发展,终于形成了贴经、口试、墨义、策问和诗赋五种方法测试考生。,41,a、贴经,把所试的经书任揭一页,将其左右两边挡住,中间只开一行,再用纸帖盖住三字,令应试者填出来。贴经是各科考试中普遍应用的方法。起初简单,只要把经书及注释熟读熟记就可以应付。后来时间久了,许多经文及注释都考过了,考生过多,需要淘汰,所以帖经的条目也愈来愈难。有的贴经条目甚至是让帖年头月尾,孤章绝句,完全是有意刁难考生。这种

21、类似于现代填空的贴经,主要考察考生的记诵能力,对考生的其他能力是无法检查的。,42,b、口试,让考生当场口头回答问题。开始是由考官负责,问答时并不作记录,后来出现了舞弊现象。建中二年(781年),中书舍知礼部贡举赵赞曾奏请,以所问录于纸上,各令直书其文。元和二年(807年),礼部贡院又清皇帝废除口试。元和七年,权知礼部侍郎韦贯之奏请恢复口试。口试的方法比较灵活,但随意性较大,确实有复查无凭的缺点,容易给一些考官和考生提供联合舞弊的机会。,43,c、墨义,一种简单的笔试问答。不需要考生发挥自己的思想,只需熟读熟记经文和注释就能答出。这种方法主要考察考生的记忆能力,也较简单,所以一问便是几十条,甚

22、至几百条。 如原问:“子谓子产有君子之道四焉。所谓四者何也?”对曰:“其行己也恭,其事上也敬,其养民也惠,其使命也义。谨对。”,44,d、策问,要求考生针对当时社会政治、经济、文化等方面出现的问题,发表自己的看法,类似于政治性的论文。策问的方法是从西汉时期发展而来的,到了唐代更为人们做重视。,45,策问让考生自由的发表自己的意见,相比口试、贴经和墨义来说,能够考察出一个人治国安邦的才能,能够促使考生开动脑筋去思考一些现实问题,有利于人们思维水平的提高。正因为如此,唐代各科考试的最后取舍,大多取决于策问。但长期采用这种方法,造成了一般考生束书不观,只拿缀辑的旧策习读,以应付考试。就连李白这样的名

23、流,也未能脱俗。,46,e、诗赋,要求考生当场写作诗赋一篇,主要考察考生的文学修养和文学创作能力。诗赋考试驶于唐高宗永隆二年(681年),吏部考功员外郎刘思立以进士科考试只考时务策,知识太狭窄为由,要求加试杂文,于是下令加试杂文两首。但此时考试仍以策问为主。至神龙元年(705年),才于策问之外增添了诗赋考试。后来唐朝的统治者也喜好诗赋,诗赋在考试中起的作用便日渐增大了。,47,诗赋考试在一定程度上推动了唐诗的繁荣发展,唐诗的发展盛行也促使诗赋考试越来越为人们所重视.诗赋最终成为人们获取功名利禄的便捷途径,以至于发展成为专门注重词藻、注重形式而不重思想内容的创作风格,造成了相互抄袭模仿的不良学风

24、。,48,(2)西方教育测量的发展,A、教育测量的诞生 18世纪以前的西方各国,由于学校尚未普及,学校考试主要是口试。 1720年,英国剑桥大学首先以笔试替代口试,开西方学校考试笔试之先河。 1845年,美国初等学校普及,学生人数激增,对毕业生一一口试已不可能,于是,美贺拉斯曼于1847年引进笔试,取代口试。,49,B、教育测量的蓬勃兴起,1864年,英国格林威治医院附属学校的教师费舍,收集了许多学生成绩样本,汇集了一本量表集,作为度量学生各科成绩的标准,这可以说是客观标准化测量的萌芽。 引起人们对测验问题极大关注的是美莱斯博士的拼字测验。 20世纪初,比纳智力量表推出,比纳被称为智力测量鼻祖

25、。 1904年,美国心理学家桑代克出版心理与社会测量学导论,桑代克被称为教育测量鼻祖。,50,1905年,法国心理学家比纳和西蒙编制了第一个诊断异常儿童智力的测验,即著名的“比纳-西蒙量表”(Binet-Simon Scale)。该量表包括30个项目,从易到难排列,以通过题数的多少作为鉴别智力高低的标准。1908年和1911年作者对量表先后修订了两次,测验项目增加到59个,并按年龄分组,从3岁到15岁。该量表首次采用心理年龄(mental age,MA)即智龄来计算成绩,儿童通过哪个年龄组的项目,便表明他的智力与几岁儿童的平均智力水平相当。,51,比纳认为,智力是一种判断的能力,创造的能力,适

26、应环境的能力。因而他从复杂任务入手,着重测量判断、理解、推理等高级心理过程,即智力中的普通因素。 美国斯坦福大学教授推孟(L.M.Terman)在1916年修订了比纳西蒙量表,即斯坦福比纳智力量表(Stanford-Binet Scale)。该测验有90个项目,其最大特点是引入智力商数(intelligence quotient,IQ,简称智商)的概念。所谓智商,就是心理年龄(MA)与实足年龄(chronological age, CA)之比,也称比率智商,作为比较人的聪明程度的相对指标。,52,1937年、1960年推孟对斯坦福比纳量表曾做过两次修订,1972年在测验内容不变的情况下,对19

27、60年修订本重新做了标准化,常模是从更具代表性的新样本中得到的。1960年修订后的斯坦福比纳量表共有100多个项目,这些项目被分为20个年龄组。25岁儿童每半岁为一组,每组有6个正式项目,一个备用项目;614岁每岁为一组,每组也有6个正式项目和一个备用项目。此外还有一个普通成人组和三个不同水平的优秀成人组的项目。仅以3岁、6岁和10岁组为例,测验包括以下内容。,53,3岁,1穿珠:要求将48颗珠子穿在一起。 2看图说出物体名称:有18张图片(图片中有马、树、衣物、球、飞机、轮船等),要求说出10张。 3用积木搭桥。 4回忆动物图片。 5临摹圆形。 6画直线。 7顺背3位数。 注:只要完成6题便

28、可以,有一题为备选题。,54,6岁,1.词汇:在45个词中正确解释6个。 2.区分:说出两物的不同点。 3.图画补缺:指出画中物体缺少的部分。 4.数概念:从一堆积木中取出需要的块数。 5.类比:类似于“夏天热,冬天”这样的题目。 6.迷津:用铅笔画出最短通路。 备用:看图讲故事。,55,10岁,1.词汇:在45个词汇中正确解释11个。 2.在一个三维的图中数出立方体的数目。 3.解释抽象词。 4.说明理由:说出一种规则和偏好的理由。 5.一分钟内说出28个词。 6.复述6位数。 备用:指出一段话中的荒谬之处。,56,C、教育测量的深入发展,教育测量量表的编制突破了过去单一答案的求同思维题,发

29、展到有了求异思维题和论文题; 教育测量范围由过去偏重于学生学习成绩的测量,发展到涉及课程设计、教材、教育改革方案等的测量; 教育测量由过去单一的常模参照性测验模式,发展到常模参照性测验与目标参照性测验相结合的模式; 教育测量本身的理论研究与技术开发更加深入与完善。,57,(二)教育评价的发展,1、现代教育评价的产生 教育评价产生于本世纪30年代对美国测量运动的反思与批判。 教育评价产生的标志是“八年研究”。 泰勒提出了教育评价的概念,且提出了以教育目标为核心的教育评价理论,泰勒被称为“教育评价鼻祖”。,58,2、现代教育评价的发展阶段,初步发展时期(19301958年) 这一阶段教育评价仍然受泰勒模式的影响,注重教育目标的研究; 迅速发展时期(19581972年) 这一阶段泰勒模式受到挑战,出现了不少新的教育评价理论与模式; 专业化发展阶段(1973年以后) 这时期教育评价发展具有一个显著特点:就是走向专业化。,59,End,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报