1、数学教育测量与评价 1. 学习目的:通过学习了解数学教育测量与评价的基本原理,运用数学教育测量与评价获得信息,对数学教学进行测量与评价,从而指导数学教学实践。2 内容介绍:了解和掌握数学教育测量与评价的基本概念,学会运用教育统计学的基本理论进行教学测量与评价。3 考核或方案:运用教育测量与评价的基本原理,结合教学实践,选一个课题进行教学评价。4. 主要参考书目:1 田万海等著 数学教学测量与评估 上海教育出版社,1995 年 12 月第 1 版2 王孝玲编著 教育统计学,华东师范大学出版社,2001 年 7 月第 1 版3 王孝玲编著 教育测量 华东师范大学出版社,2001 年 4 月第 1
2、版第一章 绪论1.1 教育统计学的内容一、什么是教育统计学教育统计学是运用数理统计的原理和方法,研究教育问题的一门应用科学。它的主要任务是研究如何搜集、整理、分析由教育调查和教育实验所获得的数字资料,并以此为依据,进行科学推断,揭示教育现象以蕴含的客观规律。 二、统计学研究的内容分成描述统计、推断统计、实验设计 1描述统计 对已获得的数据进行整理、概括,显现其分布特征的统计方法,称为描述统计。通过教育调查和教育实验获得大量的数据。用归纳、编表、绘图等统计方法对之进行归纳、整理,以直观形象的形式反映其分布特征;通过计算各种特征量,来反映它们分布上的数字特征。例如,计算集中量(算术平均数、中位数、
3、众数、加权算术平均数、几何平均数、调和平均数等)来反映它的集中趋势;计算差异量(如全距、四分位距、百分位距、平均数、标准差、差异系数等)来反映它们的离散程度;计算偏态量及峰态量来反映它们的分布形态;计算相关量(如积差相关系数、等级相关数、点二列相关系数、相关系数、四分相关系数、C 相关系数、肯德尔和谐系数、多系列相关系数等)来反映一个事物的中特性之间变化的一致性程度(尤其是测量评价中) 。这些均属于描述统计范围。目的:在于将大量零散的、杂乱无序的数字资料进行整理、归纳、概括,使事物的全貌及其分布特征清晰,明确的显现出来。 2推断统计根据样本所提供的信息,运用概率的理论进行分析,论证,在一定可靠
4、程度上,对总体分布特征进行统计、推测,这种统计方法称为推断统计。例如,对总体参数值,即总体数字特征值(如总体平均数、总体标准差、总体相关系数等)的估计;对总体数字特征值或总体参数之差(如总体平均数之差、方差之差、总体相关系数之差等)的假设检验;对总体分布是否服从某种分布的假设检验等,都属于推断统计的范围。其目的在于根据已知的情况,在一定概率的意义上估计、推测未知的情况。3实验设计教师为了揭示实验中自变量与因变量的关系,在实验之前所制定的实验计划,称为实验设计。其中包括选择怎样的抽样方式;如何计算样本容量;确定怎样的实验对照形式;如何实现实验组和对照组的等组化;如何安排实验因素和如何控制无关因素
5、;用什么统计方法处理及分析实验结果等。以上三部分内容,不是截然分开,而是相互联系的。描述统计是推断统计的基础,推断统计可以通过样本信息估计,推测总体。从已知情况推测、估计未知情况。良好的实验设计才能使我们获得真实的有价值的数据,对这样的数据进行统计处理才能得出正确的结论。而良好的实验设计又必须以统计就原理为根据,符合统计方法的要求才能对实验结果进行统计处理。1.2 学习统计与测量评价的意义 1可以顺利地阅读运用统计方法进行走量分析的科研报告和文献,从中可以间接地学习国内外先进地研究成果。2可以提供一种科学方法为教科研服务工具。3可以提高教育工作的科学性和效率(学制的改革、课程的建设、课程分量的
6、确定、数学效果的考核、各种教法和学法的比较、学科成绩的评定、各类调查、学业成绩的比较) 。3 几种基本概念 一、随机变量二、总体与样本三、统计量与参数四、数据的分类 1名称量表点计数据测量与统计中最简单的形式分类。即属于同一类的事物用同一个数字表示。属于另一类的事物用另一个数字表示。用来描述各类事物的数字仅仅是事物的名称或符号。没有数量大小的含义,只具有相同与不同的特性。即只能区分事物的类别,没有数量的大小、多少、位次和倍数关系。也就是说,它只具有数的同一性和区分性,而不具有等级性、等距性和等比性。因此,不能将之进行加、减、乘、除四则运算。所进行的统计处理,只是归入每一类中个体的数目(频数)
7、,对这类数据所允许和运用的统计方法,有比率、百分比、相关系数、 x2 检验。2等级量表等级数据 对于事物的属性按一个标准进行分类,用来描述各个类别的数字,不仅具有区分性,而且还具有等级性(位次性) 。这些数字之间能表示事物大小的位次关系。但不具有等距性和等比性。甲、乙、丙三个等级,甲 3,乙 2,丙 1。构成 321 的位次关系。但这些数字只能确定事物相等或不等的关系。在不等的情况下,只能确定大于或小于的关系。如 32,21 ,则 31 的关系。不能确定甲等的 3 比丙等的 1大多少个相等的单位。因为 3 与 2 和 2 与 1 之间的差距是不相等的。不能进行四则运算。它们所适用的统计方法:中
8、位数、百分位数、等级相关系数。肯德尔和谐系数(多列等级相关) ,以及符号检验,秩次检验、秩次方差分析(3-2 2-1) 。 3等距量表等距数据有相等单位和人定参照点德测量数据,不仅具有区分性、等级性,还具有等距性。例如 9与 6之差=6 与 3之差。但是参照点(零点) ,而是人定德零点,0并不意味着没有温度。钟表上的 0 点,并不意味着没有时间。同样,并不意味着 9是 3的 3 倍。这类数据只能作加减运算,不能作乘除运算。适用的统计方法有平均数,标准差、积差相关系数的 n 级 Z、t、F 检验等。4比率量表比率数据这是最高水平的测量。有相等单位和绝对零点的数据,不仅具有区分性、等级性、等距性,
9、还具有等比性。具有绝对零点。所谓绝对零点,就是量表上称表 0 的地方,表示所要测量的属性是无。这类数据既可以确定一个事物比另一个事物大多少,又可以确定大多少倍。因此,数据可以进行四则运算。例如长度、身高、重量等。它所运用的统计方法。除了等距数据所运用的统计方法外,还可以计算几何平均数和差异系数。注:一般而言,学生知识、技能的测验分数多属于等级数据。因为测验分数之间只能表明哪个大,哪个小,不能表明大多少,小多少。例如,一次数学测验的平均分为 70 分。在这里,60 分与 70 分之间和 90 分与 100 分之间,虽然都差 10 分。但是,它们的差异是不相等的。众所周知,90 分与 100 分之
10、差要比 60 分与 70 分之差难度大得多。已表明,测验分数是不等距的。另外,测验得零分的学生,并不意味着他在所测验的知识、技能方面为零。这表明,测验分数不是绝对零点开始的。虽然测验分数属于等级数据,但我们通常把测验分数作为等距量来处理。这是因为:第一:在统计就上可以将总体呈正态分布的测验分数转换成单位相等的标准分数。第二:如果测验编造得较好,特别是对于测验结果的极端分数的微小差异可能反映着巨大差异的这一现象给予注意的情况下,就可以使本来属于等级数据的分数,作为等距量表来处理所造成的误差减少到最小程度。第三:如果测验的编制程序能使测验分数接近等级数据,而且对测验分数当作等距数据处理时所得到的结
11、果也确实是有意义的。那么,也就表明这种做法是可行的。 第二章 测验数据的处理与解释 2.1 测验分数的解释当我们用一个信度效高,效度经过检定合格的测验,对一个学生施测后,就获得一个测验分数。对这个测验分数应当如何解释,便是这一章所要论述的问题。 一、测验分数与所测量的属性当我们用测验来测量人的某种心理属性时,总是假定:测验分数的单位是相等的;测验分数相同的增量反映着心理属性的同等增量。因为,这样的假定对于统计运算的使用是不可缺少的。 但是,由于人的心理属性只能通过其行为反应进行间接测量,而且人的行为反应常因多种因素的影响而容易发生变化。也就是说,测量的误差较大。因此,对于人类心理属性的测量很少
12、有绝对的测度。即使以时间、空间或能力作为单位的测量分数,它们的相同增量也很难代表着相同的心理增量。 例如,用一个、十几个题目组成的数学测验,对甲、乙两个学生施测,如果甲生全部答对,得 100 分,而乙生全部答错得 0 分。这时,甲生的 100 分和乙生的 0 分,只能分别表示他们在这个特定的测验上所表现出的能力,并不能代表甲、乙两个学生学习数学的全部能力。因此,我们不能根据这两个测验分数就作出关于甲生对于数学知识、能力全部掌握,而乙生对于数学知识、能力全部没有掌握的判断。因为,若用另一套测验对他们施测,甲生就不一定得 100 分,而乙生也不一定得 0 分。假如在上述测验中,甲生得 100 分,
13、而乙生得 50 分,这也并不意味着甲生在数学方面知识和能力是乙生的两倍。用理,甲生和乙生在同一个测验上获得相同的分数,也不能判定他们两人这方面的知识与能力是相同的。甚至用同一个测验对同一个学生先后施测两次,可能由于在两次测验中学生的动机、情绪、态度、健康、睡眠、学习以及测验环境的光线、气压、湿度和考试的指导语不同,所获得的两个测验分数也不一定相 同。二、原始分数和导出分数根据测验的记分标准,对被试的测验结果所计算出的测验分数称为原始分数。例如,一个学生在数学测验上获得 72 分,这 72 分就是原始分数。原始分数的本身意义甚高,因为仅从个别学生的原始分数,我们既无法了解他学习成绩的好坏,知识能
14、力的高低,也无法与其他学生相互比较。对于同一个学生不同学科的原始分数。由于缺乏参照点和一定的单位。因此,既不能相比较,也不能相加求和。例如:某生期末考试成绩:语文为 69 分,数学为 86 分,英语为 90 分。 根据这三门学科的分数。我们还是不能了解该生三门学科哪一门学科学得好。哪一门学得差。即我们不能说,该生英语最好,数学次之,语文最差。为了使原始分数本身具有意义,使不同测验得分数可以相互比较,就必须将原始分数转化成导出分数。所谓导出分数,就是经过统计整理过的。具有一定参照点和单位的,可以相互比较的分数。在教育测量中,常用的导出分数,有百分等级,标准分数,年级等值分数,年龄等值分数等。如果
15、对一个标准化的样本施行某一个测验之后,将所获得的原始分数以常模(平均数)为参照点转模成某种导出分数。并以等值表的形式将原始分数与导出分数之间的对应值表示出来,这就是测验量表。根据这种测验量表,我们可以为某个学生的原始分数寻找到在这个测验量表上的相对位量,以确定其测验成绩的优劣。与上述的导出分数相对应,常用的测验量表有百分等级量表、标准分量表、年级和年龄量表等。 2.2 测验的种类 一、根据测量的属性分类 1智力测验主要目的在于测量智力的高低,它是最早发展起来的一种心理测验,目前从出生到老年人都有不同年龄阶段的智力测验。 2智力倾向测验主要目的在于发现被试的潜在能力。所谓潜在能力是指经教育或训练
16、以后,能够发挥出来的能力。这类测验在职业训练或就业指导方面应用最为广泛。3人格标准主要目的是测量人的态度、情绪、兴趣、品德、动机、意志、性格、美预 测 测 验 与 成 绩 测 验难 度 测 验 与 速 度 测 验普 通 测 验 与 诊 断 测 验感等方面的行为。4教育测验目的在于测量学生某些学科经过教育,训练之后所获得的知识、技能。 二、根据测验的标准化程度分类 1标准化测验 它是由测验专家精心周密编制的。测题根据试训的结果客观的筛选,测验经过客观地评价,应具有较高的信度和效度。测验的手续指导语,评分标准,环境布置,测验时限,分数的解释等都有详细明确的规定。必须严格遵守,不得随意更改。它一般以
17、大量测验结果为基础,求出常模,建立测量验量表。 2教师自编测验教师自编测验的客观性和标准化程度不如标准化测验。例如,测验的编制不如标准化测验那样精心周密,一般不进行试测,不求信度,效度和常模。测验的记分也不那么严格。优点:它与教师日常的数学工作息息相关,使用频繁,它可在一个数学单位的中途和结束,或期中和期末,就较短时间的学习内容施行测验,随时了解学生的学习情况,及时地改进教学。测验内容与教材内容,教学目标,教学进度完全相一致;测验的难易程度适合学生的水平;对于学生经常发生的错误针对性强;教师自己编制测验可省时、省力、灵活、方便。教师自编测验的标准化程度虽然不如标准化测验,但编制的原则和程度与标
18、准化测验基本一致,而且教师自编测验有时也可以使用标准化测验的有关内容。三、根据记分标准分类 1常模参考性测验 常模参考性测验是以被测团体的常模(平均数)为参照标准来衡量个体成绩的测验。其评分基准在测验以后,产生于被测团体之内,它是以个体在团体中所处的位置来解释个人成绩的优劣。一般用百分等级和标准分数等相对分数来表示。例如,某生数学成绩为第 70百分等级,这表明在团体中有 70%的人在他之下。该测验的主要功能是区分学生的个别差异的相对水平,常用于选拔性和竞赛性活动。以及能力分组方面。测验编制所基于的假设是:团体测验成绩呈正态分布,要求组成测验的题目,大多数为中等难度,少数为较难,较易的题目,即难
19、度呈正态分布 。2目标参考性测验它是以预定的目标(大纲)为参考标准来衡量测验成绩的测验。其评分基准是在测验之前,建立在被测团体之外,个体的成绩只需与既定的目标相比较,不必与团体重的他人相比较就可以确定其优劣。一般用合格与不合格、达标与未达标来表示。主要功能:确定被试达到目标的程度,多用于合格性,达标性活动。如学校中的期中、期末、毕业证书考试、执照考试。优点:除了甄选之外,在教学中既可以确定学生知识、技能达到目标的实际水平,又可以判断学习中的困难,有助于提高学生学习的目的性,并为教师的教学及时地提供反馈信息。 其他分类:根据测验功能分类受测人数分类: 略、四、常模与标准 常摸是某年级、某年龄或具
20、有某种共同特征地被试团体,在某一测验上实际达到地平均水平。而标准是某年级、某年龄或具有某种共同特征地被试团体、在某一测验上应达到的水平。常模是一个相对的数量,而不是一种绝对的永久性的固定不变的标准。常模随着时间和空间的不同而变化。例如,由于时代的进步,科学技术的发展,教育的改革,师资的提高,设备的完善,学生学习水平也随之提高。十年前求得的常模不一定能适用于沿海各省的常模,不一定适用于内地各省。就是在同一地区,不同类型的学校,所求得的常模也不见得相同。常模和标准虽然不同,但是,从某种意义上来说,常模起着标准的作用。因为常模为了个别被试的测验分数提供了比较的基础,如果一个学生某科测验成绩在常模以上
21、,很少有人认为他的学习成绩是差的,反之,在常模之下,也很少有人认为他的学习成绩是好的。常模是根据标准化样本的测验分数经过统计处理而建立起来的。所谓标准化样本就是对于使用该测验的总体具有代表性的那部分个体。在建立常模时,由于人力、物力、时间和经济条件的限制,不大可能将总体中的每一个个体一一施行测验。 往往是从总体中按照一定的方式抽取相当数量的个体施于测验。然后用这些测验分数所建立起来的常模作为比较的尺度来解释该总体中某个个体测验分数的优劣。而该常模是否能用来解释该总体中的测验分数,那就取决于标准化样本对总体的代表性程度。1.合理的抽样方法分层随机抽样 2.较大的样本容量但分数的差异性较大2.3
22、百分等级量表一、百分等级量表的意义百分等级量表是以标准化样本测验分数的中位数为参照点,以百分等级(百分位)为单位的测量表。它将同一年级或同一年龄组的被试,在某个测验上所得的分数分成 100 个等级。每个百分等级表示其相应的测验分数在该年级被试中所占的地位。即低于这个分数的人数百分比。例如,某年级数学测验最高分为 92 分,其百分等级为 100;最低分为 40 分,其百分等级为 0,在 4092 分之间分成 100 个等级。如果其中甲生测验分数为 54 分,他处于第 10 个百分等级,这表明有 10%的学生测验分数比他差,而有 90%的学生测验分数比他好。因此,百分等级实际上是一个地位量数。与百
23、分等级相对应的原始分数称为该百分等级的百分位数,如上例的第 10 百分位数为54 分,可表示 P10=54;若根据标准化样本的测验分数计算出各相应的百分位数。也就是说,建立百分等级与原始分数的等值对照表。即为百分等级量表。二、百分等级量表的编制方法 1 用原始分数直接计算其百分等级的方法在使用计算机的条件下,可直接计算每一个可能的原始分数的百分等级,来建立百分等级量表。 例 1初二 50 个学生数学测验分数为例,说明计算各原始分数百分等级的步骤与方法。 初二 50 个学生数学测验分数为例,说明计算各原始分数百分等级的步骤为方法 85 70 67 50 87 70 68 52 53 6772 8
24、6 89 71 42 74 60 45 83 7362 48 82 64 72 82 79 74 61 7181 84 96 75 65 55 57 66 77 9176 68 58 60 69 70 94 79 67 57 所有分数找最大值、最小值:96、42。从 41 按班顺序从小到大排至 97。 (公差学生没有获得的分数) 计算各原始分数的步骤从下至上计算各分数的累积频数计算各分数中点的累积频数该分数频数的一半加上小于该分数的频数总和,或者,某一个分数中点的累积频数,就等于该分数频数的+小于该分数的累积频数。计算各分数中点的百分等级 将各分数中点的累积频数除以总频数,再乘 100。分数
25、频数 累积频数 中点累积频数 百分等级97 0 50 50 100 96 1 50 49.5 99 95 0 49 49 98 94 1 49 48.5 9793 0 48 48.0 9692 0 48 48.0 9691 1 48 47 90 0 47 46.5 89 1 47 4688 0 46 45.587 1 46 44.586 1 45 43.585 1 44 42.584 1 43 41.583 1 42 4082 2 41 38.5 81 1 39 3880 0 38 3779 2 38 35.578 1 36 34.577 1 35 33.576 1 34 3375 1 33
26、32.574 2 32 3173 1 30 29.572 2 29 28.0 2.同频数分布表编制百分等级量表的方法第一步,编制频数分布表求全距 最大值最小值决定组数和组距。各组的组距等于全距组数,而组数可根据总频数的多少而定,一般在 1020 之间,本例拟分 12 组,组距为 5412=4.5。取整数为 5。决定组限列出组中值登记频数(边界数较大组 )计算各组的至上限的累积频数分数 组中值 频数 至上限的累积频数 至组中值的累积频数 至组中值的累积比率 组中值的百分等级95 97.5 1 50 49.5 0.99 9990 92.5 2 49 48 0.96 9685 87.5 4 47 4
27、5 0.90 90 80 82.5 5 43 40.5 0.81 8175 77.5 6 38 35.0 0.70 70 70 72.5 9 32 27.5 0.55 55 65 67.5 8 23 19.0 0.38 3860 62.5 5 15 12.5 0.25 2555 57.5 4 10 8 0.16 16 PfipnN)11055 57.5 4 10 8 0.16 1650 52.5 3 6 4.5 0.09 945 47.5 2 3 2.0 0.04 440 42.5 1 1 0.5 0.01 1总和 50第二步 建立百分等级与原始分数的等值对照表 三种方法: (1)计算各组组中
28、值百分等级的方法确定某个原始分数在标准化样本中所处的地位时,不必十分精确。因为同一个分数在不同的样本中的百分等级也不完全相同。因此,我们可以用各组组中值所对应的百分等级来代表该组各分数的百分等级。方法如此。计算各组组中值的累积频数。某组组中值的累积频数等于本组频数的一半加上小于本组下限的各组频数之和,也可以说,本组频数的。加上数值较小相邻一组的累积频数。 计算各组组中值的累积比率。各组组中值的累积频数除以总频数,即为各组组中值的累积比率。 计算各组组中值的百分等级,将各组组中值的累积比率乘以 100,即为组中值的百分等级。(2)计算几个特定的百分位数的方法在频数分布表列好后,可以用插值法求几个
29、特定百分等级相对应的百分位数,一般是求第 5、10、20、30、40、50、60、70、80、90、95 共 11 个百分位数,以构成百分等级与原始分数的等值对照表。即百分等级量表。 计算公式: PP=L+( 在这里 PP 表示某一个百分位数,L 表示该百分位数所在组的下限p 表示该百分位数的百分等级数 N 表示总频数 n1 表示小于该百分位数所在组下限的累积频数。i 表示组距, 表示该百分位数所在组的频数。求第 5 百分位数。步骤 计算低于该百分位数的频数: N= 50=2.5 确定该百分位数的所在组。由数值较小位数值较大各组累积频数。直至略大于 N 为止。这个组就是百分位数所在组。P 5
30、所在组为 4550。确定从所在组下限应上升多少分数的距离。从 p5所在组的下限(4.5)上升的距离为 其它几个特定的百分位数的计算方法以此类推。将上述几个特定的百分等级及其相应的百分位数(取整数)列成表。构成数学测验百分等级量表。 百分等级 95 90 80 70 60 50 40 30 20 10 5百分位数 91 88 82 78 74 71 68 65 60 53 49(3)百分曲线绘图法 频数分布表列好之后,可以绘制一条百分曲线,根据这条百分曲线就可以找出各百分等级相对应的原始分数。也即形成一部分等级量表。方法 计算各组上限的百分等级 首先计算各组频数、至上限的累积频数然后求各组上限的
31、累积比率,即各组上限的累积频数除以总频数。再将各组的累积比率乘以 100,即为各组上限的百分等级。 绘制百分曲线 7.48.3)(1pfiNPnx分数为横轴,将第 10、20、100 百分等级为纵轴。以各组上限为横坐标,以各组上限的百分等级为纵坐标,描点,连接成光滑曲线。 根据这条曲线,我们可以从横坐标上的某个分数找出与之相应的百分等级,也可以从纵坐标轴上的某个百分等级找出与之相对应的百分等级,利用上述方法,在这条百分曲线上所寻找出的第 5、10、20、90、95 百分等级对应的原始分数。三、百分等级量表的评价 1.百分等级量表的优点(1)百分等级量表上的等级,其意义容易被人理解,因为某个被试
32、测验分数的百分等级,由他在样本中所处的地位决定的。 (2)同一被试在不同学科上的百分等级可以相互比较。例如,高二某生数、理、化三科的百分等级分别为 65、42 、71,则该生化学成绩最好,数学次之,物理最差。(3)不同被试在同一个测验上的百分等级可以相互比较。例如,甲、乙、丙三个学生主体几何的百分等级分别为 45、70、36,则乙生最好,甲生次之,丙生最差。(4)在中学、大学中,较适用(当年龄成年级量表不甚适用时) 2.百分等级量表的特点。 (1)百分等级的单位距离不相等。大多数测验的原始分数接近于正态分布,其分布的中央部分,即靠近平均数的两侧,有较多的频数分布看,而距平均数较远的两端,频数分
33、布得较少。但是,将原始分数转换成百分等级量表之后,百分等级呈矩形分布,也就是说,在整个百分等级量表上,各个等级之间得频数都是一样得。如图所示,在靠近分布中央得原始分数稍有变化,其百分等级就会有较大的变化,而靠近分布两端的原始分数,虽然变化较大,其百分等级却变化较小,从图中可以看出,百分等级 80 与 90 之间的距离要大于 50 与 60 之间的距离。这点从前面的50 位数字测验的例子中可以看出,百分等级是 50 的原始分数是 71,百分等级是 60 的原始分数为 74,百分等级相差 10,而原始分数相差 3,百分等级是 80 的原始分数为 82,百分等级是 90 的原始分数为 88,百分等级
34、相差 10,而原始分数相差 6。可见,百分等级的单位是不等距的。在分布的中部,它扩大了原始分数的差异,在分布的两端,它缩小了原始分数的差异(95 97 等级不变, 95 77 等级大大提高)要时刻变化,不要时百分等级量表分布中间区的差异作过分解释! (2)百分等级量表中的数据是等级或位次数据。只具有区分性和等级性,而不具有等距性和等比性。所以仅能表示被试测验成绩的好坏与位次,不能进行加减、乘、除的运算。 (3)两个不同样本中的百分等级不能相互比较例如,高三(1)班甲生数学成绩为第 60个百分等级,高三(2)班乙生同一次数学测验成绩也为第 60 个百分等级。但甲、乙两生的数学水平不见得相同,故不
35、好比较。 (4)对测验成绩得普遍水平不够敏感,与 T 两表相比,其可靠性差,不适合作进一步的统计分析。2.3 线性标准分数量表 标准分数量表是以平均分数为参照点,以标准差为单位的测验量表,其量表值称为标准分数。不同的测验分数只是当它们的总体平均数、标准差、分布形态相同,或者极其相近,才可以相互比较,但是所测量的属性,其总体平均数,标准差和分布形态往往是未知的,既然我们无从确切地了解所测量的属性在总体中的情况如何。为了使不同的测验分数可以相互比较。只好假定所测量的一切属性,其总体平均数、标准差和分布形态都是一致的。几种测验分数的样本分布形态是相近的。要么,只需将几种测验分数转换成平均数相同和标准
36、差相同的线性标准分数,如果样本分布形态不一样,还需将测验分数转换成非线性的标准分数。即正态化的标准分数。一、线性 Z 分数量表1.线性 Z 分数的意义 kffxx1_1756829125.0P)(小大小大 小小 ZPZ65.87415.XZZ= 由于 Z 分数经常出现小数点或负数,计算和使用时很不方便,所以常用下式将它转换成另一种分数。Y=A+BZ 2.线形 Z 分数量表的编制方法。(1)原始数据计算法(2)频数分布表计算方法,其中 xi 表示第 i 组的组中值,f i 表示第 I 组的频数。 3作用(1)明确各个分数在总体中的位量例 某区域进行一次统考。数学的平均分 =75 分,标准差 =7
37、 分,甲生得 68 分,乙生得 89 分,近似正态分布。 Z 甲 =Z 乙 =P1=0.3413, P2=0.4773 P1+P2=81.86% 比甲生低的:0.5-0.3413=0.1587 比乙生高:0.0327(2)由比例求界限分数例 某一考区参加数学竞赛共有 1600 人,决定给予 200 授奖,考试成绩接近正态分布,平均分数是 74 分,标准差是 11 分,问最低分数线是多少? 解: (即要录取 12.5%,其他 87.5%不能录取)作为正态分布上端的面积。则若查不到,用内接法,Nxi1_ 21_1212_)()(NxNxiiiix 2_1xNfniix)(2.1562.1 (3)在
38、能力分组或等级评定时确定人数 例 想把 400 名学生按能力分成 5 组,若能力近似正态分布,每组应有多少人? 解:先将正态曲线横轴上正负 3 个标准差,共 6 个标准差, 即之间的面积已达 0.9973。几乎包括了全体学生)分成 5 等分。 即 。每份为.(4)化等级评定为测量数据品质评定数量化例 一次比赛中,50 名学生参加比赛,3 名教师评分,评定结果分甲、乙、丙、丁四个等级,如下表 1,其中对 三名学生评定等级,如下表 2,如何比较三个学生的平均成绩:解决这类问题,必须根据正态曲线理论将等级评定化为测量数据。 具体步骤如下:根据正态曲线的面积推出各等级在曲线面积下的位量计算三位教师所评
39、定的各等级人数的比率,再将这些比率作为正态曲线下的面积。计算本组各面积的中点(面积的 )与本组以下面积之和,列表如下: 例 某校期末测验语文、数学、外语、物理四科的平均分数和标准差如下表。现已知甲、乙两生四科成绩。若以四科成绩作为推荐优秀学生的标准,应举荐哪个学生。 处理这类问题,在现行数学实践中,大都是以四科的总分来决断,该例甲生总分为 302 分,乙生总分为 304 分,应举荐乙生。这种只考虑分值,没有考虑各分值在各目总体中的价值,是欠妥的,所以,现行的以原分数合成总分是不科学的。分数转换成 Z 分数之后,Z 分数有正、负、0,不易被人们接受,但可以经过线性变换后,分数转化成其它分数。T 分数 T=10Z+50CEEB 分数=100Z+500(美国大学入学考试委员会)TOEFL 分数=70Z+500MET 分数=12Z+60(广东) P58 页止