1、第三章 集中量数和差异量数,一、集中量的一般意义: 定义:集中量就是表示一组数据典型水平或集中趋势的量。它反映频数分布中大量数据向某一个量集中的情况。常用的集中量有算术平均数、几何平均数、调和平均数、加权平均数、中位数、众数等。,第一节 集中量数,二、集中量的优良代表量之一-算术平均数(Arithmetic Mean),(一)、算术平均数的概念概念:是一组同质数据值的总和除以数据总个数所得的商。亦称均数,均值,用 (读X杠)表示。,n为数据个数。,(3.1),(二)计算方法: 1、原始数据计算法: 定义公式一般适用于原始数据较少的情况下,其计算方法可用于原始数据计算公式中。,例如, 某班选八名
2、同学参加年级数学竞赛,成绩分别为82,90,95,88,90,94,80,93。求其平均成绩。解:把N=8,X1=82,X8=93代入公式(3.1),得,2、频数分布表计算法:对于已列成次数分布表的分组数据,其算术平均数的计算公式为,式中Xc为组中值;f为各组次数,即权数;N为总次数=f。,例 某班50人外语期末考试成绩的次数分布如下,求全班学生的平均成绩。,表 某班50人外语成绩次数分布表,解:将表中数据代入公式,得,说明:利用次数分布求得的算术平均数是一个近似值。因为我们先假设组内的数据是均匀分布的,利用各组中值分别代表各组数据,这显然与实际不符,把这一误差叫分组误差。,(四)加权算术平均
3、数的计算方法它是指一组数据中每个数据与其权数乘积的总和除以权数总和所得之商,用符号 表示。,(3.2),例 某年级四个班的学生人数分别为50人,52人,48人,51人,期末数学考试各班的平均成绩分别为90分,85分,88分,92分,求年级的平均成绩。,解:由公式(3.2)得,=88.74,三、中位数,(一)、中位数的概念及适用条件概念:中位数是位于一组有序数据中间位置的量数。也称中数,用Mdn表示。它是将一组有序数据的个数分为相等两部分的那个数据。,适用条件:1、当一组数据有极端值出现时。2、当一组有序数据两端有个别数据模糊不清或分组资料有不确定组限时。3、当需要快速估计一组数据的代表值时。,
4、(二)、中位数的计算方法1、未分组数据中位数的计算方法一组数据未分组,先排序,中位数取决于数据的个数是奇数还是偶数。,当数据的个数为奇数时,则以第(N+1)/2个位置上的数据作为中位数。当数据的个数为偶数时,则取居中间的两个数据的平均数为中位数。即取第(N+1)/2处作为中位数的位置,其位置左右两数据的平均值即为中位数。例如求80,93,90,81,85,88,92,84的中位数时,先排序:80,81,84,85,88,90,92,93,再求(N+1)/2=4.5,这说明中位数的位置在第四个和第五个数的中间,即(85+88)/2=86.5。,(二)分组数据中位数的计算方法对分组数据常将N/2位
5、置对应的数据看成中位数。,计算公式为:,计算步骤:(1)求N/2;(2)确定中位数所在组,由下向上累积次数,直到大于或等于N/2一组为止,该组就是中位数所在组;(3)求出中位数所在组的精确下限;(4)求出中位数所在组以下的累积次数Fb;(5)确定组距及中位数所在组的次数f;(6)将以上各值代入公式中。,表 某班50人外语成绩次数分布表,解:(1)N/2=50/2=25; (2)由下向上累积次数,75-79组对应的累积次数为22,80-84组对应的累积次数为37,故中位数在80-84组; (3)Lb=79.5; (4)Fb=2+4+3+5+8=22; (5)i=5,f=15;6)将上述值代入(3
6、.4),得 Mdn=79.5+(25-22)/15*5=80.5,求表的中位数。,四、 几何平均数,(一)、几何平均数的概念及应用时机概念:它是N个数值连乘积的N次方根,用符号MG表示,(3.5),应用时机:1、求一组等比或近似等比数据的平均数时。2、一组数据中,有少数偏大或偏小的数据,数据分布呈现偏态,求平均数时。3、在教育上,主要应用几何平均数求平均发展速度或对某项目标进行预测估计。,(二)、几何平均数的计算方法1、直接公式法例 求2,8,32,125,502的几何平均数。解:由于这组数属于近似等比数列,故应用公式(3.5),得,=31.72,例 已知某校四年中各年度的学生人数分别为上一年
7、的1.12倍,1.09倍,1.08倍和1.06倍,求每年的平均增长率。,解:先求出平均发展速度,然后用公式:平均增长率=平均发展速度-1,求出年平均增长率。,平均增长率=1.09-1=0.09 故所求的年平均增长率为9%。,2、只用首末项求几何平均数设a0,a1,aN是N个年度中各年度某种数量值,其中a0是初期量, aN是末期量。X1,X2,XN为各年度发展速度,即,(3.6),例 某重点高中1994-1999年招收新生人数如下表,求年平均增长率。,表3-2 某高中招生人数统计表,解:由于a0=594,aN=700,N=5, 所以年平均发展速度为,故年平均增长率为(10.3-1)*100%=3
8、%,例 某校办工厂在1984年创产值10万元,该厂计划以年平均增长率为5%的速度递增,试估计到2004年该厂可创产值多少万元。,解:由,得:aN=a0(1+平均增长率)N=10(1+0.05)20=26.53(万元),平均增长率=平均发展速度-1,第二节 差异量数,一、 标准差 二 、 四分差 三 差异系数,目录,一、 标准差,(一)、标准差的概念及适用条件概念:标准差是一组数据中每个数据与其算术平均数之差的平方的算术平均数的算术平方根。用符号表示。,其中Xi为原始数据;N为数据个数; 为一组数据的算术平均数。,(3.1),适用条件:1、一组数据的一般水平适合用算术平均数描述时,其离散程度宜用
9、标准差描述。2、计算其它统计量时,如相关系数等,要用到标准差。3、在推断统计中,尤其是进行方差分析时,常用方差(标准差的平方)表示数据的离散程度。,(二)、标准差的计算方法1、基本公式法例1 某校四年级举行数学竞赛,一班、二班分别派九名选手参加,如下表。试比较两个班的成绩。,表1 一班成绩统计表,表2 二班成绩统计表,解:先求四年一班的平均数和标准差。算得,再求四年一班的平均数和标准差。得,从以上计算可知,两班平均数都是73分,说明两班的平均水平相同。但它们的标准差不同,说明两班成绩的差异程度很不相同。一班的差异程度较小,平均分数73的代表性就较大;二班的差异程度较大,平均分数73的代表性就小
10、些。,2、原始数据法为了减少计算量,可将公式3.1进行转换,使公式中参与运算的变量皆为原始数据。公式为,例2 用原始数据法计算表1的标准差,解:X=657,X2=49747N=9,代入公式(4.2)得,(3.2),(二)分组资料标准差的计算方法这里的分组资料指编制成次数分布的资料,此时以组中值作为各组的代表值。计算公式为,其中:Xc为各级组中值; 为算术平均数;N为总次数;f为各组次数。,(3.3),或,例3 某年级144名学生语文成绩如下表,求其标准差。,表3-3 144名学生语文成绩表,解:将算得的f(Xc- )2=3483.16、及N=144代入公式(3.3),得,二|、 四分差,(一)
11、、四分差的概念及适用条件概念:四分差又称四分位距,用符号Q来表示。四分差是指在一个次数分布中,中间50%的次数的全距之半,也就是第3四分位数Q3与第1四分位数Q1之差的一半。所谓第3四分位数是指在这一点的下端有占总次数75%的数据,在其上端有占总次数25%的数据;所谓第1四分位数中指在这一点的下端有占总次数25%的数据,在其上端有占总次数75%的数据。如图4-1。,图3-1 四分差与四分位数Q1、Q2、Q3之间的关系,适用条件:通常与中位数配合使用。即一组数据的集中趋势宜用中位数描述时,差异情况要用四分差描述。1、一组数据有极端值出现时。2、一组数据的两端有个别数据模糊不清或分组资料有一确定组
12、限时。,(二)、四分差的计算方法公式为,式中:Q为四分差;Q1为第1四分位数;Q3为第3四分位数。,(3.6),1、未分组资料Q1和Q3的求法首先将一组数据按大小顺序排列,然后用数据个数N除以4,则第(N/4+1/2)位置对应的数据为第1四分位数Q1,第(3N/4+1/2)位置对应的数据为第3四分位数Q3。,例6 求下列18个数据的四分差:51,60,58,63,74,88,66,70,71,75,81,86,52,57,61,65,90,77。解:按从小到大排序:,51,52,57,58,60,61,63,65,66,70,71,74,75,77,81,86,88,90。由于N=18,所以Q
13、1=18/4+1/2=5,即第5个位置所对应的数据为60;Q3=18*3/4+1/2=14,即第14个位置所对应的数据为77。将Q1与Q3代入公式3.6,得Q=(77-60)/2=8.5,2、分组资料Q1和3的求法对于已编制成次数分布的资料,计算Q1和Q3的公式分别为,(3.7),(3.8),例7 某校144名学生的外语成绩次数如下,求其四分差。,表3-5 某校144名学生外语成绩次数分布表,解:首先确定Q1和Q3所在组,方法同确定中位数。由于N=144,N/4=36,3N/4=108,所以Q1在55-59组,Q3在70-74组。,最后将求得的Q1和Q3代入公式(3.6),得,即144名学生外
14、语成绩的四分差为7.27分。,三、差异系数,(一)、差异系数的概念及应用时机概念:差异系数是一组数据的标准差与平均数的比率,又称相对标准差,用符号CV表示。公式为,(3.9),CV属于相对差异量数,不具有测量单位。差异系数越大,表时离散程度越大;差异系数越小,表明离散程度越小。应用时机:1、比较单位不同的各组数据的离散程度时。2、比较单位相同但平均数相差较大的各组数据的离散程度时。,(二)、差异系数的计算方法,例8 某校初三学生身高的平均数为160cm,标准差为16cm;体重的平均数为50kg;标准差为7.7kg,试比较身高和体重两组数据的离散程度。,解:由于身高和体重的测量单位不同,故不能以
15、身高的标准差与体重的标准差进行比较,而应比较它们的差异系数,把数据代和公式(3.9)得,由于CV体重CV身高,所以体重的差异程度大于身高的差异程度。,例9 某班数学期末考试结果,男生平均数为95分,标准差为10分;女生平均数为80分,标准差为11分。试比较男女生数学成绩的离散程度。,解:虽然男女生数学成绩的单位相同,但由于其平均数相差较大,故用差异系数比较其离散程度,代入公式得,因CV女CV男,所以女生成绩的离散程度大于男生成绩的离散程度。,通常,一组数据的平均数较大,其标准差也较大;平均数较小,其标准差也较小。因此,比较单位相同但平均数相差较大的两组数据的离散程度时,若直接用标准差比较可能是
16、不准确的。,第三节 相对地位量数,一、标准分数(一)标准分数的概念标准分数是原始数据与算术平均数之差除以标准差所得之商,用符号Z表示,计算公式为,(4.10),从公式可以看出,标准分数可以为正、负或零值。它的含义是以平均数为标准,以标准差为单位表示一个数据在团体中的相对位置。标准分数为1,表明原始数据在平均数以上一个标准差的位置;标准分数为-2,表明原始数据在平均数以下2个标准差的位置。,(二)标准分数的性质当一组数据的每个数值都转化为标准分数后,则标准分数的平均数为零,标准差为1,即,(三)标准分数的应用由于标准分数的平均数为0,标准差为1,而且不带有测量单位,当一组数据服从正态分布时,其标
17、准分数服从标准正态分布。因此标准分数具有可比性和可加性。在教育上,常用它确定各分数在团体中的相对位置,比较单位不同数据相对位置的高低或进行分数合成。,例10 某班外语期末考试的平均成绩为75分,标准差为10。学生张华的成绩为80,问他的成绩在班级处于什么位置?,解:张华的80分不能确定人成绩的确切位置。化成标准分数才可确定。,说明张华的外语成绩在班级平均数以上0.5个标准差位置。,例11 某市中考,数学的平均成绩为102分,标准差为20,;语文的平均成绩为98分,标准差为18分。一考生的数学成绩为140分,语文成绩为135分。问该生中考哪科考得好?,解:由于考试科目和难度等不同,语文的1分与数
18、学的1分并不相同,若比较两科成绩的高低,须转化成标准分数。分别为,例12 某班期末考试各科成绩服从正态分布,各科成绩的平均数和标准差以及甲乙两生的各科成绩如下表。试比较甲乙两考生总成绩的高底。,解:比较两考生总成绩高低的传统方法是直接将原始分数相加,按每个考生的原始总分进行比较。事实上,这种方法并不科学,因为各科成绩的离散程度不同,不具有可加性。正确做法是将原始成绩转化成标准分数,再求和比较。乙生标准分数总和大于甲生,故乙生总成绩高于甲生。,二、百分等级(一)百分等级的概念百分等级是指一组有序数据中某一数据以下所含次数占总次数的百分比,通常用符号PR表示。在教育上,常用百分等级表示一个分数在团
19、体中的相对位置。百分等级越低,个体在团体中所处的地位越差。如果某分数的百分等级PR=70,则表明团体中有70%的人的成绩低于该分数。,(二)百分等级的计算对于未分组资料,计算百分等级的公式为,(4.11),例13 15名学生的考试分数为:98,93,62,92,91,92,65,66,90,87,78,86,81,85,83,求90分学生的百分等级是多少?,首先将原始分数按大小顺序排列,并求出90分对应的等级R。大小顺序为:98,93,92,92,91,90,87,86,85,83,81,78,66,65,62,所以90分对应的等级为6,即R=6。N=15,将N,R代入(4.11),得,即有60%的考生成绩在90分以下。,对于分组资料,计算百分等级的公式为,(4.12),例14 196名学生外语考试成绩的次数分布表如下。某考生分数为83,求其百分比等级是多少?,表4-7 196名学生外语成绩次数分布表,解:因83属于80-84组,所以有f=14,Fb=166,Lb=79,i=5,N=196。,将上述数值代入公式(4.12),得,即该生成绩的百分等级为90,表明团体中有90%的学生成绩低于他的成绩。,