1、当得到集中量数之后,我们就可以知道整组数据的平均结果,可以知道每一个数据和其它数据的比较结果。但是我们还无法了解数据相互之间的差别到底是大还是小,也就是不知道这些数据的分布或离散的程度。因此我们还需要描述数据离中趋势的统计量数。,第九章 离中趋势的度量,第一节 差异量数 第二节 方差和标准差,第一节 其它差异量数,一、全距 全距(range):一组数列中最大和最小数值之间的差。 R=XH-XL 其中XH为最大数值, XL为最小数值。,二、平均差,平均差(mean deviation,MD):各个数据与平均数差数的绝对值的平均数,称为平均差。 MD=|X-Xm|/n平均差使用绝对值,没有正负,所
2、以不便于在统计中运用。,第二节 方差和标准差,一、方差和标准差 1、方差 方差(variance, 2, S2 ):各数据与平均数差数的平方和的平均值称为方差,也称为变异数。 因此,方差的定义公式为:2= (X-)2/nS2= (X-Xm)2/n,2、标准差 计算方差时使用了平方,也就是夸大了数据和平均数的距离,因此需要将方差开方以还原其本来的差异,这就是标准差。即:标准差(standard deviation,S)是方差的平方根。标准差的定义公式:= 2=(X)2/n S= S2=(XXm)2/n,3、方差的估计值 总体的参数可以用样本的统计量来加以估计,但是用一个样本的统计量来估计它所属总
3、体的参数,可能容易发生错误。但是,如果我们用一个包含有无限多个元素的样本的统计量来估计总体的参数就不容易造成错误,这个统计量就被称为是总体参数的无偏估计值(unbiased estimate)。,如果从总体中随机抽取一个样本,样本包含有无限多个个体,则计算样本平均数的公式为: Xm= X/n 这就是总体平均数的无偏估计值。这样我们就可以将下列公式中的用Xm替代,作为样本估计总体方差的无偏估计值。 2= (X-)2/n 2=S2= (X-Xm)2/n,但是,统计学家发现用这样的公式求出来的方差低估了总体的变异,因此使用(X-Xm)2/n来估计总体的方差时,分母的n必须改为(n-1)才不会低估总体
4、的方差,这里(n-1)就叫做样本的自由度。,(1)自由度,自由度(degree of freedom, df)是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数称为该统计量的自由度。 例如,在估计总体的平均数时,样本中的n个数全部加起来,其中任何一个数都和其他数据相独立,从其中抽出任何一个数都不影响其他数据(这也是随机抽样所要求的)。因此一组数据中每一个数据都是独立的,所以自由度就是估计总体参数时独立数据的数目,而平均数是根据n个独立数据来估计的,因此自由度为n。,但是为什么用样本估计总体的方差时,方差的自由度就是(n-1)? 2= (X-)2/n 从此公式我们可以看出
5、总体的方差是由各数据与总体平均数的差值求出来的,因此必须将固定后才可以求总体的方差。因此,由于被固定,它就不能独立自由变化,也就是方差受到总体平均数的限制,少了一个自由变化的机会,因此要从n里减掉一个。,那为什么平均数被固定后会限制数据的自由变化?,假设一个样本有两个数值,X1=10,X2=20,我们现在要用这个样本估计总体的方差,则样本的平均数是: Xm= X/n=(10+20)/2=15 现在假设我们已知Xm=15,X1=10,根据公式Xm= X/n,则有: X2=2Xm-X1=215-10=20 由此我们可以知道在有两个数据样本中,当平均数的值和其中一个数据的值已知时,另一个数据的值就不
6、能自由变化了,因此这个样本的自由度就减少一个,变成了(n-1)。依此类推:在一组数据中,当其平均数和前面的数据都已知时,最后一个数据就被固定而不能独立变化了,因此这个样本能够独立自由变化的数目就是(n-1)个.,(2)方差的估计值 根据以上的讨论,总体方差的无偏估计值为: S2= (X-Xm)2/(n-1),(3)标准差的估计值 由上述公式可以进一步推导出以样本标准差估计总体标准差的公式为: S= (X-Xm)2/(n-1),二、方差和标准差的计算公式,前面提供的方差和标准差公式都是根据统计的数学定义列出的,因此称为定义公式(defining formulas)。 这类公式在计算时比较繁琐,为
7、计算的方便,由定义公式进一步推导出总体方差和标准差的计算公式: 2=(X2-(X)2/n)/n =(X2-(X)2/n)/n 以样本方差和标准差估计总体方差和标准差的公式为: S2=(X2-(X)2/n)/(n-1) S=(X2-(X)2/n)/(n-1),表:方差与标准差的公式摘要,由表可以看出计算方差和标准差的两对公式所算出来的结果是不同的,在实际中应如何运用要根据是要计算总体的参数还是样本的统计量。如果要计算样本的统计量则用S2和S的公式。如果样本数据已经涵盖整个总体,也就是要计算总体的参数时,则用2和的计算公式。,三、方差和标准差的计算,下面的计算中只讨论对一组数据的描述,尚不涉及由样
8、本统计量估计总体参数的情况,因此在这里这一组数据就是涵盖了整个总体,因此计算公式要采用总体的计算公式。在这里我们不讨论总体和样本的关系问题,因此方差和标准差的符号用S2和S。,1、未分组数据求方差和标准差,S2= (X-Xm)2/n S= S2=(XXm)2/n 或者 S2=(X2-(X)2/n)/n S=(X2-(X)2/n)/n,例:,2、已分组数据求方差和标准差,S2= (fd2/N-(fd/N)2)i2 S= (fd2/N-(fd/N)2)i其中:d=(Xc-AM)/i, (Xc-为各分组区间的组中值,f为各分组区间的次数,AM为估计平均数,N=f,I为组距。,表2:50名高中学生数学
9、成绩次数分布表,四、方差和标准差的意义,方差和标准差时表示一组数据离散程度的最好指标,是最常用的差异量数。其特点有: 1、反应灵敏,每个数据变化都应在方差上体现; 2、计算严密; 3、容易计算; 4、适合代数运算; 5、受抽样变动影响小; 6、简单明了; 7、容易受极端数据影响。,四、标准差的应用,1、差异系数 同一特质使用同一种测量工具得到的不同样本之间的离散度的比较可以通过直接比较标准差实现。 不同特质样本之间的离散度比较可以通过比较差异系数(coefficient of variation, CV)来实现,差异系数大的则离散程度大。 差异系数的公式为:CV=S/M100% 其中: S为样
10、本标准差,M为样本平均数。,2、标准分数,(1)定义 标准分数(standard score)又称为Z分数,是以标准差为单位表示一个数在团体中所处位置的相对位置量数。 计算公式为: Z=(X-Xm)/S 其中: X代表原始数据,Xm平均数,S为标准差。Z分数表示其原分数在该组数据分布中,以平均数为中心时的相对位置。,(2)Z分数的性质,一组数据中所有由原分数转换得出的Z分数的和为零,平均数也为零。 一组数据中各Z分数的标准差为1。,(3)Z分数的应用,可用于比较分数性质不同的观测值在各自数据分布中的相对位置高低。 例如:一个20岁的大学生智力测验中作对了35个题目,一个6岁的儿童作对了9个题目,谁更聪明? 当已知各不同质的观测值的次数分布为正态分布时,可用Z分数求不同观测值的总和或均值,以表示在团体中的相对位置。,表:利用Z分数求总和,3、异常值的取舍,三个标准差的法则,作业一:计算全距、平均差、方差和标准差,作业二:计算下列次数分布表的方差和标准差,表1,表2,