1、,在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有:,1. 算术平均数 2. 中位数(M)4. 几何平均数(Mg)3. 众数(Mo) 5. 调和平均数(H),3.1 平均数:,第三章 平均数、标准差 与变异系数,作为一个资料的代表,指资料中各变数集中 较多的中心位置,用来与另一资料相比较。不同的平均数适合于不同的数据资料。,例如:不同国家、地区、种族之间身高、体重等的比较;不同品种的家畜、家禽之间生产性能的比较,集中趋势的度量,平均数的意义,3.1.1 算术平均数,一、定义一组资料中,所有观测值的总和除以其个数所得到的商,称为算术平均数,简称平均数或均数
2、。 是最常用的一种集中趋势度量指标。样本的平均数记为 总体平均数记为,集中趋势的度量,:第i个观察值或变数n:观察值或变数的个数:求和符号(sigma),二、计算公式:,集中趋势的度量,(一)离均差之和为零:一个样本观察值与平均数之差简称离均差。,(xi- ) =(x1- )+(x2- )+(xn- ) = x1+x2+xn+n = xi- nxi/n = 0,三、算术平均数的性质,集中趋势的度量,(二)离均差平方和最小:一个样本的各个观察值与平均数之差的平方和比各个观察值与任意其他数之差的平方和小。,所以:平均数是与各个观察值最接近的数值。平均数代表这个样本的集中趋势。,集中趋势的度量,三、
3、算术平均数的性质,样本平均数常作为检验对象的原因,1、离均差的平方和( - )2最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值,即E( )=。 3、根据统计学中心极限定理,样本平均数服从或逼近正态分布。,定义:将n个观察值从小到大依次排队,位于中间的那个观察值称为中位数。,3.1.2 中位数(Md),集中趋势的度量,对于频数分布的资料,公式如下:,Lmd:中位数所在组的组下限;fm:中位数所在组的频数;C:从第一组到中位数所在组前一组的累计频数n:样本含量; i:组距;,集中趋势的度量,3.1.2 中位数(Md),定义:n个非负数的乘
4、积开n次方的根称为几何平均数,用 G 表示。,3.1.3 几何平均数,集中趋势的度量,为了计算方便,各变数先取对数,再相加除以n,即为logG,再求其反对数,即为G值。,集中趋势的度量,3.1.3 几何平均数,几何平均数用于以百分率、比例表示的数据资料,如:增长率、利率、药物效价、抗体滴度等。能够消弱数据中个别过分偏大值的影响。,定义:在资料中某一个变数出现次数最多,就称之为众数。 1. 离散性资料:出现频数最多的数。 2. 连续性资料:频数分布表中,频数出现最多的一组的组中值。,!有的资料可出现多个众数,即多个数具有相同的最高频数;有的资料没有众数,即所有数出现的频数都相同。,集中趋势的度量
5、,3.1.4 众数,定义:各观察值倒数的算术平均数的倒数,3.1.5 调和平均数,集中趋势的度量,适用于极端右偏态,3.1.5 调和平均数,集中趋势的度量,例:用某药物救治12只中毒的小鼠,它们的存活天数记录如下:8、8、8、10、10、7、13、10、9、14,另有两只一直未死亡,求平均存活天数。,由于数据极端右偏态,用调和平均数较为合理。,1,15,2.2.3 百分位数(百分位点),指将一组 n 个数据由小到大排列,如果小于 某数值的数据个数为全体数据个数的x%,则称该数为第 x 百分位数或 x% 分位数。25%分位数或下四分位数:0.25n个数的后一个数。50%分位数或中位数:0. 5n
6、个数的后一个数。75%分位数或上四分位数:0.75n个数的后一个数。,适用于非参数检验,如卡方检验。,4、几何平均数和调和平均数适用于右偏态分布。,集中趋势的度量,3、中位数,平均数的代表程度与样本的变异程度有关一个样本内有很多的变数,用平均数作为样本的代表,其代表程度决定于样本内各个变数的变异程度。,3.2标准差,离散趋势的度量,即使两个样本的平均数相同,但是样本内变数的变异程度不一定相同。,离散趋势的度量,3.2标准差,1.如果各个变数相同或者变异程度比较小,则平 均数能够代表整个样本。 2.如果各个变数的变异程度比较大,则平均数的代表性就小。,离散趋势的度量,3.2标准差,定义:全部变数
7、的最大值与最小值之差R= Max(x) -Min(x),3.2 范围(全距),范围或全距可以反映变异程度的一部分,但是不能代表样本内各变数之间的变异程度。目前,被广泛使用的是以标准差来度量变异程度。,离散趋势的度量,如果一个样本有n个观察值 x1,x2 xn,设其算术平均数为 ,则该样本的标准差为:,标准差考虑了每个变数与平均数的离差。 每个变数与平均数相差愈小,样本变异程度愈小,反之,愈大。 因此,标准差是离散程度的度量,3.2.1 标准差的定义,离散趋势的度量,1.离均差=(x- ) 2.离均差之和= (x- )=0 3.离均差平方和 SS= (x- )2,离散趋势的度量,3.2.2 标准
8、差公式的来源,3.2.3 样本方差和样本标准差,离散趋势的度量,总体是未知的,用样本标准差估计和推断总体标准差,离散趋势的度量,3.2.4 总体方差和样本标准差,如果一个样本含有n个变数,从理论上讲,n个变数都同样用以计算标准差,n个变数与平均数相减有n个离均差。表面上虽有n个比较,但实质上仅有n-1个可以自由变动,最后一个离均差受到离均差之和这个条件的限制,所以不能自由。,3.2.5 自由度:df,n-1,例如:有3个变数,平均数等于5。问着三个变数可能是多少?,离散趋势的度量,3.2.5 自由度:,(4、5、6)(2、4、9)(3、5、7) 他们的共同特点:前两个数可以自由选择,为了使平均
9、数等于5,第三个数不用选就确定了。这时(31)2就是所谓自由度。,自由度: 消除限制性因数后,所剩余的独立变数的个数,用df表示。,三、方差和标准差的计算公式,离散趋势的度量,1. 直接法,2. 加权法,3.2.6 标准差的性质,标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。 在计算标准差时,在各观测值加上或减去一个常数,其数值不变。 当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。,3.2.6 标准差的性质,在资料服从正态分布的条件下: 平均数左右一倍标准差( S)范围:约有68.26%的观测值; 平均数左右两倍标准差( 2S)范围:约有95.43%的观测值在 平均数左右三倍标准差( 3S)范围:约有99.73%的观测值 也就是说全距近似地等于6倍标准差,可用( )来粗略估计标准差。,3.3 变异系数(C.V), 用于比较度量单位不同以及不同时期的资料。,离散趋势的度量,标准差与平均数的比值称为变异系数,