1、复习,(1)已知未分组数据计算百分位数,百分位数位置,该数值,当分位数的位置不在某一个数值上时,则按比 例计算,例如: x %百分位数位置=30.25,第30个数值+0.25(第31个数值-第30个数值),当分位数的位置在某一个数值上时,则,(2)已知频数表计算百分位数,所在组段的下限值 +,主要内容,一、极差 二、四分位数间距 三、方差 四、变异系数,常用统计指标:极差、四分位数间距、方差、标准差和变异系数。,-描述离散趋势的特征数,例1 设甲、乙、丙三人,采每人的耳垂血,然后红 细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,120 40 20,一、极差(Range) (
2、全距),极差也称为全距,用R表示,即一组资料中, 最大值与最小值之差。,1、极差的定义,2、极差的计算,例2 对例1中甲、乙、丙三人红细胞计数变异分析。,4、应用,1)常用于比较计量单位相同的数据,全距越 大,观测值的离散程度越大。,2)只利用了最大、最小值,所以不能反映组内 其它数据的变异度。,1)计算简单易于理解,但易受极端值影响;,3、极差的特点,3)不能准确描述出数据的分散程度。,2)适用于计量资料的对称分布。,二、四分位数间距(quartile range ),1、定义,2、计算,统计学上把分位数P25、P50 和P75统称为四分 位数。P25称为下四分位数,用QL表示, P75称为
3、 上四分位数,用QU 表示 。,四分位数间距也称四分位差,用Q表示,它是 上四分位数与下四分位数之差。,例3 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求四分位数间距。,患 者,住院天数,1 2 28 29 30 31 89 90 91 ,解,例4 某市大气中SO2的日平均浓度见表2.5,求四分位差。,解,1)反映了中间50%数据的离散程度,其数值越小, 说明中间的数据越集中,其数值越大,说明中间的 数据越分散。,2) 特别适用于偏态分布的资料;同类资料比较,Q越 大意味着数据间变异越大。,2)不受极端值影响,与极差相比较稳定。,3、四分位差的特点,4、
4、应用,1)主要用于等级分组资料,也适用于计量资料, 但不适用于计数资料。,三、方差(variance),(一)平均偏差,平均偏差也称平均离差,它是各变量值与其均值离差绝对值的平均数。,未分组数据计算平均差公式为:,平均偏差,1、定义,2、计算,分组数据计算平均差公式为:,其中 为组中值和组频数。,平均偏差,例5 对甲乙2名高血压患者连续观察5天,测得的收缩压分别为:,甲患者mmHg,162 145 178 142 186,解,乙患者mmHg,164 160 163 159 166,甲患者平均偏差,乙患者平均偏差,例6 已知120名正常成年男子的血清铁含量的频数 分布表,求其平均偏差。,组中值(
5、x),f x,7 9 11 13 15 17 19 21 23 25 27 29,7 27 66 104 180 340 513 378 276 200 108 29,2228(f X),解,平均偏差,1)平均偏差以均值为中心,反映了每个数据与平均 值的平均差异程度,它全面准确地反映了一组数据 的离散状况。,2)其值越大说明数据的离散程度就越大,反之说 明数据的离散程度越小。,3、特点,4、应用,适用于全部计量资料。,(二)离均差平方和,一般计算公式:,它是各变量值与其均值离差的平方和,用SS表示。,(三)方差,它是各变量值与其均值离差平方的平均数。,样本方差,未分组数据计算公式为:,分组数据
6、计算公式为:,其中 为组中值和组频数。,(四)标准差(standard deviation),它是方差的平方根。,未分组数据计算公式为:,分组数据计算公式为:,样本标准差,例7 三组同龄男孩的身高如下表,试计算标准差。,解,计算甲组,计算乙组,计算丙组,120名成年男子血清铁含量标准差计算表,合计 120(f) 2228(f x) 43640(f x2),68 1012141618202224262830,组段 频数(f)(1) (2),1 3 6 8 12 20 27 12 10 8 4 1,7 27 66 104 180 340 513 378 276 200 108 29,7 9 11
7、13 15 17 19 21 23 25 27 29,49 243 726 1352 2700 5780 9747 7938 6348 5000 2916 841,例8 利用下表,试计算120名成年男子血清铁含量标准差。,组中值(x) f x f x2(3) (4)=(2)(3) (5)=(3)(4),方差、标准差的特点:,(1) 是常用的离散趋势指标,可用来表示数据变 异程度,当两组数据单位相同,均数接近,可用来 比较数据的变异程度。,(2)其值越小,说明数据变异程度越小,数据值与 平均数越接近;反之,其值越大,说明数据变异程 度越大,均数代表性越差。,4、应用,适用于全部计量资料。,标准差
8、的应用: 1) 表示变量分布的离散程度。 2) 结合均数计算变异系数。 3) 结合样本含量计算标准误。 4)结合均数描述正态分布特征。,四、 变异系数(coefficient of variation),也称离散系数,它是一组数据的标准差与其相应的均值之比,用CV表示。,公式为:,应用:,1) 比较度量衡单位不同的多组资料的变异度。,2) 比较均数相差悬殊的几组资料的变异度。,例9 1985年通过10省调查得知,农村刚满周岁的女 童体重均数为8.42kg ,标准差为0.98kg ;身高均 数为72.4cm,标准差为3.0cm,试比较二者变异度。,CV=3.0/72.4100%=4.14%,解:
9、,体重,CV=0.98/8.42100%=11.64%,身高,例10 某地不同年龄段男子身高的变异度,3.23,2.35,变异指标小结,1极差简单易求,;计量单位与原变量计量单位 相同;对离群值敏感;与样本容量有关。,2分位数间距也简单易求;计量单位与原变量计 量单位相同;对离群值的敏感远远低于极差;受样 本的影响较小。,3方差 它优于极差和四分位间距;但计量单位是 原变量计量单位的平方;使用不方便。,变异指标小结,4标准差 是方差的算术平方根,具有方差的所 有优点,计量单位与原变量计量单位相同,是描 述离散程度最常用的指标。,1、标准差是最常用的变异指标,适合于对称分布资料特别是正态分布资料
10、。,应用:,2、四分位间距适合于任意分布资料,尤其适用于大样本偏态分布资料。,3、变异系数主要用于比较几个量纲不同的变量之间的离散程度差异,也可以比较量纲相同但均数相差悬殊的几个变量之间的离散程度。,应用:,五、描述分布形态的特征数,1、偏度系数(coefficient of skewness,),理论上,总体偏度系数为0时,分布是对称分布;取正值时,分布为正偏峰;取负值时,分布为负偏峰。,测定分布的偏度,1.偏度系数,SK=0,SK0,SK0,(对称分布),正偏态分布(右),负偏态分布(左),2、峰度系数(coefficient of kurtosis,KURT),理论上,正态分布的总体峰度
11、系数为0; 取负值时,其分布较正态分布的峰平阔; 取正值时,其分布较正态分布的峰尖峭。,1极差较粗,适合于任何分布 2标准差与均数的单位相同,最常用,适合于对称分布近似正态分布 3变异系数主要用于单位不同或均数相差悬殊的几组资料 4平均指标和变异指标分别反映资料的不同特征,常配套使用。 如 正态分布:均数、标准差;偏态分布:中位数、四分位间距,小结:,算数均数和中位数相比,算术均数( )。 A.抽样误差更大 B.不易受极端值的影响 C.更充分利用数据信息 D.更适于偏态分布资料 E.更适用于分布不明确的资料 2一个变量的所有观测值同时加上一个非零常数后,( )不变。 A.算术均数 B.几何均数
12、 C.中位数 D.标准差 E.变异系数,练习题,最佳选择题,C,D,3.比较身高和体重2组数据的变异大小,宜采用( )。 A.方差 B.标准差 C.全距 D.四份位间距 E.变异系数 4变异系数的数值( )。 A.一定大于1 B.一定小于1 C.一定比标准差小 D.有时取负值 E.可以大于1,也可以小于1,E,E,5.若要通过样本作统计推断,样本应是( ) A 总体中典型的一部分 B 总体中任一部分 C 总体中随机抽取的一部分 D 总体中选取的有意义的一部分 6.统计量( ) A 是统计总体数据得到的量 B 反映总体统计特征的量 C 是用参数估计出来的 D 是由样本数据计算出的统计指标,C,D
13、,7. 反映定量变量观察数据集中位置的指标是( ) A 标准差 B 标准误 C 频率 D均数 8. 在正态分布条件下,表示变量值变异情况的指标最常用的是( ) A 标准差 B 标准误 C 变异系数 D 百分位数 9. 变异系数越大说明( ) A 标准差越大 B 标准差、平均数都大 C 以均数为准变异程度大 D 平均数小,D,A,C,10. 在服从正态分布N(,2)条件下,样本标准差S的值( ) A 与集中趋势有关 B 与观察例数n无关 C 与平均数有关 D 与个体的变异程度有关 11. 已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,12,其潜伏期的平均水平约为( ) A 9天 B 9.5天 C 10天 D 11天,D,A,作业,预习 3.2,3.3,