1、常用统计量数,授课教师:禤宇明,本章内容,描述统计 统计量数:定义、性质、用法 集中量数 众数、中数、算术平均数、加权平均数、几何平均数 差异量数 全距、平均差、方差、标准差、差异系数 地位量数 百分位数、十分位数、四分位数、中(位)数,1. 描述统计 descriptive statistics,描述统计 对数据特征的描述 数据的两个主要特征 中心位置 离散性,2. 集中量数,集中量数 对数据的集中趋势的度量 确定一组数据的代表值,2.1 常用集中量数,众数mode 中数median 算术平均数 mean 加权平均数 weighted mean 几何平均数 geometric mean 调和
2、平均数 harmonic mean,问题,某部门有5名一般职员和1名经理。一般职员的薪水是3000元,而经理的薪水是10000元,请问该部门收入的平均水平是多少?,2.1.1 众数(Mode,Mo),众数:一组数据中出现次数最多的数 如2、3、5、3、4、3、6的众数为3 卡尔皮尔逊 1894 如果次数分布最多的有两个数,而且两个数是相邻的,那么一般取两者的平均值作为众数;如果这两个数不相邻,那么一般需要报告两个众数,而且认为该组数据是bimodal双峰分布的 计算众数的皮尔逊经验法 Mo3Mdn2M,众数的用途,快速粗略寻求一组数据的代表值 做不同质数据的代表值,如工资 次数分布中有两极端的
3、数目(一般用中数,有时用众数) 用平均数和众数之差作为次数分布是否偏态的指标,众数与从众,买东西,2.1.2 中数(Median,Md或Mdn),中数:一组数据中按从小到大排序后,处于中间位置上的变量值 1883 高尔顿 将全部数据排序后,如果项数是奇数,则正中央的那一项即为中位数 例:4、7、8、9、10、11、12、13、14 Mdn10 如果项数是偶数,则正中央的那两项的平均值即为中位数 例: 2、3、5、7、8、10、15、19 Mdn(78)/27.5,思考题,某病患者的潜伏期如下,求中数 2,3,3,3,4,5,6,9,16 若增加1例患者,其潜伏期为30天,求中数求15,35,2
4、5,5的中数,中数的应用,不易受极端值的影响 当数据呈明显偏态时,中数较均数或几何均数合理,2.1.3 平均数(Mean) 2.1.3.1 平均数的定义,又叫均数、算术平均数,缩写M, 设一组数据为x1,x2,xn,10名健康人的 白细胞总数(109个/L) 5.50, 7.00, 8.20, 4.80, 6.70, 5.75, 6.10, 9.30, 7.60, 7.15,练习,2.1.3.2 平均数的特点,一组数据的每一个数与平均数的差(离均差)的总和等于零 一组数据的每一个数加上常数C,其平均数为原来的平均数加常数C 一组数据的每一个数乘以常数C,其平均数为原来的平均数乘常数C 一组数据
5、的每一个数与常数C的差的平方和不小于该组数据的每一个数与平均数的差的平方和,2.1.3.3 算术平均数的优点和缺点,优点 反应灵敏 确定严密 简明易解 计算简单 符合代数方法进一步演算 较少受抽样变动的影响 缺点 易受极端值的影响 若出现模糊不清的数据时无法计算,2.1.3.4 算术平均数的适用条件,数据必须是同质的 如:如果身高均数在性别上有差异,那么不分性别地求某一年龄组的身高均数时没有实际意义的 数据取值必须明确 适用于呈正态分布的数据 数据离散不能太大,2.1.3.5 思考题,你们念统计的常以算术平均数来代表总体 (population),那么你们一手泡在沸水中,另一手浸在冰水中,一定
6、会感到很舒服,因为你们的平均感受是正常体温。 请举例说明什么情况下我们会对估计总体的平均数感兴趣。,2.1.4 加权平均数(Weighted mean),用于分组数据,2.1.5 几何平均数(Geometric mean),数据分布近似正态分布,但呈偏态 传染病的潜伏期 心理物理学的等距与等比量表实验,呈(近似)等比数列变化的数据,即变量值呈倍数关系或近似倍数关系的数据 用于计算平均发展速度、平均增长率、学习记忆的平均进步率、学校经费平均增加率、平均人口出生率等等 血清中抗体滴度、血清凝集效价,例:某学生背单词 周次 1 2 3 4 5 记住单词 20 23 26 30 34 求该生记忆单词的
7、平均进步率,2.1.6 调和平均数 (harmonic mean),即倒数平均数的倒数,用于求平均速度,例 被试号 1 2 3 4 5 6 完成题数 10 10 10 10 10 10 时间(小时) 0.8 1.0 1.2 1.5 2.5 5.0,2.2 平均数、中数和众数的关系,在一个正态分布中,三者相等 在正偏态分布中,M Md Mo 在负偏态分布中,M Md Mo 一般偏态情况下,Md离M较近,而离Mo较远, 皮尔逊经验关系:,平均数:支点两端的力矩相等 中数:两侧数据个数相同 众数:出现次数最多,2.3 集中量数的适用数据,类别数据 顺序数据 等距数据 比例数据 *众数 *中数 *均数
8、 *均数四分位 众数 调和平均数众数 中数 几何平均数四分位数 中数四分位数众数*表示该数据类型最适合用的量数,思考题,不做运算比较下面两个数列的平均数 10, 7, 8,3, 5, 9 10, 7, 8,3, 5, 9, 11,3. 差异量数,又叫离中量数,是表示数据分散程度的统计量,反映的是各变量值远离其中心值的程度 表示数据离中趋势的量数有 全距 平均差 方差 标准差 差异系数,3.1 全距(range),也称极差,是一组数据的最大值与最小值之差。 R=max(Xi)-min(Xi),3.2 平均差(Average deviation),Mean absolute deviation 各
9、变量值与均值之差的绝对值的平均数 不利于代数运算,3.3方差和标准差 3.3.1 定义,3.3.2 方差和标准差的变式,3.3.3样本方差与总体方差的区别,在计算上,总体方差是用数据个数或总次数去除离差平方和,而样本方差则用样本数据个数或总次数减一去除离差平方和 样本方差是统计量,用S2表示;总体方差是总体参数,用2表示 当n很大时, S2与2相差很小,前者是后者的无偏估计,3.3.4 标准差的性质,一组数据的每一个数据都加常数C后标准差不变 一组数据的每一个数据都乘常数C后标准差变为原来的C倍,3.3.5方差与标准差的优点,方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中。具有以下优点: (1)反应灵敏。 (2)由计算公式严格确定; (3)容易计算; (4)适合代数运算; (5)受抽样变动的影响小,既不同样本的标准差或方差比较稳定; (6)简单明了; (7)具有可加性。可以把总变异分解为不同来源的变异。 (8)各变量值对均值的方差小于对任意数的方差。,标准差的应用,表示数据的离散程度 标准差越大越离散 结合均数描述正态分布特征 根据正态分布原理求正常值范围,3.3.6由各小组的标准差、方差求 总标准差、方差,P 45,