1、第3章 统计数据的特征描述,3.1 集中趋势的描述 描述集中趋势的几个统计量及相互关系 3.2 离散程度的描述 描述离散程度的几个统计量 3.3 分布形态的描述 描述分布形态的几个统计量,数据的特征和测度,集中趋势,离散程度,分布的形状,均值,众数,中位数,方差和标准差,全距,偏度,峰度,位置代表值,数值平均值,3.1 集中趋势的描述,集中趋势 (central tendency) 是指一组数据向某一中心值靠拢或集中的程度 用途:是为了表示社会经济现象总体各单位某一 标志在一定时间、地点和条件下达到的一般水平,经常被作为评价事物和决策的数量标准或参考。 主要测度值:平均数、众数、中位数、分位数
2、,3.1.1 平均数 平均数常用 来表示。是数据集中趋势的最主要测度值。 适用:数值型数据(不适用于分类数据和顺序数据)常用形式:,简单 平均数,加权 平均数,1算术平均数(mean) 1) 简单算术平均数 简单算术平均数就是全部数据的算术平均数。 适用:未经分组整理的原始数据资料。 计算公式:直接将各个数据相加,再除以数据个数。其计算公式为式中, 是一组样本数据的观测值,n为样本容量。,【例3.1】 某班级20名学生的期末数学成绩是67、78、49、56、98、87、62、100、73、45、70、44、96、80、49、61、60、88、93、60(分),求该班学生的数学成绩的平均数。 解
3、:由公式(3.1)该班学生的数学平均成绩是70.8分。,2) 加权算术平均数 加权算术平均数:是通过各组标志值与各组频数相乘的总和除以各组频数之和得到的。 适用:已经分组整理并编制出频数分布的数据资料。 计算公式为式中, 是单项式分组形式下第i组的变量值或组距式分组形式下第i组的组中值; 是第i组的频数;n为组数。,=0.027+0.298+1.236+0.848+0.610+0.468=3.487 即职工的平均家庭人口数是3.487人,已整理的单项式分组数据平均数算例,已整理的组距式分组数据平均数算例 根据第2章中的表2-7中的数据资料计算某单位某种 产品平均销售量的近似值。(见课本P43)
4、,算术平均数的若干数学性质 (1)平均数与总体单位数的积等于总体标志总量 (2)若每个变量值 (X )加减一任意常数,则平均数也加减这个任意值。 (3)若每个变量值 (X)乘以一任意常数,则平均数也乘以这个任意值。 (4)若每个变量值( X)除以一任意常数,则平均数也除以这个任意值。 (5)各个变量值(X)与算术平均数的离差和为零。 (6)各个变量值(X)与算术平均数的离差平方和为最小值。,2调和平均数(harmonic mean),简单调和平均数 简单调和平均数是各观测值倒数的算术平均数的倒数 适用:未经分组整理的原始数据资料 计算公式:,2) 加权调和平均数 适用:已经分组整理并编制出频数
5、分布的数据资料。 计算公式:,mi 表示第i个单位或第i组标志值对应的标志总量, 当各组标志总量相等,即m1=m2=mn= m时,即,例题见课本P44,3几何平均数(geometric mean) 适用:计算平均比率和平均速度,即用于时间上有 联系或有先后顺序关系的比率求平均。 1) 简单几何平均数 计算公式:,2) 加权几何平均数,计算公式:,例题见P46,平均值计算结果的说明,(1)根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。 (2)只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。,特点: 最常用的测度值 均值利
6、用了全体数据 易受数据中极端值的影响 用于数值型数据,而不能用于分类数据和顺序数据,数值平均值 总结,3.1.2 众数 众数(mode)是数据中出现次数最多的那个观测值,也就是是频数分布中频数或频率最大的数值,一般用M0表示。,适用:分类数据、顺序数据以及数值型数据。,1根据品质型和单项式分组数据计算众数 2根据组距式分组数据计算众数,要确定众数所在组,即众数组。 通过下面的下限公式或上限公式来计算众数。,品质数列的众数(算例),数据-分类数据 0商品广告,数据:顺序数据 M0不满意,式中 :L、U分别为众数组的下限和上限。,是众数组与其前一组的频数之差;,d 是众数组的组距。,是众数组与其后
7、一组的频数之差;,例:P49页例3.11,众数(ode) 特点: 不受极端值的影响 可能没有众数或有几个众数(不唯一性) 主要用于分类数据,也可用于顺序数据或数值型数据,3.1.3 中位数 中位数(median)是将一组数据按一定顺序排列后, 处于中间位置上的变量值,一般用Me表示。,适用:顺序数据和数值型数据,1根据未分组数据计算中位数,中位数位置=,奇数:对应中位数位置的那个数值,偶数:对应于中位数位置左右相邻的两个数值的平均值,原始数据:24,22,21,26,20个数据 排序 :20,21,22,24,26 位置 :1, 2, 3, 4, 5 位置(n+1)/2=(5+1)/2=3 e
8、22原始数据:10,5,9,12,6,8个数据 排序 :5,6,8,9,10,12 位置 :1,2,3,4, 5, 6 位置(n+1)/2=(6+1)/2=3.5 e(8+9)/2=8.5,2根据分组数据计算中位数,中位数位置=,见【例3.13】【例3.14】,对于组距式分组数据,下限公式:,上限公式:,LMe表示中位数所在组的下限;,UMe表示中位数所在组的上限;,SMe-1表示向上累计至中位数所在组前一组的频数;,SMe+1表示向下累计至中位数所在组后一组的频数;,fMe表示中位数所在组的频数;,dMe表示中位数所在组的组距;,n表示各组频数之和,注:,见P53【例3.15】,3.1.4
9、分位数,四分位数(quartile)就是一组数据排序后处于25%和 75%位置上的值,也称之为四分位点。,分位数是衡量数据位置的测定指标,1根据未分组数据计算四分位数,Qi位置,i=1时,即为下四分位数QL (Lower Quartile),i=2时,即为中位数,i=3时,即为上四分位数QU (Upper Quartile),例:第一组数据:2300、3500、2900、4500、7000、 3000、8100、3200(万元),计算两组数据的四分位数。 解:按从小到大顺序的排列结果为 2300、2900、3000、3200、3500、4500、7000、8100,QL位置,=(8+1)/4=
10、2.25,=3(8+1)/4=6.75,QU位置=,QL2900+0.25(3000-2900)万元=2925万元QU =4500+0.75(7000-4500)万元=6375万元,2根据分组数据计算四分位数,QL组位置,QU组位置,确定四分位数所在组,根据各组的累积频数确定四分位数的具体值。,(1) 对单项式分组数据,该组的变量值就是四分位数。,(2) 对于组距式分组数据,通过下面的公式来计算:,L1和L3表示下四分位数和上四分位数所在组的下限;,SM1-1和SM3-1分别表示下和上四分位数所在组以下各组的向上累计频数;,fQ1和fQ3分别表示下四分位数和上四分位数所在组的频数;,d表示下四
11、分位数和上四分位数所在组的组距;,n表示各组频数之和,例见P55【例3.17】,平均数、中位数、众数的特点 算术平均数 : (1)易受极端值影响; (2)数学性质优良,主要用于数值型数据; (3)数据对称分布或接近对称分布时应用。 中位数: (1)不受极端值影响; (2)数据分布偏斜程度较大时应用;主要用于顺序数据。 众数: (1)不受极端值影响; (2)具有不惟一性; (3)数据分布偏斜程度较大时应用;主要用于分类数据。,3.1.5 集中趋势各测定指标之间的区别与关系,区别,关系,=M0=Me,MeM0,MeM0,3.2 离散程度的描述,数据的离散程度反映各变量值远离其集中趋势测度值的程度。
12、数据的离散程度越大,集中趋势测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。 相关应用:投资的风险度 常用指标:1 极差和四分位差2 方差和标准差3 变异系数和异众比率,3.2.1 极差和四分位差,极差,未分组或单项式分组数据: R=max(xi)min(xi),组距式分组数据: R=末组上限值首组下限值,四分位差,Qd=QU-QL,注:反映中间50%数据的离散程度,不受极端值影响,注:极差是一组数据的最大值与最小值之差 ,受极 端值的影响。,3.2.2 方差和标准差,方差(variance)与标准差(standard deviation)是测定一组 数据离散程度的最常用的测度值
13、,它反映了每个数据 与其平均数相比平均相差的数值。,未分组数据资料计算公式:,分组数据资料计算公式:,注: 方差和标准差是根据全部数据计算的,它能比较准确地反映出全部数据的离散程度。 标准差有计量单位的且与变量值相同,因此其实际意义要比方差清楚。在对社会经济现象进行分析时,更多地使用标准差作为离散程度的度量值。 方差与标准差都不是系数,因此对不同数据不能通过比较它们的大小得出离散程度的大小。,见P59【例3.18】,3.2.3 变异系数和异众比率,变异系数(coefficient of variation):,注:变异系数是一个无量纲的量,它适合比较不同 现象或具有不同水平数据的离散程度。,异
14、众比率(variation ratio) :是一组数据的非众数 的频数与全部数据个数的比率。,注:异众比率也是一个无量纲的量,计算公式:,fm:众数所在组的频数,fi:各分组的频数,3.3 分布形态的描述,数据分布的形态主要指数据分布的形状 是否对称,偏斜的程度以及分布的扁平程度 等。刻画数据分布形态的测度值主要有偏度 和峰度。,3.3.1 偏度,偏度(skewness)是一组数据分布的偏斜方向和程度。,计算公式:,Sk0,Sk0,Sk0,对称分布 右偏分布 左偏分布,(1) 分布对称时,偏度值等于零。 (2) 分布右(正)偏时,Sk0 。且Sk值越大,偏斜的程度就越大 (3) 分布左(负)偏
15、时,Sk0 。且Sk值越小,偏斜的程度就越大,3.3.2 峰度,峰度(kurtosis)是指一组数据分布的陡缓程度,它是 与标准正态分布相比较而言的。其计算公式为,正态分布 尖峰态分布 平峰态分布normal leptokurtic platykurtic,(1) 当数据分布与标准正态分布的陡缓程度相同 时,则峰度值等于零。 (2) 当数据分布的形状比标准正态分布更尖时,则 峰度值Ku0,称为尖峰态分布。尖峰分布表明集 中趋势显著,离散程度低。 (3) 当数据分布的形状比标准正态分布更平时,则 峰度值Ku0,称为平峰态分布。平峰分布表明集 中趋势不显著,离散程度大。,Ch3 小结,3.1 集中趋势的描述平均数众数中位数分位数各测定指标之间的关系 3.2 离散程度的描述极差和四分位差方差和标准差变异系数和异众比率 3.3 分布形态的描述偏度峰度,本章,