1、第四章 数据的概括性度量,一、总量指标 二、相对指标 三、平均指标 四、离散指标 五、偏度与峰度,国民经济统计指标(2005年),国民生产总值210871.0 亿元 总人口数131448 万人 固定资产投资总额88773.6 亿元 财政收入31649.29 亿元 货物进出口总额42183.6 亿元 职工工资总额19789.9 亿元,国民经济统计指标(2005),发展速度110.2 (按上年100) 城镇登记失业率4.2% 居民消费价格指数101.8% 固定资产投资增长比率26%,国民经济统计指标(2005年),职工平均工资18364 元 城镇居民人均可支配收入10493元 人均国民生产总值14
2、040元,一、总量指标 概念 说明经济现象总体在一定时间、地点和条件下所达到的规模、水平或总成果的统计指标,一般用绝对数表示.GDP、GNP、工业总产值、总产量、 利润。,总量指标的特点,其数值随统计总体范围的大小呈同方向变化。 总量指标同时也可以表示为现象总量间的绝对差数,如增加量。,总量指标的作用,从数量上认识社会经济现象的起点 反映社会经济活动绝对效果的重要指标 是计算相对指标,平均指标的基础。,总量指标的分类,时期指标反映一段时期内发展过程的总量指标企业销售额企业利润额时点指标反映某一时点上发展结果的总量指标学生人数存款额,时期指标与时点指标的区别,时期指标可以相加,表示更长一个时期的
3、指标数值;时点却相加无意义,但时点指标可以相减,其结果为时期指标表示两点之间的绝对增加量或绝对减少量 时期指标数值大小与时期长短成正比变化,而时点指标的大小与时点间隔无关,总量指标的应用原则,科学性:指标概念要有理论依据,定性要科学 准确性:计算方法正确,计算结果准确 统一性:计量单位统一。计算范围、统计口径、计算方法一致,二、 相对指标,概念:是社会经济现象的两个有联系的指标数值的比率,反映现象之间的数量对比关系。又称相对数,相对指标的作用,说明事物发展速度、比例关系、强度、密度和结构将现象绝对数值抽象化了,便于比较,相对指标的类型,结构相对数 比例相对数 比较相对数 动态相对数 强度相对数
4、,结构相对指标,在分组的基础上,各组数值与总体数值之比 表明各组成部分数值在总体中占的比重 结构相对指标=各组总量/总体总量100%。,结构相对指标的作用,静态上分析总体内部结构,反映总体构成特点和性质 动态分析结构变化特点。 分析同一总体不同指标结构,研究现象内部联系。经济结构、投资结构、人员结构、产业结构,经济结构指标(2005年),第一产业GDP占比重12.6% 第二产业占比重47.5% 第三产业占比重39.9%,其他结构指标,人口结构年龄、教育、民族、城乡 投资结构 产品结构 能源结构,比例相对指标,是同一总体中某一部分数值与另一部分数值之比。反映同一总体各部分之间的数量联系程度和比例
5、关系。比例相对指标= 总体中某一部分数值/总体中另一部分数值,相对指标与结构相对指标的区别,结构相对指标侧重于分析部分占总体比重,以及部分对总体的影响程度; 比例相对数反映部分间比例关系,考察各部分能否协调发展,这种比例关系关系到经济现象能否平稳合理发展。,比例相对指标,2005年男女比例为1.06:12005年一二三产业比例100:377.3:316.3,比较相对指标,是同一指标在同一时间上的不同空间的比较 说明某类现象在同一时期内各单位发展的不平衡度比较相对指标=某一空间的指标数值/另一空间同类指标数值100% 分子与分母可互换,来自于两个总体的指标,2005年经济统计指标比较,国内生产总
6、值排名第四 人均国民总收入180个国家排名110位 进出口贸易额排名第三,动态相对指标,是同类现象在不同时期的指标数值之比,反映经济现象在时间上的发展变化动态相对指标(发展速度)=报告期指标/基期指标100%,例题,1999年北京市人均收入为564元 ,2000年人均收入为786元动态相对指标=786/564=1.2倍或=786/564 100%=120%分子、分母不可以互换 来自于同一个总体不同时期的指标数值,经济发展速度,2005年110.2%,强度相对指标,有联系的两个指标对比人口密度 商业网点密度 人均国民生产总值14040元,三、平均指标集中趋势的度量,平均指标,平均成绩 人均支出
7、工人劳动生产率,平均指标的作用,静态比较:对不同总体进行比较。如两个企业的人均工资比较 动态比较:同一总体不同时期平均数比较 描述推断总体。用样本均值推断总体均值,分类数据集中程度的度量众数,出现次数最多的变量值 位置平均值 更常用于品质数据、或离散型数据的分析 反映现象中最普遍最常见的一般水平。,众数的计算,排序、计算其出现频数20 15 18 20 20 22 20 13 23 29 26 众数为20,众数的特点,不受变量值极端值的影响 对于变量值变化的灵敏度降低了 变量值有明显集中趋势时才能计算 最适于品质标志的应用。 当变量值次数相同时无法计算众数20 20 15 19 19 20 1
8、9 25众数为20和19 10 11 13 16 15 25 8 12无众数,顺序数据的集中程度度量,中位数分位数,中位数,变量值由小到大排列,居于中间位置(总体单位数一半处)的变量值 变量个数为奇数:7名工人的日产量为:10、11、13、14、16、17、18;中位数位置为:(n+1)/2则中位数=14;,中位数的计算,变量的个数为偶数:8名工人的日产量为:10、11、13、14、16、16、17、18;中位数为n/2和n/2+1两项标志值的平均数中位数Me=(14+16)/2=15,中位数的特点,性质简单 不受极值的影响 是较稳健的集中趋势的测度指标 只与中间值有关,缺乏敏感性,不适合代数
9、运算 适用于顺序数据的分析,四分位数,25% 75%位置上的数据p90,数值型数据平均数,简单平均数加权平均数,简单平均数,适于未分组的数据计算公式:,平均值的数学性质,加权平均值,适于分组的数值型数据计算公式:,例题,某班学生学习成绩如下表:考试成绩x 学生人数f(个)各组人数比重 2分 4 0.13分 12 0.34分 18 0.455分 6 0.15,影响平均数的两个因素,变量值 各组频数f 或频率f/f,例、某企业职工工资情况如下表:月工资(元) 组中值x 职工人数f 工资总额xf100以下 50 70 3500100200 150 200 30000200300 250 240 60
10、000300以上 350 90 31500合 计 600 125000平均工资=xf/f=208.3(元),例,某班组23个工人生产同种产品,质量情况如下:合格品率 组中值 工人数 产品批量 (%) x f 70-80 75 5 20080-90 85 16 60090-100 95 8 400合计 29 1200平均合格品率=合格品件数/产品总数=xf/f=86.7%,算术平均数的特点,概念、计算方法易于理解和掌握对所提供信息运用充分对数据的变化反映最灵敏适于代数处理,具有良好的数学性质局限性:受极大值、极小值的影响,具有不稳健性,众数 中位数 平均数三者关系,1、平均数=中位数=众数,总体
11、分布呈现对称性即完全正态分布。2、平均数中位数众数,峰偏向左边,尾部拖向右边平均数受极大值影响,总体分布呈右偏态(正偏)。3、平均数中位数众数,峰偏向右边,尾部拖向左边平均数受极大值影响,总体分布呈左偏态(负偏)。,例:假定某市5百万居民(4岁以上)每天收看电视时间的平均值为50分钟,中位数为30分钟。粗略画出该市民收看电视时间的直方图,并进行简单分析,几何平均数,用于比率的计算 数据间有内在联系 数据的连乘积总比例率,例:某建筑公司生产某种产品经过四道工序,每工序的合格品率为:93%、95%、92%、96%,计算平均合格品率总合格品率=93%95%92%96%几何平均数G=计算条件:现象变量
12、值得连乘积等于总比率或总速度,例:银行有一笔20年的长期投资,利率按复利计算,有一年利率为2.5%,3年为3%, 5年为6%,8年为9%, 2年12%,1年5%,计算平均利率,四、离散程度的度量,离散度量指标的作用,数据远离平均值的程度 反映了数据的分散程度 离散度量指标值越小反映数据的离散程度越小 衡量平均数的代表性,离散度量指标,分类数据 异众比率 四分位差 数值数据极差 平均差 方差和标准差 离散系数,两组学生成绩为:甲组98、96、92、70、64乙组90、82、76、87、85平均成绩均为84分,分类数据离散程度的度量异众比率,非众数足所占比重 异众比率越大,众数的代表性越小 常用于
13、分类数据的度量,分类数据离散程度的度量- 四分位差,上下四分位数的差 数值越大说明中位数的代表性越差 常用于顺序数据的离散程度的度量,数值型数据离散程度的度量 极差,全距 最大值最小值计算简单 全距越小,说明总体平均数的代表性越大 只反映两个端点数据的变化 无法准确度量离散程度,数值型数据离散程度的度量 平均差,离差绝对值的算术平均 更准确说明总体离散程度, ,分组数据平均差的计算,平均差的特点,数值越大,数据的离散程度越大 计算方便 在数学处理及实际应用上受到限制,数值型数据离散程度的度量 方差和标准差,变量值和平均数离差平方的平均数 准确反映数据的离散程度 最广泛的离散程度测量值,标准差:
14、是离差平方和的平均比平均差在数学处理上更合理是测定离散度最常用、最重要的指标未分组: s= 分组的情况: s=,例: 两个车间工人工资资料如下,计算两个车间工人平均工资和标准差按月工资分组(元) 甲车间工人数 按月工资分组(元) 乙车间工人数 4050 5 3050 55060 15 5070 106070 20 7090 247080 7 90110 128090 3 110130 90合 计 60 合 计 60,数值型数据离散程度的度量 相对位置的度量,标准分数 经验法则 切比雪夫不等式,标准分数,数据的标准化处理 标准化后的数据平均值为0 标准差为1 可以找出离群数据,标准分数计算公式,
15、经验法则,3以外的数据为离群点 可以发现离群点 适用于对称数据的分析,切比雪夫不等式,可应用分布任何分布的数据 分析数据的离散程度,离散系数变异系数,离散指标与平均数对比,是反映离散程度的相对指标 消除平均值对离散程度的影响 用以比较两个平均水平或计量单位完全不同的总体离散程度的大小 离散系数值越大,数据越分散,离散系数变异系数, ,例:仓库投保火险和水险 火灾损失 概率 水灾损失 概率0.4万元 0.05 2.0 0.051.0 0.1 2.5 0.152.0 0.2 3.0 0.23.0 0.3 4.5 0.45.0 0.25 5.0 0.158.0 0.1 8.0 0.05,例:计算保险稳定系数年份 实际损失率 () 1 3.52 3.73 3.84 4.05 4.16 4.47 4.5,偏态和峰态的度量,集中趋势偏态离散程度峰态综合分析分布形态,偏态及其度量偏态系数,计算公式,偏态系数的意义,反映数据的集中程度 数值越大,偏态程度越高 偏态系数为0 ,分布为对称 偏态系数大于0 ,分布为右偏 偏态系数小于0 ,分布为左偏,峰态及其度量峰态系数,正态分布峰态系数为0 峰态系数大于0 ,尖峰 峰态系数小于0 ,扁平分布,