1、2018/11/8,1,第三章 数据分布特征的描述,3.1 集中趋势的度量3.2 离散程度的度量3.3 偏态与峰态的度量,2018/11/8,2,3.1.1 什么是集中趋势 (central tendency),一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 注意:低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层次的数据。,2018/11/8,3,3.1.2 分类数据-众数,一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分
2、类数据,也可用于顺序数据和数值型数据,2018/11/8,4,众数(不惟一性),无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6 5 9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,5,有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,2018/11/8,6,1、分类数据的众数 (例题分析),解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可
3、乐”这一品牌,即 Mo可口可乐,2018/11/8,7,2、顺序数据的众数 (例题分析),解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo不满意,2018/11/8,8,3、数值型数据的众数 1)单变量值分组数据,某年级83名女生身高资料,身高 人数 (CM) (人)152 1154 2155 2156 4157 1158 2159 2160 12161 7162 8163 4,身高 人数 (CM) (人)164 3165 8166 5167 3168 7169 1170 5171 2172 3174 1 总计 8
4、3,STAT,2018/11/8,9,2)组距分组数据众数的计算公式,2018/11/8,10,G,E,F,D,C,A,B,f,X,f3,f2,f1,d,L,U,M0,1,2,众数的计算公式可以从几何图形得到证明:,2018/11/8,11,身高 人数 比重(CM) (人) (%)150-155 3 3.61155-160 11 13.25160-165 34 40.96 165-170 24 28.92170以上 11 13.25总计 83 100,某年级83名女生身高资料,组距分组数据的众数,STAT,2018/11/8,12,3.1.3 顺序数据-中位数和分位数 1、顺序数据-中位数,排
5、序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,2018/11/8,13,中位数(位置的确定),未分组数据:,分组数据:,2018/11/8,14,顺序数据的中位数 (例题分析),解:中位数的位置为 300/2150从累计频数看,中位数在“一般”这一组别中中位数为Me=一般,2018/11/8,15,未分组数值型数据的中位数 (奇数个数据的算例),【例】 9个家庭的人均月收入数据 原始数据:1500 750 780 1080 850 960 2000 1250 1630 排 序:750 780 850
6、960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,2018/11/8,16,未分组数值型数据的中位数 (偶数个数据的算例),【例】:10个家庭的人均月收入数据 排序:660 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 10,2018/11/8,17,组距分组数据中位数的计算公式,2018/11/8,18,(组距分组),共 个单位,共 个单位,共 个单位,共 个单位,L,中位数组,组距为d,共 个单位,假定该组内的单位呈均匀分布,中位数下限公式
7、为,该段长度应为,U,2018/11/8,19,身高 人数 累计(CM) (人) 人数150-155 3 3155-160 11 14160-165 34 48 165-170 24 72170以上 11 83总计 83,某年级83名女生身高资料,STAT,组距分组数据的中位数,20,如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。,比如有5笔付款:9元,10元,10元,11元,60元平均付款为100/5=20元。很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。,2018/11/8,21,2、顺序数据-
8、分位数 (1)四分位数,1)分位数有二分位数(中位数)、四分位数、十分位数和百分位数等。其中主要有四分位数。 2)排序后处于25%和75%位置上的值即四分位数,3)不受极端值的影响 4)主要用于顺序数据,也可用于数值型数据,但 不能用于分类数据,2018/11/8,22,A)原始数据四分位数的位置,下四分位数上四分位数,2018/11/8,23,【例】某学习小组的统计学考试成绩如下:,要求: (1)计算前15个学生统计学考试成绩的四分位数; (2)如果增加一个学生的成绩95分,试计算16个学生统计学考试成绩的四分位数。,2018/11/8,24,2018/11/8,25,B)根据组距数列计算四
9、分位数,2018/11/8,26,根据组距数列计算四分位数,2018/11/8,27,十分位数是指将按大小顺序排列的一组数据划分为10等分的9个变量值,用以反映一组数据在各个区间的一般水平。,(2) 十分位数,2018/11/8,28,(3) 百分位数,29,位置测度的一种常用方法:百分位数(Percentile),含义:第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100p)%个数值跟它一样大或比它大。,例如,一个考生入学考试的口语成绩是55分,对应第70个百分位数,我们就可以知道大约有70%的考生成绩比他低,或者说大约有30%的考生成绩比他高。,2018/11/8
10、,30,算术平均数定义:全部变量值之和与变量值个数相除所得到的结果。按其计算形式又有简单算术平均数和加权算术平均数之分。,STAT,平均数(average )的定义-变量值的一般水平,通常也称为均值(mean) 。有算术均值、调和均值和几何均值。,3.1.4 数值型数据-平均数 一.算术平均数,2018/11/8,31,(一)简单算术平均数,如果是未分组整理的原始资料,则直接将各个数据加总再除以数据的个数即得到平均数。,设一组数据为 ,则其算术平均数的计算公式为,2018/11/8,32,(二)加权算术平均数,根据分组整理的数据计算平均数时,需要先用每个组的变量值或组中值分别乘以各自的频数或频
11、率,然后加总再除以总频数或总频率,即得算术平均数。其计算公式为,2018/11/8,33,【例】 2005年某市红星幼儿园共有458名儿童,其年龄资料如表3.2所示。,要求:试计算该幼儿园儿童的平均年龄。,单变量值分组数据均值的计算,2018/11/8,34,身高 组中值 人数 比重(cm) xi(cm) fi(人) (%)150-155 152.5 3 3.61155-160 157.5 11 13.25160-165 162.5 34 40.96 165-170 167.5 24 28.92170以上 172.5 11 13.25总计 - 83 100,组距分组数据均值的计算 某年级83名
12、女生身高资料,组距数列,次数 f,频率 f/f,变量值 x,STAT,加权算术平均数,2018/11/8,35,权数及其起作用的条件,用各组的组中值代表其实际数据计算算术平均数时,通常假定各组数据在组内是均匀分布的,相应的组中值近似等于各组的平均数。 权数:衡量变量值相对重要性的数值。 各个变量值的权数要起作用必须具备两个条件:一是各个变量值之间有差异;二是各个变量值的权数有差异。 简单算术平均数是加权算术平均数在权数相等时的特例。,2018/11/8,36,集中趋势的最常用测度值; 一组数据的均衡点所在; 各变量值与其均值的离差之和等于零,即 ; 各变量值与其均值的离差平方和最小,即由组距分
13、组资料计算的均值有近似值性质; 易受极端值的影响;主要用于数值型数据,不能用于分类数据和顺序数据,(三)算术平均数(均值)特征,37,思考题,比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的周平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。,?,2018/11/8,38,二. 调和平均数(harmonic mean),1、调和平均数也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数 2、平均数的另一种表现形式 3、易受极端值的影响 4、计算公式为,原来只是计算时使用了不同的 数
14、据!,2018/11/8,39,调和平均数 (例题分析),【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格,2018/11/8,40,算术平均数与调和平均数的关系,1.从数学定义角度看算术平均数与调和平均数是不一样的,但在社会经济应用领域,调和平均数实际上只是算术平均数的另一种表现形式,二者本质上是一致的,惟一的区别是计算时使用了不同的数据。 2.计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用加权算术平均法;如果已知比率及其基本计算式的分子资料,则采用加权调和平均法。,2018/11/8,41,【例】 某市某行业150个企业的产值利润率及相关资料如
15、表3.8。 要求:试分别计算该行业150企业第一季度和第二季度的平均产值利润率。,算术平均数与调和平均数的关系,2018/11/8,42,三.几何平均数(geometric mean)1、含义及应用条件,定义:n 个变量值乘积的 n 次方根 应用范围:适用于比率数据的平均,主要用于计算平均发展速度、平均增长率、平均比率 应用的前提条件: 各个比率或速度的连乘积等于总比率或总速度; 相乘的各个比率或速度不为零或负值。,2018/11/8,43,补充:发展速度、增长速度概念及关系,环比发展速度 y1/y0 y2/y1 y3/y2 yn/yn-1 定基发展速度 y1/y0 y2/y0 y3/y0 y
16、n/y0注意:环比发展速度的连乘积=相应的定基发展速度增长速度(率)= 发展速度-1环比增长速度=环比发展速度-1定基增长速度=定基发展速度-1,2018/11/8,44,平均增长率(average rate of increase ),描述现象在整个观察期内平均增长变化的程度 序列中各逐期环比值(也称环比发展速度) 的几何平均数(即平均发展速度)减1后的结果 通常用几何平均法求得。计算公式为,45,2018/11/8,2、几何平均数的计算方法,2018/11/8,46,简单几何平均数(例题分析),【例】某水泥生产企业2006年的水泥产量为100万吨,2007年与2006年相比增长率为9%,2
17、008年与2007年相比增长率为16%,2009年与2008年相比增长率为20%。求各年的年平均增长率。,年平均增长率114.91%-1=14.91%,47,2018/11/8,【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。,分析:,设最初投产100A个单位 ,则 第一道工序的合格品为100A0.95; 第二道工序的合格品为(100A0.95)0.92; 第五道工序的合格品为 (100A0.950.920.900.85)0.80;,48,2018/11/8,因该流水线的最终合格品即为第五道工序的合格品, 故该
18、流水线总的合格品应为 100A0.950.920.900.850.80; 则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,49,2018/11/8,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A0.950.920.900.850.80; 则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,50,2018/11/8,思考,若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合
19、格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。,简单几何平均数,51,2018/11/8,因各车间彼此独立作业,所以有第一车间的合格品为:1000.95;第二车间的合格品为:1000.92;第五车间的合格品为:1000.80。 则该企业全部合格品应为各车间合格品的总和,即 总合格品=1000.95+1000.80,简单几何平均数,分析:,52,2018/11/8,不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。又因为,应采用加权算术平均数公式计算,即,53,2018/11/8,几何平均数的计算方法,54,2018/11/8,【例】某金融机构以复利计息。近1
20、2年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。,设本金为V,则至各年末的本利和应为:,第1年末的本利和为:,第2年末的本利和为:, ,第12年末的本利和为:,分析:,55,2018/11/8,则该笔本金12年总的本利率为:,即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。,解:,56,2018/11/8,加权几何平均数,分析,第1年末的应得利息为:,第2年末的应得利息为:,第12年末的应得利息为:, ,57,2018/11/8,则该笔本金12年应得的利息总和为: =V(0.034+0.052+0.151
21、),这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。因为,假定本金为V,58,2018/11/8,所以,应采用加权算术平均数公式计算平均年利息率,即:,解:,(比较:按复利计息时的平均年利率为6.85),59,2018/11/8,3、几何平均数的特点,1几何平均数受极端值的影响较算术平均数小。 2如果变量值有负值,计算出的几何平均数就会成为负数或虚数。 3它仅适用于具有等比或近似等比关系的数据。 4几何平均数的对数是各变量值对数的算术平均数。,60,2018/11/8,设 x 取值为:、10,就同一资料计算时,有:,61,2018/11/8,一名统计学家遇到
22、一位数学家,统计学家调侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?”数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们的平均温度不过是五十度而已!”,统计学家与数学家,62,2018/11/8,如果你的腳已經踩在爐子上,而頭卻在冰箱裡,統計學家會告訴你,平均而言,你相當舒服。,调侃统计学家,63,2018/11/8,3.1.5 几种平均数简评,(一) 评价标准1严格确定。 2感应灵敏。 3易于理解。 4易于计算。 5受抽样的影响较小。 6易于用代数处理。,64,2018/11/8
23、,1算术平均数。算术平均数符合上述六个条件,应用范围最广。易受极端值的影响。当分布数列中存在开口组时,会影响平均数的准确性。算术平均数适用于数值型数据。,(二) 简评,65,2018/11/8,简评,2调和平均数调和平均数符合上述第1,2,5,6四个条件。 适用于计算比率的平均数。 它容易受极端值的影响,数列中只要有一个变量值为零,则不能计算调和平均数,故其应用范围受到限制。 调和平均数适用于数值型数据。,66,2018/11/8,简评,3几何平均数几何平均数符合上述第1,2,5,6四个4个条件。 适用于各比率连乘积等于总比率的条件下计算比率的平均数。 数列中若有一项为零或负数,计算几何平均数
24、无意义,应用范围较小。 几何平均数适用于数值型数据。,67,2018/11/8,简评,4众数众数的意义易于理解,有时容易计算,且不受极端值的影响。 当数据分布没有明显的集中趋势而趋于均匀分布时,则无众数可言;对不等距分布数列,众数不易确定。 当分布数列中出现双众数或多众数时,难以反映所有数据的一般水平。 变量值的变化反映不灵敏。 众数适用于分类数据、顺序数据和数值型数据。,68,2018/11/8,简评,5中位数中位数符合上述第1,3,4,5四个条件。 不受极端值的影响。 当分布数列中存在极端值或组距数列中存在开口组时,计算中位数比较好。 中位数缺乏灵敏性,没有算术平均数可靠,且不易用代数方法
25、计算。 中位数适用于顺序数据和数值型数据。,2018/11/8,69,(三)众数、中位数和平均数的关系,右偏分布,众数,中位数,均值,对何种数据而言的?,均值=中位数=众数,均值中位数众数,均值中位数众数,2018/11/8,70,三者的数量关系,2018/11/8,71,众数、中位数和均值都是对数据集中趋势的测度1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数是一组数据分布的峰值,是一种位置的代表
26、,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。5、均值只适用于数值型数据;顺序数据可用中位数或众数进行描述,而对分类数据,只能用众数进行描述。,(四)众数、中位数和均值的应用场合,2018/11/8,72,下面是两个总体关于年龄分布的数据,相对而言,那个总体的年龄分布差异大些?,总体1:46、47、48、49、50、51、52、53、54,总体2:8、15、20、30、5070、80、85、92,2018/11/8,73,总体2,总体1,2018/11/8,74,
27、3.2.1 什么是离散程度 3.2.2 分类数据:异众比率(variation ratio) 3.2.3 顺序数据:四分位差(quartile range ) 3.2.4 数值型数据:1、极差( range )2、平均差(mean deviation)3、方差和标准差( Variance and standard deviation)4、离散系数( Coefficient of Variation ) 3.2.5 相对位置的度量:标准分数( standard score),3.2 离散程度的测度,2018/11/8,75,3.2.1 什么是离散程度,数据分布的另一个重要特征 反映各变量值远离其
28、中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 注意:数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差;数据的离散程度越小,集中趋势的测度值对该组数据的代表性越好。 4. 不同类型的数据有不同的离散程度测度值,2018/11/8,76,3.2.2 分类数据:异众比率(variation ratio),1. 对分类数据离散程度的测度 2. 非众数组的频数占总频数的比率 3. 计算公式为,4. 用于衡量众数的代表性,2018/11/8,77,异众比率(例题分析),解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者
29、购买饮料品牌的状况,其代表性不是很好,2018/11/8,78,3.2.3 顺序数据-四分位差 (quartile deviation),对顺序数据离散程度的测度 也称为内距或四分间距 上四分位数与下四分位数之差 QD = QU QL 反映了中间50%数据的离散程度 用于衡量中位数的代表性,2018/11/8,79,3.2.4 数值型数据离散程度的度量,1、极差(R) (range)离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,2018/11/8,80,2、平均差(average deviation),各变量值与其均值离差绝对
30、值的平均数 能全面反映一组数据的离散程度 数学性质较差,实际中应用较少,计算公式为,未分组数据,组距分组数据,2018/11/8,81,平均差(例题分析),2018/11/8,82,含义:每天电脑的日销售量有高有低,与日销售量平均数相比,差异有大有小。平均差表明:以日平均销售量为中心,每天销售量与平均日销售量的平均差距为17台。,2018/11/8,83,3、方差和标准差( Variance and standard deviation),方差(variance)各变量值与其平均数离差平方的平均数,标准差 (standard deviation)即方差的算术平方根;其单位与原变量X的单位相同。
31、,方差和标准差的计算也分为简单平均法和加权平均法。对于总体数据和样本数据,计算公式略有不同。,2018/11/8,84,(一)总体方差和标准差,未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,2018/11/8,85,(二)样本方差和标准差 (simple variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,2018/11/8,86,自由度 (degree of freedom),从字面涵义来看,自由度是指一组数据中可以自由取值的个数; 自由
32、度是指样本数据个数与附加给独立的观测值的约束或限制个数的差; 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值; 按着这一逻辑,如果对n个观测值附加的约束个数为k个,则自由度为n-k。,2018/11/8,87,自由度 (degree of freedom),样本有3个数值,即x1=2,x2=5,x3=8,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值; 为什么样本方差的自由度是n-1呢
33、?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个; 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量。,2018/11/8,88,方差和标准差的计算(未分组资料),2018/11/8,89,方差和标准差的计算(分组资料),2018/11/8,90,含义:每一天的销售量与平均数相比,平均相差21.58台,方差和标准差的计算(分组资料),2018/11/8,91,平均差与标准差的区别,对离差的数学处理方法不同。 平均差是用
34、取绝对值的方法消除离差的正负号然后用算术平均的方法求出平均离差;而标准差是用平方的方法消除离差的正负号,然后对离差的平方计算算术平均数,并开方求出标准差。,2018/11/8,92,标准差的统计运用,描述数据分布的变异程度 评价两组数据的均值代表性 用于统计推断(区间估计、假设检验、方差分析等)注意:1、标准差是名数即有计量单位(与数据值的计量单位相同)2、标准差的大小与数据值有关,2018/11/8,93,不可比,2018/11/8,94,4、离散系数 (coefficient of variation),1. 标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位
35、的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为,2018/11/8,95,可比,2018/11/8,96,离散系数(例题分析),【 例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,2018/11/8,97,结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,离散系数(例题分析),2018/11/8,98,3.2.5 相对位置的度量:标准分数 ( standard score),1)也称标准化值 2)对某一个值在一组数据中相对位置的度量 3)可用于判断一组数据是否有离群点 4)用于对变量的标准化处理 5)
36、计算公式为,2018/11/8,99,标准分数(性质),注意: z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,标准差为1。,2018/11/8,100,标准分数(性质),均值等于02. 方差等于1,2018/11/8,101,标准化值(例题分析),2018/11/8,102,数据类型与离散程度测度值,2018/11/8,103,3.3 偏态与峰态的度量,3.3.1 偏态及其测度3.3.2 峰态及其测度,2018/11/8,104,3.3.1 偏态及其测定,统计学家Pearson于1895年首次提出 数据分布偏斜程度的测度,数据分布的不对称性称为偏态。 3. 计算偏态系数的方法有皮尔逊测度法和中心矩法两种。,2018/11/8,105,皮尔逊测度法是利用算术平均数与众数的关系来测度数据分布偏斜程度的一种方法。 计算公式为:,1皮尔逊测度法,2018/11/8,106,偏度(skewness):度量数据分布非对称方向及程度的指标,SK,STAT,