第四章统计描述.ppt-道客多多_道客多多docduoduo.com

资源描述

1、1,第四章统计描述,【内容提要】本章介绍了描述统计。第一节介绍数据集中趋势的测度：算术平均数、调和平均数、几何平均数、中位数、众数、截尾均值等。第二节介绍数据离中趋势的测度：异众比率、全距、内距、平均差、方差、标准差等。第三节介绍数据分布形状的测度：偏态与峰态。最后一节演示了EXCEL描述统计功能的操作过程。,2,第一节集中趋势的测度,集中趋势是指一组数据向其中心值靠拢的倾向，测度集中趋势也就是寻找数据一般水平的代表值或中心值。,3,一、算术平均数,算术平均数，是集中趋势测度中最重要的一种，它是所有平均数中应用最广泛的平均数。算术平均数一般就称为平均数或均值。其定义是：观察值的总和除以

2、观察值个数的商。,4,（一）简单算术平均数,根据未经分组整理的原始数据计算的均值。设一组数据为x1，x1，xn，则简单算术平均数的计算公式如下：,5,例4.1 据某人才服务中心调查，从事IT行业的从业人员年薪在40000-55000元之间，表4-1的数据是IT从业人员年薪的一个样本：表4-1 24名IT从业人员年薪资料表,计算IT从业人员的平均年薪。根据公式计算如下：,6,（二）加权算术平均数,根据分组整理的数据计算的算术平均数。其计算公式为：,式中：f 代表各组变量值出现的频数。,7,例4.2：以表4-2为例，计算人均日产量。表4-2 某企业50名工人加工零件均值计算表,平均日产量,8

3、,（三）算术平均数性质,1、各变量值与其算术平均数的离差之和等于零，即=0； 2、各变量值与其算术平均数的离差平方和最小，即=min。,9,二、调和平均数,调和平均数是根据标志值的倒数计算出来的平均指标，其意义与算术平均数一致。可以这样理解，调和平均数是在数据来源不同的情况下计算算术平均数的一种方法，调和平均数都可以通过数据转换，调整成算术平均数进行计算。,10,（一）调和平均数的计算方法,与算术平均数类似，调和平均数也有简单的和加权的两种形式，其计算公式分别为：,11,例4.4：假定有A、B两家公司员工的月工资资料如表4-4的前三列。试分别计算其平均工资。表4-4 两公司员工工资情况表,1

4、2,现在，我们计算A公司的平均工资，得到：,对于B公司，固然也可以采用加权调和平均数公式来计算其平均工资：,13,（二）调和平均数特点,1、调和平均数易受极端值的影响，且受极小值的影响比受极大值的影响更大。 2、只要有一个变量值为零，就不能计算调和平均数。 3、当组距数列有开口组时，其组中值即使按相邻组距计算了，假定性也很大，这时，调和平均数的代表性就很不可靠。 4、调和平均数应用的范围较小。,14,三、几何平均数,几何平均数也称几何均值，它是n个变量值乘积的n次方根。根据统计资料的不同，几何平均数也有简单几何平均数和加权几何平均数之分。,15,（一）简单几何平均数,直接将n项变量连乘，然后对

5、其连乘积开n次方根所得的平均数即为简单几何平均数。它是几何平均数的常用形式。计算公式为：,式中：G代表几何平均数，代表连乘符号,16,例4.6：某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80，整个流水生产线产品的平均合格率为：,17,（二）加权几何平均数,与算术平均数一样，当资料中的某些变量值重复出现时，相应地，简单几何平均数就变成了加权几何平均数。计算公式为：,式中：fi代表各个变量值出现的次数。,18,例4.7：某工商银行某项投资年利率是按复利计算的。20年的利率分配如表4-6，计算20年的平均年利率。表4-6 投资年利率分组表,按公式计算2

6、0年的平均年利率：,即20年的平均年利率为114.14%-1=14.14%,19,（三）几何平均数特点,1、几何平均数受极端值的影响较算术平均数小。 2、如果变量值有负值，计算出的几何平均数就会成为负数或虚数。 3、它仅适用于具有等比或近似等比关系的数据。 4、几何平均数的对数是各变量值对数的算术平均数。,20,四、众数,众数是一组数据中出现次数最多的变量值，一般用M0表示。众数一般用来表示分类数据的集中趋势，当然也可用来测度顺序数据和数值型数据的集中趋势。众数的计算方法依据原数据是否分组有所不同。只有在数据量较大的情况下，众数才有意义。,21,例4.9：下表为某家电商场的顾客满意度调查数据，

7、对总共100名顾客调查的数据如下。计算“评价等级”的众数。表4-8 顾客满意度调查频数分布表,这里的“评价等级”是顺序数据。在总共100名的被调查顾客中，选择“一般”的人最多，因此“评价等级”的众数为“一般”。,22,例4.10:某班抽取10名学生的年龄数据如下。计算年龄的众数。 20 21 20 21 22 19 21 21 23 20 年龄中出现次数最多的是21，因此众数M0=21，21可代表10名学生年龄的平均水平。,23,表4-9,日产量“12”出现次数最多，因此日产量的众数为12。12代表大多数工人所能达到的日产量水平，可作为该企业日产量标准的参考值。,例4.11：某企业某日工人的

8、日产量资料如下表。计算工人日产量的众数。,24,25,(众数的不唯一性),10 5 9 12 6 8,6 5 9 8 5 5,25 28 28 36 42 42,无众数,一个众数,复众数,26,组距式分组数据，则只能按一定的方法来推算众数的近似值。计算公式为,式中： L众数所在组下限； U众数所在组上限； 1众数所在组次数与其下限的邻组次数之差； 2众数所在组次数与其上限的邻组次数之差； d众数所在组组距。,详见课本例题4.12,27,五、中位数,中位数是将数据按大小顺序排列起来，形成一个数列，居于数列中间位置的那个数据就是中位数。中位数用Me表示。,28,中位数的计算,确定中位数，必须将总体

9、各单位的标志值按大小顺序排列，最好是编制出变量数列。这里有两种情况：,29,1、对于未分组的原始资料，首先必须将标志值按大小排序。,中位数就可以按下面的方式确定：,例如，根据例4.2的数据，计算50名工人日加工零件数的中位数。中位数的位置在（50+1）/2 = 25.5，中位数在第25个数值（123）和第26个数值（123）之间，即Me = (123+123)/2=123(件)。,30,2、由分组资料确定中位数,由组距数列确定中位数，应先按的公式求出中位数所在组的位置，然后再按下限公式或上限公式确定中位数。,31,式中： Me中位数；L中位数所在组下限；U中位数所在组上限；fm为中位数所在组的

10、次数；,总次数； d中位数所在组的组距； Sm1中位数所在组以下的累计次数； Sm+1中位数所在组以上的累计次数。,32,六、分位数,K(K=4、10、100等)分位数是指将一列数据K等分的各种数。K分位数用于测量数据的相对位置，反映数据的相对大小。把一列数据按从小到大的顺序排完后，计算第一K分位数的方法是：式中N为数据总个数最常见的分位数包括四分位数、十分位数和百分位数。,33,七、截尾均值,截尾均值是指在一个数列中，去掉两端的极端值后所计算的算术平均数，也称为切尾均值。,34,八、众数、中位数和算术平均数的比较,在次数分布完全对称时，算术平均数、众数和中位数都是同一数值；在尾巴拖在右边的

11、正偏态（或右偏态）分布中，众数最小，中位数适中，算术平均数最大；在尾巴拖在左边的负偏态（或左偏态）分布中，众数最大，中位数适中，算术平均数最小，见课本图形。,35,36,例题：服装店销售情况：型号 XXL XL L M S 数量/件 2 4 12 10 9 求这组数据的众数和中位数,L M,37,第二节离中趋势的测度,离中趋势又称为离散趋势，通过一系列变异指标来测度。变异指标是反映总体各单位标志值的差别大小程度的综合指标，又称标志变动度。一般来讲，数据分布越分散，变异指标越大，平均指标的代表性越小；数据分布越集中，变异指标越小，平均指标的代表性越大。常用的变异指标有：异众比率、全距、平均

12、差、方差和标准差、离散系数。,38,一、异众比率,异众比率是对分类数据离散程度的测度，反映众数的代表性。异众比率越小，众数的代表性越好。异众比率的计算方法为：非众数组的频数占总频数的比率。,39,例4.14：表4-12是不同品牌饮料的频数分布，计算异众比率。表4.12,众数为“可口可乐”，总共50人当中，购买其他品牌饮料的人数是35，即异众比率=35/50=0.7，异众比率比较大。因此，用“可口可乐”代表消费者购买饮料品牌的状况，其代表性不是很好,40,41,练习题,1.已知数列1，1，0，2，3，1，2，0，5 ，5其众数是（），中位数是（），异众比率是（）。,1,1.5,70

13、%,先排序 0，0，1，1，1，2，2，3，5，5,42,二、全距、内距,43,（一）全距,全距也称为极差，是指总体各单位的两个极端标志值之差，即： R最大标志值最小标志值因此，全距（R）可反映总体标志值的差异范围。,44,例4.15：有两个学习小组的统计学开始成绩分别为：第一组：60，70，80，90，100第二组：78，79，80，81，82 很明显，两个小组的考试成绩平均分都是80分，但是哪一组的分数比较集中呢？如果用全距指标来衡量，则有 R甲1006040（分） R乙82784（分）这说明第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。根据组距计算极差，是测定标志

14、变动度的一种简单方法，但受极端值的影响，因而它往往不能充分反映社会经济现象的离散程度。,45,（二）内距,内距是上四分位数与下四分位数之差，也称为四分位差，反映了中间50%数据的离散程度。内距的取值比较稳定，不受极端值的影响，可用于衡量中位数的代表性。在实际应用中，内距往往和全距搭配使用，这样可以比较全面的反映全部数据的波动情况。,46,三、平均差,平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大，则表示标志变动度越大，反之则表示标志变动度越小。在资料未分组的情况下，平均差的计算公式为：,A.D=,A.D=,在资料已分组的情况下

15、，要用加权平均差公式：A.D=,47,四、方差与标准差,方差和标准差是测度数据变异程度的最重要、最常用的指标。方差是各个数据与其算术平均数的离差平方的平均数，通常以2表示。方差的计量单位和量纲不便于从经济意义上进行解释，所以实际统计工作中多用方差的算术平方根标准差来测度统计数据的差异程度。标准差又称均方差，一般用表示。,48,（一）总体方差和标准差,设总体方差为，对于未经分组整理的原始数据，方差的计算公式为：对于分组数据，方差的计算公式为：,49,方差的平方根即为标准差，其相应的计算公式为：,未分组数据：分组数据：,50,（二）样本方差和标准差,样本方差与总体方差在计算上的区别是：总体方差是用

16、数据个数或总频数去除离差平方和，而样本方差则是用样本数据个数或总频数减1去除离差平方和，其中样本数据个数减1即n1称为自由度。设样本方差为，根据未分组数据和分组数据计算样本方差的公式分别为：,51,未分组数据：,分组数据：,未分组数据：,分组数据：,52,例4.17：考察一台机器的生产能力，利用抽样程序来检验生产出来的产品质量，假设搜集的数据如下：,根据该行业通用法则：如果一个样本中的14个数据项的方差大于0.005，则该机器必须关闭待修。问此时的机器是否必须关闭？解：根据已知数据，计算,因此，该机器工作正常。,53,某校从甲、乙两名优秀选手中选1名选手参加全市中学生田径百米比赛，该校预先对

17、这两名选手测试了8次，测试成绩如下表：甲乙成绩分别如下：12.1 12.2 13 12.5 13.1 12.5 12.4 12.2 12 12.4 12.8 13 12.2 12.8 12.3 12.5根据测试成绩，派哪一位选手参加比赛更好？为什么？,54,解析：此题要用样本的方差的大小来衡量甲、乙两名选手百米赛成绩的稳定性，方差较小的稳定性强些甲乙平均成绩=12.5=0.12=0.10 成绩稳定,55,是非标志的平均数和标准差,是非标志：只具有肯定或否定两种。,56,设p为具有某种性质的单位数在总体中的比率 P=n1/N ; q=n2/N ; p+q=1,方差：,标准差：,离散系数：,平

18、均数,57,五、离散系数,对于平均水平不同或计量单位不同的不同组别的变量值，是不能直接用上述离散程度的测度值直接进行比较的。为了消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。离散系数通常是就标准差来计算的，因此，也称为标准差系数，它是一组数据的标准差与其相应的均值之比，是测度数据离散程度的相对指标，其计算公式为：,58,V和Vs分别表示总体离散系数和样本离散系数。,59,例4.18：某管理局抽查了所属的8家企业，其产品销售数据如表4-14所示。试比较产品销售额与销售利润的离散程度。表4-14,60,解：由于销售额与利润额的数据水平不同，不能直接用标准差进行比较，需

19、要计算离散系数。由表中数据计算得,计算结果表明，V1V2，说明产品销售额的离散程度小于销售利润的离散程度。,61,62,六、相对位置的测度：标准分数,63,（一）标准分数,标准分数也称标准化值，用于对变量的标准化处理，度量某一个值在一组数据中的相对位置，可用于判断一组数据是否有离群点。计算公式为：为原数据，为平均数，为标准差。,64,（二）经验法则,数据分布的经验法则表明：当一组数据对称分布时，约有68%的数据在平均数加减1个标准差的范围之内；约有95%的数据在平均数加减2个标准差的范围之内；约有99%的数据在平均数加减3个标准差的范围之内。,65,第三节偏态与峰态的测度,集中趋势和离中趋

20、势是数据分布的两个重要特征，但要全面了解数据分布的特点，还需要知道数据的分布形状。数据的分布形状从两个方面把握，其一是从数据分布的水平方向判断是否对称或偏斜的程度，即偏态；其二是从数据的垂直方向判断分布的扁平程度，即峰态。,66,一、偏态及其测度,偏态是数据分布偏斜程度的测度，通常用偏态系数来衡量。一组数据的分布从水平位置观察，与标准正态分布相比，有对称、左偏、右偏之分。若偏态系数=0为对称分布；偏态系数 0为右偏分布；偏态系数 0为左偏分布。,67,二、峰态及其测度,峰态是数据分布扁平程度的测度，通常用峰态系数来表示。一组数据的分布从垂直位置观察，与标准正态分布相比，有尖峰、扁平之分。若峰态

21、系数=0为扁平程度适中；峰态系数 0为尖峰分布；峰态系数 0为扁平分布。,68,例4.20：下表为某电脑销售公司连续120天的电脑销售量数据的频数分布表，根据表中数据计算偏态与峰态系数。表4.16 某电脑公司销售量偏态及峰态系数计算表,计算得偏态系数为0.448，峰态系数为-0.306。偏态系数为正值，但与0的差异不大，说明电脑销售量为轻微右偏分布，即销售量较少的天数占据多数，而销售量较多的天数则占少数。偏态系数为负值，但与0的差异不大，说明电脑销售量为轻微扁平分布,69,第四节 EXCEL描述统计功能,EXCEL具有十分强大而且非常易于使用的数据统计和预测工具，可通过EXCEL提供的统计函数或加载宏来完成描述性统计。详见课本操作。,70,本章小结,1、集中趋势是指一组数据向其中心值靠拢的倾向，测度集中趋势也就是寻找数据一般水平的代表值或中心值。反映集中趋势的指标主要有：算术平均数、调和平均数、几何平均数、中位数、众数、截尾均值。 2、离中趋势反映总体各单位标志值的差别大小程度的综合指标，说明标志值的分散程度或离中趋势。常用的衡量离中趋势指标有：异众比率、全距、平均差、方差和标准差、离散系数。 3、偏态衡量数据分布的偏斜程度，峰态衡量数据分布的扁平程度。,

展开阅读全文

第四章 统计描述.ppt

第四章统计描述.ppt