收藏 分享(赏)

第三章集中和离散.ppt

上传人:scg750829 文档编号:8813990 上传时间:2019-07-12 格式:PPT 页数:82 大小:571KB
下载 相关 举报
第三章集中和离散.ppt_第1页
第1页 / 共82页
第三章集中和离散.ppt_第2页
第2页 / 共82页
第三章集中和离散.ppt_第3页
第3页 / 共82页
第三章集中和离散.ppt_第4页
第4页 / 共82页
第三章集中和离散.ppt_第5页
第5页 / 共82页
点击查看更多>>
资源描述

1、第三章 集中趋势和离中趋势,31 集中趋势的测度 32 离中趋势的测度 33 偏态与峰度的测定,31集中趋势的测度,集中趋势是指一组数据(或总体各单位标志值)向某一中心值靠拢的倾向,测度集中趋势也就是寻找资料一般水平代表值或中心值,即平均指标。所谓平均指标,是说明同质总体内各单位某一数量标志在一定时间、地点条件下所达到的一般水平。趋势的测度值(平均指标)主要有算术平均数、调和平均数、几何平均数、众数和中位数等。本节将分别介绍它们的计算方法、特点及应用场合。2,2002年,全国职工平均工资为12422元,其中,金融、保险业最高,为19135元,而农、林、牧渔业最低,为6398元,相当于最高的33

2、.44%。,一、算术平均数算术平均数是集中趋势中最常用、最重要的测度值。它是将总体标志总量除以总体单位总量而得到的均值。 (一)算术平均数的基本公式算术平均数总体标志总量/总体单位总量注意,式中分子、分母指标必须属于同一总体,即各标志值与各单位之间是一一对应的。这也是算术平均数与强度相对指标的区别。 (二)两种计算形式:首先看两个资料。5,例一:设有一组大学生的月生活费支出为:150,200,240,300,350,500(单位:元)。(x=290)例二:有一班级的大学生月生活费支出如下表:月生活费(元)x 人数(人)f 频率(%)150 3 5.36200 5 8.93240 7 12.50

3、 300 24 42.85350 16 28.57500 1 1.79合 计 56 100.006,加权算术平均数计算表月生活费(元)x 人数(人)f 频率(%) xf x*频率150 3 5.36 450 8.04200 5 8.93 1000 17.86240 7 12.50 1680 30.00300 24 42.85 7200 128.55350 16 28.57 5600 100.00500 1 1.79 500 8.95合 计 56 100.00 16430 293.40资料栏 计算栏解: 该班级学生平均月生活费=(公式) =16430/56=293.39(元)7,1、简单算术平均

4、数(适用于未分组资料) 计算公式为:如果所给的数据是已经分组的次数分布数列,则算术平均数的计算应采用加权算术平均数的形式。8,2、加权算术平均数(适用于分组资料) (为什么由分组资料计算平均指标不能将各组的标志值简单平均?)。计算公式为:式中:f 代表各组的次数或频数(即各组的单位数)。比较两个公式,并解释为什么次数f又称之为权数?,平均数的大小不仅取决于各组标志值 x的大小,同时还受各组次数f多少的影响。各组标志值次数的多少在平均数的计算中具有权衡轻重的作用,因而把各组的次数又称为权数,用各组的次数去乘以各组的标志值,就是对各组的标志值进行加权。所以,用这种方法计算的算术平均数,称为加权算术

5、平均数。试想,如果各组次数完全相同,结果会怎样?11,实务中给定的权数资料,既可以是绝对数,也可以是相对数,即频率或称权数系数。当权数为相对数时,加权算术平均数的表达公式如何呢?算术平均数既可依据单项变量数列计算也可依据组距数列计算;既可根据绝对数计算,也可根据相对数或平均数进行计算。12,如果根据相对数或平均数进行计算,则应注意的问题是: (1) 只能用加权形式计算; (2) 权数的选择问题。,例见表所给资料。表一 某市某局18个企业税收计划完成情况计划完成(%) 企业数(个) 计划任务数(万元)95100 5 100100105 8 1200105110 3 100110以上 2 60合

6、计 18 1460要求:计算18个企业税收收入平均计划完成程度。14,计算表计划完成(%) 组中值x(%)计划任务数f(万元) 实际完成数xf(万元)95100 97.5 100 97.5100105 102.5 1200 1230.0105110 107.5 100 107.5110以上 112.5 60 67.5合 计 1460 1502.5计算栏解:平均计划完成程度x = xf/f =1502.5/1460=102.91%15,表二(用于计算调和平均数)计划完成(%) 企业数(个) 实际完成数(万元)95100 5 97.5100105 8 1230.0105110 3 107.5110

7、以上 2 67.5合 计 18 1502.5要求同上:计算18个企业税收收入平均计划完成程度。16,计算表 计划完成(%) 组中值x(%) 实际完成数m 计划任务数m/x(万元) (万元)95100 97.5 97.5 100 100105 102.5 1230.0 1200 105110 107.5 107.5 100 110以上 112.5 67.5 60合 计 1502.5 1460计算栏 解: = 1502.5/1460=102.91%17,(三)算术平均数的数学性质1、各个变量值与算术平均数的离差总和等于零。 表达式: (x-x)=0 或 (x-x)f=0 2、各个变量值与算术平均数

8、的离差平方总和为最小值。 表达式: (x-x)2 =最小或 最小18,二、调和平均数,又称“倒数平均数”,它是根据各变量值的倒数来计算的平均数。具体地讲,调和平均数是各变量值倒数的算术平均数的倒数。 (一)调和平均数的计算方法1、 简单调和平均数(适用于未分组资料)计算公式为:xH = = (1/x1+1/x2+1/xn)/n (1/x)19,1,n,2、加权调和平均数(适用于分组资料)计算公式 :以m加权的调和平均数与以f加权的算术平均数的关系.20,因为,各组标志总量 m=xf 所以,各组的单位数(次数)f=m/x 则:x=xf/f=m/m/x = xH由二者的关系式得出,加权调和平均数是

9、加权算术平均数的变形,二者在经济内容、计算结果上是完全一致的,仅计算形式不同而已。21,(二)加权算术平均数和加权调和平均数的采用1、由平均数计算 举例 以某种蔬菜为例,资料见表3-4。 某种蔬菜的有关资料 表一 价格x(元/公斤) 采购金额m(元)早 市 0.50 10.00中 市 0.45 13.50晚 市 0.40 8.00合 计 31.50 22,表二 价格x(元/公斤) 采购量f(公斤)早 市 0.50 20中 市 0.45 30晚 市 0.40 20合 计 70分别依据表一和表二的资料,计算该种蔬菜的平均价格。思路: 平均每公斤价格购买金额/采购量 = 0.45(元公斤) 23,2

10、、由相对数计算例题见前述计划完成程度的计算。结论:在由相对数或平均数计算平均数时,在什么情况下采用加权算术平均数或加权调和平均数,首先要明确所求平均指标的分子、分母是什么,而后再根据所掌握的资料条件来选择。如果所掌握的权数资料是计算公式的分母数值时,则直接采用加权算术平均数的形式;如果所掌握的权数资料是计算公式的分子数值时,则需采用加权调和平均数的形式。24,三、几何平均数,几何平均数是计算平均比率或平均发展速度的最适用的一种方法。凡是变量值的连乘积等于总比率或总速度的现象,都采用几何平均数反映现象总体的一般水平。 根据所掌握资料的不同,也有简单和加权两种形式: (一)简单几何平均数是n个变量

11、值连乘开n次方根的结果。25,三、几何平均数,(二)加权几何平均数26,四、切尾均值,切尾均值是一种新的集中趋势测度方法,在大赛中得到广发应用。切尾均值是去掉大小两端的若干数值后计算中间数据的均值。27,四、切尾均值,式中:n表示观察值的个数;表示切尾系数 ,各观察值是经排队后由小到大形成的顺序统计量值。28,五、位置平均数,(一)众数 (二)中位数 (三)分位数,(一)众数 1、众数的概念众数是总体中出现次数最多的标志值,即最普遍、最常见的标志值。众数只有在总体单位较多而又有明确的集中趋势的资料中才有意义。 2、众数的确定单项数列中,出现次数最多的那个组的标志值就是众数。若在数列中有两组的次

12、数是相同的,且次数最多,则就是双众数或复众数。组距数列中,众数的确定要分两步: 第一步,用直接观察法确定众数组即次数最多的那一组; 第二步,计算众数的近似值。比较精确的方法是用众数组次数与相邻两组次数之差来推算众数的近似值。29,五、位置平均数,众数一般有两种计算公式: 1 下限公式: M0 = L+ d 1+2上限公式: M0=U- 2 /(1+2) d组距数列众数的确定一般与其相邻两组的频数分布有关。若众数组前一组的频数比众数组后一组的频数多,则众数小于众数组的组中值;反之,众数大于其组中值。若众数组前一组的频数等于其后一组的频数,则众数就是众数组的组中值。 31,五、位置平均数 (二)中

13、位数 1、中位数的概念中位数是将总体单位某一变量的各个变量值按大小顺序排列,处在数列中间位置的那个变量值就是中位数。 2、中位数的确定 (1)未分组资料确定中位数 在资料未分组的情况下,将各变量值按大小顺序排列后,首先,确定中位数的位置,即(n+1)/2; 然后,根据中点位置确定中位数。32,(二)中位数,2、中位数的确定单项数列 (2)分组资料确定中位数 组距数列由单项数列计算中位数:首先,计算各组的累积次数;然后,根据中点位置(总次数/2)在累积次数中确定中位数所在组,以确定中位数。,(二)中位数,2、中位数的确定 (2)分组资料确定中位数 由组距数列计算中位数(情况要复杂一些): 分三步

14、骤: 第一步,计算累积次数; 第二步,计算中位数位置(总次数/2),以 确定中位数组; 第三步,用比例推算法估计中位数的近似值。,组距数列中位数的计算公式,下限公式:上限公式:,下限公式的比例推算法:累积次数Sm-1 =180 中点位置f/2=215中位数所在组次数fm=180215-180=35中位数在该组分摊组距的比例为:35/180,五、位置平均数,(三)分位数 中位数是将统计分布从中间分成面积相等的两部分(即两边数据个数相等)。与中位数性质相似的还有 四分位数十分位数百分位数,五、位置平均数,(三)分位数 1、四分位数又称四分位点,它是通过3个点将全部数据等分为4部分,其中每部分包含2

15、5%的数据,处在分位点上的数值就是四分位数。 很显然,其中中间的四分位数就是中位数。所以,通常所说的的四分位数是指第一个和第三个四分位数,分别又称作下四分位数和上四分位数。,(三)分位数,四分位数的计算方法: 与中位数计算相类似 (1)未分组资料计算 首先对数据进行排序,然后确定四分位数所在位置。设:下四分位数为上四分位数为中间四分位数为,(三)分位数,四分位数的计算方法: (1)未分组资料计算的位置=的位置=,(三)分位数,四分位数的计算方法: (1)未分组资料计算的位置 =,(三)分位数,四分位数的计算方法: (1)未分组资料计算 当四分位数的位置不在某个数值上时,可根据四分位数的位置,按

16、比例分摊四分位数位置两侧数值的差值。,(三)分位数,四分位数的计算方法: (2)分组资料计算 首先,确定 和 的位置,并确定 和 所在的组。的位置 =N/4 的位置=3N/4,(三)分位数,四分位数的计算方法: (2)分组资料计算然后 ,仿照中位数的计算公式确定 和 的具体数值。,(三)分位数,四分位数的计算方法: (2)分组资料计算,(三)分位数,四分位数的计算方法: (2)分组资料计算,(三)分位数,2、十分位数 3、百分位数十分位数和百分位数是分别将数据分布10等分和100等分的数值。计算公式仿照四分位数计算即可。,六、平均指标之间的相互关系,(一)算术平均数、几何平均数和调和平均数的关

17、系三者存在的数量关系表现在:根据同一资料所计算的三种平均数,几何平均数大于调和平均数而小于算术平均数,即X XG XH ; 当变量数列中所有的标志值都相等时,三种平均数相同,即 X XG XH 。 (二)中位数、众数与算术平均数的关系这三者之间的关系,决定于总体内部的次数分布状况。 48,(二)中位数、众数与算术平均数的关系,在对称分布的情况下,中位数,众数和算术平均数合而为一,即:Me =M0= 在非对称分布的情况下,中位数,众数和算术平均数之间存在一定的差别。 如果分布右偏,则三者之间的关系是 : M0 Me ; 如果分布左偏,则三者之间的关系是: M0 Me 。可见,无论是右偏还是左偏,

18、中位数总是介于算术平均数和众数之间。 适度偏态时, - Me 的距离是 -M0 的1/3。49,对称分布,M0= Me = X;,Me,M0,X,右偏分布,左偏分布,X,Me,M0,(三)众数、中位数和算术平均数的特点和应用 场合,众数是一组数据分布的峰值,是一种位置代表值。其优点是易于理解,不受极端值的影响。当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比均值要好。其缺点是具有不唯一性。中位数是一组数据中间数据的代表值, 其特点是不受数据极端值的影响,因此,对于具有偏态分布的数据,中位数的代表性要比均值好。算术平均数是就全部数据计算的,它具有优良的数学性质,是实际应用最广

19、泛的集中趋势测度值。其主要缺点是易受极端值的影响,对于偏态分布的数据,均值的代表性较差。 53,结论:从各种代表值之间的关系及其特点可看出:当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这时,应选择均值作为集中趋势的代表值(为什么?); 当数据为偏态分布,特别当偏斜的程度较大时,我们应选择众数或中为数等位置平均数,这时它们的代表性要比均值好。 此外,均值只适用于定距或定比尺度的数据,而对于定类或定序尺度的数据无法计算均值,但却可以计算众数和中位数。54,第二节 频数分布离中程度的测度,案例1有两组男生身高分别为:甲组(cm):168,172,172,173,175,190 乙组(

20、cm):168,172,175,175,178,182两组平均身高均为175cm,它们的代表性一样吗?,案例2,有男、女两组身高: 男组(cm): 168,172,172,173,175,190 女组(cm):163,164,165,165,167,171男组平均身高175cm; 女组平均身高165.83cm。 思考:两组平均身高的代表性如何评价?,案例3,从某校一年级大学生中随机抽取100人,测得他们的身高和体重平均值分别是168厘米和52千克,相应的标准差为9厘米和5千克,问身高和体重哪一个差异大?,案例1计算表,甲 组 乙 组身高x x-x (x-x)2 身高x x-x (x-x)216

21、8 -7 49 168 -7 49172 -3 9 172 -3 9172 -3 9 175 0 0173 -2 4 175 0 0175 0 0 178 3 9190 15 225 182 7 49合 计 296 合 计 116 甲组:= (x-x)2/n 1/2 =7.02(厘米)乙组:=116/6 1/2 =4.4(厘米),第二节 频数分布离中程度的测度,离中程度,是各个变量值远离其中心值的程度,又称离散程度,或变异指标 。 为什么要测度离中程度?集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值聚集的程度。而各变量值之间的差异状况如何,均值的代表性有多大,这就需要用

22、离中程度对其进行考察。数据的离中程度是数据分布的另一个重要特征,它与均值的关系是:变量值的差异大,离散程度就大,均值的代表性就小;变量值差异小,离散程度就小,均值的代表性也就大。 59,描述数据离散程度的测度值主要有极差、平均差、方差和标准差、离散系数等。 一、极差极差亦称全距,即两极之差。根据全距的大小来说明变量值变动范围的大小。 极差R最大值-最小值对于组距分组数据,极差也可以近似表示为: R =最高组的上限值-最低组的下限值 极差是描述数据离散程度的最简便测度值,其计算简单,易于理解,但它容易受极端值的影响。 60,补充:内距,内距,是两个四分位数之差,即:内距=上四分位数-下四分位数与

23、极差比较,内距基本不受极端值的影响,且内距反映的是中间50%数值大小的差异,故给我们比极差更多的数据差异信息。49,二、平均差,平均差是表明总体各单位变量值与其均值之间绝对离差的算术平均数,又称平均离差,一般用AD表示。为什么采取离差的绝对值,即62,平均差两种计算形式,(1)简单平均差(适用于未分组资料)其公式为:(2)加权平均差(分组资料) 其公式为: 51,平均差是根据全部变量值计算的,受极端值的影响比较小,所以,它能够综合反映总体中各单位变量值的离散程度。但由于它采用绝对值计算不符合代数方法的演算,所以在统计研究中应用较少。 52,三、方差和标准差(一) 方差和标准差的含义 方差,是总

24、体各单位变量值与其算术平均数的离差平方的算术平均数 ,用2表示,方差的平方根就是标准差。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,更多使用标准差。与平均差比较,标准差的优点是什么? 5 3 65,标准差与平均差虽都是变量值与均值的平均离差,但不同的是平均差所平均的是离差绝对值,而标准差平均的是离差平方。标准差彻底解决了正负离差不能相加的问题。它在抽样调查、相关分析中应用较多,所以标准差是应用较为广泛的一种离中趋势的测度值。 54 66,标准差的计算有两种形式 简单平均式和加权平均式,(1)在未分组资料情况下,采用简单

25、平均式。公式为:(2)在分组资料情况下,采用加权平均式。公式为:67,(二)方差的数学性质: 1、变量的方差等于变量平方的平均数减去变量平均数的平方 。即:2x2-(x)2 2、变量对算术平均数的方差,小于对任意常数的方差。(三)标准差的应用标准差可用于计算标准化值。标准化值是某一数据与平均数的距离以标准差为单位的测量值。其计算公式为 :Zi=(xi-x)/68,一组数据中的每一个原始数据都可以计算出对应的标准化值,这一组标准化值组成一个标准化值的平均数为零,标准差为1。 当Zi=0时 ,即xi=x,这时原始数据正好等于这一组数据的平均数; 当Zi 0时,原始数据高于其平均数; 当Zi0时,原

26、始数据低于其平均数。标准化数据越大,说明它距离平均数越远。标准化值不仅能表明各原始数据在一组数据分布中的相对位置,而且能在不同分布的各原始数据间进行比较,同时还能接受代数方法的处理。因此,标准化值在统计分析中起这十分重要的作用。69,四、变异系数,平均差和标准差其数值大小,不仅决定于各标志值的差异程度,还决定于数列平均水平的高低,同时它们具有与标志值相同的名数。因而,对于具有不同平均水平和不同计量单位的数列,就不能直接利用标准差等来比较其标志变动程度的大小,而需要用变异系数,以消除不同数列水平的影响。58,四、变异系数,变异系数是将标准差或平均差与其平均数对比所得的比值,又称离散系数。公式为:

27、或 (被常用)变异系数是一个无名数的数值,可用于比较不同数列的变异程度。59,五、成 数,(一)成数的概念所谓成数是总体中具有某种属性或特征的单位数占全部单位数的比重,它反映了总体中“是”或 “非”属性的构成,并且代表着该种属性或特征反复出现的程度,即频率。成数的计算。在一个是非标志总体中,如果全部总体单位数用来表示,具有某种属性或特征的单位数用1表示,它在全部总体单位数中所占的比重(即成数)用P表示。则:P1/ 72,将不具有某种属性或特征的单位数用0表示,它在全部总体单位数中所占的比重(成数)用Q表示,则:Q0/两个成数之和等于,即:1/0/亦即,PQ因而,QP73,(二)是非标志的平均数

28、和标准差,是非标志是品质标志,因而无法直接计算其平均质量。要计算是非标志的平均数,就必须将是非标志在性质上的差别过渡到数量上的变异,即将是非标志数量化。如果以“”表示具有某种属性或特征的单位的标志值,以“0”表示不具有某种属性或特征的单位的标志值,则是非标志就转化为(0,1)的数量标志值。 列成统计表,则有:是非标志值(变量值)x 比重(成数)f1 P0 Q合 计 1,是非标志平均数和标准差的计算表是非标志值 比重 变量值 离差 离差 离差平方(变量值) (成数) 比重 平方 权数x f xf x-x (x-x)2 (x-x)2 f (1) (2) (3) (4) (5) (6) 1 P P

29、1-P (1-P)2 (1-P)2 P 0 Q 0 0-P P2 P2 Q合 计 1 P Q2 P+P2 Q是非标志平均数 x=xf/f=(P1+0Q)/(P+Q) =P/1=P,是非标志标准差,是非标志标准差,是非标志的方差:,第三节 偏态与峰度的测定,数据的分布特征除了用集中趋势和离散程度来描述外,许多场合还需要了解数据分布的偏斜程度及扁平程度。偏态与峰度是进一步描述分布情况的两种统计测度。 一、偏态及其测定偏态是对分布偏斜方向及程度的测度。尽管利用众数、中位数和算术平均数之间的关系可以判断分布是左偏还是右偏,但要测度偏斜的程度就需要计算偏态系数。偏态系数的计算方法有很多,较常用的一种中心

30、矩偏态测度法。中心矩指各个变量值与平均数的离差的K次方的平均值,也称中心动差。其计算公式为:mk=(x-x)kf/f公式中,k代表中心动差的阶数。78,统计上常以三阶中心矩作为测定偏态的一个重要指标。并且常用三阶中心矩m3除以标准差的三次方3 作为偏态系数,以测定数据分布的相对偏斜程度。 偏态系数:3 = m3/3 = (x-x)3f/3f当分布对称时, 3 =0;当分布不对称时,则形成了正或负的偏态系数。具体而言:当30时,说明大于算术平均数的数据的次数比小于算术平均数的数据的次数要少,因此分布为右偏,并且值越大,说明右偏斜的程度越高;反之,当3 0时,说明分布为左偏,值越小,左偏程度越高。

31、 79,二、峰度及其测定,峰度是频数分布的另一特征。它是频数分布曲线与正态分布相比较,顶端的尖峭程度。统计上常用四阶中心矩m4测定峰度。为了便于不同数列间峰度的比较,将四阶中心矩除以标准差的四次方4,得相对峰度指标即峰度系数。其计算公式为:峰度系数:4 = m4/4 = (x-x)4f/4f统计计算可知,正态分布时, 4 =3。80,经验证明,当的数值接近与1.8时,频数分布曲线趋向一条水平线;当的数值在1.8以下时,频数分布曲线是“U”型分布。因此,钟型分布的峰度指标的值在1.8以上。 当=3时,分布曲线为正态曲线; 当3时,分布曲线为尖峰分布。81,作业:某公司下属三个企业生产同种产品,单价为80元,甲企业有工人数200人,乙企业有工人数300人,丙企业工人数350人,有关资料如下:企业 人均产量(件) 单位产品成本(元/件)甲 900 50 乙 1200 58丙 1250 54 要求(1)计算该公司的人均产量和单位产品成本。(2)若各企业的人均产量都与丙企业相同,公司可增加多少产量和产值?(3)若各企业的单位产品成本都达到甲企业的水平,则公司可节约多少资金?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报