收藏 分享(赏)

统计学4.ppt

上传人:dreamzhangning 文档编号:2348612 上传时间:2018-09-11 格式:PPT 页数:58 大小:556KB
下载 相关 举报
统计学4.ppt_第1页
第1页 / 共58页
统计学4.ppt_第2页
第2页 / 共58页
统计学4.ppt_第3页
第3页 / 共58页
统计学4.ppt_第4页
第4页 / 共58页
统计学4.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、第四章 数据资料的统计描述: 数值计算,(一)教学目的,通过本章学习,掌握数据分布集中趋势和分布离散程度的测度,重点掌握分组数据的均值和标准差及变异系数的计算与众数、中位数和均值的比较,并能灵活加以运用,了解数据分布形状(即偏态与峰度)及其测度。,(二)教学要点,集中趋势的测度指标及其计算方法; 离散趋势的测度指标及其计算方法; 数据分布偏态与峰度的测度。,前言,统计数据的分布特征可以从两个方面进行描述:一是数据分布的集中趋势,二是数据分布的离散程度。 集中趋势和离散程度是数据分布特征对立统一的两个方面。 本章通过介绍平均指标和变异指标这两种统计指标的概念及计算来讨论反映数据集中趋势和分散程度

2、的两个方面的特征。,第一节 数据分布集中趋势的测定,集中趋势是指一组数据向某中心值靠拢的倾向,集中趋势的测度实际上就是对数据一般水平代表值或中心值的测度。不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。本节重点介绍众数、中位数两个位置平均数和算术平均数、调和平均数及几何平均数三个数值型平均数。,一、算术平均数,算术平均数(Arithmetic mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指

3、标最基本、最常用的方法。 算术平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,通常用表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。,二、调和平均数(Harmonic mean),在实际工作中,经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。 调和平均数是各个变量值倒数的算术平均数的倒数,习惯上用H表示。 1. 集中趋势的测度值之一 2. 均值的另一种表现形式 3. 易受极端值的影响 4. 用于定比数据,计算公式:,在实际工作中,调和平均数通常是作为算术平均数的变形使用的,也就是由于受所掌握资料的限制,有时

4、不能直接采用算术平均数的计算公式计算平均数,这就需要使用调和平均数的形式进行计算。,三、几何平均数(Geometric mean),1. 集中趋势的测度值之一 2. N 个变量值乘积的 N 次方根 3. 适用于特殊的数据 4. 几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度。当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。,计算公式:,四、众数(Mode),(一) 概念 众数是指一组数据中出现次数最多的变量值,用M0表示。 从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的变

5、量值即为众数。 当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。,特点: 1.集中趋势的测度值之一; 2.出现次数最多的变量值; 3.不受极端值的影响; 4.可能没有众数或有几个众数; 5.适用于定类数据、定序数据、定距数据和定比数据。 众数的不唯一性: 无众数原始数据: 10 5 9 12 6 8 一个众数原始数据: 6 5 9 8 5 5 多于一个众数原始数据: 25 28 28 36 42 42,(二)众数确定,1.定类数据和定序数据众数的测定 定类数据与定序数据计算众数时,只需找出出现次数最多的组所对应的变量值即为众数。 2.未分组

6、数据或单变量值分组数据众数的确定 未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。,3.组距分组数据众数的确定 组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下的理解:设众数组的频数为fm,众数前一组的频数为f-1,众数后一组的频数为f+1。 当众数相邻两组的频数相等时,即f-1=f+1,众数组的组中值即为众数; 当众数组的前一组的频数多于众数组后一组的频数时,即f-1f+1,则众数会向其前一组靠,众数小于其组中值; 当众数组后一组的频数多于众数组前一组的频数时,即f-1f+1,则众数会向其后一组靠,众数大于其组中值。,基于这种思路

7、,借助于几何图形而导出的分组数据众数的计算公式如下:其中:L表示众数所在组的下限;U表示众数所在组的上限;i表示众数所在组的组距;fm为众数组的频数;f-1为众数组前一组的频数;f+1为众数组后一组的频数。 参看例题:P54例4.7,(三)适用场合,上述下限和上限公式是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性就会很差。 从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。,五、中位数,(一)概念中位数是将总体各单位标志值按大小顺序排列后,处于中间

8、位置的那个数值。 1.集中趋势的测度值之一; 2.排序后处于中间位置上的值; 3.不受极端值的影响; 4.适用于定序数据和数值型数据; 5.各变量值与中位数的离差绝对值之和最小,即:,(二)中位数的确定,1.定序数据中位数的确定 定序数据中位数确定的关键是确定中间位置,中间位置所对应的变量值即为中位数。,六、众数、中位数与算术平均数的关系,从上面的分析我们可以看出,当频数分布出现偏态时,极端值对算术平均数产生很大的影响,而对众数、中位数没有影响,此时,用众数、中位数作为一组数据的中心值比算术平均数有较高的代表性。,第二节 数据分布离散程度的测定,数据分布的离散程度是描述数据分布的另一个重要特征

9、;反映各变量值远离其中心值的程度,因此也称为离中趋势; 从另一个侧面说明了集中趋势测度值的代表程度;不同类型的数据有不同的离散程度测度值。 描述数据离散程度的测度值主要有异众比率、极差、四分位差、平均差、方差和标准差、离散系数等,这些指标我们又称为变异指标。,一、异众比率,(一)概念 1.离散程度的测度值之一; 2.非众数组的频数占总频数的比率; 3.用于衡量众数的代表性;,(二)异众比率的测算,(三)作用,异众比率的作用是衡量众数对一组数据的代表性程度的指标。 异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差; 反之,异众比率越小,众数的代表性就越好。异众比率主要用于

10、测度定类数据、定序数据的离散程度。,二、极差,(一)概念要点 1.一组数据的最大值与最小值之差; 2.离散程度的最简单测度值; 3.易受极端值影响; 4.未考虑数据的分布, (二)极差的测度 1.未分组数据 R = max(Xi) - min(Xi) 2.组距分组数据 R =最高组上限 - 最低组下限,三、四分位差,(一)四分位数 中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、八分位数、十分位数和百分位数等。它们分别是用3个点、7个点、9个点和99个点将数据四等分、八等分、十等分和100等分后各分位点上的值。 这里只介绍四分位数的计算,其他分位数与之类似。,1.四分位数

11、一组数据排序后处于25和75位置上的值,称为四分位数,也称四分位点。 四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25的数据。很显然,中间的分位数就是中位数。 通常所说的四分位数是指处在25位置上的数值(下四分位数)和处在75位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。,2.四分位数的确定,(二)四分位差,四分位数是离散程度的测度值之一,是上四分位数与下四分位数之差,又称为四分位差,亦称为内距或四分间距(inter-quartile range),用Qd表示。 四分位差的计算公式为:,四分位差反

12、映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。 四分位差主要用于测度定序数据及数值型数据的离散程度的测定。它克服了极差容易受极端值的影响这一缺陷。 此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。,四、方差和标准差(Variance 、Standard deviation),(一)概念 1.离散程度最常用的测度值; 2.方差是各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根; 3.反映了数据的分布反映了各变量值与均值的平均差异; 根据全部数据计算,反映每个数据与其算术平均数

13、相比平均相差的数值,因此它能准确地反映出数据的差异程度,是实际中应用最广泛的离中程度度量值。 4.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,(二)总体的方差和标准差,(三)样本的方差和标准差,样本的方差、标准差与总体的方差、标准差在计算上有所差别。 总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1(自由度)去除总离差平方和。,五、相对离散程度:离散系数,(一)概念 前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小,不仅取决于数值的变异

14、程度,而且还与变量值水平的高低、计量单位的不同有关。 所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先做无量纲化处理,即将上述的反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,然后再进行对比。,(二)标准差系数 1.标准差与其相应的均值之比 2.消除了数据水平高低和计量单位的影响 3.测度了数据的相对离散程度 4.用于对不同组别数据离散程度的比较,计算公式,第三节 数据分布偏态与峰度的测定,集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。 偏态和峰度就是对这些分布

15、特征的描述。偏度是对数据分布在偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述。 对于偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数。,一、动差法,动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。,二、偏态及其测度,偏态是对分布偏斜方向及程度的度量。从前面的内容中我们已经知道,频数分布有对称的,有不对称的即偏态的。 在偏态的分布中,又有两种不同的形态,即左偏和右偏。我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏还是右偏, 但要度量分布偏斜的程度,

16、就需要计算偏态系数了。,采用动差法计算偏态系数是用变量的三阶中心动差m3与 进行对比,计算公式为:,三、峰度及其测度,本章总结,1、集中趋势测度指标的计算方法与应用场合; 2、离散程度测度指标的计算方法与应用场合; 3、如何正确运用离散程度指标评价总体平均水平的代表性; 4、对标准差、方差等指标含义的准确理解。 5、偏态与峰度指标的计算方法。,软件演示,EXCEL SPSS,利用Excel进行数据描述,x1 x2,x3,利用“统计函数”进行数据描述,利用描述统计分析工具进行,用于集中性测定的常用函数有:,(1) 均值函数(AVERAGE),(2) 中位数函数(MEDIAN),(3) 众数函数(

17、MODE),1. 利用“统计函数”进行数据描述,(4) 几何平均数函数(GEOMEAN),(1) 总体方差函数(VARP) (2) 样本方差函数(VAR),用于离中趋势测定的常用函数有:,(3) 总体标准差函数(STDEVP) (4) 样本标准差函数(STDEV),偏度函数(SKEW)用于计算次数分布的不对称程度。 SKEW(number1,number2,.),分布形态的测定内容,峰度函数(KURT)用于反映次数分布的尖锐度或平坦度。KURT(number1,number2, .),Excel描述统计工具计算与数据的集中趋势、离中趋势、偏度等有关的描述性统计指标。“描述统计”对话框如下图所示。,2. 利用描述统计分析工具进行,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 往来文书

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报