数据分布特征的描述讲义.doc-道客多多

资源描述

1、1第三章数据分布特征的描述（一）教学目的通过本章学习，掌握数据分布集中趋势和分布离散程度的测度，重点掌握分组数据的均值和标准差及变异系数的计算与众数、中位数和均值的比较，并能灵活加以运用，了解数据分布形状（即偏态与峰度）及其测度。（二）基本要求使学生熟练掌握数据分布特征的描述方法。（三）教学要点1、集中趋势的测度指标及其计算方法；2、离散趋势的测度指标及其计算方法；3、数据分布偏态与峰度的测度。（四）教学时数9 课时（五）学习内容统计数据的分布特征可以从两个方面进行描述：一是数据分布的集中趋势，二是数据分布的离散程度。集中趋势和离散程度是数据分布特征对立统一的两个方面。本章通过介绍平均指标和

2、变异指标这两种统计指标的概念及计算来讨论反映数据集中趋势和分散程度的两个方面的特征。第一节数据分布集中趋势的测定集中趋势是指一组数据向某中心值靠拢的倾向，集中趋势的测度实际上就是对数据一般水平代表值或中心值的测度。不同类型的数据用不同的集中趋势测度值，低层次数据的集中趋势测度值适用于高层次的测量数据，反过来，高层次数据的集中趋势测度值并不适用于低层次的测量数据，选用哪一个测度值来反映数据的集中趋势，要根据所掌握的数据的类型来确定。一般我们用平均指标作为集中趋势测度指标，本节重点介绍众数、中位数两个位置平均数和算术平均数、调和平均数及几何平均数三个数值型平均数。一、众数(Mode)(一) 概念

3、众数是指一组数据中出现次数最多的变量值，用 M0表示。从变量分布的角度看，众数是具有明显集中趋势点的数值，一组数据分布的最高峰点所对应的变量值即为众数。当然，如果数据的分布没有明显的集中趋势或最高峰点，众数也可以不存在；如果有多个高峰点，也就有多个众数。1.集中趋势的测度值之一；2.出现次数最多的变量值；3.不受极端值的影响；4.可能没有众数或有几个众数；5.适用于定类数据、定序数据、定距数据和定比数据。众数的不唯一性：无众数原始数据: 10 5 9 12 6 8一个众数原始数据: 6 5 9 8 5 5多于一个众数原始数据: 25 28 28 36 42 42（二）众数确定1.定类数据和定序

4、数据众数的测定定类数据与定序数据计算众数时，只需找出出现次数最多的组所对应的变量值即为众数。22.未分组数据或单变量值分组数据众数的确定未分组数据或单变量值分组数据计算众数时，我们只需找出出现次数最多的变量值即为众数。3.组距分组数据众数的确定组距分组数据，众数的数值与其相邻两组的频数分布有一定的关系，这种关系可作如下的理解：设众数组的频数为，众数前一组的频数为，众数后一组的频数为。当众数相邻两组mf 1f 1f的频数相等时，即 = ，众数组的组中值即为众数；当众数组的前一组的频数多于众数组后一1组的频数时，即，则众数会向其前一组靠，众数小于其组中值；当众数组后一组的频数f多于众数组前

5、一组的频数时，即，则众数会向其后一组靠，众数大于其组中值。基于这种f1思路，借助于几何图形而导出的分组数据众数的计算公式如下： iffUMLm)()(110其中：L 表示众数所在组的下限；U 表示众数所在组的上限；i 表示众数所在组的组距；f m为众数组的频数；f -1为众数组前一组的频数；f +1为众数组后一组的频数。上述下限和上限公式是假定数据分布具有明显的集中趋势，且众数组的频数在该组内是均匀分布的，若这些假定不成立，则众数的代表性就会很差。从众数的计算公式可以看出，众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的，因此，众数是一个位置代表值，它不受数据中极端值的影响。二、

6、中位数（一）概念中位数是将总体各单位标志值按大小顺序排列后，处于中间位置的那个数值。1.集中趋势的测度值之一；2.排序后处于中间位置上的值；3.不受极端值的影响；4.适用于定序数据和数值型数据；5.各变量值与中位数的离差绝对值之和最小，即： min1nieMX（二）中位数的确定1.定序数据中位数的确定定序数据中位数确定的关键是确定中间位置，中间位置所对应的变量值即为中位数。（1）未分组原始资料中间位置的确定为偶数中位数位置为奇数中位数位置 N21（2）分组数据中间位置的确定 f中位数位置32.数值型数据中位数的确定组距分组资料单变量值分组

7、资料分组资料未分组资料数值型数据资料（1）未分组资料首先必须将标志值按大小排序。设排序的结果为：则：123nxx为偶数时当为奇数时当 NXMNe12（2）单变量分组资料为偶数时为奇数时ffe2（3）组距分组资料根据位置公式确定中位数所在的组；假定在中位数组内的各单位是均匀分布的，就可利用下面的公式计算中位数的近似值:ifSLMme1 ifSUMme12其中，是到中位数组前面一组为止的向上累计频数，则是到中位数组后面一组为止的s s向下累计频数；fm 为中位数组的频数；i 为中位数组的组距。三、算术平均数算术平均数(Arith

8、metic mean)也称为均值(Mean)，是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。算术平均数在统计学中具有重要的地位，是集中趋势的最主要测度值，通常用表示。根据所x掌握数据形式的不同，算术平均数有简单算术平均数和加权算术平均数。（一）简单算术平均数(Simple arithmetic mean)未经分组整理的原始数据，其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设总体数据为 X1,X2,Xn，样本数据为 x1,x2,xn 则统计总体均值和样本均值的计算X公式为： Ni121niixxxn4（二）加权算术平均数(Weighted ar

9、ithmetic mean)根据分组整理的数据计算的算术平均数，就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据（总体或样本数据）被分成 K 或 k 组，各组的变量值为 X1,X2,XK，或 x1,x2,xk，各组变量值的次数或频数分别为 F1,F2FK，或 f1,f2,fk，则总体或样本的加权算术平均数为：iKXFX121 kiifxffx121 上述公式中是用各组的组中值代表各组的实际数据，使用代表值时是假定各组数据在各组中是均匀分布的，但实际情况与这一假定会有一定的偏差，使得利用分组资料计算的平均数与实际的平均值会产生误差，它是实际平均值的近似值。加权算术平均数其数

10、值的大小，不仅受各组变量值大小的影响，而且受各组变量值出现的频ix数即权数大小的影响。如果某一组的权数大，说明该组的数据较多，那么该组数据的大小对算if术平均数的影响就越大，反之，则越小。实际上，我们将上式变形为下面的形式，就更能清楚地看出这一点。11Ki iKii ixff由上式可以清楚地看出，加权算术平均数受各组变量值（）和各组权数即频率大小的ixif影响。频率越大，相应的变量值计入平均数的份额也越大，对平均数的影响就越大；反之，频率越小，相应的变量值计入平均数的份额也越小，对平均数的影响就越小。这就是权数权衡轻重作用的实质。需要指出的是，当各组变量值出现的频数（）或频率相等时

11、，权数的作用就消失了，ifif这就意味着各组变量值对总平均的结果所起的作用是一样的，此时，加权算术平均数就等于简单算术平均数。算术平均数在统计学中具有重要的地位，它是进行统计分析和统计推断的基础。从统计思想上看，算术平均数是一组数据的重心所在，它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性的结果。算术平均数具有下面一些重要的数学性质，这些数学性质在实际中有着广泛的应用，同时也体现了算术平均数的统计思想。各变量值与其算术平均数的离差之和等于零，即或 1()0niix1()0kiiixf5各变量值与其算术平均数的离差平方和最小，即或 21()minniix21()minkiiixf四、

12、调和平均数（Harmonic mean）在实际工作中，经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况，这时就要用调和平均数法计算平均指标。调和平均数是各个变量值倒数的算术平均数的倒数，习惯上用 H 表示。1. 集中趋势的测度值之一2. 均值的另一种表现形式3. 易受极端值的影响4. 用于定比数据5. 计算公式为121KikiiimmHxx在实际工作中，调和平均数通常是作为算术平均数的变形使用的，也就是由于受所掌握资料的限制，有时不能直接采用算术平均数的计算公式计算平均数，这就需要使用调和平均数的形式进行计算。 111KKiiiiiiiimxffHx由此可见，调和平均数和算术平均数

13、在本质上是一致的，惟一的区别是计算时使用了不同的数据。在实际应用时，可掌握这样的原则，当计算算术平均数其分子资料未知时，就采用加权算术平均数计算平均数，分母资料未知时，就采用加权调和平均数计算平均数。五、几何平均数(Geometric mean)1. 集中趋势的测度值之一2. N 个变量值乘积的 N 次方根3. 适用于特殊的数据4. 几何平均数是适应于特殊数据的一种平均数，在实际生活中，通常用来计算平均比率和平均速度。当所掌握的变量值本身是比率的形式，而且各比率的乘积等于总的比率时，就应采用几何平均法计算平均比率。5. 计算公式为 NiNMXXG1216.它可可看作是算术平均数的一种变形 i2

14、1log)log(l六、众数、中位数与算术平均数的关系算术平均数与众数、中位数的关系取决于频数分布的状况。它们的关系如下：1. 当数据具有单一众数且频数分布对称时，算术平均数与众数、中位数三者完全相等，即6M0=Me= 。x2.当频数分布呈现右偏态时，说明数据存在最大值，必然拉动算术平均数向极大值一方靠，则三者之间的关系为 M eM 0。 3. 当频数分布呈现左偏态时，说明数据存在最小值，必然拉动算术平均数向极小值一方靠，而众数和中位数由于是位置平均数，不受极值的影响，因此，三者之间的关系为。XeM0从上面的分析我们可以看出，当频数分布出现偏态时，极端值对算术平均数产生很大的影响，而对众数、

15、中位数没有影响，此时，用众数、中位数作为一组数据的中心值比算术平均数有较高的代表性。算术平均数与众数、中位数如果从数值上的关系看，当频数分布的偏斜程度不是很大时，无论是左偏还是右偏，众数与中位数的距离约为算术平均数与中位数的距离的两倍，即 =2 eoMeX3()2oM第二节数据分布离散程度的测定数据分布的离散程度是描述数据分布的另一个重要特征；反映各变量值远离其中心值的程度，因此也称为离中趋势；从另一个侧面说明了集中趋势测度值的代表程度；不同类型的数据有不同的离散程度测度值。描述数据离散程度的测度值主要有异众比率、极差、四分位差、平均差、方差和标准差、离散系数等，这些指标我们又称为变异指标。

16、一、异众比率（一）概念1.离散程度的测度值之一；2.非众数组的频数占总频数的比率；0MXe图 3.1 平均数关系图XMe0右偏分布图 3.2 平均数关系图0Xe左偏分布图 3.3 平均数关系图73.用于衡量众数的代表性；（二）异众比率的测算 imirFV1其中：为变量值的总频数；为众数组的频数异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大，说明非众数组的频数占总频数的比重就越大，众数的代表性就越差；反之，异众比率越小，众数的代表性就越好。异众比率主要用于测度定类数据、定序数据的离散程度。二、极差（一）概念要点1.一组数据的最大值与最小值之差；2.离散程度的最简单测度值；

17、3.易受极端值影响；4.未考虑数据的分布，（二）极差的测度1.未分组数据 R = max(Xi) - min(Xi)2.组距分组数据 R 最高组上限 - 最低组下限三、四分位差（一）四分位数中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、八分位数、十分位数和百分位数等。它们分别是用 3 个点、7 个点、9 个点和 99 个点将数据四等分、八等分、十等分和 100 等分后各分位点上的值。这里只介绍四分位数的计算，其他分位数与之类似。1.四分位数一组数据排序后处于 25和 75位置上的值，称为四分位数，也称四分位点。四分位数是通过三个点将全部数据等分为四部分，其中每部分包含 2

18、5的数据。很显然，中间的分位数就是中位数，因此通常所说的四分位数是指处在 25位置上的数值（下四分位数）和处在 75位置上的数值（上四分位数）。与中位数的计算方法类似，根据未分组数据计算四分位数时，首先对数据进行排序，然后确定四分位数所在的位置。2.四分位数的确定设下四分位数为 QL ，上四分位数为（1）未分组数据4nX4)1(3nUX当四分位数的位置不在某一个位置上时，可根据四分位数的位置，按比例分摊四分位数两侧的差值。（2）单变量值分组数据4fL43f（3）组距分组数据ifSQLL ifSUQ（二）四分位差8四分位数是离散程度的测度值之一，是上四分位数与下四分位数之差，又称为四分位差，

19、亦称为内距或四分间距（inter-quartile range）,用表示。四分位差的计算公式为：dQdUL四分位差反映了中间 50%数据的离散程度，其数值越小，说明中间的数据越集中；数值越大，说明中间的数据越分散。四分位差主要用于测度定序数据及数值型数据的离散程度的测定。它克服了极差容易受极端值的影响这一缺陷。此外，由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四、平均差(Mean deviation)离散程度的测度值之一；平均差是各变量值与其算术平均数离差绝对值的平均数，用表示。dM能全面反映一组数据的离散程度；但该方法数学性质较差，实

20、际中应用较少。根据掌握资料的不同，平均差有以下两种计算方法：1.简单平均法对于未分组资料，采用简单平均法。其计算公式为：NXMiD12.加权平均法在资料分组的情况下，应采用加权平均式：KiiF1平均差计算简便，意义明确，而且平均差是根据所有变量值计算的，因此它能够准确地、全面地反映一组数值的变异程度。但是，由于平均差是用绝对值进行运算的，它不适宜于代数形式处理，所以在实际应用上受到很大的限制。五、方差和标准差(Variance 、Standard deviation)（一）概念1.离散程度最常用的测度值；2.方差是各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根；3.反映了数据

21、的分布反映了各变量值与均值的平均差异；方差和标准差同平均差一样，也是根据全部数据计算的，反映每个数据与其算术平均数相比平均相差的数值，因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同，平均差是取离差的绝对值消除正负号，而方差、标准差是取离差的平方消除正负号，这更便于数学上的处理。因此，方差、标准差是实际中应用最广泛的离中程度度量值。4.根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差（二）总体的方差和标准差1.设总体的方差为，标准差为，对于未分组整理的原始资料，方差和标准差的计算公式2分别为：9NXi122)(NXi12)(2

22、.对于分组数据，方差和标准差的计算公式分别为：KiiF1 KiiF12)(（三）样本的方差和标准差样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数，而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减 1（自由度）去除总离差平方和。设样本的方差为，标准差为，对于未分组整理的原始资料，方差和标准差的计算公式为：2ss)(12nxSi 1)(21nxSi对于分组数据，方差和标准差的计算公式为：kiiinf122)( kiiinf12)(当很大时，样本方差与总体的方差的计算结果相差很小，这时样本方差也可以

23、用总体n2S2方差的公式来计算。六、相对离散程度：离散系数（一）概念前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值，其数值的大小，不仅取决于数值的变异程度，而且还与变量值水平的高低、计量单位的不同有关。所以，不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较，应当先做无量纲化处理，即将上述的反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标，然后再进行对比。1.各种变异指标与其相应的算术平均数之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同总体数据离散程度的比较5.离散系数通常用 V 表示，常用的离散系数为标准差系

24、数。（二）标准差系数1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较计算公式为10xSVXs或第三节数据分布偏态与峰度的测定集中趋势和离中趋势是数据分布的两个重要特征，但要全面了解数据分布的特点，还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度就是对这些分布特征的描述。偏度是对数据分布在偏移方向和程度所作的进一步描述；峰度是用来对数据分布的扁平程度所做的描述。对于偏斜程度的描述用偏态系数，扁平程度的描述用峰度系数。一、动差法动差又称矩，原是物理学上用以表示力与力臂对重心关系的术语，这

25、个关系和统计学中变量与权数对平均数的关系在性质上很类似，所以统计学也用动差来说明频数分布的性质。一般地说，取变量的值为中点，所有变量值与之差的次方的平均数称为变量关于aaKX的阶动差。用式子表示即为：aK()KXN当时，即变量以原点为中心，上式称为阶原点动差，用大写英文字母表示。0a M一阶原点动差：，即算术平均数1M二阶原点动差：，即平方平均数22XN三阶原点动差：，等等33当时，即变量以算术平均数为中心，上式称为阶中心动差，用小写英文字母表示。aX Km一阶中心动差： 1()0XmN二阶中心动差： 22()三阶中心动差：，等等33()XmN二、偏态及其测度偏态

26、是对分布偏斜方向及程度的度量。从前面的内容中我们已经知道，频数分布有对称的，有不对称的即偏态的。在偏态的分布中，又有两种不同的形态，即左偏和右偏。我们可以利用众数、11中位数和算术平均数之间的关系判断分布是左偏还是右偏，但要度量分布偏斜的程度，就需要计算偏态系数了。采用动差法计算偏态系数是用变量的三阶中心动差与进行对比，计算公式为：3m3m当分布对称时，变量的三阶中心动差由于离差三次方后正负相互抵消而取得 0 值，则；3 当分布不对称时，正负离差不能抵消，就形成正的或负的三阶中心动差。当为正值时，表示3m正偏离差值比负偏离差值要大，可以判断为正偏或右偏；反之，当为负值时，表示负偏

27、离差值比正偏离差值要大，可以判断为负偏或左偏。越大，表示偏斜的程度就越大。由于三阶中心动3m差含有计量单位，为消除计量单位的影响，就用去除，使其转化为相对数。同样的，3m3的绝对值越大，表示偏斜的程度就越大。三、峰度及其测度峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。计算公式如下：iFX44)(分布曲线的尖峭程度与偶数阶中心动差的数值大小有直接的关系，是方差，于是就以四阶2m中心动差来度量分布曲线的尖峭程度。是个绝对数，含有计量单位，为消除计量单位的影响，4m4m将除以，就得到无量纲的相对数。衡量分布的集中程度或分布曲线的尖峭程度往往是以正态分布的峰度作为比较标准

28、的。在正态分布条件下， =3，将各种不同分布的尖峭程度与正态分布4比较。当峰度 43 时，表示分布的形状比正态分布更瘦更高，这意味着分布比正态分布更集中在平均数周围，这样的分布称为尖峰分布，如下图； 4=3 时，分布为正态分布； 43，表示分a布比正态分布更扁平，意味着分布比正态分布更分散，这样的分布称为扁平分布如下图 b。频数频数X（a）尖峰分布X（b）扁平分布12图 3.4 尖峰分布与平峰分布示意图（六）本章难点1、集中趋势测度指标的计算方法与应用场合；2、离散程度测度指标的计算方法与应用场合；3、如何正确运用离散程度指标评价总体平均水平的代表性；4、对标准差、方差等指标含义的准确理解。5、偏态与峰度指标的计算方法。（七）复习思考题1、考察一个分布数列的特征时，为什么必须同时运用集中趋势指标和离散程度指标？2、描述数据集中趋势特征的指标有哪些，并简述其测定方法？3、试比较极差、平均差和标准差三种变异指标的特点，并说明为什么标准差是最常用、最基本的变异指标？4、试比较算术平均数、调和平均数、几何平均数、中位数与众数的特点。

展开阅读全文