1、第三章 统计整理,一、统计数据的预处理 二、数据分组与频数分布 三、统计表和统计图,统计数据的整理(summarizing data)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。,统计数据的整理通常包括:数据的预处理分类或分组汇总,一、数据的预处理 数据的审核、筛选与排序,数据的审核 发现数据中的错误 数据的筛选 找出符合条件的数据 数据排序 发现数据的基本特征 升序和降序,数据的审核, 审核的内容 完整性审核 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 准确性审核 检查数据是否真实反映客观实际情况,内容是否符合实际 检查数据是否有错误,计算是
2、否正确等 如:文化程度:小学 职业:大学教师,数据的审核 (原始数据),审核数据准确性的方法 逻辑检查 从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象 主要用于对定类数据和定序数据的审核 计算检查 检查调查表中的各项数据在计算结果和计算方法上有无错误 主要用于对定距和定比数据的审核,数据的审核 (第二手数据),适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料 确定这些数据是否符合自己分析研究的需要 时效性审核 应尽可能使用最新的统计数据 确认是否必要做进一步的加工整理,数据的筛选,对审核过程中发现的错误应尽可能予以纠正 当发现数据中的错误不能予以纠
3、正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选 数据筛选的内容包括: 将某些不符合要求的数据或有明显错误的数据予以剔除 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出,数据的排序 (要点),按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据 在某些场合,排序本身就是分析的目的之一 排序可借助于计算机完成,数据的排序 (方法),定类数据的排序 字母型数据,排序有升序降序之分,但习惯上用升序 汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分 定距和
4、定比数据的排序 递增排序:设一组数据为X1,X2,XN,递增排序后可表示为:X(1)X(2)X(N),统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。,预处理数据,分组,计算频数,描述统计,二、数据分组与频数分布, 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。分布在各组内的数据个数称为频数或次数。A frequency distribution is a tabular summary
5、 of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.相对频数(Relative frequency)/频率/比重:各组频数与全部频数之和的比重。The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)百分数频数(Percentag
6、e frequency):is the relative frequency multiplied by 100.,概念:频数/次数分布;相对频数;百分数频数,(一)品质数据的分组与频数分布,例6: 50个计算机购买者所购买的不同品牌的机型数据,Table, Frequency Distribution/Relative and Percentage Frequency of Computer PurchasesCompany Frequency Relative Frequency Percentage FrequencyApple 13 0.26 26Compaq 12 0.24 24Ga
7、tewy2000 5 0.10 10IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100,分组与求频数 :,The objective in developing a frequency distribution is to provide insights about the data that cannot be quickly obtained by looking only at the original data.,分组计频基本步骤:确定组数 确定组距(按组)整理成分布频数表例:一会计事务所对其20家客户(clients)年底
8、帐目辑核(audits)时间(天)统计如下表:,(二)数值数据的分组与频数分布,可先将数据进行排序,然后根据需要分组;对较少的数据也可不排序直接根据需要分组。,Table Year-End Audit Times(in days)12 14 19 18 15 15 18 17 20 2722 23 22 21 33 28 14 18 16 13,第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。,经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:,
9、其中N为数据的个数(总体单位数或样本数),一般对结果取整数。,上例中:K=1+lg20/lg2=1+4.32=5.325,第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:组距=(最大值 - 最小值)/组数,上例中,组距=(33-12)/5=4.2,可取整数5为最后选定的组距。第三步,确定各组组限(Class limits)并据此整理频数分布表。,1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因此,最低组
10、限(The lower class limit) 数据的最小值,最大组限(The upper class limit) 数据的最大值;另外,数据在每组中的归属习惯上采用“上组限不在内”。,注意:,2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如610,1115,1620等);对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如5,10),10,15),15,20)等)。,上例是离散型数据(天),采用组限间断方法,因此可得频数分布表如下:Table, Frequency distribution, relative frequency andpe
11、rcent frequency distribution for the audit-time dataAudit Frequency Relative Percent Time(days) Frequency Frequency1014 4 0.20 201519 8 0.40 402024 5 0.25 252529 2 0.10 103034 1 0.05 5Total 20 1.00 100,品质数据往往使用柱状图(Bar graphs)和饼状图(Pie Charts);数值数据往往使用直方图(Histograms)、折线图(Polygon)、茎叶图(Stem-and-leaf dis
12、play) 。 Fig1, Bar Graph of Computer Purchases,三、频数/次数分配的图示,柱状图是一种图形方法,用于描述已经被汇总为频数分布、相对频数分布或百分比频数分布的数据。 在图的横轴上,规定对数据分组(类)的标记。在纵轴上标有频数、相对频数分布或百分比频数的刻度。,饼状图是另一种表示相对频数和百分比频数分布的图形方法。饼状图中的每一部分所显示的数值可以是频数、相对频数、或者百分比频数。,直方图是用距形的宽度和高度来表示频数分布的图形(以横轴表示数据分组,纵轴表示频数或频率)。其特点是用各组条形的面积表示各组频数。,(一)直方图和折线图,注意:,直方图基本上与
13、柱状图相同,只是在柱之间没有间隔,直方图中相邻的条必须接触。,折线图也称频数多边形图(polygon),是将直方图顶部的中点(即组中值)用直线连接起来而成的图形。,Fig 3, Frequency Polygon for the Audit-Time Data,1、折线图的两个终点要与横轴相交(将第一个矩形顶部中点通过左竖边中点连接到横轴;将最后一个矩形顶部中点与其右竖边中点连接到横轴)。2、折线图下所围成的面积与直方图面积相等(为1),从而使二者表示的频率分布是一致的。,注意:,茎叶图是一种既给出数据的分布状况,又能显示每一个原始数值的图形。A stem-and-leaf display c
14、an be used to rank order data and provide an idea of the shape of the distribution of a set of quantitative data.茎叶图由两部分组成:茎(stem)与叶(leaf)茎:通常由每组数的高位数值(leading digits)形成,按组竖立在左边;叶:通常由每组数的低位数值(last digits)形成,按组横排在“茎”的右边。,(二)茎叶图,下图是上述例中会计公司对其20个客户年终财务审计所用时间的茎叶图。,Stem-and-leaf display for the Audit-Tim
15、e Data1 2 3 4 4 5 5 6 7 8 8 8 92 0 1 2 2 3 7 83 3,可知其对大多数客户的审计时间在1020天之间,上面茎叶显得过于拥挤,尤其是第一行有太多数,可将期扩展为下图的形式。,茎业图所表现的数据分布特征与直方图十分相似。但茎叶图有明显优势:1. The stem-and-leaf display is easier to construct;2. The stem-and-leaf display provides more information because it shows the actual data values.,Stem-and-lea
16、f display for the Audit-Time Data 1 2 3 4 4 1 5 5 6 7 8 8 8 92 0 1 2 2 32 7 83 3,(三)频数分布曲线的类型,日常经济生活中,常见的频数分布曲线主要有正态分布、偏态分布、J型分布、U型分布等几种类型。其次还有双峰型、孤岛型及锯齿型等其他类型。,频数分布曲线的类型,几种常见的频数分布曲线,正态分布曲线(钟形曲线):左右对称的倒挂的钟,是客观事物数量特征表现最多的一种次数曲线。 例:人的身高,体重,智商等。,偏态曲线:根据尾巴拖向哪一方分为正偏(右偏)和负偏(左偏)两种曲线。 例,人均收入分配的曲线,即低收入的人数较多,
17、高收入的人较少,因此在左边形成高峰。,J形曲线:有正J形和倒J形曲线两种,分别如供给曲线和需求曲线。 供给曲线(正J形曲线)随着价格(横轴)的增加,供给量(纵轴)以更快的速度增加; 需求曲线(倒J形曲线)随着价格(横轴)的增加,需求量(纵轴)以较快的速度减少。,U形曲线(生命曲线和浴盆曲线)。 如,人和动物的死亡率。婴儿时期高,中年最低,老年高。,累计频数(频率)分布曲线,可用于分析社会财富、土地和工资收入等的分配是否公平的问题。该曲线图是由美国洛伦茨博士提出,故称为洛伦茨曲线。,某国家收入所得的分配情况,洛伦茨曲线,20 40 60 80 100,80 60 40 20 0,100,绝对平等
18、线,实际收入分配线,绝对不平等线,绝对不平等线,人口(%),收入(%),A,B,20世纪初意大利经济学家基尼,根据洛伦茨曲线找出了判断分配平等程度的指标 。实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。,洛伦茨曲线和基尼系数,当A=0时,A/(A+B)=0,则基尼系数为0,收入分配完全平等 ; 当B=0时, A/(A+B)=1,则基尼系数为1,收入分配绝对不平等 ; 所以,基尼系数可在0和1之间取任何值。联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;
19、0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。 基尼系数还可用于财产、资本、资源、产品、市场等资源分配均衡程度的分析。,频数分布的应用:例8:80年代初,我国工业企业推行全面质量管理,某床单厂厂长曾对其生产的某种规格的床单进行抽检,并做了直方图。按长度质量标准,合格的床单长度为215cm,容许误差为3cm。对所抽取的100条床单进行统计,发现最长的达265cm,最短的为214cm,分组后的频数分布表及直方图如下:,频数分布表床单长度分组(cm) 床单数(条) 213218 5218223 8 223228 16 228233 32 233238 17
20、238243 12 243248 5248253 0253258 1258263 3263258 1Total 100,直方图,直方图呈孤岛型,说明:1、本质上反映了两个总体,该两总体都遵从正态分布;其中95%的单位属一总体,5%的单位属另一总体。,2、根据长度质量标准,只有5%的床单在正常范围(在212218cm之间),而95%的床单均大于218cm,显然存在着对床单的长度“宁长勿短”的思想,因此造成浪费(上述100条床单总长度达233m,如果按照215cm的标准长度,可裁成108床,若按212cm长度可裁成110床)。,原因检查:为了提高生产水平,增加经济效益,厂长深入到裁剪长度工序了解情
21、况,发现:床单的生产工序是在一大联匹布上,印上印花,由一位老女工手工量测并用剪刀裁剪。,基本的做法是:双手拉着床单量两下,然后下剪。在裁剪工序还有两位女工,目测检查所裁床单是否有残次花色及其他疵点。工作时,总以为手扯的长度可能会短,于是再目测一下,加一点长度再下剪;有时还会有一位检查残次的女工帮助裁剪,其误差更大,这就是“孤岛”产生的原因。,解决问题:在没有使用机器裁剪的情况下,厂长会同车间管理者一道要求裁剪时按下述做法进行:在保持用手扯两次,将要下剪时,将原来习惯上要下剪处用左手握拳,少裁一拳。一拳大约有15cm,这样,原来下100条的床单料,此时几乎可多裁出8床床单。既提高了床单合格率,又
22、提高了经济效益。,三、统计表和统计图,统计表的结构和设计 统计图,统计表的结构,行标题,表头,列标题,数字资料,附加,要合理安排统计表的结构 总标题内容应满足3W要求 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明 表中的上下两条横线一般用粗线,其他线用细线 通常情况下,统计表的左右两边不封口 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 对于没有数字的表格单元,一般用“”表示 必要时可在表的下方加上注释,统计表的设计,统计图(一)线图图3-1 中国GDP及三次产业增加值,(二)条形图/柱状图(三)圆形图/饼状图,本章小结,数据预处理的内容和目的 数据分组方法与频数分布特征 合理使用统计图表 用Excel作频数分布表和图形,