收藏 分享(赏)

ch2-2-统计整理.ppt

上传人:天天快乐 文档编号:769572 上传时间:2018-04-22 格式:PPT 页数:78 大小:1.97MB
下载 相关 举报
ch2-2-统计整理.ppt_第1页
第1页 / 共78页
ch2-2-统计整理.ppt_第2页
第2页 / 共78页
ch2-2-统计整理.ppt_第3页
第3页 / 共78页
ch2-2-统计整理.ppt_第4页
第4页 / 共78页
ch2-2-统计整理.ppt_第5页
第5页 / 共78页
点击查看更多>>
资源描述

1、第 2 章-2 数据的整理与显示,第 2 章-2 数据的整理与显示,1 统计整理2 数据的预处理 统计分组分配数列5 统计表,分组,25,33,42,统计整理统计整理是根据统计研究的任务与要求,对统计调查阶段所搜集到的大量原始资料进行加工汇总,使其系统化、条理化、科学化,以得出反映事物总体综合特征资料的工作过程。,1 统计整理,统计整理的内容,工 作 内 容,资料审核,分组和汇总,统计图表,资料积累,完整性,准确性,及时性,2 数据的预处理,一. 数据审核二. 数据筛选三. 数据排序,数据的预处理,数据的审核检查数据中的错误数据的筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征,数据

2、审核,数据审核原始数据(raw data), 审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等,数据的审核原始数据(raw data),审核数据准确性的方法逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核,数据的审核二手数据(second hand data),适用性审核弄清楚数据的来源、数据的口径以及有关的背景

3、材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否必要做进一步的加工整理,数据筛选与排序,数据筛选(data filter),当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔,用Excel进行数据筛选,8名学生的考试成绩数据,数据筛选(data filter),数据排序 (data rank),按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类

4、或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成,数据排序 (方法),分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(n),1.概念 把同质总体中的具有不同特点的单位分开,从而正确地认识事物的本质及其规律性。,一 统计分组的概念和作用,3.作用 主要有三个方面:,3 统计分组,2.性质 分与合 、穷尽与互斥、反映本质差异、可能掩盖差异、关键是分组标志的选择和分组界限的确定,揭

5、露社会经济现象的类型,反映各类型的特点。,类型分组,单位:亿元,说明社会经济现象的内部结构。,结构分组,研究经济现象之间的依存关系。,分析分组,某乡某种农作物的耕作深度与收获率的关系,根据研究问题的目的来选择,选择分组标志的原则,要选择最能反映被研究现象本质特征的标志,要结合现象所处的具体历史条件或经济条件来选择,例,国际上对中小企业的标准界定为“2、3、4”,即员工在2000人以下,销售额在3亿元以下,资产总额在4亿元以下。由此标准,我国目前的大企业仅1948家,99%以上为中小企业。,品质标志分组 反映事物属性差异,分组标志的种类,1.按分组标志的特征不同分为 :,- 简单分组。如人口按性

6、别分组。- 复杂分组,亦称分类。如人口按职业分组。,- 单项式数量分组 运用于变量变动幅度小、项目少的分组。- 组距式分组 运用于变量变动幅度大、项目多的分组。,数量标志分组 反映事物数量差异,2.按总体所选择标志的个数分 :,对社会经济现象需要从各方面进行观察和分析研究,需要采用一系列相互联系、相互补充的标志对现象进行多种分组,这些分组结合起来构成一个体系,叫做分组体系。,简单分组 按一个标志对总体进行分组复合分组 按两个或两个以上标志对同一总体进行分组,分组标志的种类,一 分配数列的概念和种类,4 分配数列,分布数列的组成要素:总体按某标志所分的组(组别)和分配在各组的单位数(频数)及各组

7、单位数占总体单体数的比重(频率)。,组别(变量) 次数(频数) 频率(比率),分配数列的种类,某班学生的性别构成情况,组别 次数 频率, 品质数列, 变量数列,单项变量数列(单项数列) 按每个变量值分别列组编制数列,适用于不连续变量或变量能以整数表示,其变动范围不大时。,组距变量数列(组距数列) 按组距分组编制数列。适用于连续变量或变量可用小数表示,其变动范围较大时。,家庭按儿童数分组 学生按月支出分组 0 300-400 1 400-500 2 500-600,等距分组和不等距分组 工资收入分组(元) 年龄分组(岁) 800-1000 0-14 1000-1200 14-60 1200-14

8、00 60以上,从另一角度看,变量数列分为:,连续变量数列 可有小数,采取组距式。,非连续变量数列 整数,采取单项式或组距式 (例:一个地区的企业按职工人数分组)。,分组方法,分组方法,变量数列的编制,编制变量数列的步骤,例:某生产车间50名工人日加工零件数如下(单位:个)117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137

9、 114 120 128 124 115 139 128 124 121,首先,对上面的数据进行排序,107 108 108 110 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 125 126 126 127 127 127 128 128 129 130 131 133 133 134 134 135 137 139 139,其次,根据一定的标志分组,1.单变量值分组2.组距分组,单项式数列,组距数列,1.单项式数列,单变

10、量值分组(要点),1. 将一个变量值作为一组2. 适合于离散变量3. 适合于变量值较少的情况,组距分组 (要点),将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组,组距分组(步骤),确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K,确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距( 最大值 - 最小值) 组数,统计出各组的频数并整理成频数分布表,组距分组(几个概念),1.

11、 下限(low limit) :一个组的最小值2. 上限(upper limit) :一个组的最大值3. 组距(class width) :上限与下限之差4. 组中值(class midpoint) :下限与上限之间的中点值,组中值的计算,组中值=(本组下限下一组下限)2 =本组下限组距/2 =下组下限组距/2 (不重合式组限),(重合式组限),缺下限开口组的组中值 =上限-邻组组距/2缺上限开口组的组中值 =下限+邻组组距/2,当标志值分布比较均匀时,组距数列的编制应采用等距分组,即各组组距相等。 当标志值分布很不均匀时,组距数列的编制应采用异距分组,即各组组距不相等。,需要用频数密度(频数

12、密度频数/组距)反映频数分布的实际状况,等距数列和异距数列的选择,频数分布表的编制(例题分析),【例】某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。,频数分布表的编制(步骤),确定组数:根据 Sturges 提出的经验公式得组数K为:,确定各组的组距: 组距( 237 - 141) 10=9.6 10,用Excel制作频数分布表,重合式:指相邻两组中,前一组的上限和后一组的下限数值重合。组距=上限下限,不重合式:指前一组的上限与后一组的下限,两值紧密相连而不相重复。组距=下组下限本组下限=本组上限前组上限,等距分组表(上下组限重叠),等距分组表(上下组限间断),等

13、距分组表(使用开口组),数值型数据的图示,分组数据直方图、折线图、曲线图,分组数据直方图(histogram),用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1,分组数据的图示(直方图的绘制),某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,若组距不等的话,用标准组距人数,然后据此画直方图:,组距不等的直方图,直方图,组距不等的直方图,分组数据直方图(直方图与条形图的区别),条形图是用条形的长度(横置时)表示

14、各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,分组数据折线图(frequency polygon),折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与

15、直方图的面积相等,二者所表示的频数分布是一致的,分组数据的图示(折线图的绘制),折线图与直方图下的面积相等!,140,150,210,某电脑公司销售量分布的折线图,190,200,180,160,170,220,230,240,(一)频率分布的性质 1、频率在0到1之间 2、各频率之和等于1(二)累计频率分布累计频数(率)分布分为向上累计和向下累计两种。1.向上累计是将各组频数(率)曲线标志值低的组向标志值高的组依次累计,说明至某组上限以下的各组频数(率)累计分布状况。2.向下累计是将各组频数(率)由标志高的组向标志值低的组依次累计,说明至某组下限以上各组频数(率)累计分布状况。,三、频率分布

16、,某班统计学考试成绩次数分布,频数分布的类型,频数分布的类型,几种常见的频数分布,2.4 统计表,统计表的构成 统计表的结构从外表形式看,由总标题、横行标题和纵栏标题、指标数值等部分构成。二. 统计表的设计,统计表的结构,行标题,列标题,数字资料,表头,附加,合理安排统计表的结构总标题内容应满足3W 要求数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“”表示必要时可在表的下方加上注释,

17、统计表的设计,统计表的设计(比较与选用),统计表的设计(比较与选用),统计表的设计(比较与选用),按品质标志分组,例1,按数量标志分组,例2,简单分组,或,例3,复合分组,例4,某厂职工人数统计表,按性别分组,男 职 工,女 职 工,合 计,人数(人),(频数),比率(),(频率),253,115,368,68.75,31.25,100.00,例 5 品质标志分组,某厂职工家庭人口分组统计,按家庭人口分组,1,合 计,职工户数,(频数),比率(),(频率),7,2,3,4,5,6,38,105,54,31,20,2.9,15.2,41.3,20.5,12.1,8.0,255,100,例6 单项

18、式分组,某班学生统计学考试成绩资料,合 计,45,100.0,例 7 组距式分组,等距数列,5102082,506060707080809090100,11.122.244.417.8 4.5,某地区企业按职工人数分组统计表,合 计,200801532,66.726.75.01.00.6,300,100.0,例 8 组距式分组,异距数列,100以下1005005001000100020002000以上,组中值,2500,1500,750,300,50,某班学生统计学成绩累计次数分布表,2,9,20,32,40,40,38,31,20,8,例9 等距数列次数分布及累计次数分布,例10 异距数列次数分布,某班学生统计学成绩异距次数分布表,10,10,20,10,0.20,0.70,1.15,0.8,例11 组中值计算,将学生成绩分为:60分以下,6070分,7080分,8090分,90分以上 ,则各组组中值为:,60分以下:,6070分:,7080分:,90分以上:,例12 统计表示例,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报