收藏 分享(赏)

第3章-统计数据的整理与显示-统计学--陶浪平--南京大学出版.ppt

上传人:天天快乐 文档编号:967582 上传时间:2018-05-09 格式:PPT 页数:103 大小:2.60MB
下载 相关 举报
第3章-统计数据的整理与显示-统计学--陶浪平--南京大学出版.ppt_第1页
第1页 / 共103页
第3章-统计数据的整理与显示-统计学--陶浪平--南京大学出版.ppt_第2页
第2页 / 共103页
第3章-统计数据的整理与显示-统计学--陶浪平--南京大学出版.ppt_第3页
第3页 / 共103页
第3章-统计数据的整理与显示-统计学--陶浪平--南京大学出版.ppt_第4页
第4页 / 共103页
第3章-统计数据的整理与显示-统计学--陶浪平--南京大学出版.ppt_第5页
第5页 / 共103页
点击查看更多>>
资源描述

1、第3章,本 章 内 容,第一节 数据整理概述,第二节 数据的预处理,第三节 数据分组,第四节 数据显示,2018/5/9,第一节 数据整理概述,一、统计数据整理的含义与要求 二、统计数据整理的步骤 三、统计数据的预处理,2018/5/9,统计整理就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。,什么是统计整理,它有什么用?,作用:承前启后、积累历史资料,一、数据整理的含义与要求,(一)统计数据整理的含义,包括对原始数据的整理和对次级数据的整理。,一、数据整理的含义与要求,对原始数据而言,统计整理由反映总体单位特征的标志表现转化为反映总体

2、综合特征的统计指标。对次级数据而言,整理时通过新的分组、重新计算或调整,使之满足本次调研目的需要。,原始资料,综合资料,总体单位资料,总体资料,数据整理,统计研究过程,数据搜集,数据整理,数据分析,(二)统计数据整理的意义,统计数据整理是统计研究过程的中间环节,发挥着承上启下的作用。,(三)统计数据整理的要求,准确性,条理性,充分性,数据整理原则,及时性,系统性,二、统计数据资料整理的步骤,制定统计整理方案,数据显示(统计图表),数据处理(分组和汇总),数据的预处理(审核筛选),数据的保存与公布,统计整理方案是统计整理过程的工作安排。主要内容:一是确定总体资料的处理方法,如何分组,用何种形式整

3、理;二是确定通过整理要得到哪些指标;三是确定整理资料的显示形式。,讨论:要研究某市中学生参加体育活动与身体素质的关系,从全市抽取1000名中学生进行调查,取得了有关资料。你认为需要用哪些指标,才能达到研究目的?,第二节 数据的预处理,在正式处理之前的前期准备工作,主要包括: 数据审核 数据筛选 数据排序,审核内容,原始数据,次级数据,完整性,准确性,完整性,时效性,一、数据审核,适用性,准确性,及时性,(一)数据审核原始数据(raw data), 审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合

4、实际检查数据是否有错误,计算是否正确等,(一)数据的审核原始数据(raw data),审核数据准确性的方法逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序数据的审核计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核,3.及时性审核填报单位是否按时报送了有关资料对不报、漏报或迟报的现象要及时查清,(一)数据的审核原始数据(raw data),(二)数据的审核二手数据(second hand data),1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.

5、时效性审核尽可能使用最新的数据确认是否必要做进一步的加工整理,数据筛选就是根据需要找出符合特定条件的某类数据。,二、数据筛选,数据筛选形式: 手工、运用计算机程序,筛选内容:一是将符合特定条件的数据保留;二是剔除有明显错误的数据和不符合要求的数据。,数据排序作用: 发现数据的变化趋势,找到解决问题的线索;有助于对数据检查纠错,为分类或分组提供依据;有时可直接利用排序结果作分析。,数据排序是按一定顺序将数据排列。,三、数据排序,数据排序,数字型排序:递增、递减字母型排序:升序、降序汉字型排序:笔画、字母,数据排序 (方法),定类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,

6、可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分定距数据和定比数据的排序递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(n),例如:,企业按经济类型分组:,国有企业 集体企业 个体企业 其它企业,考试按考分分组:,60分以下 (不及格)6070分 (及格)7080分 (中等)8090分 (良好)90100分(优秀),第三节 数据分组,一、数据分组的原则和作用,统计分组有两个方面的含义,即:,统计分组,对总体而言,即将总体区分为性质不同的若干组成部分,是“合”,即将性质相同的总体单位合为一组,是“分”,对总体单位而言,统计分组的关键:(1

7、)选择分组标志:使组间差异大,组内差异小(2)划分各组界限,如何选择分组标志?,1.符合统计研究的目的和要求 性别、年龄、籍贯、民族、高考入校成绩、身高、体重、爱好 等选哪一个来分组?2.选择最能说明事物本质特征的标志,如何划分各组界限?,属性分组时:,1.有时组限是自然形成的或比较明显,2.如存在属性之间的过渡形态,划分困难如学生与非学生的划分、城乡划分,变量分组时,注意反映组间质的差别,穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。互斥原则:在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。,2.统计分组的原则

8、,总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。,划分社会经济现象的类型,研究其规律性反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系,3.数据分组的作用,3.统计分组的作用,(1)划分社会经济现象的类型,研究其特征和规律性,分类前,25,33%,分 类 后,25,42,2018/5/9,划分现象的类型,好人,坏人,男人,女人,婴儿,青年,老人,(2)研究总体的内部结构和比例关系;,这五个组反映了学生考试成绩的不同类型,统计各组人数后,可以计算出比重,反映出学生成绩的构成情况。,揭示现象的内部结构,中国人口规模与

9、结构变化图,某地区45个商业企业销售额和流通费用率分组资料,分析:销售额的规模和流通费用率的关系。,(3)揭示社会经济现象之间的相互依存关系,分析现象间的依存关系,身高与体重有关系吗?,哇!,咦!,结论:数据分组是对总体认识深化的手段,它是一切统计研究的基础,应用于统计工作的全过程,是统计研究的基本方法。,二、统计分组的种类,按分组标志的性质不同分,按品质标志分组,按数量标志分组,按分组标志的多少及排列不同分,简单分组,复合分组,单项式分组,组距分组,1.简单分组:,即对统计总体只按一个标志进分组,例如:,企业按经济类型分组,国有企业 集体企业 个体企业 其它企业,男生女生,学生按性别分组,2

10、.复合分组:,即对同一总体同时按两个或两个以上标志层叠起来进行的分组。,学生按年级、性别分组,一年级二年级,男生 女生,男生 女生,例如:,统计分组体系:,是根据统计分组的要求,对同一总体进行多种不同分组而形成的体系,体系中的各种分组相互联系、相互补充,以加深对总体的认识。,分组体系有平行分组体系和复合分组体系两种。,对教师的分类,按性别分类,男性,女性,按职称分类,按年龄分类,高级,中级,初级,青年,中年,共计7组 2+3+2,对同一总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系。,平行分组体系:,复合分组体系:,对同一总体选择多个复合分组,组成的分组体系就是复合分组体系。

11、,复合分组与复合分组体系,例:,3.按品质标志分组,品质标志分组就是用反映事物的属性、性质的标志进行分组。,国民经济按产业分组: 第一产业 第二产业 第三产业,人口按性别分组: 男性 女性,用文字来表示各组性质上的差别,品质标志分组一般比较简单,但是有的分组标志的表现却较复杂,不易划分各组,如产品按用途分组、商品零售额按城乡分组、工业部门的细分类等,为此有关部门制定了相应的统计分类标准。,数量标志分组,即变量分组。,例如,,按考分分组(分),用数量来表示各组性质上的差别,60以下 60 70 70 80 80 90 90 100,4.按数量标志分组,即通过数量的变化来区分各组质的差别,而不是单

12、纯的数量差别。,即要以什么样的数量作为划分标准。是单项式或是组距式?如果是组距式分组还要确定组距、组数、等距或不等距、组限等内容,一般可依据以下原则: 1)离散变量A、变量值取值不多单项式分组B、变量值取值较多组距式分组 2)连续变量组距式分组,第一,明确分组的目的,.,第二,采用适当的分组形式,,注意:,定义:各组由一个具体的变量值(单项)来表示形成的单项式变量数列。 变量值又称标志值。按数量标志分组,数量标志的表现,就是变量的取值。 适用范围:单项式分组一般适用于离散型变量,且变量值较少、变量变动范围不大的场合。 缺陷:在数据较多的情况下,单项式分组由于组数较多,不便于观察数据分布的特征和

13、规律。,(1)单项式分组:,【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。,单项分组举例,编制结果如下:,各组组距相等,各组组距不全相等,(2)组距式分组,组距式分组中的几个概念,A.组限表示各组界限的变量值(即区间两端的数值)下限:区间最小值上限:区间最大值开口组和闭口组开口组:统计分组中缺上限或缺下限的组闭口组:统计分组中上、下限均齐全的组组限的写法:间断式写法连续式写法:“上限不在内”,47,B.组数组数的

14、确定应以能够显示数据的分布特征和规律为目的。斯特杰斯经验公式:式中:N总体单位数数据的个数,对结果用四舍五入的办法取整数即为组数。,C.组距:区间的距离(连续式写法) 组距=本组上限本组下限(间断式写法)组距=本组上限-前组上限 或=本组下限-前组下限 或=本组上限-本组下限+1(分组标志为离散变量) 斯特杰斯经验公式:其中,d为组距,R表示全距,即最大变量值与最小变量值之差,K为组数,D.等距分组:在组距式分组中,每个组的组距均相等。一般在现象性质差异的变动比较均衡条件下使用。优点:易于掌握次数分布的特征;各组次数可以直接比较。,50,适用范围:(1)变量值分布很不均匀的情况;(2)变量值相

15、等的量具有不同意义的情况;(3)变量值按一定比例发展变化的情况;优点:能够准确地描述偏态分布;能将性质相同的总体单位归为一组。缺点:由于各组的组距不同,各组次数直接比较是没有意义的。,51,E.异距分组:在组距式分组中,各组组距不尽相等。,F.组中值,组中值是指组距数列中各组上限和下限之间的中点数值。,注意:组中值用来代表各组标志值的平均水平,假定一组内各个标志值呈均匀分布。,考生按成绩分组 50 60 60 70 70 80 80 90 90 100,55,75,65,85,95,组中值,人数51518102,首组组中值=(首组上限+首组假定下限)/2,= 首组上限 相邻组组距/2,= 末组

16、下限 + 相邻组组距/2,末组组中值=(末组上限+末组假定下限)/2,50 102,100 + 102,例如:.,首组:,末组:,按考分分组 组中值 50 60 55 60 70 65 70 80 75 80 90 85 90 100 95,50以下,100以上,45,105,开口组组中值的确定,首组假定下限=首组上限-相邻组组距,末组假定上限=末组下限+相邻组组距,某地区100个百货商店月销售额与流通费用情况,上组限U,下组限L,如:组距d=U-L=100-50=50(万元),如:组中值x=(U+L)/2 =(100+200)/2=150(万元),(一)频数分布概念和种类,将各组组别与频数或

17、频率依次编排而成的数列,简称分布数列。反映了总体单位在各组的分布情况。如:,频数分布数列:,频数 (人),频率 (),20,30,60,40,50,100,5,人数(人),频率(),10,30,10,15,18,50,2,36,4,20,100,三、分布数列,频数分布数列的构成要素,构成要素,各组的名称或变量值,各组频数或频率(次数或比重),分布在各组的单位数叫频数 ,记为f。 各组的单位数与总体单位总数之比叫频率。,工读学生始犯错误心理状态统计表,统计分组,频数,频率,频数分布,频数分布的构成,品质数列,分布数列种类,单项式变 量数列,组距式变数列,变量数列,等距数列,不等距数列,频数分布数

18、列的种类,为消除异距分组各组频数的多少受到组距不同的影响,需计算频数密度(或次数密度),公式如下:频数密度=频数/组距频率密度=频率/组距并且:,(二)累计频数与累计频率分布,1.向上累计:,是指将各组次数或频率由变量值低的组向变量高的组累计,以表明各组上限以下的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。,2.向下累计:,是指将各组次数或频率,由变量值高的组向变量值低的组逐组累计,以表明各组下限以上的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。,累计分布有向上累计和向下累计两种:,例: .,某班“统计学”考分分布数列,向上累计:,如,第一组说明60分以下有

19、5人,占学生总数的10;第二组说明70分以下有20人,占学生总数的40。,向下累计:,如,第五组说明90分以上有2人,占学生总数的4;第四组说明80分以上有12人,占学生总数的24。,2018/5/9,3.累计频数分布的特点:第一组的累计频数等于第一组本身的频数最后一组累计频数等于总体单位数4.累计频率的特点:第一组的累计频率等于第一组本身的频率最后一组累计频率等于1,(三)频数分布的类型 P69,根据频数分布曲线形状的特点,概况起来大致有三种类型:钟型分布U型分布J型分布,(三)频数分布的类型,钟型分布的特征是“两头小,中间大”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,

20、其曲线图宛如一口钟,如下图所示。,1.钟型分布,U型分布的形状与钟型分布相反,靠近中间的变量值分布次数少,靠近两端的变量值分布次数多,形成“两头大,中间小”的U型分布。如人口死亡率分布,人口总体中,幼儿和老人死亡率高,而中青年死亡率低。如下图(d)。,2.U型分布,U,U,U,J型分布有两种类型,一种是次数随着变量的增大而增多。另一种 呈反J型分布,即次数随着变量增大而减少。如下图(c),第三节频数分布,3.J型分布,J,J,J,第四节 数据的显示,一、统计表 二、统计图,一、统计表,1.统计表的概念狭义:以纵横交叉的线条所形成的表格来表现统计整理资料的形式。广义:包括统计工作各个阶段中所用的

21、表现统计数据的表格,如调查表、整理表、分析表。统计表一般采用开口式,即表的左右两条线不画,第三章 数据分布特征的描述,第三节 统计表与统计图,2.统计表的作用,(1)能使统计资料条理化;(2)简明、易懂,节省篇幅;(3)便于比较,便于计算;(4)便于检查完整性和正确性。,从统计表的表式结构看,分为五部分:(1)总标题(也称统计表的名称),它用概括性的文字简单明了地说明统计资料的时间、基本内容和范围。一般写在表的上部中端。(2)横行标题反映统计表的主要项目,写在表的左方。(3)纵栏标题是统计指标的名称,说明纵栏所列各项资料的内容,写在表内右上方。,3.统计表的形式及结构,(4)数字资料也称指标数

22、值,它是统计表的具体内容,列在各横行标题和各纵栏标题的交叉处。任何一个具体数值都由横行标题和纵栏标题所限定。(5)有些统计表还需要在下端增加注解,以说明资料的来源、某些指标数值的计算方法、填表单位和其他需要说明问题。,统计表的结构,行标题,列标题,数字资料,表头,附加,从统计表的内容看,分为主词和宾词两部分。,按主词是否分组,简单表,分组表,复合表,按用途不同,整理表,调查表,分析表,统计表的种类,4.统计表的种类,我国城乡居民家庭人均收入,简单表,主词,宾词,我国城乡居民生活质量差别,分组表,(1)统计表表式设计应注意的事项,科学、实用、简练、美观,5.统计表的设计要求,长方形表格,长与宽之

23、间保持适当比例,统计表各纵列、横行须合计时,一般应将合计列在最后,如栏数较多,应按顺序编号,主词栏部分可编以甲乙等序号,宾词栏可编(1)(2)等序号,表的上下端应以粗线绘制,表内纵横线以细线绘制,表格的左右两端一般不划线,采用“开口式”,(2)统计表内容设计应注意的事项,科学、实用、简练、美观,5.统计表的设计要求,标题设计应简明扼要,简练、准确,当全表只有一种计量单位时,可将其写在表头右上方。如表中各栏指标数值计量单位不同,可在横行标题后添一列计量单位,数字应填写整齐,对准位数。当数字因小而忽略不计时,填写为“0”;当缺某项资料时,用符号“”表示;没有数字时用符号“-”表示,注明资料来源。必

24、要时,在统计表下加注说明,二、统计图,统计图的特点:直观、醒目、易于理解,统计图是用几何图形(点、线、面、形)或其他图形等方法描述、显示统计数据的一种形式。,注意:统计图是根据实际资料按比例画出的, 现在大多是利用计算机软件制作的。,组成:坐标系、图形、图例,统计图的基本类型,1.条形图(bar Chart),(1)用宽度相同的条形的高度或长短来表示数据变动的图形(2)有单式条形图、复式条形图等形式(3)主要用于反映定序数据和定类数据的频数分布(4)绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,2.饼图(pie Chart),(1)也称圆形图,是用圆形及圆内扇形的角度来表

25、示数值大小的图形;(2)主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用;(3)绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占360度的相应比例确定的。,3.直方图(histogram),(1)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布;(2)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图;(3)直方图下的总面积等于1。,某电脑公司销售量分布的直方图,直方图与条形图的区别:,(1)条形图是用条形的长度(横置时)表示各类别频数

26、的多少,其宽度(表示类别)则是固定的;(2)直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;(3)直方图的各矩形通常是连续排列,条形图则是分开排列;(4)条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。,4.折线图(frequency polygon),(1)折线图也称频数多边形图;(2)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉;(3)折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中

27、点连接到横轴;折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。,140,150,210,某电脑公司销售量分布的折线图,190,200,180,160,170,220,230,240,绘制统计图时的注意事项,1通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴。长宽比例要适当 ,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。,绘制统计图时的注意事项,2.图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读

28、者的注意力。3.图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。4.反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。,不恰当的统计图形举例:纵横比例,下图增长速度惊人。,上图增长速度缓慢。,不恰当的统计图形举例:三维效果,不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。,不恰当的统计图形举例:图形类型,1960: $1.00,1970: $1.60,1980: $3.10,1990: $3.80,Minimum Wage,不好的图形,不恰当

29、的统计图形举例:压缩纵轴,Quarterly Sales,不好的图形,0,100,200,Q1,Q2,Q3,Q4,$,不恰当的统计图形举例:纵轴无零点,好的图形,Monthly Sales,不好的图形,36,39,42,45,J,F,M,A,M,J,$,第四节 EXCEL在数据整理中的应用,一、用Excel作数据的频率分布表和直方图 二、用Excel作常用统计图,要求:根据教材内容上机完成。,一、判 断 对 错,2、组中值是根据各组上限和下限计算的平均值,所以它代表了各组的平均分配次数。( ),3、分布数列的实质是把总体单位总量按照总体所分的组进行分配。( ),4、某企业职工按文化程度分组形成

30、的分布数列是一个单项式分布数列。( ),5、对资料进行组距式分组,是假定变量值在各组内部的分布是均匀的,所以这种分组会使资料的真实性受到损害。( ),6、任何一个分布都必须满足:各组的频率大于0,各组的频数总和等于1或100%( ),7、统计分组后掩盖了各组内部各单位的差异,而突出了各组之间单位的差异。( ),1、异距分布数列可以直接根据组距和分布次数绘制统计图( ),二、单 项 选 择 题,1、统计整理的关键是( )A、对调查资料进行审核 B、对调查资料进行统计分组C、对调查资料进行汇总 D、编制统计表,B,2、下列分组中属于按品质标志分组的是( )A、学生按考试分数分组 B、产品按品种分组

31、C、企业按计划完成程度分组 D、家庭按年收入分组,B,3、有一个学生考试成绩为80分,在统计分组中,这个变量值应归到( )组。A、6070分 B、7080分C、8090分 D、90100分,C,4、下面哪一个是品质标志( )。A、所有制 B、收入水平C、考试分数 D、年龄,A,三、多项选择题部分,B C D E,2、在次数分布数列中( )A、总次数一定,频数和频率成反比B、各组的频数之和等于100C、各组频率大于零,频率之和等于1D、频率越小,则组的标志值所起的作用越小E、频率表明各组标志值对总体的相对作用程度,C D E,、品质分布数列 、变量分布数列、组距式变量分布数列 、等距变量分布数列、次数分布数列,3、分组标志的选择( )A.是根据总体划分的满意标准 B.要根据统计研究目的进行C.要适应被研究对象的特征 D.必须是数量标志E.必须考虑历史资料的可比性,B C E,4、统计分组( )A.是全面研究社会经济现象的重要方法 B.可分析总体结构C.可将复杂的社会经济现象分类 D.可采用多种标志分组E.可揭示现象之间的依存关系,A B C D E,6、统计分组的关键是( )A.按品质标志分组 B.按数量标志分组 C.选择分组标志 D.划分各组组限 E.按主要标志分组,C D,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报