收藏 分享(赏)

第二章统计数据搜集与整理.ppt

上传人:天天快乐 文档编号:1390570 上传时间:2018-07-10 格式:PPT 页数:94 大小:2.16MB
下载 相关 举报
第二章统计数据搜集与整理.ppt_第1页
第1页 / 共94页
第二章统计数据搜集与整理.ppt_第2页
第2页 / 共94页
第二章统计数据搜集与整理.ppt_第3页
第3页 / 共94页
第二章统计数据搜集与整理.ppt_第4页
第4页 / 共94页
第二章统计数据搜集与整理.ppt_第5页
第5页 / 共94页
点击查看更多>>
资源描述

1、1,第二章 统计数据收集、整理与显示,2,主要内容,2.1 统计数据的收集2.2 统计数据的整理2.3 统计数据的显示统计表和统计图,3,2.1 统计数据的收集一、数据的收集,统计数据收集是根据统计研究的目的要求,采用科学的形式和方法,有计划、有组织地获取所研究变量数据的过程。在社会经济统计中,统计数据收集也称为统计调查。它是进行统计数据整理和分析的必要前提。对统计数据收集的基本要求:准确性、及时性。,4,统计数据的分类,按照获取途径不同,统计数据可以分为直接来源的原始数据和间接来源的次级数据。原始数据是直接对各调查单位进行观察登记或通过实验来收集的数据。次级数据亦称二手数据,是从统计年鉴、报

2、刊、互联网或有关部门业务资料中获取经过加工整理的数据。,5,1统计调查的组织形式,6,就范围不同划分而言全面调查:对调查对象中的所有单位无一例外地进行调查。直接获得总体数据。优点:资料齐全、能够满足各种需要。缺点:耗费大,易产生登记性误差。应用:搜集重要的、基础性数据。非全面调查:对调查对象中的一部分进行调查。获得样本数据。优点:耗费小(人财物时间),不易产生登记性误差。缺点:易产生代表性误差。应用:广泛。,7,(1)统计报表,统计报表是以基层单位的原始记录为依据,按有关法规的规定和标准,自上而下地统一布置任务,按统一的表式、统一的项目、保守时间和程序,自下而上地定期提供基本统计资料的一种调查

3、方式。,特点是国家或行业重要的定期统计报告制度;自上而下统一布置,自下而上定期提供;费时、费力。优点和缺点优点:全面性、稳定性、连续性、可比性 曾经是我国数据收集的主要方式缺点:耗费大、数据质量差、基层负担重,8,(2)普查,指一个国家或者一个地区为详细调查某项重要的国情、国力,专门组织的一次性大规模的全面调查。目前,我国政府开展的普查主要有人口普查、第三产业普查、农业普查,这些普查都是每10年进行一次,分别在逢0、3、7的年份实施;经济普查、基本单位普查每5年进行一次,在逢3、8的年份实施。,9,普查应该注意:,统一规定普查的标准时间和统一的普查期限,以避免由于时间变动使资料重复和遗漏。统一

4、规定普查内容和指标解释,不得任意改变或增减项目。同类普查,各次调查的项目应尽可能一致,以便于历史资料的对比研究。同类普查应尽可能按周期进行,以便观察现象发展变化的过程和规律。,10,(3)抽样调查,抽样调查是总体中随机抽取一部分单位作为样本进行调查,并根据样本资料来推断总体数量特征的一种非全面调查方法。广义的抽样包括概率抽样和非概率抽样。概率抽样也称随机抽样,是指按照随机原则从总体中抽取部分单位构成样本。 非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。非概率抽样常用的方式主要有方便抽样和判断抽样。,11,概率抽样和非概率抽样是性质不

5、同的两种抽样类型,在调查中采用何种抽样类型,取决于研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、调查时间等多方面的因素。统计上所说的抽样一般都是指概率抽样,即指随机抽样调查。本教材若无特别说明,抽样均指概率抽样,抽样调查也即对随机样本的调查。,12,常用的概率抽样方式 (了解),简单随机抽样,也称为纯随机抽样,是一种最基本的抽样形式。这种抽样方式无须对总体单位进行任何划分或排队,只需对总体单位进行编号,利用抽签法、随机数表或计算机随机取数法等完全随机地直接从总体中抽取样本单位,每个总体单位入样的概率是相等的。,系统抽样(等距抽样)它是首先将总体中各单位按一定顺序排列,根据样本

6、容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式。优点:操作简便。但不能实施于总体发生周期性变化的场合。,14,分层抽样(类型抽样) (了解),概念首先将总体单位按某一标志分层(分类、分组);然后在各层按随机抽样的方法分别抽出各层的样本。特点:分层抽样保证了样本中包含有各种特征的抽样单位,适用于各层间差异比较大的情况;不仅能够用样本推断总体,还可以用各子样本推断相应子总体的特征,深化对总体的认识。,例A,B,C三个工人一日产量分别为800,1200,2000件,那么批量N=4000件,若抽取样本量n=80,那么分层抽取件数为:A层:80(800/4000)=16

7、件B层:80(1200/4000)=24件C层:80(2000/4000)=40件,16,整群抽样(集团抽样) (了解),概念:首先将总体单位划分为R个群;然后按随机的原则抽出r个群构成样本,在抽中群中进行全面调查。特点:简化了抽样组织工作,便于实施调查和组织管理。适用:群间差异不大,而群内差异较大的情况。,举例说明以上4种抽样方法的应用 假设有某种成品零件分别装在10个零件箱中,每箱各装100个,总共1000个。如果想从中抽取100个零件作为样本进行测试研究,那么应该怎样运用上述4种抽样方法。(1)简单随机抽样 将10箱零件混合在一起,并将零件从1-1000进行编号,然后用查随机数表或抽签的

8、方法从中抽出编号毫无规律的100个零件组成样本。(2)系统随机抽样 将10箱零件混合在一起,并将零件从1-1000进行编号,然后用查随机数表或抽签的方法先决定起始编号(假设为16),那么后面入选的样本的零件编号依次为26,36,996,06.于是就由这样100个零件组成样本。,(3)分层抽样 对所有10箱零件,每箱都随机抽出10个零件,共100个零件组成样本。(4)整群抽样 先从10箱零件随机抽出1箱,然后对这1箱进行全数检查,即由这一箱看成“整群”,由它们组成样本。,19,(4)重点调查,概念 重点调查是指在调查对象中选择一部分重点单位进行调查,用以反映总体基本情况的非全面调查方法。,重点单

9、位是指就所要调查的标志而言,标志值所占比重较大的少数总体单位。,20,适用范围(1)适用于现象总量在各总体单位之间的分布极不均衡,客观上存在重点单位的情况;(2)既可以用于一次性调查,也可用于经常性调查。,21,(5)典型调查(了解),典型调查的概念典型调查是在对调查对象有一定了解基础上,有意识地选择少数典型单位进行的非全面调查方法。典型调查的特点调查目的是为了深入研究某一问题;调查单位是根据调查目的有意识地选取的。调查结果不能用于推断总体作用弥补全面调查的不足;用于研究新生事物;,22,2.统计数据收集的基本方法,(1)直接观察法直接观察法是调查人员深入现场对调查单位进行直接观察、记录和计量

10、。 (2)报告法报告法是指被调查者按照调查者的要求,根据自己的实际情况如实填报调查内容,以信函、传真、计算机网络等方式向调查者报送数据的方法。 (3)访问法访问法也称采访法、询问法,是由调查人员提问、被调查者回答来获取数据的方法。访问方式也是多样的,可以集团座谈,也可以个别访问;可以街头访问,入户访问;也可以面谈访问、电话访问等。除了以上几种传统的调查方法以外,随着计算机网络技术的普及,电子邮件调查法、WED站点调查法、计算机电话辅助调查等以互联网络为平台进行调查的方法应运而生,其应用范围日益广泛。,23,二、统计调查方案,(一)确定调查目的 为什么调查,解决什么问题(二)确定调查对象、调查单

11、位和报告单位 调查对象是所要调查事物的全体,由许多个别单位构成,即统计总体。调查单位是所要调查的具体单位,即总体单位。前者确定调查范围,后者明确具体向谁调查。 调查单位要与调查的报告单位相区别。(三)确定调查项目 调查项目是具体的调查内容,是调查单位具有的特征,由一系列品质标志和数量标志构成。,24,(四)设计调查表(问卷)为了便于调查和汇总,应该把调查项目按一定顺序排列在表格中,这就是调查表。一个调查单位填写一份的调查表称为单一表,若干个调查单位填写一份的调查表称为一揽表。(五)确定调查组织形式和方法明确调查的组织形式和收集数据的具体方法。(六)确定调查时间确定调查时间一是指确定调查的标准时

12、间,即调查资料所属的时间,二是指调查期限,即整个调查工作从开始到结束的时间,包括调查登记的时间、数据处理的时间、数据分析的时间。(七)确定其它事项包括确定调查机构、培训计划、是否需要试点、经费预算、资料报送程序和方法、数据公布时间等。,25,2.2统计数据的整理,统计整理是指根据统计研究的需要,将统计调查阶段所搜集到的大量个体资料进行科学的分类汇总、加工处理,或对已经经过加工的次级资料再加工,使之系统化、条理化,以符合统计分析的需要,成为能够反映事物总体特征的综合资料的过程。内容 数据处理:分类、汇总、 表现(制表) 数据管理:输入、贮存、更新、输出步骤 审核原始资料、数据的分类汇总 数据的表

13、现、数据保管和发布 原始数据的整理一般是分类和汇总性的整理,次级资料的整理主要是分组。,26,一、统计分组,1、概念 统计分组就是根据统计研究的需要,将总体中的所有单位按照一定的标志分为若干部分或组别的方法。 对总体分; 对个体合。 突出组与组之间的差异2、作用 划分总体类型、反映现象内部结构和比例关系、揭示现象间的相互依存关系3、原则 科学性、完备性、互斥性,27,4、统计分组的种类 按标志的性质分为品质标志分组和数量标志分组。品质标志分组是从属性上区分各种类型组,其关键是界定各类型的性质差异。数量标志分组是从某个变量的数量差异上区分各种类型组,其关键是正确划分各组界限。 按分组标志多少分为

14、简单分组和复合分组。简单分组按一个标志对总体单位进行分组,它只反映总体某一方面的类型和结构特征。复合分组按两个或以上标志对总体单位进行重叠分组,复合分组还可以显示结构的层次,说明总体内部类型的主从关系。,28,二、分布数列- 统计分组整理的基本结果,1.分布数列的概念将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组单位数在总体单位数中所占的比重,这样形成的数列称为分布数列。它表明总体单位在各组的分布状况。 次数(频数)是分布在各组的单位数。频率是各组单位数在总体单位数中所占的比重。,29,2.分布数列的种类(1)品质数列,是按品质标志分组形成的分布数列,30,表2-1 某公司职工文

15、化程度状况,文化程度 工人数 比重(%)小学 400 8初中 1500 30高中 2600 52大学 500 10合计 5000 100,品质标志,31,性别是品质标志,表2-2 某年中国人口状况,32,2、变量数列 是按数量标志分组而形成的分布数列,定量数据。,33,变量数列,单项式变量数列,组距式变量数列,34,(1)单项式变量数列,以一个变量值作为一组的变量序列是单项式变量数列。适合于离散变量 取值可以一一列举适合于变量值较少,变动幅度不大的情况,35,表24 某企业日产量,日产量 工人数 10 70 11 100 12 380 13 150 14 100 合计 800,36,将变量值的

16、一个区间作为一组的变量数列是组距式变量数列每一组两端的值称为组限,各组最小值称为下限,最大值称为上限。适合于连续变量,也适合于变量值较多、变化幅度大的情况(离散变量)相邻两组间的上下组限可以重叠也可以不重叠。一般来说,离散变量采用不重叠组形式,连续变量采用重叠组形式。区间的长度称为组距开口组、开口数列等距数列、异距数列,(2)组距式变量数列,37,表25 某班学生考试成绩次数表,组限重叠,38,等距数列,组限重叠,39,组限间断,40,开口数列,适合数据集有极端值的情况,41,组距的计算,组限重叠组距=本组上限-本组下限组限间断组距=本组上限-上组上限 =下组下限-本组下限据此可以判断等距与不

17、等距数列,42,开口数列?,组中值:各组上下限的中点值。当组内变量值均匀分布或对称分别时,组中值可作为组变量值的代表值。,组中值的计算,43,3.编制变量数列的步骤,确定组距,确定组限,排序,表现现象的度、规定的界限体现分布的集中趋势考虑到习惯、便于对比,44,某月啤酒公司60个销售点的销量,48 71 52 53 36 41 69 58 47 60 53 29 41 72 81 37 43 58 68 42 73 62 59 4451 53 47 66 59 52 34 49 73 29 47 1639 58 43 29 46 52 38 46 80 58 51 67 54 57 58 63

18、 49 40 54 61 58 66 47 50 单位:桶 excel,45,啤酒销售量的分布数列(表2-3),销售桶数 销售点数 频率(%)19以下 1 1.72029 3 5.03039 5 8.34049 16 26.75059 20 33.36069 9 15.07079 4 6.780以上 2 3.3 合计 60 100.0,46,4. 累计次数分布,47,1.向上累计 次数的累计从变量值较小的组向变量值较大的组累计,反映小于该组上限的次数或百分数总共有多少。2.向下累计 次数从变量值较大的组向变量值较小的组累计,反映大于该组下限的次数或百分比总共有多少。,48,定序数据频数分布表,

19、【例2.2】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意? 1非常不满意;2不满意;3一般;4满意;5非常满意。,49,定序数据的图示累计频数分布图,50,5.次数分布类型和次数分布图,(1)次数分布类型钟型分布中间多、两头少对称分布如正态分布左偏分布(负偏)右偏分布(正偏) U型分布 两头大,中间少J型分布 一头大,一头小,51,频数分布的类型,52,2.3 统计表和统计图,2.3.1统计表1.统计表的概念表现经过整理的统计数据按一定结构和顺序排列而成的表格统计数据最规范的表现形式 2.统计表的构成标题总标题、横行

20、标题、纵列标题横行、纵列数字资料表外附加,53,表213 1999年世界500强企业中利润额最高的前五个行业,总标题,横行标题,数字资料,纵列标题,资料来源:中国国情国力2000年第10期,表外附加,主词,宾词,54,我国农村和城镇居民家庭人均可支配收入及恩格尔系数,联合国粮农组织针对该系数提出具体标准:即恩格尔系数在59%以上为贫困,在50-59%之间为温饱,在40-50%之间为小康,在30-40%之间为富裕,低于30%为最富裕。,55,列联表又称为交叉表,是由两个以上的变量进行交叉分类的频数分布表对于定类数据的描述和分析,通常采用列联表进行交叉分析。列联表是由两个以上的变量进行交叉分类的频

21、数分布表。列联表就是复合分组表。,列联表,表x 某校学生性别与通信费列联表,56,总标题内容应满足3W要求(what where when)要合理安排统计表的结构数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“”表示必要时可在表的下方加上注释,4.统计表的设计规则,57,57,制作频数分布表用图形显示数据,列出各类别计算各类别的频数,2.3.2 统计图次数分布图,58,定性数据整理次数

22、分布表,【例】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?” 1商品广告;2服务广告;3金融广告;4房地产广告;5招生招聘广告;6其他广告。,表29 某城市居民关注广告类型的频数分布,59,定性数据的图示柱形图,柱形图是用宽度相同的条形的高度或长短来表示数据变动的图形柱形图有单式、复式等形式在表示定性数据的分布时,是用柱形图的高度来表示各类别数据的频数或频率绘制时,各类别可以放在纵轴,又称为条形图,也可以放在横轴,称为柱形图,60,定类数据的图示条形图,61,定量数据直方图,直方图法是适用于对定量数据进行整理

23、加工,找出其统计规律,即分析数据分布的形态,以便对其总体的分布特征进行推断。在企业经营统计中,尤其是在质量管理中,对工序是否合格或批量产品的质量水平是否正常进行分析的方法。,作直方图的方法步骤如下,(1) 收集数据一般收集数据都要随机抽取50个以上的数据,最好是100个以上的数据,并按先后顺序排列。 (2) 找出数据中的最大值,最小值和极差。数据中的最大值用xmax表示,最小值用xmin表示,极差用R表示。,例,某项目统计数据为:xmax=63,xmin=38,极差R= xmax- xmin=63-38=25。区间xmin, xmax称为数据的散布范围,(3)确定组数。 组数常用符号k表示。k

24、与数据个数多少有关。数据多,多分组;数据少,少分组。 上例中有100个数据,常分为10组左右。也有人用这样一个经验公式计算组数: k=1+3.31(logn) 上例中n=100,故: k=1+3.31(1ogn)=1+3.31(log100)=7.628 一般由于正态分布为对称形,故常取k为奇数。所以取k=9。,(4)求出组距(h)。 组距即组与组之间的间隔,等于极差除以组数,即组距,(5)确定组界 为了确定边界,通常从最小值开始。先把最小值放在第一组的中间位置上。 上例数据最小值xmin=38,组距(h)=3,故第一组的组界为: 即36.539.5,(6)计算各组的组中值(wi)。 所谓组中

25、值,就是处于各组中心位置的数值,又叫中心值。 某组的中心值(wi)=(某组的上限+某组的下限)/2 第一组的中心值(w1)=(36.5+39.5)/ 2=38 第二组的中心值(w2)=(39.5+42.5)/2=41 其它各组类推,,(7)统计各组频数。计算出现在各组组界内的数据的个数 (8)画直方图。 以分组号为横坐标,以频数为高度作纵坐标,作成直方图。,直方图(Histogram),练习:画直方图,判断工序的特征螺纹紧固件的拧紧力矩数据,螺纹紧固件的拧紧力矩数据与频数,作出频数分布表,EXCEL2010:文件-选项-加载项-直方图,74,异矩数列处理,75,找出标准组距:该例为5频数密度频

26、数/组距=16/10=1.6 标准组距的频数=51.6=8按标准组距的次数8作直方图。,异距数列作直方图时,应将不等组距调整为等组距。调整的方法是:以标准组距乘以频数密度(频数密度频数/组距)得到标准组距的频数,再按标准组距的次数作直方图。,76,130,8,8,77,折线图,折线图也称频数多边形图(Frequency polygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方

27、图的面积相等,二者所表示的频数分布是一致的,78,15,12,9,6,3,105,110,115,120,125,130,135,140,日加工零件数(个),频数(人),图2-3 某车间工人日加工零件数的折线图,79,曲线图,曲线图是用一条光滑的曲线表示次数分布;当直方图的组距无限缩小时,折线图就成了曲线图曲线图是折线图的理论图,80,81,某电脑公司某年4个月销售量,82,茎叶图,茎叶图是反映原始数据的图形。它由茎和叶两部分构成。通过茎叶图,可以看出数据的分步形状及数据的离散状况,如分布是否对称,数据是否集中,是否有离群点等等。绘制茎叶图关键是设置好树茎。制作茎叶图时,首先把一个数字分成两部

28、分,通常是以该数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。如125分成12 5,12分成1 2,前部分是树茎,后部分是树叶。茎叶图类似于横置的直方图,与直方图相比,茎叶图既能够给出数据的分布状况,又能够给出每一个原始数据。而直方图虽然能够很好的显示数据的分布,但不能保留原始数值。在应用方面,直方图通常适用于数据量大的情况,茎叶图通常适用于小批量数据。,83,某电脑公司某年4个月销售量,84,圆形图,也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表

29、示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360025.5%91.80,其余类推,85,86,【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意? 1非常不满意;2不满意;3一般;4满意;5非常满意。,87,88,环形图,环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个

30、环环形图可用于进行比较研究 环形图可用于展示定类和定序的数据,89,90,线图,【例】已知19911998年我国城乡居民家庭的人均收入数据如表。试绘制线图。,线图是在直角坐标上用折线表现数据的变化主要用于时间序列数据,反映现象随时间变化的特征,91,时间序列数据(由 Excel 绘制的线图),92,雷达图(Radar Chart)。蜘蛛图,是显示两个以上样本多个变量特征的常用图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度,多变量数据雷达图,93,多变量数据雷达图(实例),【例】1997年我国城乡居民家庭平均每人各项生活消费支出数据如表所示。试绘制雷达图。,今天的主食是面包,94,多变量数据雷达图,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报