1、2019/9/29,第二章 统计数据的搜集与整理,1,河北工程大学经济管理学院 主讲:郭彩云,统 计 学,2019/9/29,第二章 统计数据的搜集与整理,2,第二章 统计数据的 搜集与整理,本章要求:了解数据的计量尺度,明确数据的表现形式(绝对数、相对数);会使用统计数据的搜集方法;掌握统计数据整理中的统计分组和变量数列的编制。,2019/9/29,第二章 统计数据的搜集与整理,3,本章主要内容,本章共分四节: 第一节 数据的计量与类型 第二节 统计数据的来源 第三节 统计数据的质量 第四节 统计数据的整理,2019/9/29,第二章 统计数据的搜集与整理,4,第一节 数据的计量与类型,本节
2、需要把握三个问题: 一、数据的计量尺度; 二、数据的类型; 三、统计数据的表现形式。,2019/9/29,第二章 统计数据的搜集与整理,5,一、数据的计量尺度,统计数据是对客观现象进行计量的结果,进行计量就必须弄清楚数的计量尺度。 根据对事物计量的精确程度,将计量尺度由低到高、由粗略到精确分为四个层次:,2019/9/29,第二章 统计数据的搜集与整理,6,四种计量尺度,2019/9/29,第二章 统计数据的搜集与整理,7,1、列名尺度,(1)含义:又称定类尺度,是最粗略、计量层次最低的计量尺度,是按照客观现象的某种属性对其进行平行的分类或分组。这种测度各类间是平等并列关系,无优劣大小之分。
3、例如,按性质对企业分组为国有、集体、私营、混合制等。,2019/9/29,第二章 统计数据的搜集与整理,8,1、列名尺度,(2)分类结果的表示:用数字或编码表示。 例如,人口按性别分为男女,用“1”表示男性,用“0”表示女性。在统计处理中可以计算各类元素的单位数。,2019/9/29,第二章 统计数据的搜集与整理,9,1、列名尺度,(3)分类的要求:分类必须符合穷尽(指在所做的全部分类中,必须保证每一个元素或个体都能归属某一个类别,不能有所遗漏)和互斥(指每一个元素或个体只能归属一个类别,而不能在其他类别中重复出现)的要求,每一元素归于一类并且只属于一类。 定类尺度是对事物最基本的测度,它是其
4、它计量尺度的基础。,2019/9/29,第二章 统计数据的搜集与整理,10,2、顺序尺度,又称定序尺度,它是对事物间的等级差或顺序差的一种测度,比定类尺度更高一级的计量尺度。它既可测度类别差又可测度次序差,结果可比较顺序。 例如,学生成绩可以分为优、良、中、及格和不及格等五类。产品等级分为一、二、三级等。 计量结果只能比大小,不能计算加减乘除。,2019/9/29,第二章 统计数据的搜集与整理,11,3、间隔尺度,又称定距尺度,它能区分事物类型并排序,且能准确指出类别间差距多少。它是对事物类别或次序间间距的测度,常用自然或物理单位作为计量尺度,例如,重量用“克”“千克”度量等。 计量结果为数值
5、,并可计算差值,可进行加减运算。,2019/9/29,第二章 统计数据的搜集与整理,12,4、比率尺度,(1)含义:又称定比尺度,它是在间隔尺度的基础上,确定相应的比较基数,将两种相关的数加以对比而形成相对数(或平均数),反映现象的结构、比重、速度、密度等数量关系。 例如,将一国的国内生产总值与该国的人口数对比,计算人均国内生产总值,以此反映该国的经济能力。,2019/9/29,第二章 统计数据的搜集与整理,13,4、比率尺度,(2)与间隔尺度的区别:计量结果为比值,要求有绝对固定的“零点”,“0”表示“没有”或“不存在”,如收入为0,表无收入;间隔尺度无绝对“零点”,“0”是一个有意义数值,
6、即“0”水平,不表“没有”或“不存在”,如考试为“0”,表成绩水平为“0”,而不表示没有成绩。温度为“0” (3)其结果可进行加减乘除运算。 上述四种计量尺度间可以从高层尺度转化为低层尺度,但不能反之。,2019/9/29,第二章 统计数据的搜集与整理,14,四种计量尺度的比较,“”表示该尺度所具有的特性,第二章 统计数据的搜集与整理,15,二、数据的类型,把握两个问题: 1、定性数据 2、定量数据;,2019/9/29,第二章 统计数据的搜集与整理,16,1、定性数据,定性数据又称品质数据,说明事物品质特征,不能用数值表示,其结果为类别,是由定类、定序尺度计量,可计算各组的频数或频率。,20
7、19/9/29,第二章 统计数据的搜集与整理,17,2、定量数据,定量数据又称数量数据,它说明现象的数量特征,能用数值表示,由定距、定比尺度计量形成,可用各种统计方法处理。,2019/9/29,第二章 统计数据的搜集与整理,18,三、统计数据的表现形式,把握两个问题: 数量统计数据的两种基本形式: 1、绝对数; 2、相对数。,2019/9/29,第二章 统计数据的搜集与整理,19,(1)概念:是统计数据的基本表现形式,现象的规模、水平一般以绝对数形式表现,例如,国内生产总值、产品总产量、人口数、进出口额等。,1、绝对数,2019/9/29,第二章 统计数据的搜集与整理,20,(2)计量单位:有
8、实物单位、价值单位和复合单位。 实物单位是据事物的自然属性和特点,采用自然和度量衡单位计量,如人口数用人计量,对于一些化工产品,常常折合成为标准实物单位。 价值单位是以货币形式进行计量,如国内生产总值等。 复合单位是由两种或两种以上计量单位复合而成的,如“吨公里”、“千瓦时”。,1、绝对数,2019/9/29,第二章 统计数据的搜集与整理,21,1、绝对数,(3)分类 按时间状态分为时期数和时点数 A、时期数:反映现象在一段时期内的总量,具有连续统计和可加性的特点,其数值大小与所属的时间长短有直接关系,如国内生产总值、进出口总额。,2019/9/29,第二章 统计数据的搜集与整理,22,1、绝
9、对数,(3)分类 B、时点数:反映现象在某一瞬间时刻的总量,只能间断计数,不具有可加性,其数值大小与时点间隔长短没直接关系。 如期末人口数、期末在建工程投资额等。,2019/9/29,第二章 统计数据的搜集与整理,23,思考题,出生人口数是时期数还是时点数?,2019/9/29,第二章 统计数据的搜集与整理,24,2、相对数,(1)相对数是两个绝对数的比值,反映事物的相对数量,可以表现为百分数、千分数、倍数、系数、成数等。 (2)相对数的基本形式:比例、比率。 A、比例:是一个总体中各个部分的数量占总体数量的比重,反映总体的结构,又称结构相对数。如产品合格率。,2019/9/29,第二章 统计
10、数据的搜集与整理,25,2、相对数,假定总体数量N被分成K个部分,每一部分的数量分别为N1,N2,NK,则比例定义为Ni / N,各部分比例和为1,即:N 1/ N + N2 / N+ +Nk / N=1,2019/9/29,第二章 统计数据的搜集与整理,26,2、相对数,B、比率:是各不同类别的数量的比值。 它可以是总体中各部分的数量对比,又称比例相对数,如积累、消费之比;还可以是同一现象在不同时间或空间上数量之比,又称动态、比较相对数,如经济增长速度等;,2019/9/29,第二章 统计数据的搜集与整理,27,2、相对数,比例相对数=总体中某一部分数值/同一总体中另一部分数值 动态相对数=
11、报告期水平/基期水平=发展速度 比较相对数=甲地区(单位)某指标数值/乙地区(单位)某指标数值,2019/9/29,第二章 统计数据的搜集与整理,28,2、相对数,B、比率:还可以是不同现象数量的比较,反映密度、强度,又称强度相对数,如人口密度、人均GDP等。 强度相对数=某一指标数值/另一有联系的指标数值,2019/9/29,第二章 统计数据的搜集与整理,29,2、相对数,强度相对数有单位,如人/平方公里; 还有正、逆指标,如商业网点密度,可以是千人/个,还可以是个/千人。 正指标,指标数值越大越好的指标,如国内生产总值、财政收入、各种产量、农民和职工收入等指标 。 逆指标,指标数值越小越好
12、的指标。 阅读:如何正确掌握统计学中的正指标和逆指标,2019/9/29,第二章 统计数据的搜集与整理,30,第二节 统计数据的来源,本节需要把握两个问题: 一、统计数据的直接来源:源于直接调查和科学实验; 二、统计数据的间接来源:源于别人调查或实验的数据。,2019/9/29,第二章 统计数据的搜集与整理,31,一、统计数据的直接来源,把握四个问题: 1、统计调查的分类; 2、统计调查方式; 3、数据的搜集方法; 4、调查方案设计。,2019/9/29,第二章 统计数据的搜集与整理,32,统计调查,统计调查是按照预定的目的和统计任务,运用科学的调查方法,有组织、有计划地对调查对象进行资料搜集
13、的过程。,2019/9/29,第二章 统计数据的搜集与整理,33,1、统计调查的分类,(1)按调查范围分为全面、非全面调查。 全面调查是对调查对象的所有单位进行调查,如普查、全面统计报表;非全面调查是对调查对象中的一部分单位进行调查,如抽样调查、重点调查、典型调查。,2019/9/29,第二章 统计数据的搜集与整理,34,1、统计调查的分类,(2)按时间分为连续(经常)性调查和不连续性调查。 连续(经常)性调查是指随着现象的变化,连续不断地进行调查登记。例如,统计报表制度。 不连续性调查是指间隔一段较长的时间进行一次性调查。如普查、典型调查、重点调查等一般是不连续性调查。,2019/9/29,
14、第二章 统计数据的搜集与整理,35,1、统计调查的分类,(3)按组织形式可分为定期报表和专门调查。 定期报表制度是按国家统一规定的表式和内容,定期地向各级领导机构报送统计资料的一种形式。 专门调查是为某一专题研究而组织的专项调查,一般地,普查、抽样调查和典型调查等可以是专门调查。,2019/9/29,第二章 统计数据的搜集与整理,36,2、统计调查方式,统计调查是统计数据的主要来源。 我国统计法第十条规定“统计调查应以周期性普查为基础,经常性抽样调查为主体,必要的统计报表、重点调查、综合分析等为补充,搜集、整理基本统计资料”。,2019/9/29,第二章 统计数据的搜集与整理,37,2、统计调
15、查方式,(1)普查:A、它是专门组织的一次性全面调查,它主要是用以调查某些不能或不宜用定期的全面报表搜集的统计资料,以此掌握国情、国力。 目前,经国务院批准的周期性的普查项目有:人口普查、工业普查、农业普查、第三产业普查(每十年一次,分别在逢0、3、5、7年份进行)和基本统计单位(每五年一次,在逢1、6年份进行)等。,2019/9/29,第二章 统计数据的搜集与整理,38,2、统计调查方式,B、它适合于特定目的、对象的调查,用于搜集现象时点上的数量,目的掌握现象的基本全貌。 C、特点:它是一次性的或周期性的;规定统一的标准调查时间;数据较准确、规范化程度高;但适用的对象较狭窄。,2019/9/
16、29,第二章 统计数据的搜集与整理,39,2、统计调查方式,我国在1953年、1964年、1980年、1990年、2000年进行了五次人口普查,1992年进行了第三产业普查,1995年进行了工业普查,1997年进行了农业普查。 普查方式:自上而下组织专门的普查机构,派专门人员对调查单位进行直接登记或利用企业、机关、事业单位本身的组织系统和内部原始记录、报表资料进行填报,或根据清库盘点进行登记和调整。,2019/9/29,第二章 统计数据的搜集与整理,40,2、统计调查方式,(2)抽样调查 A、它是从调查对象的总体中随机抽取一部分单位作为样本进行调查,根据样本调查结果来推断总体数量特征的一种非全
17、面调查方法。,2019/9/29,第二章 统计数据的搜集与整理,41,2、统计调查方式,(2)抽样调查 B、特点:遵循随机原则,排除主观干扰;以样本数据推断总体;误差可以事先估计并加以控制。,2019/9/29,第二章 统计数据的搜集与整理,42,2、统计调查方式,(2)抽样调查 C、优点:经济性;时效性高;适应面广,特别适合对特殊现象的调查,如一些具有破坏性的质量检验;准确性高。,2019/9/29,第二章 统计数据的搜集与整理,43,2、统计调查方式,(3)统计报表:A、它是一种重要方式,已形成较完备的统计报表制度,它是按国家规定,自上而下的布置,自下而上逐级提供统计数据的一种调查方式。它
18、以原始数据为基础,按统一表式、指标、报送时间、程序填报。,2019/9/29,第二章 统计数据的搜集与整理,44,2、统计调查方式,(3)统计报表 B、分类:按调查范围分为全面、非全面报表;按报送时间分为日、月、季、年报等;按报送范围分为国家、部门、地方统计报表。,2019/9/29,第二章 统计数据的搜集与整理,45,2、统计调查方式,(4)其他方式 A、重点调查:是从调查对象中选择少数重点单位进行调查。重点单位是指在所要调查的数量特征上占有较大比重的单位 (符合80/20原理) 。即只对总体中为数不多但影响颇大(其标志值在总体标志总量中所占比重很大)的重点单位进行研究的一种非全面调查。,2
19、019/9/29,第二章 统计数据的搜集与整理,46,2、统计调查方式,可以是重点地区(产区、市场、出口基地等),也可是重点企业,主要产品或商品,视情况而定。 如对几个产量大的钢铁企业鞍钢、宝钢、首钢等进行重点调查,以便了解全国的钢铁产量。 特点:人、财、物较少,及时掌握总体基本情况及其发展变化的基本趋势。,2019/9/29,第二章 统计数据的搜集与整理,47,2、统计调查方式,(4)其他方式 B、典型调查:是从调查对象中选择一个或几个少数有代表性的单位进行全面深入细致的调查,目的揭示事物的本质和规律。它主要是一种定性研究,适合对新生事物进行调查,可与全面调查相结合。 典型单位数目的多少要依
20、据总体单位之间的差异程度而定,差异大,数目多,或者进行“划类取典”,差异小,数目少。,2019/9/29,第二章 统计数据的搜集与整理,48,3、数据的搜集方法,(1)访问调查:又称派员调查,它是调查者与被调查者面对面地交谈获得资料。方式有标准式和非标准式,又称结构式和非结构式。 (2)邮寄调查:通过邮寄或其他方式将问卷送至被调查者。它是一种标准化调查,特点是非直接交流,2019/9/29,第二章 统计数据的搜集与整理,49,3、数据的搜集方法,(3)电话调查:是调查人员利用电话与受访者进行语言交流。特点时效快,费用低,但注意问题要明确且不宜多。 (4)座谈会:又称集体访谈法,适用搜集与研究课
21、题有密切关系的少数人员的意见,注意人数不宜多,6到10人,且是专家或有经验的人。,2019/9/29,第二章 统计数据的搜集与整理,50,3、数据的搜集方法,(5)个别深度访问:一次只有一名受访者,是一种无结构的个人访问,常用于动机研究,最宜研究较隐秘的问题。 (6)其他方式:直接观察法、采访法、实验调查法、网上调查法等,2019/9/29,第二章 统计数据的搜集与整理,51,4、调查方案设计,调查方案是指导整个调查过程的纲领性文件,它包括: (1)调查目的(Why):它是调查的具体目标,明确调查要解决什么问题,即为什么调查。它应简明扼要。例如,第五次人口普查的目的。,2019/9/29,第二
22、章 统计数据的搜集与整理,52,4、调查方案设计,(2)调查对象和调查单位(Who) A、调查对象是根据调查目的确定的调查研究的总体或调查范围。 调查单位是构成调查对象中的每一个单位,它是调查项目和指标的承担者或载体,是我们搜集数据、分析数据的基本单位。,2019/9/29,第二章 统计数据的搜集与整理,53,4、调查方案设计,(2)调查对象和调查单位(Who) B、实际调查中调查单位可以是全部或部分单位。 C、与填报单位的区别:后者是负责向上报告调查内容、提交统计资料的单位,与调查单位有时一致,有时不一致。如进行工业企业职工基本情况普查,调查单位是工业企业每一个职工,填报单位是工业企业。,2
23、019/9/29,第二章 统计数据的搜集与整理,54,4、调查方案设计,(3)调查项目和调查表 A、调查项目:明确调查什么。项目的设置注意:含义明确、答案形式、取得资料的可能性、项目的多少。是调查的具体内容,可以是单位的数量特征,也可以是单位的某种属性或品质特征。,2019/9/29,第二章 统计数据的搜集与整理,55,4、调查方案设计,(3)调查项目和调查表 B、调查表:将调查项目以表格形式表示,包括表头、表体、表外附加。 调查表又分为单一表和一览表,前者只有一个单位,项目较多,后者有若干个单位,项目较少。,2019/9/29,第二章 统计数据的搜集与整理,56,4、调查方案设计,(3)调查
24、项目和调查表 C、市场调查中的问卷:它由一系列问题、备选答案、说明、码表组成,结构由开头、主体和背景组成。 问卷设计内容包括:提问问题的设计、问题答案、提问顺序、问卷版面格式设计等。,2019/9/29,第二章 统计数据的搜集与整理,57,4、调查方案设计,(4)调查方法 是搜集数据的具体方式,应明确是全面还是非全面调查,非全面调查还应明确是抽样调查、重点调查还是典型调查。,2019/9/29,第二章 统计数据的搜集与整理,58,4、调查方案设计,(5)调查时间:包括数据所属时间和调查期限。前者应明确调查的是时期或时点数据,后者指调查工作的时限(从开始到结束的时间长度,包括调查时间、处理时间、
25、分析和完成调查报告的时间)。 如第四次人口普查数据所属时间是“1990年7月1日0时”,工作时限是1990年7月1日至7月10日完成普查的登记工作。,2019/9/29,第二章 统计数据的搜集与整理,59,4、调查方案设计,(6)调查的组织和实施 包括调查人员的选择、组织和培训;调查表、问卷、调查员手册的印刷;调查经费来源和开支预算等。,2019/9/29,第二章 统计数据的搜集与整理,60,二、统计数据的间接来源,主要是公开出版或公开报道的数据,有些是尚未公开的,来源于国家和地方的统计部门以及各种报刊等媒体。 使用二手数据经济方便,但应注意数据的含义、计算口径、方法,使用时注明数据的来源。,
26、2019/9/29,第二章 统计数据的搜集与整理,61,二、统计数据的间接来源,统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 从互联网或图书馆查阅到相关资料,2019/9/29,第二章 统计数据的搜集与整理,62,提供统计数据的部分政府网站,2019/9/29,第二章 统计数据的搜集与整理,63,提供统计数据的部分政府网站,2019/9/29,第二章 统计数据的搜集与整理,64,第三节 统计数据的质量,在统计的整个工作过程
27、都会遇到一个减少误差、提高数据质量的问题,统计数据的质量控制问题贯穿于统计工作全过程。把握两个问题: 一、误差的分类; 二、误差的控制。,2019/9/29,第二章 统计数据的搜集与整理,65,一、误差的分类,2019/9/29,第二章 统计数据的搜集与整理,66,一、误差的分类,1、抽样误差(sampling error)由于抽样的随机性所带来的误差 (1)所有样本可能的结果与总体真值之间的平均性差异 (2)影响抽样误差大小的因素 样本量的大小 总体的变异性,2019/9/29,第二章 统计数据的搜集与整理,67,一、误差的分类,2、非抽样误差(non-sampling error)相对于抽
28、样误差而言 (1)除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异 (2)存在于所有的调查之中 概率抽样,非概率抽样,全面性调查 (3)有抽样框误差、回答误差、无回答误差、调查员误差、测量误差,2019/9/29,第二章 统计数据的搜集与整理,68,抽样框误差,抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。 好的抽样框应做到:完整而不重复。,2019/9/29,第二章
29、统计数据的搜集与整理,69,抽样框误差,常见的抽样框:大学学生花名册、城市黄页里的电话列表、工商企业名录、街道派出所里居民户籍册、意向购房人信息册。在没有现成的名单的情况下,可由调查人员自己编制。应该注意的是,在利用现有的名单作为抽样框时,要先对该名录进行检查,避免有重复、遗漏的情况发生。以提高样本对总体的代表性。 例如:要从10000名职工中抽出200名组成一个样本,则10000名职工的名册,就是抽样框。,2019/9/29,第二章 统计数据的搜集与整理,70,抽样框误差,抽样框误差便是因不准确或不完整的抽样框而引起的误差。问题是,从包含抽样误差的抽样框中抽取的样本有时无法正确地代表调研目标
30、的实际情况,这就存在抽样框误差。举个例子,以电话号码薄作为抽样框,在对某地区所有住户进行的某种意向调查时,就存在着抽样框误差。,2019/9/29,第二章 统计数据的搜集与整理,71,二、误差的控制,1、抽样误差可计算和控制 2、非抽样误差的控制 调查员的挑选 调查员的培训 督导员的调查专业水平 调查过程控制 调查结果进行检验、评估 现场调查人员进行奖惩的制度,2019/9/29,第二章 统计数据的搜集与整理,72,第四节 统计数据的整理,本节需把握三个问题: 一、数据的预处理 二、数据分组与频数分布 三、次数分配的图示和类型,2019/9/29,第二章 统计数据的搜集与整理,73,一、数据的
31、预处理,把握两个问题: 1、数据的审核、筛选; 2、数据的排序。,2019/9/29,第二章 统计数据的搜集与整理,74,1、数据的审核、筛选,(1)数据的审核 A、对原始数据,审核完整性和准确性。完整性指调查单位是否遗漏、项目是否齐全等;准确性指数据是否真实、是否错误等。 方法是逻辑检查和计算检查。,2019/9/29,第二章 统计数据的搜集与整理,75,1、数据的审核、筛选,(1)数据的审核 B、对二手数据审核完整性和准确性外,着重审核数据的适用性和时效性。适用性应清楚数据的来源、口径和背景,时效性应注意数据的时间,使用最新的数据。,2019/9/29,第二章 统计数据的搜集与整理,76,
32、1、数据的审核、筛选,(2)数据的筛选 包括剔除不符和要求的数据或错误的数据; 筛选符合特定要求的数据。,2019/9/29,第二章 统计数据的搜集与整理,77,2、数据的排序,它是按照一定顺序排列数据,便于发现明显特征趋势或解决问题的线索,有助于检查纠错为归类分组提供依据。 对数字型数据:递增或递减排序 对字母型数据:升序降序排序 对汉字型数据:按拼音、字母、笔画排序。,2019/9/29,第二章 统计数据的搜集与整理,78,二、数据的分组与频数分布,把握三个问题: 1、基本概念 2、按品质标志分组 3、按数量标志分组,2019/9/29,第二章 统计数据的搜集与整理,79,1、基本概念,(
33、1)统计分组:它是根据统计研究的需要,将数据按照某种特征或标准分成不同的组别。 (2)分组标志:分组时所依据的特征或标准,有品质标志和数量标志。前者说明事物的性质或属性特征,不能用数值表现,对应列名、顺序尺度,如产品等级;后者说明事物数量特征,可以表现为数值,对应间隔、比率尺度。,2019/9/29,第二章 统计数据的搜集与整理,80,1、基本概念,(3)频数分布:根据分组计算出所有类别或数据在各组出现的次数,将全部数据按分组标志在各组内的分布状况称为频数分布。 (4)频数、频率:分布在各组的数据个数称为频数;各组频数与全部频数之和的比值称为频率或比重。,2019/9/29,第二章 统计数据的
34、搜集与整理,81,这种分组较简单,要注意组的界限。例如,表2-1: 表2-1 1998年我国大陆人口按性别分组,2、按品质标志分组,2019/9/29,第二章 统计数据的搜集与整理,82,3、按数量标志分组,分组方法有: (1)单变量分组:一个变量值为一组,适合离散变量,且变量值较少。步骤是先排序再分组。 例2-1:某生产车间50名工人日加工零件数如下(单位:人):,2019/9/29,第二章 统计数据的搜集与整理,83,3、按数量标志分组,(1)单变量分组 117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126
35、122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121,2019/9/29,第二章 统计数据的搜集与整理,84,3、按数量标志分组,(1)单变量分组:首先,对上面数据排序如下:107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123
36、124 124 124 125 125 126 126 127 127 127 128 128 129 130 131 133 133 134 134 135 137 139 139 其次进行单变量分组,形成频数分布表2-2,2019/9/29,第二章 统计数据的搜集与整理,85,表2-2 某车间50名工人日加工 零件数分组表,2019/9/29,第二章 统计数据的搜集与整理,86,3、按数量标志分组,(2)组距分组:将全部变量值划分为若干区间,并将这一区间的变量值作为一组,使用于连续变量或变量值较多的情况。 步骤:排序;确定组数:按斯特格斯(Sturges)提出的经验公式确定组数K:K=1+
37、1gN / 1g2,其中N为数据个数,计算结果取整。,2019/9/29,第二章 统计数据的搜集与整理,87,3、按数量标志分组,确定各组组距:组距是一组上限与下限之差。组距分组又分等距、异距分组: A.等距分组:各组组距相等,组距=(最大值最小值)/组数,即全距/组数,组距宜取5或10的倍数。 B.异距分组:各组组距不等,是某些特殊现象的需要,如对人口年龄分组,06岁(婴幼儿组)、717岁(少年儿童组)、1859岁(中青年组)、60岁以上(老年组)。,2019/9/29,第二章 统计数据的搜集与整理,88,3、按数量标志分组,确定组限:组限是组与组间的界限,各组有上、下限。 注意:A.组限的
38、重叠与不重叠:连续型变量一般重叠,离散型变量都可以。B.上组限不在内。C.第一组下限低于最小值,最后一组上限高于最大值。D.开口、闭口组:为避免空白组或极值漏掉,第一或最后一组采取“以上”或“以下”分组。,2019/9/29,第二章 统计数据的搜集与整理,89,3、按数量标志分组,整理成频数分布表:计算各组频数、频率、组中值、频数密度、累计频数。组中值反映各组数据的一般水平,组中值=(下限+上限)/ 2。频数密度=频数/组距,等距分组的频数分布不受组距大小影响,异距分组的频数分布受组距大小影响,必须计算频数密度。 累计频数又分向上向下累计:向上累计从变量值小的一方向大的方向累计,表示某组上限以
39、下累计频数或频率;向下累计相反。,2019/9/29,第二章 统计数据的搜集与整理,90,3、按数量标志分组,(2)组距分组 对于例2-1采用组距分组,计算组数K=1+1g50/ 1g2=7(组),组距=(139-107)/7=4.6,取5组,整理成频数分布表2-3。,2019/9/29,第二章 统计数据的搜集与整理,91,表2-3 某车间50名工人加工零件数分组表,2019/9/29,第二章 统计数据的搜集与整理,92,三、次数分配的图示和类型,把握四个问题: 1、直方图和折线图 2、频数分布的类型 3、洛伦茨曲线与基尼系数,2019/9/29,第二章 统计数据的搜集与整理,93,1、直方图
40、和折线图,(1)直方图:是用矩形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示数据分组,纵轴表示频数和频率,依据各组的组距的宽度与次数的高度绘成直方形。根据表2-3的资料绘制的直方图如图2-1:,2019/9/29,第二章 统计数据的搜集与整理,94,图2-1某车间工人日加工零件直方图,2019/9/29,第二章 统计数据的搜集与整理,95,1、直方图和折线图,(1)直方图 从上图直观看出工人日加工零件数及其人数的分布状况。 对于不等距分组要根据频数密度画直方图反映频数分布。,2019/9/29,第二章 统计数据的搜集与整理,96,1、直方图和折线图,(2)折线图:在直方图的基础上将
41、直方图顶部的中点(组中值)连接起来,把原来的直方图抹掉。 注意:折线图两个终点与横轴相交。如图2-2所示。,2019/9/29,第二章 统计数据的搜集与整理,97,图2-2 某车间工人日加工零件数折线图,2019/9/29,第二章 统计数据的搜集与整理,98,1、直方图和折线图,(2)折线图 折线图也可以表示累积频数分布,当数据所分组很多时形成平滑的曲线,就是频数分布曲线,有向上、向下累积两种图形,如图2-3所示。,2019/9/29,第二章 统计数据的搜集与整理,99,图2-3 累积频数分布折线图,(a)向上累积,(b)向下累积,2019/9/29,第二章 统计数据的搜集与整理,100,2、
42、频数分布的类型,(1)正态分布:是一种对称的钟型分布,如市场的价格分布,如图2-6(a)。,2019/9/29,第二章 统计数据的搜集与整理,101,2、频数分布的类型,(2)偏态分布:如图2-6(b),2019/9/29,第二章 统计数据的搜集与整理,102,2、频数分布的类型,(3)J型分布:有正J型,如经济学中的供给曲线;有反J型,如需求曲线。如图2-6(c):,2019/9/29,第二章 统计数据的搜集与整理,103,2、频数分布的类型,(4)U型分布:两端的频数分布多,中间的少,如人和动物的死亡率分布。如图2-6(d):,2019/9/29,第二章 统计数据的搜集与整理,104,3、
43、洛伦茨曲线与基尼系数,(1)洛伦茨曲线:20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成,描述收入和财富分配性质的曲线,分析该国家或地区分配的平均程度,2019/9/29,第二章 统计数据的搜集与整理,105,3、洛伦茨曲线与基尼系数,(1)洛伦茨曲线:图中,横轴表累积的人口百分比,纵轴表累积的收入百分比。若财富平均分配给每一个人,则曲线变成对角线,称完全平等线;若财富有一个人所拥有,则曲线是OFC,称完全不平等线。,2019/9/29,第二章 统计数据的搜集与整理,106,3、洛伦茨曲线与基尼系数,(1
44、)洛伦茨曲线:一般情况下,收入和分配所构成的曲线在完全平等与完全不平等线之间,洛伦茨曲线越接近完全平等线,社会财富分配越平均。,2019/9/29,第二章 统计数据的搜集与整理,107,3、洛伦茨曲线与基尼系数,(2)基尼系数:20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标。 A表示实际收入曲线与绝对平均线之间的面积;B表示实际收入曲线与绝对不平均线之间的面积。,2019/9/29,第二章 统计数据的搜集与整理,108,3、洛伦茨曲线与基尼系数,(2)基尼系数基尼系数=A/(A+B)如果A=0,则基尼系数=0,表示收入绝对平均;如果B=0,则基尼系
45、数=1,表示收入绝对不平均基尼系数在0 和1之间取值。基尼系数越大,表示社会两极分化比较严重。,2019/9/29,第二章 统计数据的搜集与整理,109,3、洛伦茨曲线与基尼系数,(2)基尼系数一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。,2019/9/29,第二章 统计数据的搜集与整理,110,本章小结,数据的计量尺度 数据的表现形式(绝对数、相对数) 统计数据的搜集方法 统计分组和变量数列的编制,2019/9/29,第二章 统计数据的搜集与整理,111,本章作业题,第一版教材:P30的2.2、2.3。 第二版教材:P59练习题的第2、3题。,2019/9/29,第二章 统计数据的搜集与整理,112,本章思考题,1.数据的计量尺度有哪些?有何区别? 2.统计调查方式有哪些? 3.数据的搜集方法有哪些? 4.统计分组、次数分布等基本概念。 5.如何进行统计数据的分组? 6.如何进行组距式分组?,谢谢大家!,