1、,第三章 数据整理 -数据分组,统计数据的分组,分组是将总体所有单位按一定的标准区分为若干部分,分组的目的:概括数据,清晰条理,如何分组?,将具有共性的个体归入同一组,将总体内部个体间的差异通过组别区分开来,统计数据的分组,品质数列是按现象的性质、类别标志进行的分组。例如人口按性别和民族分组; 时间数列按时间发生的先后顺序分组。例如我国解放后各年的人口数字;GDP 变量数列是按某一数量标志大小顺序进行的分组。例如某企业按工资收入的多少分组; 空间数列是按不同地区标志进行的分组。例如人口按省、市、自治区分组;,次数分配,数据观察值在各组中的个数称为次数,各组间的次数称为次数分配。次数分配描述了总
2、体的结构和特征。 例如:某企业非熟练工人的周工资额(元) 如何分组?,变量次数分配的编制,1、将原始资料顺序排序 2、将各个数据按其数值大小归入相应的组内 3、确定组数与组距4、确定组限,如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数: 组数1+3.322 log n,组距 (观察值中的最大数值观察值中的最小数值)/组数,分组计算,组数1+3.322 log n =5.9(n=30) 分6组组距:每组区间的宽度(观察值中的最大数值观察值中的最小数值)/组数=(128-84)/6=7.3,分6组,组距8,排序:84,85,87,91,91,94,95,9
3、6,97,99,101,101,103,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128,分6组,组距8,结合实际数据,一、比较计算组距值(7.3),组距为10比较好计算且方便,二、分组的组数相应从6减少为5。最小值为84,下限从80开 始,,分5组,组距10,分两组,分组太细会出现什么问题?,不等距分组,在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。每组单位组距次数某组次数/该组组距,不等距分组,组限分类,重叠组限:“100200
4、”,“200300” 间断组限:“100199”,“200299” 开口组:“100以下”,“500以上” 应用范围: 离散变量可采用间断组限,亦可采用重叠组限; 连续变量应采用重叠组限; 数据资料中若有极端值应采用开口组.注重叠组限计数时应遵循“上组限不包括在内 原则。,组中值的计算,组中值=(下限+上限)/2若遇开口组的资料,其开口组的组限一般按其相邻组的组距计,,例,某生产车间50名工人日加工零件数 如下(单位:个)。试对数据进行组距分组。,1.将数据排序,107, 108, 108, 110, 112, 112, 113, 114, 115, 117, 117, 117, 118, 1
5、18, 118, 119, 120, 120, 121, 122, 122, 122, 122, 123, 123, 123, 123, 124, 124, 124, 125, 125, 126, 126, 127, 127, 127, 128, 128, 129, 130, 131, 133, 133, 134, 134, 135, 137, 139, 139 2.确定组数及组距组数=1+3.322lg50=6.647 组距=(139-107)/7=4.6 5,3.确定组限,最小值为107,以105为第一组下限。采用重叠组限.,某车间50名工作日加工零件数分组表,亦可采用间断组限,某车间50
6、名工人日加工零件数分组表,变量次数分配的图示,直方图:频数分配直方图、频率分配直方图 次数多边形图 茎叶图 累积次数分配图:小于上组限的累积次数分配图、大于下组限的累积次数分配图。特例 洛伦茨曲线,直方图,以变量值为横坐标、次数为纵坐标,以矩形高度表示各组次数(频数)分配多少。如下图: 频数分布直方图,直方图,频率分布直方图,次数多边形图,次数多边形图,还可将几种不同数据绘在同一多边形图上用于比较.如图:,茎叶图,数据源:21 ,29, 60, 1, 27, 35, 66, 23, 8, 38, 31, 45, 57, 66, 68, 62, 62, 93, 68, 19, 68, 72, 7
7、6, 91, 46, 62, 3, 10, 49, 56, 52, 95按大小排序后如下:1, 3, 8, 10, 19, 21, 23, 27, 29, 31, 35, 38, 45, 46, 49, 52, 56, 57, 60, 62, 62, 62, 66, 66, 68, 68, 68, 72, 76, 91, 93, 95,茎叶图,茎 叶 次数 0 1 3 8 3 1 0 9 2 2 1 3 7 9 4 3 1 5 8 3 4 5 6 9 3 5 2 6 7 3 6 0 2 2 2 6 6 8 8 8 9 7 2 6 2 8 0 9 1 3 5 5 4,累计次数分配图,小于上组限的累积次数分配,累计次数分配图,以变量值为横坐标、以累积计次数为纵坐标描点连接而成的图,如下图:,累计次数分配图,大于下组限的累积次数分配,累计次数分配图,洛伦茨曲线,以人口百分比为横坐标、以累积收入百分比为纵坐标描点连接而成的图形,如图:,基尼系数,反映一国收入的平等程度。 如上图基尼系数 r=A/(A+B)r=0 绝对平等 r=1 绝对不平等r越大越不平等,反之则越平等。,