1、第四章 分组和次数分布,学习目标, 掌握统计分组的基本理论和方法 掌握分配数列的特性和编制方法,重点、难点,1、统计分组的概念和作用 2、统计分组的原则 3、 分组标志选择及界限的确定(统计分组的关键)(单选、判断) 4、统计分组的方法(单选、判断) 5、变量数列的编制(计算)(难点),第一节 统计分组(统计整理的关键),一、统计分组的概念和作用 二、统计分组的种类 三、统计分组的原则 四、分组标志选择及界限的确定 (统计分组的关键) 五、统计分组的方法,一、统计分组的概念和作用, 统计分组(statistical classification)就是 根据统计研究的需要和总体的内在特征,将总体
2、按照一定的标志划分为若干个组成部分的一种统计方法。(对总体而言是分,对个体而言是合) 统计分组的作用主要体现在以下三个方面:1划分事物的类型 2反映现象总体的内部结构3分析现象之间的依存关系,二、统计分组的种类(p9094),1按分组的作用或目的不同,分为类型分组、结构分组和分析分组。 (补充) 2按分组标志的多少及其排列形式,可分为简单分组、复合分组和分组体系 平行分组体系(p93)复合分组体系(p94) 3按分组标志的性质,可分为品质标志分组和数量标志分组。 三、统计分组的原则 1、保证组内单位的同质性,组间单位的差异性 2、必须复合完备性原则,即所谓“穷举性”。 3、必须遵循“互斥性”原
3、则,四、分组标志选择及界限的确定,统计整理的关键是统计分组, 统计分组的关键是正确选择 分组标志和划分各组界限。 1、正确选择分组标志应遵循的原则 (1)应根据研究的目的与任务选择分组标志 (2)选择最能体现现象本质特征的标志作为分组标志 (3)结合现象发展的具体历史条件和经济条件选择分组标志 (补充),四、分组标志选择及界限的确定,2、划分各组界限(1)含义:在分组标志的变异范围内,划分各相邻组间的性质界限和数量界限(据客观事物本身从量变到质变的内在规律性确定各组间的的数量界限)(2)原则:保证组内单位的同质性,组间单位的差异性3、确定各组的指标(p97)统计分组是把现象总体划分为不同类型或
4、性质不同的组,而统计指标是为了揭示现象的数量特征。,五、 统计分组的方法,1、品质标志分组 组数的确定取决于事物的特点和统计研究的任务 2、数量标志分组(补充)单项式分组(变动范围不大的离散变量)组距式分组(连续性变量和变动范围较大的离散变量)数量标志分组,不是简单的确定各组间的数量差异,而是通过分组体现数量变化来确定现象的不同性质和类型。,第二节 次数分布,一、分配数列的定义 二、分配数列的种类 三、累计频数分布,一、分配数列的定义,按一定次序排列的一列数称为数列(sequence of number)。数列中的每一个数都叫做这个数列的项。 1、定义:在统计分组的基础上,将总体的所有单位按组
5、进行归类整理并按一定顺序排列,计算出各组的单位数,形成了一个反映总体中各单位在各组中的分布情况的数列,这个数列称为分配数列或次数分布(frequency distribution)。(以此为准,书上过于简单) 分配数列由两要素组成,一是总体中按某标志分的组,二是各组相应的分配次数或频率或标志值。次数(频数)比率(频率),二、分配数列的种类,(1)分配数列按分组标志特征的不同,分为品质分配数列(品质数列)和变量分配数列(变量数列)。 (2)按连续与否,变量数列分为间断分布数列(以整数形式出现的数列,对应单项式变量数列)和连续分布数列(p100,表4-9和表4-10 ) (3)按其分组方法的不同,
6、可以分为单项式变量数列和组距式变量数列。 (p100,表4-9和表4-10) 三、累计次数(频数)分布(书100101)()向上累计 (上限以下)()向下累计(下限以上),第三节 变量分布数列的编制,一、单项式变量数列(分布表)的编制变量值列在左方,变量值出现的次数列在右方。如,生成频数分布表(例题分析) 【例】某电脑 公司120天的 销售额数据 (单位:万元) 。 生成一张频数 分布表观察 销售额分布 的特征,生成频数分布表 (例题分析),某电脑公司销售额的频数分布,二、组距式变量数列(分布表)的编制,1、组距式变量数列(分布表)的编制步骤(p105) 原始资料按数值大小依次排序 计算全距
7、确定组距、组数、组限和组中值(可不求) 编制组距式变量数列次数分布表,二、组距式变量数列(分布表)的编制,2、 注意区分的几组概念 闭口组和开口组 等距变量数列和异距变量数列(书99页表4-8) 同限分组和异限分组(书99页表4-8),二、组距式变量数列(分布表)的编制,3、 确定组距和组数全距(R)=最大值-最小值组距(d)=上限-下限(同限分组)组距(d)=本组上限-前组上限(连续异限(间断)组数(n)=R/d确定组距与组数应遵循的原则:尽可能反映总体单位的分布情况及总体单位的集中趋势,体现组内资料的同质性和组间资料的差异性,即主要据资料的性质确定组距与组数,组距(d)=,二、组距式变量数
8、列(分布表)的编制,4、 确定组限 确定组限应遵循的原则:分组后,标志值在各组的变动能反映总体单位的规律性。确定组限应注意特殊的界限点必须作为组限。 离散型变量的组限:由于变量值之间有 明显的界限,上下限可用明显的数值表 示,组限明确、清楚。 连续型变量的组限:由于变量值之间 可作无限分割,有小数存在,上下限不能用两个确定的数值表示,前组的上限和本组的下限应同为一个数值。 连续性变量,确定组限应遵循“上组限不在内”原则。 离散变量,对于同限分组也遵循“上组限不在内”原则,二、组距式变量数列(分布表)的编制,5、 组中值为了反映每个组的一般水平,一般采用组中值来代替组距。组中值具有一定的假定性,
9、即假定次数在各组内的分布是均匀的,代表了各组内的一般水平。 组中值的计算: 同限分组 组中值= (书104) 缺上限的开口组 组中值=下限+ 缺下限的开口组 组中值=上限- 异限分组 组中值=(本组下限+后一组下限)/ 2(书69,多选10题),第四节、变量数列次数分布图的绘制,一、单项式变量数列次数分布图编制 以变量值为横轴,以次数为纵轴,找出各组的变量值与对应的次数所代表的点,将各点连接起来,即得分布图。,二、组距式变量数列分布图(书106页),1、等距变量数列次数分布图横轴:变量值 纵轴:次数组距为宽,次数为高,画矩形,矩形的集合体是次数分布图的直方图。连接各矩形顶边的中点(即各组的组中
10、值),形成一条折线,并在直方图的左右两边各假设有一个组,将折线与两个假设组的中点连接,就形成次数分布曲线(次数分布图),分组数据看分布直方图 (SPSS绘制的直方图),二、组距式变量数列分布图(书106页),2、异距变量数列次数分布图 横轴:变量值 纵轴:标准组距次数组距为宽,标准组距次数为高,画矩形,矩形的集合体是次数分布图的直方图。连接各矩形顶边的中点(即各组的组中值),形成一条折线,并在直方图的左右两边各假设有一个组,将折线与两个假设组的中点连接,就形成次数分布曲线(次数分布图)标准组距次数=该组次数密度*标准组距(书55页实例3.3)次数密度=各组的次数/各组的组距标准组距是异距变量数
11、列组距中最小的组距,(1)钟型分布(正态分布) (2)U型分布 (3)J型分布,三、次数分布的主要类型 (书108-110),习题与实践训练,1、某班学生统计学考试成绩(分)如下: 93 50 78 85 66 71 63 83 52 95 78 72 85 78 82 90 80 55 95 67 72 85 77 70 90 70 76 69 58 89 80 61 67 99 89 63 78 74 82 88 98 62 81 24 76 86 73 83 85 81 根据上述资料, (1)编制组距数列,说明每一组的上下限、组中值。 (2)绘制次数分布的曲线图,据此分析成绩分布的特点。 (3)编制累计频数分布表,并回答60分以下及80分以上的人数。,习题与实践训练,2、利用第二章“应用能力训练题5”所搜集的资料, (1)按性别分组,编制品质分配数列 (2)按年龄分组,编制单项式变量数列 (3)按身高分组,编制组距式变量数列,