1、第三章 次数分布和平均数、变异数,第一节 总体及其样本 第二节 次数分布 第三节 平均数 第四节 变异数 第五节 理论总体(群体)的平均数和标准差,第一节 总体及其样本,总体( population ) - 具有共同性质的个体所组成的集团.有限总体-总体所包含的个体数目有无穷多个 .无限总体-由有限个个体构成的总体. 观察值( observation ) -每一个体的某一性状、特性的测定数值. 变数( variable ) -观察值集合起来,称为总体的变数。变数又称为随机变数(random variable)。,样本( sample ) -从总体中抽取若干个个体的集合称为样本(sample)。
2、 统计数( statistic ) -测定样本中的各个体而得的样本特征数,如平均数等,称为统计数(statistic)。 随机样本( random sample ) -从总体中随机抽取的样本称为随机样本(random sample) 样本容量 ( sample size ) -样本中包含的个体数称为样本容量或样本含量(sample size),第二节 次数分布,一、试验资料的性质与分类 二、次数分布表 三、次数分布图,一、试验资料的性质与分类,(一) 数量性状资料 (二) 质量性状资料,(一) 数量性状资料数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不
3、同。1. 不连续性或间断性变数( discontinuous or discrete variable ) 指用计数方法获得的数据。2. 连续性变数( continuous variable ) 指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。,(二) 质量性状资料质量性状( qualitative trait )指能观察而不能量测的状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法: 统计次数法 于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数
4、目,按类别计其次数或相对次数。 2. 给分法 给予每类性状以相对数量的方法,二、次数分布表,(一) 间断性变数资料的整理 (二) 连续性变数资料的整理 (三) 属性变数资料的整理,(一) 间断性变数资料的整理,现以某小麦品种的每穗小穗数为例,随机采取100个麦穗,计数每穗小穗数,未加整理的资料列成表3.1。,表3.1 100个麦穗的每穗小穗数,表3.2 100个麦穗每穗小 穗数的次数分布表,从表3.2中看到,一堆杂乱的原始资料表3.1,经初步整理后,就可了解资料的大致情况,另外,经过整理的资料也便于进一步的分析。,上述资料为间断性变数资料,每穗小穗数在1520的范围内变动,把所有观察值按每穗小
5、穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。这样可得表3.2形式的次数分布表。,(二) 连续性变数资料的整理,兹以表3.4的100行水稻试验的产量为例,说明整理方法。,表3.4 140行水稻产量(单位:克),具体步骤:1. 数据排序(sort) 首先对数据按从小到大排列(升序)或从大到小排列(降序)。2. 求极差(range) 所有数据中的最大观察值和最小观察值的差数,称为极差,亦即整个样本的变异幅度。从表3.4中查到最大观察值为254g,最小观察值为75g,极差为25475=179g。,3. 确定组数和组距( class interval ) 根据极差分为若干组,每组的距离
6、相等,称为组距。 在确定组数和组距时应考虑:(1)观察值个数的多少;(2)极差的大小;(3)便于计算;(4)能反映出资料的真实面貌等方面。样本大小(即样本内包含观察值的个数的多少)与组数多少的关系可参照表3.5来确定。,表3.5 样本容量与组数多少的关系,组数确定后,还须确定组距。组距=极差/组数。以表3.4中140行水稻产量为例,样本内观察值的个数为140,查表3.5可分为816组,假定分为12组,,则组距为179/12=14.9g,为分组方便起见,可以15g作为组距。,4. 选定组限( class limit )和组中点值( 组值,class value )以表3.4中140行水稻产量为例
7、,选定第一组的中点值为75g,与最小观察值75g相等;则第二组的中点值为75+15=90g,余类推。各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为下限( lower limit ),数值大的称为上限( upper limit )。上述资料中,第一组的下限为该组中点值减去1/2组距,即75(15/2)=67.5g,上限为中点值加1/2组距,即75+(15/2)=82.5g。故第一组的组限为67.582.5g。按照此法计算其余各组的组限,就可写出分组数列。,5. 把原始资料的各个观察值按分组数列的各组组限归组 可按原始资料中各观察值的次序,逐个把数值归于各组。待全部观察值归组
8、后,即可求得各组的次数,制成一个次数分布表。例如表3.4中第一个观察值177应归于表3.6中第8组,组限为172.5187.5;第二个观察值149应归于第6组,组限为142.5157.5;。依次把140个观察值都进行归组,即可制成140行水稻产量的次数分布表(表3.6)。,表3.6 140行水稻的次数分布,注:前面提到分为12组,但由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了1/2组;这样也使最后一组的中点值接近于最大值,又增加了1/2组,故实际的组数比原来确定的要多一个组,为13组。,(三) 属性变数资料的整理,属性变数的资料,也可以用类似次数分布的方
9、法来整理。 在整理前,把资料按各种质量性状进行分类,分类数等于组数, 然后根据各个体在质量属性上的具体表现,分别归入相应的组中, 即可得到属性分布的规律性认识。 例如,某水稻杂种第二代植株 米粒性状的分离情况,归于表3.7。,表3.7 水稻杂种二代植株米粒性状的分离情况,三、次数分布图,(一) 方柱形图 (二) 多边形图 (三) 条形图 (四) 饼图,(一) 方柱形图,方柱形图( histogram )适用于表示连续性变数的次数分布。,现以表3.6的140行水稻产量的次数分布表为例加以说明。即成方柱形次数分布图3.1。,(二) 多边形图,多边形图( polygon )也是表示连续性变数资料的一
10、种普通的方法,且在同一图上可比较两组以上的资料。,仍以140行水稻产量次数分布为例,所成图形即为次数多边形图(图3.2)。,(三) 条形图,条形图(bar)适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。,现以表3.7水稻杂种第二代米粒性状的分离情况为例,可画成水稻杂种第二代植株4种米粒性状分离情况条形图(3.3)。,图3.3 水稻F2代米粒性状分离条形图,(四) 饼图,饼图( pie )适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。,如图3.4中白米糯稻在F2群体中占
11、8%,白米非糯、红米糯稻和红米非糯分别占17%、21%和54%。,第三节 平均数,一、平均数的意义和种类 二、算术平均数的计算方法 三、算术平均数的重要特性 四、总体平均数,一、平均数的意义和种类,平均数的意义:平均数( average )是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。,平均数的种类 :(1) 算术平均数 一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为算术平均数( arithmetic mean ),记作 。因其应用广泛,常简称平均数或均数(mean)。均数的大小决定于样本的各观察值。(2) 中数
12、 将资料内所有观察值从大到小排序,居中间位置的观察值称为中数( median ),计作Md。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。,(3) 众数 资料中最常见的一数,或次数最多一组的中点值,称为众数( mode ),计作MO。如棉花纤维检验时所用的主体长度即为众数。(4) 几何平均数 如有n个观察值,其相乘积开n次方,即为几何平均数( geometric mean ),用G代表。,(31),平均数的种类 :,二、算术平均数的计算方法,若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设一个含有n个观察值的样本,其各个观察值为y1、y2、y3、yn,则算术平均数由下式
13、算得:,(32),若样本较大,且已进行了分组(如表3.6),可采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为,(33),其中yi 为第i 组中点值,fi 为第 i 组变数出现次数。,例3.1 在水稻品种比较试验中,湘矮早四号的5个小区产量分别为20.0、19.0、21.0、17.5、18.5kg,求该品种的小区平均产量。,例3.2 利用表3.6资料计算平均每行水稻产量。,若采用直接法, =157.47。因此,两者的结果十分相近。,由(32)有,三、算术平均数的重要特性,(1) 样本各观察值与其平均数的差数(简称离均差,deviation from mean)的
14、总和等于0。即:,(2) 样本各观察值与其平均数的差数平方的总和,较各个观察值与任意其他数值的差数平方的总和为小,亦即离均差平方的总和最小。这个问题可作这样的说明,设Q为各个观察值与任意数值a的差数平方的总和,即:,对此Q求最小值,可得使Q最小的a 值为平均数。,四、总体平均数,总体平均数用 来代表,它同样具有算术平均数所具有的特性。,(34),上式yi 代表各个观察值,N代表有限总体所包含的个体数, 表示总体内各个观察值的总和。,第四节 变异数,一、极差 二、方差 三、标准差 四、变异系数,一、极 差,极差( range ),又称全距,记作R,是资料中最大观察值与最小观察值的差数。例如调查两
15、个小麦品种的每穗小穗数,每品种计数10个麦穗,经整理后的数字列于表3.8。,表3.8 两个小麦品种的每穗小穗数,表3.8资料中,甲品种每穗小穗数最少为13个,最多为23个,R=2313=10个小穗;乙品种每穗小穗数最少为16个,最多为20个,R=2016=4个小穗。可以看出,两品种的平均每穗小穗数虽同为18个,但甲品种的极差较大,其变异范围较大,平均数的代表性较差;乙品种的极差较小,其变异幅度较小,其平均数代表性较好。,二、方 差,离均差平方和(简称平方和)SS -将各个离均差平方后相加,样本SS=,(35),总体SS=,(36),均方或方差(variance) -用观察值数目来除平方和,样本
16、均方(mean square)用s2表示,定义为:,总体方差用 表示,定义为:,样本均方是总体方差的无偏估计值,三、标准差,(一) 标准差的定义标准差为方差的正平方根值,用以表示资料的变异度,其单位与观察值的度量单位相同。从样本资料计算标准差的公式为:,(39),总体标准差用表示:,(310),样本标准差是总体标准差的估计值。,(二) 自由度的意义,自由度记作DF,其具体数值则常用 表示。 统计意义:是指样本内独立而能自由变动的离均差个数。,例如一个有5个观察值的样本,因为受统计数的约束,在5个离均差中,只有4个数值可以在一定范围之内自由变动取值,而第五个离均差必须满足。如一样本为(3,4,5
17、,6,7),平均数为5,前个离差为2 ,1,0和1,则第5个离均差为前4个离均差之和的变号数,即( 2)=2。一般地,样本自由度等于观察值的个数(n)减去约束条件的个数(k),即 。,注:比较(39)和(310),样本标准差不以样本容量n,而以自由度n1作为除数,这是因为通常所掌握的是样本资料,不知 的数值,不得不用样本平均数 代替 。 与 有差异,由算术平均数的性质(2)可知, 比 小。因此,由 算出的标准差将偏小。如分母用n1代替,则可免除偏小的弊病。数理统计上可以证明用自由度作除数计算标准差的无偏性。,(三) 标准差的计算方法,1. 直接法 可按 计算,分四个步骤:,(1)先求出 ,(2
18、)再求出各个 和各个 ,(3)求和得 ,(4) 代入 算得标准差。,例3.3 设某一水稻单株粒重的样本有5个观察值,以克为单位,其数为2、8、7、5、4(用y代表),按照上述步骤,由表3.9可算得平方和为22.80,把它代入即可得到:,这就是该水稻单株粒重的标准差为2.39g。,表3.9 水稻粒重的平方和的计算,2 矫正数法 经过转换可得,(311),其中 项称为矫正数,记作C。,在例3.3中,于表3.9第5列写出各观察值的平方值,将有关数字代入(311)即有:,其结果和直接法算得相同。,3 加权法 若样本较大,并已获得如表3.6的次数分布表,可采用加权法计算标准差,其公式为:,(312),表
19、3.6 140行水稻的次数分布,例3.4 利用表3.6的次数分布资料计算每行水稻产量的标准差。由(312),可得,若采用直接法,其标准差s=36.23(g)。由此可见,直接法和加权法的结果是很相近的。,四、变异系数,变异系数( coefficient of variation ) -样本的标准差对均数的百分数:,(315),变异系数是一个不带单位的纯数,可用以比较二个事物的变异度大小。,例如表3.10为两个小麦品种主茎高度的平均数、标准差和变异系数。如只从标准差看,品种甲比乙的变异大些;但因两者的均数不同,标准差间不宜直接比较。如果算出变异系数,就可以相互比较,这里乙品种的变异系数为11.3%,甲品种为9.5%,可见乙品种的相对变异程度较大。,表3.10 两个小麦品种主茎高度的测量结果,第五节 理论总体(群体)的平均数和标准差,设总体的第 i 个构成成分的概率为pi,其平均数为 ,那么总体的平均数为:,(316),总体的方差为:,(317),例3.5 由单个位点控制的数量性状,F2代有三种基因型,这三种基因型值分别为m+d,md和m+h,而这三种基因型的理论频率分别为0.25,0.25和0.5,因而可以计得其平均数为: 其方差为:,将总体平均数代入上式,化简的方差为:,表3.11 F2群体的遗传构成,