收藏 分享(赏)

实验与统计 (3).ppt

上传人:rav7596 文档编号:6423653 上传时间:2019-04-12 格式:PPT 页数:65 大小:338KB
下载 相关 举报
实验与统计 (3).ppt_第1页
第1页 / 共65页
实验与统计 (3).ppt_第2页
第2页 / 共65页
实验与统计 (3).ppt_第3页
第3页 / 共65页
实验与统计 (3).ppt_第4页
第4页 / 共65页
实验与统计 (3).ppt_第5页
第5页 / 共65页
点击查看更多>>
资源描述

1、第三章 次数分布和平均数、变异数,第一节 总体及其样本 第二节 次数分布 第三节 平均数 第四节 变异数 第五节 理论总体(群体)的平均数和标准差,复 习,1、生物统计学的定义 2、生物统计学的主要内容 3、生物统计学的几个术语,今天学习的主要内容,1、几个新的生物统计学名词 2、资料的分类 3、计量资料的整理 4、计数资料的整理 5、次数分布表和次数分布图的制作与用途,第一节 总体及其样本,总体( population ) - 具有共同性质的个体所组成的集团.有限总体-总体所包含的个体数目有无穷多个 .无限总体-由有限个个体构成的总体. 观察值( observation ) -每一个体的某一

2、性状、特性的测定数值. 变数( variable ) -观察值集合起来,称为总体的变数。在生物统计学中,变数又称为随机变数(random variable)。,样本( sample ) -从总体中抽取若干个个体的集合称为样本(sample)。 随机样本( random sample ) -从总体中随机抽取的样本称为随机样本(random sample) 样本容量 ( sample size ) -样本中包含的个体数称为样本容量或样本含量(sample size) 统计数与参数( statistic ) -测定样本中的各个体而得的样本特征数,如平均数等,称为统计数(statistic)。测定总体

3、中的各个体而得的样本特征数称为参数。,第二节 次数分布,一、试验资料的性质与分类 二、次数分布表 三、次数分布图,一、试验资料的性质与分类,(一) 数量性状资料 (二) 质量性状资料,(一) 数量性状资料(quantitative trait)数量性状的度量有计数和计量两种方式,所得变数不同1. 计数资料(也称为不连续性或间断性资料) 指用计数方法获得的数据。2.计量资料(连续性资料)指用度量衡工具直接测定获得的资料 ( continuous variable ) ,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。统计学中资料也称为变数,所以计量资料也叫连续性变数;

4、计数资料也称为不连续性或间断性资料。,(二) 质量性状资料质量性状( qualitative trait )指能观察而不能量测的状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法: 统计次数法 于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。 2. 给分法 给予每类性状以相对数量的方法,二、次数分布表,(一) 间断性变数资料的整理 (二) 连续性变数资料的整理 (三) 属性变数资料的整理,(一) 间断性变数资料的整理,现以某小麦品种的每穗小穗数为例,随机采取100个麦穗,计数每穗

5、小穗数,未加整理的资料列成表3.1。,表3.1 100个麦穗的每穗小穗数,表3.2 100个麦穗每穗小 穗数的次数分布表,从表3.2中看到,一堆杂乱的原始资料表3.1,经初步整理后,就可了解资料的大致情况,另外,经过整理的资料也便于进一步的分析。,上述资料为间断性变数资料,每穗小穗数在1520的范围内变动,把所有观察值按每穗小穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。这样可得表3.2形式的次数分布表。,(二) 连续性变数资料的整理,以表3.4的100行水稻试验的产量为例,说明整理方法。,表3.4 140行水稻产量 (单位:克),具体步骤:1. 数据排序(sort) 首先对数

6、据按从小到大排列(升序)或从大到小排列(降序)。2. 求极差(range) 所有数据中的最大观察值和最小观察值的差数,称为极差,(极差也叫全距)是整个样本的变异幅度。从表3.4中查到最大观察值为254g,最小观察值为75g,极差为25475=179g。,3. 确定组数和组距( class interval ) 根据极差分为若干组,每组的距离相等,称为组距。 在确定组数和组距时应考虑:(1)观察值个数的多少;(2)极差的大小;(3)便于计算;(4)能反映出资料的真实面貌等方面。样本大小(即样本内包含观察值的个数的多少)与组数多少的关系可参照表3.5来确定。,表3.5 样本容量与组数多少的关系,组

7、数确定后,还须确定组距。组距=极差/组数。以表3.4中140行水稻产量为例,样本内观察值的个数为140,查表3.5可分为816组,假定分为12组,,则组距为179/12=14.9g,为分组方便起见,可以15g作为组距。,4. 选定组限( class limit )确定组中值( class value )以表3.4中140行水稻产量为例,选定第一组的中点值为75g,与最小观察值75g相等;则第二组的中点值为75+15=90g,余类推。各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为下限( lower limit ),数值大的称为上限( upper limit )。上述资料中,

8、第一组的下限为该组中点值减去1/2组距,即75(15/2)=67.5g,上限为中点值加1/2组距,即75+(15/2)=82.5g。故第一组的组限为67.582.5g。按照此法计算其余各组的组限,就可写出分组数列。,5. 归组 即把原始资料的各个观察值按分组数列的各组组限归组 可按原始资料中各观察值的次序,逐个把数值归于各组。待全部观察值归组后,即可求得各组的次数,制成一个次数分布表。例如表3.4中第一个观察值177应归于表3.6中第8组,组限为172.5187.5;第二个观察值149应归于第6组,组限为142.5157.5;。依次把140个观察值都进行归组,即可制成140行水稻产量的次数分布

9、表(表3.6)。,表3.6 140行水稻的次数分布,注:前面提到分为12组,但由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了1/2组;这样也使最后一组的中点值接近于最大值,又增加了1/2组,故实际的组数比原来确定的要多一个组,为13组。,(三) 属性变数资料的整理,属性变数的资料,也可以用类似次数分布的方法来整理。 在整理前,把资料按各种质量性状进行分类,分类数等于组数, 然后根据各个体在质量属性上的具体表现,分别归入相应的组中, 即可得到属性分布的规律性认识。 例如,某水稻杂种第二代植株 米粒性状的分离情况,归于表3.7。,表3.7 水稻杂种二代植株米粒

10、性状的分离情况,三、次数分布图,(一) 方柱形图 (二) 多边形图 (三) 条形图 (四) 饼图,(一) 方柱形图,方柱形图( histogram )适用于表示连续性变数的次数分布。,现以表3.6的140行水稻产量的次数分布表为例加以说明。即成方柱形次数分布图3.1。,(二) 多边形图,多边形图( polygon )也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。,仍以140行水稻产量次数分布为例,所成图形即为次数多边形图(图3.2)。 (注意:横轴的数字与方柱形图的区别),(三) 条形图,条形图(bar)适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况

11、。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。,现以表3.7水稻杂种第二代米粒性状的分离情况为例,可画成水稻杂种第二代植株4种米粒性状分离情况条形图(3.3)。,图3.3 水稻F2代米粒性状分离条形图,(四) 饼图,饼图( pie )适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。,如图3.4中白米糯稻在F2群体中占8%,白米非糯、红米糯稻和红米非糯分别占17%、21%和54%。,频率分布,在第一章我们了解了频率与概率,一个样本资料我们可以通过次数分布计算出它的频率分布.再通过频率分布估计该样本所在总体的概率分布。如通过140行水

12、稻的次数分布表计算它的频率分布表,再根据它的频率分布表推断出该品种水稻产量在112.5-202.5的概率是多少?在工作中我们遇到的问题基本上都是由样本去推断总体的情况。,140行水稻的频率分布表,组 限 组中值( y ) 次数( f ) 频率 累计频率67.5 82.5 75 2 0.0 14 0.01482.5 97.5 90 7 0.051 0.0 65 97.5112.5 105 7 0.051 0.116 112.5127.5 120 13 0.093 0.209 127.5142.5 135 17 0.121 0.330 142.5157.5 150 20 0.142 0.472 1

13、57.5172.5 165 25 0.179 0.651 172.5187.5 180 21 0.15 0.801 187.5202.5 195 13 0.093 0.894 202.5217.5 210 9 0.064 0.958 217.5232.5 225 3 0.021 0.979 232.5247.5 240 2 0.014 0.993 247.5262.5 255 1 0.007 1 合计( n ) 140,次数分布表与次数分布图的用途,1、从次数分布表(图)中看出资料的集中和变异情况; 2、从次数分布表(图)可以看出资料的分布规律; 3、利用次数分布计算出频率分布,从而由样本推断

14、出总体的情况。,小 结,1、几个新的生物统计学名词变数(计量资料、计数资料;参数与统计量) 2、资料的分类 3、计量资料的整理 4、计数资料的整理 5、次数分布表和次数分布图的制作与用途,习 题,1、什么是计量资料,计数资料? 2、计量资料的整理步骤有哪些? 3、次数分布表(图)的用途主要有哪些? 4、对某绿化树苗重复抽得100株,测量苗高资料如下(单位:cm):127,118,121,113,145,125, 87, 94, 118,111,102,72, 113, 76, 101,134,107,118,114,128,118,114,117,120,128, 94, 124, 87, 8

15、8, 105,115,134,89, 141,114,119,150,107,126, 95,137,108,129,136,98, 121, 91, 111,134,123,138,104,107,121,94, 126,108,114,103,129,103,127,93, 86, 113,97, 122, 86, 94, 118,109, 84, 117,112,125,94, 79, 93, 112,94,102,108,158,89, 127,115,112, 94, 118,114,88,111, 111,104,101,129,144,128,131,142。将样本资料分组整理,

16、列出频率分布表,绘出样本频率分布图。,请 多 联 系,李 春 爱 办公地点 : 周山校区行政楼112房间 电 话: 4283386 (办)4282096(宅)13663885518再 见!,复习,1、几个新的生物统计学名词 2、资料的分类 3、计量资料的整理 4、计数资料的整理 5、次数分布表和次数分布图,今天要学习的主要内容,1、度量资料集中程度的量-平均数 2、度量资料集中变异程度的量-极差、方差、标准差、变异系数 3、平均数与标准差的关系及应用,第三节 平均数,一、平均数的意义和种类 二、算术平均数的计算方法 三、算术平均数的重要特性 四、总体平均数,一、平均数的意义和种类,平均数的意义

17、:平均数( average )是资料的代表值,它指出了资料中观察值的中心位置;可代表一个资料与另一个资料进行相比较。,平均数的种类 :(1) 算术平均数 一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为算术平均数( arithmetic mean ),记作 。因其应用广泛,常简称平均数或均数(mean)。均数的大小决定于样本的各观察值。(2) 中数 将资料内所有观察值从大到小排序,居中间位置的观察值称为中数( median ),计作Md。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。,(3) 众数 资料中最常见的一数,或次数最多一组的中点值,称为众数( mode ),计

18、作MO。如棉花纤维检验时所用的主体长度即为众数。(4) 几何平均数 如有n个观察值,其相乘积开n次方,即为几何平均数( geometric mean ),用G代表。,(31),二、算术平均数的计算方法,若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设一个含有n个观察值的样本,其各个观察值为y1、y2、y3、yn,则算术平均数由下式算得:,(32),若样本较大,且已进行了分组(如表3.6),可采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为,(33),其中yi 为第i 组中点值,fi 为第 i 组变数出现次数。,例3.1 在水稻品种比较试验中,湘矮早四

19、号的5个小区产量分别为20.0、19.0、21.0、17.5、18.5kg,求该品种的小区平均产量。,例3.2 利用表3.6资料计算平均每行水稻产量。,若采用直接法, =157.47。因此,两者的结果十分相近。,由(32)有,三、算术平均数的重要特性,(1) 样本各观察值与其平均数的差数(简称离均差,deviation from mean)的总和等于0。即:,(2) 样本各观察值与其平均数的差数平方的总和,较各个观察值与任意其他数值的差数平方的总和为小,亦即离均差平方的总和最小。这个问题可作这样的说明,设Q为各个观察值与任意数值a的差数平方的总和,即:,对此Q求最小值,可得使Q最小的a 值为平

20、均数。,四、总体平均数,总体平均数用 来代表,它同样具有算术平均数所具有的特性。,(34),上式yi 代表各个观察值,N代表有限总体所包含的个体数, 表示总体内各个观察值的总和。,第四节 变异数,一、极差 二、方差 三、标准差 四、变异系数,一、极 差,极差( range ),又称全距,记作R,是资料中最大观察值与最小观察值的差数。例如调查两个小麦品种的每穗小穗数,每品种计数10个麦穗,经整理后的数字列于表3.8。,表3.8 两个小麦品种的每穗小穗数,表3.8资料中,甲品种每穗小穗数最少为13个,最多为23个,R=2313=10个小穗;乙品种每穗小穗数最少为16个,最多为20个,R=2016=

21、4个小穗。可以看出,两品种的平均每穗小穗数虽同为18个,但甲品种的极差较大,其变异范围较大,平均数的代表性较差;乙品种的极差较小,其变异幅度较小,其平均数代表性较好。极差粗略的度量了资料的变异程度。,二、方 差,离均差平方和(简称平方和)SS -将各个离均差平方后相加,样本SS=,(35),总体SS=,(36),均方或方差(variance) -用观察值数目来除离均差平方和,样本均方(mean square)用s2表示,定义为:,总体方差用 表示,定义为:,样本均方是总体方差的无偏估计值,三、标准差,(一) 标准差的定义标准差是度量资料变异度的量,它的大小反映了资料各观察值之间离散程度的大小。

22、标准差的计算单位与观察值的度量单位相同。样本准差公式为:,(39),总体标准差公式:,(310),样本标准差是总体标准差的估计值。,(二) 自由度的意义,自由度记作DF,其具体数值则常用希腊字母 表示 。(注意:多数教材用df表示自由度) 统计意义:是指样本成员中能够自由变动个数。,例如一个有5个观察值的样本,如果这5个成员不受 任何条件约束,那么他们5个都是自由的。如果给一个约束条件,那么只有4个成员是自由的。我们来看这样一个例子 自由度的计算公式为: =n-k(k为样本约束条件的个数),(三) 标准差的计算方法,1. 直接法 可按 计算,分四个步骤:,(1)先求出 ,(2)再求出各个 和各

23、个 ,(3)求和得 ,(4) 代入 算得标准差。,例3.3 设某一水稻单株粒重的样本有5个观察值,以克为单位,其数为2、8、7、5、4(用y代表),按照上述步骤,由表3.9可算得平方和为22.80,把它代入即可得到:,这就是该水稻单株粒重的标准差为2.39g。,表3.9 教材p44例33水稻粒重的平方和的计算,2 矫正数法 经过转换可得,(311),其中 项称为矫正数,记作C。,在例3.3中,于表3.9第5列写出各观察值的平方值,将有关数字代入(311)即有:,其结果和直接法算得相同。,3 加权法 若样本较大,并已获得如表3.6的次数分布表,可采用加权法计算标准差,其公式为:,(312),表3

24、.6 140行水稻的次数分布,例3.4 利用表3.6的次数分布资料计算每行水稻产量的标准差。由(312),可得,若采用直接法,其标准差s=36.23(g)。由此可见,直接法和加权法的结果是很相近的。,平均数与标准差的关系,标准差的大小度量了资料内各个变数的变化情况,平均数度量了一个资料的集中情况。一个资料如果标准差大,各个变数分布较分散,平均数的代表性就差;如果标准差小,各个变数分布较集中,平均数的代表性就好;思考:如果标准差等于0,则各个变数的分布是什么情况?这时平均数的代表性如何?,拉依达原则,当我们调查或实验得来的观察值与它所在的样本平均数差的绝对值大于3个标准差时,可以将该观察值舍弃。

25、即 y-y3s时,y应该舍去不要。,四、变异系数,变异系数( coefficient of variation ) -样本的标准差对均数的百分数:,(315),变异系数是一个不带单位的纯数,可用以比较二个事物的变异度大小。,例如表3.10为两个小麦品种主茎高度的平均数、标准差和变异系数。如只从标准差看,品种甲比乙的变异大些;但因两者的均数不同,标准差间不宜直接比较。如果算出变异系数,就可以相互比较,这里乙品种的变异系数为11.3%,甲品种为9.5%,可见乙品种的相对变异程度较大。,表3.10 两个小麦品种主茎高度的测量结果,第五节 理论总体(群体)的平均数和标准差,设总体的第 i 个构成成分的

26、概率为pi,其平均数为 ,那么总体的平均数为:,(316),总体的方差为:,(317),例3.5 由单个位点控制的数量性状,F2代有三种基因型,这三种基因型值分别为m+d,md和m+h,而这三种基因型的理论频率分别为0.25,0.25和0.5,因而可以计得其平均数为: 其方差为:,将总体平均数代入上式,化简的方差为:,表3.11 F2群体的遗传构成,小 结,1、度量资料集中程度的量-平均数 平均数的意义、种类、符号、公式。 样本平均数和总体平均数。 2、度量资料变异程度的量-极差、方差、标准差、变异系数 极差、方差、标准差、变异系数的符号和公式 方差和标准差的意义 样本方差和标准差、总体方差和标准差 3、平均数与标准差的关系,习 题,1、平均数的意义是什么?标准差的意义是什么?它们之间的关系是什么?2、请计算上次习题4资料的平均数和标准差 3、教材P47第6题,您听懂我讲的课吗?有什么意见及时回馈啊!下一次课可能难度会更大,你要做好准备哦!再见!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 规范标准 > 实验

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报