1、第二节 多重比较第一节 方差分析的基本理论,第五章 方差分析,第一节 方差分析的基本理论,一、什么是方差分析? 二、几个基本概念 三、方差分析的基本思想和原理,3,【例5.1】 某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。 试检验不同配合饲料对鱼的饲喂效果。,表5-1 饲喂不同饲料的鱼的增重 (单位:10 g),一、什么是方差分析?,4,设1为饲料1对鱼的平均增重量4为饲料4对鱼的平均增重量,也就是检验下面的假设 H0: 1 2 3 4 H1: 1 , 2 , 3 , 4 不全相等 检
2、验上述假设所采用的方法就是方差分析,检验不同配合饲料对鱼的饲喂效果,也就是检验四种不同配合饲料对鱼的平均增重量是否相同,5,t 检验法适用于单样本及两样本平均数间的差异显著性检验 检验过程烦琐 本例中用t 检验法要进行C42 = 6次两两平均数的差异显著性检验 若有k个处理,则要作 k(k-1)/2次类似的检验,无统一的试验误差,误差估计的精确性和检验的灵敏性低 用 t 检验法作两两比较,由于每次比较需计算一个 推断的可靠性低,检验的 I 型错误率大未考虑相互比较的两个平均数的秩次问题,t检验法的不足,6,ANOVA 由英国统计学家R.A.Fisher首创,为纪念Fisher,以F命名,故方差
3、分析又称 F 检验(F test)。用于推断多个总体(或样本)的均数有无差异。,7,1、试验指标为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标(experimental index)。不同的试验目的,试验指标也不相同:如身高、体重、日增重、酶活性。,二、几个基本概念,8,2、试验因素试验中所研究的影响试验指标的因素叫试验因素(experimental factor) 。试验因素常用大写字母A、B、C、等表示。,当试验中考察的因素只有一个时,称为单因素试验。 若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。,9,3、因素水平试验因
4、素所处的某种特定状态或数量等级称为因素水平(level of factor) ,简称水平。因素水平常用字母A1、A2、表示,如喂食量:1ml、2ml、3ml,4、试验单位在试验中能接受不同试验处理的独立的试验载体叫试验单位(experimental unit) ,如小白鼠,猪等。,10,5、试验处理事先设计好的、在试验单位上实施的具体项目叫试验处理( treatment ),简称处理。如对小白鼠喂食。,6、重复在试验中,将一个处理实施在两个或两个以上的试验单位上,称为重复(repetition) 。在一个处理上实施的试验单位数量,称为处理的重复数。,11,试验指标,试验因素,因素水平,表5-1
5、 饲喂不同饲料的鱼的增重 (单位:10 g),12,三、方差分析的基本思想和原理,表5-1 饲喂不同饲料的鱼的增重 (单位:10 g),不同处理引起的变异,叫处理效应或条件变异 偶然性因素的干扰和测量误差所致的差异,称为试验误差,13,基本思想:将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。,总变异,组内变异 (试验误差),组间变异 (处理效应),14,假设某单因素试验有 k 个处理,每个处理有n次重复,共有 nk 个观测值。,表示第i个处理的第j个观测值(i=1,2,k;j=1,2,n),、方差分析中的线性模型,15,假设某
6、单因素试验有 k 个处理,每个处理有n次重复,共有 nk 个观测值。,、方差分析中的线性模型,16,假设某单因素试验有 k 个处理,每个处理有n次重复,共有 nk 个观测值。,表示全部观测值的总和,、方差分析中的线性模型,17,假设某单因素试验有 k 个处理,每个处理有n次重复,共有 nk 个观测值。,表示第i个处理的平均数,、方差分析中的线性模型,18,假设某单因素试验有 k 个处理,每个处理有n次重复,共有 nk 个观测值。,表示全部观测值的总平均数,、方差分析中的线性模型,19,xij =i +ij,线性模型,第i个处理观测值总体的平均数,xij = + i + ij,i = + i,2
7、0,单因素试验的数学模型可归纳为: 效应的可加性(additivity) 分布的正态性(normality) 方差的同质性(homogeneity) 这也是进行其它类型方差分析的前提或基本假定。,估计值,21,、变异和与自由度的分解,表5-2 k个处理每个处理有n个观测值的数据模式,三种不同的变异,1、总变异(Total variation) 全部测量值xij与总均数 间的差异,22,、变异和与自由度的分解,表5-2 k个处理每个处理有n个观测值的数据模式,三种不同的变异,2、组间变异( between group variation ) 各组的均数 与总均数 间的差异,23,、变异和与自由度
8、的分解,表5-2 k个处理每个处理有n个观测值的数据模式,三种不同的变异,3、组内变异(within group variation ) 每组的每个测量值xij与该组均数 的差异,24,在方差分析中是用样本方差即均方(mean squares)来度量资料的变异程度,25,总平方和反映全部观测值总变异的平方和,是各观测值xij与总平均数 的离均差平方和,记为SST。,公式C =x2 / kn称为矫正数,1、总平方和的分解,26,处理间平方和各处理平均数 与总平均数 的离差平方和与重复数n的乘积,反映了重复 n 次的处理间变异,记为SSt 。,公式C =x2 / kn称为矫正数,27,28,处理内
9、平方和各处理内离均差平方和之和,反映了各处理内的变异即误差,称为处理内平方和或误差平方和,记为SSe 。 公式,三者之间的关系,SS t,SS e,因为所以即 SST = SSt + SSe,31,总自由度 dfT计算总平方和时,各个观测值受的约束,故总自由度等于资料中观测值的总个数减1,即kn-1,即 dfT = kn - 1,2、总自由度的分解,处理间自由度 dft计算处理间平方和时,各处理均数受的约束,故为处理数减1,即k-1,即 dft=k-1,32,处理内自由度 dfe计算处理内平方和时,受k个条件的约束(i=1,2,k)。故处理内自由度为资料中观测值的总个数减k,即kn-k,即:
10、dfe=kn-k=k(n-1),33,dfT= nk-1 dft + dfe = ( k-1 ) + ( nk-k )= ( k-1 ) + k( n-1 )= nk-1 所以 dfT = dft + dfe,三者之间的关系,34,各部分平方和除以各自的自由度便得到 总均方,记为MST(或ST2) MST = ST2 = SST / df T 处理间均方, MSt(或St2) MSt = St2 = SSt / df t 处理内均方, MSe(或 Se2) MSe = Se2 = SSe / df e MST MSt + MSe,3、均方的计算,【例5.1】 某水产研究所为了比较四种不同配合饲
11、料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。 试检验不同配合饲料对鱼的饲喂效果。,表5-1 饲喂不同饲料的鱼的增重 (单位:10 g),36,设 1为饲料1对鱼的平均增重量 2为饲料2对鱼的平均增重量 3为饲料3对鱼的平均增重量 4为饲料4对鱼的平均增重量 H0: 1 2 3 4 H1: 1 , 2 , 3 , 4 不全相等,、建立检验假设,37,矫正数 C = x2 / kn = 550.82 / (45) =15169.03 总平方和 SST =x2ij - C = 31.92 + 27.92 + + 28.52
12、- 15169.03 = 15368.7 - 15169.03 = 199.67 处理间平方和 SSt = xi . 2 / n - C = (155.92 + 131.42 + 123.72 + 139.82) / 5 - 15169.03 = 15283.3 - 15169.03 = 114.27 处理内平方和 SSe =SST - SSt = 199.67 - 114.27 = 85.40,、计算离均差平方、自由度、均方,38,总自由度 dfT = nk -1 = 5 4 - 1 = 19 处理间自由度 dft = k - 1= 4 - 1 = 3 处理内自由度 dfe = dfT -
13、dft = 19 - 3 = 16 处理间均方 MSt = SSt / df t = 114.27 / 3 = 38.09 处理内均方 MSe = SSe / df e = 85.40 / 16 = 5.34,39,在单因素试验结果的方差分析中 无效假设为 H0:1=2=k 备择假设为 H1:各i 不全相等所以 判断因素的水平是否对其观察值有影响,实际上就是比较处理间方差与处理内方差之间差异的大小,、F 检验,40,检验处理间方差与处理内方差之间差异的大小的统计量为被检验因素的均方作分子 误差均方作分母,当FF时,MSt显著高于MSe,拒绝无效假设,处理平均数之间差异显著,41,单因素方差分析
14、表,42,F 分布与拒绝域,如果均值相等,F=MSt /MSe1,43,方差分析的数学模型指试验资料的数据结构或者说是每一观测值的线性组成,它是方差分析的基础。 数学模型中的处理效应i(或j、ij),因处理性质不同可分为: 固定效应(fixed effect) 随机效应(random effect),按处理效应的类别来划分方差分析的模型 固定模型 随机模型 混合模型 就试验资料的具体统计分析过程而言,这三种模型的差别并不太大 从解释和理论基础而言,它们之间有很重要的区别,44,单因素试验的方差分析中,把k个处理看作k个明晰的总体 研究对象只限于这k个总体的结果,而不需推广到其它总体 k个处理的
15、效应固定于所试验的处理的范围内。这种模型称为固定模型。 一般的饲养试验及品种比较试验等均属固定模型 多因素多试验中,若各试验因素水平的效应均属固定,则对应于固定模型,1、固定模型(fixed model),45,单因素试验中,k个处理并非特别指定,而是从更大的处理总体中随机抽取的k个处理 研究对象不局限于这k个处理所对应的总体的结果,而是着眼于这k个处理所在的更大的总体 重复试验时,可在大处理总体中随机抽取新的处理 这样,处理效应并不固定,而是随机的,这种模型称为随机模型。,2、随机模型(random model),46,随机模型在遗传、育种和生态试验研究方面有广泛的应用 :为研究中国猪种的繁
16、殖性能的变异情况,从大量地方品种中随机抽取部分品种为代表进行试验、观察,其结果推断中国猪种的繁殖性能的变异情况,这就属于随机模型。,多因素试验中,若各因素水平的效应均属随机,则对应于随机模型。,47,多因素试验中 既包括固定效应的试验因素 又包括随机效应的试验因素则该试验对应于混合模型。 :在某地区的4个不同杂交组合的猪及其亲本,分布于5个猪场进行育肥试验。这里猪种效应是固定的,而试验场所(猪场)效应是随机的。 :随机采用三个蛋鸡品系研究三种饲料的效应试验,这里蛋鸡品系效应是随机的,而饲料效应是固定的。,3、混合模型(mixed model),48,第二节 多重比较,一、多重比较的意义 二、多
17、重比较的方法 三、多重比较的结果表示 四、多重比较方法的选择,【例】水稻在不同药剂处理下的苗高(cm),一、多重比较的意义,50,因而,有必要进行两两处理的平均数间的比较,以具体判断两两处理平均数间的差异显著性。 统计上把多个平均数两两间进行相互比较称为多重比较。,51,常用的有三种方法: 最小显著差数法(Least significant difference, LSD法) 最小显著极差法(Least significant ranges, LSR法) q 测验 新复极差测验(SSR法),二、多重比较的方法,52,基本作法: 前提:F 检验显著 计算出显著水平为的最小显著差数LSD检验的统计
18、量为,t(dfe)为在F 检验中误差自由度下,显著水平为的临界 t 值,查 t 值表可得。为均数差异标准误。,、最小显著差数法 (LSD法),53,显著性判断: 差异显著差异不显著,小于LSD0.05者不显著,在差数的右上方标记“ns”,或不标记符号 介于LSD0.05与LSD0.01之间者显著,在差数的右上方标记“*”大于LSD0.01者极显著,在差数的右上方标记“*”,54,列出平均数的多重比较表,比较表中各处理按其平均数从大到小自上而下排列 计算最小显著差数LSD0.05和LSD0.01 将平均数多重比较表中两两平均数的差数与LSD0.05 、LSD0.01 比较,作出统计推断,步骤:,
19、【例】水稻不同药剂处理的苗高(cm),55,列出平均数的多重比较表,比较表中各处理按其平均数从大到小自上而下排列 计算最小显著差数LSD0.05和LSD0.01 将平均数多重比较表中两两平均数的差数与LSD0.05 、LSD0.01 比较,作出统计推断,步骤:,56,列出平均数的多重比较表,比较表中各处理按其平均数从大到小自上而下排列 计算最小显著差数LSD0.05和LSD0.01 将平均数多重比较表中两两平均数的差数与LSD0.05 、LSD0.01 比较,作出统计推断,步骤:,以A4药剂对水稻苗高的增长效果最佳。,57,特点: 把平均数的差数看成是平均数的极差,根据极差范围内所包含的处理数
20、(称为秩次距)k的不同而采用不同的检验尺度,以克服LSD法的不足。 这些在显著水平上依秩次距k的不同而采用的不同的检验尺度叫做最小显著极差LSR。,、最小显著极差法(LSR法),k个平均数相互比较k-1 种秩次距 (k , k-1 ,k-2,2) k-1个最小显著极差LSR,k分别作为判断具有相应秩次距的平均数的极差是否显著的标准,秩次距k=序号之差+1,查表获得:q值分布依赖于误差自由度dfe及秩次距kS为标准误,58,以统计量q的概率分布为基础 显著性判断,1、q 检验法(q test),59,列出平均数多重比较表 由自由度dfe、秩次距k查临界q值,计算最小显著极差LSR0.05,k,L
21、SR0.01, k 将平均数多重比较表中的各极差与相应的最小显著极差LSR0.05,k,LSR0.01,k比较,作出统计推断,【例】水稻不同药剂处理的苗高(cm),步骤:,60,列出平均数多重比较表 由自由度dfe、秩次距k查临界q值,计算最小显著极差LSR0.05,k,LSR0.01,k 将平均数多重比较表中的各极差与相应的最小显著极差LSR0.05,k,LSR0.01,k比较,作出统计推断,步骤:,61,列出平均数多重比较表 由自由度dfe、秩次距k查临界q值,计算最小显著极差LSR0.05,k,LSR0.01,k 将平均数多重比较表中的各极差与相应的最小显著极差LSR0.05,k,LSR
22、0.01,k比较,作出统计推断,步骤:,62,此法是由邓肯 (Duncan) 于1955年提出,故又称Duncan法,此法还称SSR法(shortest significant ranges)。 新复极差法与q检验法的检验步骤相同,唯一不同的是计算最小显著极差时需查SSR表而不是查q值表。,2、新复极差法,根据显著水平、误差自由度dfe、秩次距k,由SSR表查得的临界SSR 。 计算标准误,63,列出平均数多重比较表 由自由度dfe、秩次距k查临界SSR值,计算最小显著极差LSR0.05,k,LSR0.01, k 将平均数多重比较表中的各极差与相应的最小显著极差LSR0.05,k,LSR0.0
23、1,k比较,作出统计推断,【例】水稻不同药剂处理的苗高(cm),步骤:,64,列出平均数多重比较表 由自由度dfe、秩次距k查临界SSR值,计算最小显著极差LSR0.05,k,LSR0.01,k 将平均数多重比较表中的各极差与相应的最小显著极差LSR0.05,k,LSR0.01,k比较,作出统计推断,步骤:,65,列出平均数多重比较表 由自由度dfe、秩次距k查临界SSR值,计算最小显著极差LSR0.05,k,LSR0.01,k 将平均数多重比较表中的各极差与相应的最小显著极差LSR0.05,k,LSR0.01,k比较,作出统计推断,步骤:,66,当各处理重复数不等时,不论LSD法还是LSR法
24、,可用计算出一个各处理平均的重复数n0,以代替计算或所需的n。,k为试验的处理数 ni (i=1, 2, , k)为第i处理的重复数。,、处理重复数不等的多重比较,67,三种多重比较方法,其检验尺度有如下关系:(Min) LSD法新复极差法q检验法 (Max)当秩次距k=2时,取等号;秩次距 k 3时,取小于号。,、三种方法的关系,68,三种方法: 三角形法 划线法 字母标记法,三、多重比较的结果表示,【例】水稻不同药剂处理的苗高(cm),69,三种方法: 三角形法 划线法 字母标记法,A4 A2 A1 A3,从 大 到 小 排 列,70,三种方法: 三角形法 划线法 标记字母法 小写拉丁字母表示显著水平=0.05 大写拉丁字母表示显著水平=0.01,A,B,B,A,b,c,c,a,C,C,71,试验事先已确定了比较的标准,如试验中各个处理平均数皆与对照相比的可用LSD检验法,根据试验的侧重点选择 对于试验结论事关重大或精度要求高的试验应用q检验 般试验可用SSR检验法,四、多重比较方法的选择,实际计算时,参考以下几点:,72,提出假设(常省略) 构造检验统计量 计算各项平方和与自由度 列出方差分析表,进行F检验 若F检验显著,则进行多重比较 统计决策,方差分析的基本步骤,73,解释方差分析的概念解释方差分析的基本原理和计算过程掌握多重比较的原理和计算方法,本章小结,End!,