1、第八章 单因素方差分析,8.1 方差分析的基本原理 8.2 固定效应模型 8.3 随机效应模型 8.5 方差分析应具备的条件,第八章 单因素方差分析,8.1 方差分析的基本原理,例 有5组数据要比较,若一对一对的比较,则共需比对 。假设每一对接受H0正确的概率为 =0.95,而且这些检验都是独立的,那么10对都接受的概率 ,因此 ,即全部比较中至少犯一次第I类错误的概率为0.40,这显然是不能接受的。,方差分析(analysis of variance, ANOVA)是一种特殊情况下的统计假设检验,是多组数据之间平均数差异的显著性检验。,t 检验可以判断两组数据平均数间的差异显著性,而方差分析
2、则可以同时判断多组数据间的差异显著性。对多组数据若仍用前面介绍的t 检验进行一对对的比较,会大大增加犯第I类错误的概率。,8.1.1 方差分析的一般概念,方差分析是将各组数据放在一起,一次比较就对所有各组间是否有差异作出判断。如果没有显著差异,则认为它们都是相同的;如发现有差异,再进一步比较是哪组数据与其他数据不同。,8.1 方差分析的基本原理,方差分析中常用到的术语,1. 因素(factor) 可能影响试验结果,且在试验中被考查的原因或原因组合。有时也可称为因子。 2. 水平(level) 因素在试验或观测中所处的状态。 3. 主效应 反映一个因素各水平的平均响应之差异的一种度量。一个因子第
3、i水平上所有数据的平均与全部数据的平均之差,称为该因子第i水平的主效应。 4. 交互效应 由两个或多因素之间水平搭配而产生的差异的一种度量。 5. 处理 实验中实施的因子水平的一个组合。,8.1 方差分析的基本原理,6. 固定因素该因素的水平可准确控制,且水平固定后,其效应也固定。 7. 随机因素该因素的水平不能严格控制,或虽水平能控制,但其效应仍为随机变量。如动物的窝别(遗传因素的组合),农家肥的效果,等等。 8. 误差 除了实验中所考虑的因素之外,其他原因所引起的实验结果的变化。它可分为系统误差和随机误差。系统误差:误差的组成部分,在对同一被测量的多次测试中,它保持不变或按某种规律变化。它
4、的原因可为已知,也可为未知,但均应尽量消除。随机误差:误差的组成部分,在对同一被测量的多次测试中,它受偶然因素的影响而以不可预知的方式变化。它无法消除或修正。,方差分析中常用到的术语,8.1 方差分析的基本原理,例8.1 调查5个不同小麦品系的株高,结果如下:,其中仅出现“品系”这样一个因素,故称为单因素。共有5个不同的品系,称品系这一因素共有5个水平。5个品系可以认为是5个总体,表中数据是从5个总体中抽出的5个样本,通过比较来判断这5个总体是否存在差异。,上述试验中只有一个因素,该因素有a个处理(treatment),这样的实验称为单因素实验。从单因素实验的每一个处理所得到的结果都是一随机变
5、量 。对于a个处理,各重复 次(或做 次观测)的单因素方差分析的一般表示法见下表,单因素方差分析的典型数据,8.1 方差分析的基本原理,8.1 方差分析的基本原理,表中数据的固定表示法和符号所表示的意义如下:因素的水平数:每一水平的重复数:第i水平的第j次观察值。1ia, 1jn, 第i水平所有观察值的和,第i水平均值,全部观察值的和,总平均值,第i水平上的子样方差。,8.1 方差分析的基本原理,8.1.2 方差分析的直观理解,方差分析是一种对平均数所做的检验,一种是检验两个平均数的差是否可以用随机误差解释,如果平均数的差是由随机误差造成的,那么平均数之间的差异不显著,抽出样本的两个总体具有相
6、同的总体平均数。另一种检验方式是检验几个样本平均数的方差是否足够大。如果样本方差足够大,远远大于由随机误差所产生的方差,说明这几个样本平均数之间的离散程度很高,抽出的这几个样本的总体属于不同的总体,总体平均数不同。,组间方差(不同样本平均数的方差)与随机误差的方差(组内方差)用F检验做比较,若拒绝零假设,则样本平均数的方差是显著的,它们可能抽自平均数不同的总体(样本间存在不同的处理效应)。,8.1 方差分析的基本原理,8.1.3 不同处理效应与不同模型,单因素方差分析(one-factor analysis of variance):指需要研究的因素仅一个(或只有一组分组),该因素可有几个不同
7、水平,分析的目标是看这些水平的影响是否相同。 在有随机误差的情况下,各水平应有重复。 方差分析中常用线性统计模型(linear statistical model)描述观察值:,其中 是在第 水平(处理)下的第 次观测值。 是对所有观测值的一个参数,称为总平均数(overall mean)。 是仅限于对 次处理的一个参数,称为第 次处理效应(treatment effect)(或称为 i 水平主效应)。是随机误差成分。要求模型中的 ,且是互相独立随机变量。注意这里要求各水平有共同的方差 。,方差分析的目的就是要检验各 的大小和有无,8.1 方差分析的基本原理,8.1.3 不同处理效应与不同模型
8、,每种饲料的营养成份是固定的,其效果也应是固定的。,固定效应(fixed effect):由固定因素所引起的效应。 固定因素(fixed factor):若因素的 个水平是经过特意选定的,则该因素称为固定因素。如温度、浓度、品种和方案等,因素的水平是人为的,所检验的是关于 的假设。 固定效应模型(fixed effect model): 处理固定因素所用的模型,简称固定模型(fixed model)。,例 用4种配合饲料饲养30日龄的小鸡,10天后计算平均日增重,得表中数据,问4种饲料的效果是否相同?,方差分析所得到的结论仅适合于选定的那几个水平,并不能将结论扩展到未加考虑的其它水平上。,8.
9、2 固定效应模型,8.2.1 线性统计模型,反映到线性模型中,就是 是处理平均数与总平均数的离差,它是个常量,可要求要检验 个处理效应的相等性,就要判断各 是否都等于0。若各 都等于0,则各处理效应之间无差异。因此,零假设和备择假设分别为: : (至少有一个i) 若接受 ,则不存在处理效应,每个观测值都是由总平均数加上随机误差所构成。若拒绝 ,则存在处理效应,每个观测值是由总平均数、处理效应和误差三个部分构成。,8.2 固定效应模型,8.2.2 平方和与自由度的分解,方差分析的基本思想:将总的变差分解为构成总变差的各个部分之和,然后对它们作统计检验。 对于单因素实验,可以将总平方和(total
10、 sum of squares)做如下分解:,对于每个固定的 ,,8.2 固定效应模型,8.2.2 平方和与自由度的分解,因此,上式表示度量全部数据变差的总平方和,可以分解为处理平均数与总平均数之间离差的平方和(度量了处理之间的差异)及处理内部观测值与处理平均数之间离差的平方和(度量了随机误差)两个部分。用符号表示为:,8.2 固定效应模型,8.2.2 平方和与自由度的分解,:总平方和(total sum of squares),:处理平方和(treatment sum of squares),或处理间平方和(sum of squares between treatment),:误差平方和(e
11、rror sum of squares),或处理内平方和(sum of squares within treatment),,8.2 固定效应模型,8.2.2 平方和与自由度的分解,自由度可分解为:总自由度 ;A因素 ;误差项 。估计 :用 除以相应的自由度, 称为误差均方(error mean square);称为处理(间)均方:,8.2 固定效应模型,8.2.3 均方期望与统计量F,是 的无偏估计量。,误差均方反映了随机因素所造成的方差的大小, 的期望是 ,即随机误差的方差,它是随机误差的一个估计量。,8.2 固定效应模型,用类似的方法,求 的数学期望:, ,所以有 乘积项的数学期望均为0
12、。于是,8.2.3 均方期望与统计量F,对于处理项来说,只有当零假设 : 成立时, 项等于0,这时 ,因此,用 与 比较,就可以反映出 的大小。,8.2 固定效应模型,为常数,且 可知, =,的期望除了有代表随机误差的 外,还有一项是各水平主效应的平方和,即它代表了各处理间差异的大小。,8.2.3 均方期望与统计量F,当时 ,则可以认为 与 相差不大,产生的变差是由随机误差造成的, 项接近于0,接受 假设,处理平均数之间的差异不显著。当 时, 显著高于 , 项不再为0,拒绝 假设,处理平均数之间的差异显著。,零假设 : ,或 : = 0,若 与 相差不大,就可以认为 与0的差异不大,或各处理平
13、均数( )间差异不大。反之,则认为 间差异是显著的。若 不成立,则 ,F 值有偏大的趋势。因此,可用F分布表对是否成立进行F上尾单侧检验。令 ,具有 , 自由度,8.2 固定效应模型,8.2.3 均方期望与统计量F,8.2 固定效应模型,8.2.4 平方和的简易计算方法,公式为:其中 通常称为校正项(correction)用C 表示。,例8.1 调查5个不同小麦品系的株高,结果如下:,8.2 固定效应模型,在方差分析中,为了简化计算,先进行方差分析的编码,将全部数据均减去同一个数,该例中每一个数都减去65,得下表,8.2 固定效应模型,8.2 固定效应模型,习惯上用“*”表示在 水平上差异显著
14、,用“*”表示在 水平上差异显著,常称为差异极显著(highly significant)。,上述是方差分析中最简单的单因素固定模型的分析方法。对固定模型来说,如果结果是差异显著,一般还应进行多重比较。 方差分析的基本思想:不对数据进行一对一的比较,而是对总体的方差进行分解。首先分离出随机误差所导致的变差,然后再将处理所引起的变差与它相比较。如果处理变差明显大于随机误差,则各水平间的差异不能用随机误差解释,应认为各水平间有明显差异;反之,各处理间的不同可以认为由随机误差引起,即各水平间没有差异。一次完成对多组实验间差异的检验,避免了多次检验引起的犯错误可能大大升高的问题。,8.2 固定效应模型
15、,8.3 随机效应模型,随机效应(random effect):由随机因素所引起的效应。 随机因素(random factor):若因素的 个水平是从该因素水平总体中随机抽取的样本,则该因素称为随机因素。 从随机因素 个水平所得到的结论,可以推广到这个因素的所有水平上。在这里 是一个随机变量,所检验的是关于 的变异性假设。 随机效应模型(random effect model):处理随机因素所用的模型称为或简称为随机模型(random model)。,例: 研究不同窝别的动物出生体重是否有差异,随机选取4窝动物,每窝中均有4只幼崽 。,动物窝别是从所有可能的窝别中随机选取的,实验的目的是考察在
16、窝别之间出生体重是否存在差异,故窝别是随机因素。,8.3 随机效应模型,固定因素:指因素的水平可以严格地人为控制,在水平固定后,它的效应值也是固定的。如温度对酶水解产物的影响,实验可以重复。简言之,在水平(温度)固定后,其效应值(产量)也是固定的。因此,温度是固定因素。随机因素:水平是不能人为控制的,在水平确定后,它的效应值并不固定。如肥料的不同施用量对作物产量的影响试验中,肥料是因素,施用量是该因素的不同水平,作物产量是它的效应值。肥料的成分复杂,有效成分很难严格控制在某一个固定值上,重复试验时即使用相同量的肥料,其效应值并不固定,因此肥料是随机因素。,8.3 随机效应模型,8.3.1 线性
17、统计模型,随机因素的方差分析是通过随机选取的 个水平,对该因素的水平总体的推断。要求水平的总体是无限总体,或相当大而认为是无限总体。 随机因素的影响体现在线性统计模型中,它的表达式仍为:, ,,其中 和 都是随机变量。如果 具有方差 并且独立于 ,那么观测值的方差方差 和 称为方差分量(variance component)。由于各水平的效应无法预料,现在 不能再视为常数,而是随机变量。即在这个模型中,要求变量:是独立随机变量,意味着在固定效应模型中, 假设不再成立。,8.3 随机效应模型,: 当 : 成立时,表示处理间没有差异,自然有 ; 若拒绝 : 而接受 : ,表示处理间存在差异,则作为
18、从 中抽取的样本,各 不可能都相同,当然也不可能均为0。此时它们的和一般也不会是0。,在随机效应模型中,对单个处理效应的检验是无意义的,所要检验的是关于 的变异性的假设。,统计假设相应变为:,8.3.1 线性统计模型,8.3 随机效应模型,8.3.2 均方期望与统计量F,对于随机模型,总平方和与自由度的分解与固定模型是相同的,因为在证明平方和分解的过程中没有用到线性统计模型,故因素类型的变化不会影响总平方和的分解和自由度的分解。,的期望也没有变,因为这些推导过程中也没有使用 的性质。,的期望变了,因为 不再是常数 ,也不再为0。,由于各 与各 相互独立,上式的交叉项期望为零。,8.3 随机效应
19、模型,8.3.2 均方期望与统计量F,原式,随机效应模型方差分析的程序与固定效应模型方差分析的程序一样,但由于获得水平的方式不同,结论不同。在固定模型中,结论只适用于检查的那几个( )水平。而在随机效应模型中由于是 =0,故结论适用于水平的总体,可推广到这一因素的一切水平。,在随机效应模型中, 不再是常量,而是服从N( ) 中抽取的随机变量。因而 的数学期望是 由组成,而不是由 组成。 同理可以证明:,8.3 随机效应模型,8.3.2 均方期望与统计量F,若 成立,则分子分母均为 的无偏估计量。而当 成立时,F值仍有偏大的趋势,即分子的数学期望大于分母的数学期望。因此仍可用F分布表作上尾单侧检
20、验,当 时拒绝 。,从上述均方期望可看出,,8.3 随机效应模型,8.3.2 均方期望与统计量F,方差分析的程序与固定效应模型方差分析的程序完全一致,但由于获得样本的方式不同,致使所得结论不同。随机效应模型适用于水平的总体,而固定模型适用于所选定的a个水平。,例 8.2,将表8-2中的每一个数都减去30得下表,8.3 随机效应模型,查F分布表,得:F0.95 (3, 12)=3.49 ,接受 ,可认为出生重无显著差异。,表 动物出生重方差分析表,对单因素方差分析来说,因素类型的变化没有影响统计量的计算与检验过程,这是与两个及更多因素方差分析不同之处。另外,由于随机因素的水平不能重复,因此多重比
21、较也就无意义了。,从上述分析过程可知,当因素从固定变为随机后,其影响主要表现在改变了统计模型中参数 的性质,使它从常数变成了随机变量。这样一来,所有涉及 的地方都有了明显改变,包括统计假设 和 ,均方期望 ,以及最后的解释。,8.3 随机效应模型,8.3 随机效应模型,8.3.3 不等重复时平方和的计算,设第 i 次处理做了 次观测( ),总的观测次数不再是an,而是 次,则总自由度变为 , 的自由度仍为 , 的自由度变为 。相应公式变为,在各水平有不同的重复数情况下,上述方差分析的方法仍然可用,但计算公式及自由度都要作相应变化,其它计算及结果分析均与前述相同。,8.5 方差分析应具备的条件,
22、(1)可加性:每个处理效应与误差效应的可加的, 。 为处理效应, 为误差效应。由于有这一假定,不同的效应可能被分解,才能最终判断处理效应是否比误差效应更显著。 (2)正态性:实验误差应当的服从正态分布 的独立随机变量。因此,被检验的每一个总体也应该是正态分布的。 (3)方差齐性:各处理的误差应具备齐性,有一个公共的方差 。,虽然在各处理的样本含量相等时可以减少不齐性的影响,但不等于没有影响。因此,在做方差分析之前应该先做多个方差齐性的检验。只有在具备方差齐性条件下才可以做方差分析,否则方差分析的结果并不可信。,可加性较容易满足。正态性与方差齐性相比,方差齐性对分析结果的影响更大。,8.5.1
23、方差分析应满足三个条件,:至少有两个 不相等,即对下面的假设进行检验:,多个方差齐性检验(homogeneity test for variances)方法中,Bartlett检验(Bartlett test)使用最广泛。,基本原理:当n个随机样本是从独立正态总体中抽取时,可以计算出统计量。当 充分大时( ), 的抽样分布非常接近于 自由度的 分布。检验统计量,8.5 方差分析应具备的条件,8.5.2 多个方差齐性检验,是第i个总体的样本方差。当样本方差 变异很大时,值也很大;当 相等时,q值等于零。因此,当 值相当大,以至于 时拒绝 。,当满足正态性时,Bartlett检验很敏感。在正态性假设不能满足时,不能使用该检验。,其中,,8.5 方差分析应具备的条件,8.5.2 多个方差齐性检验,例 调查5个不同小麦品系的株高,用Bartlett检验法检验方差的齐性。,8.5 方差分析应具备的条件,8.5.2 多个方差齐性检验,8.5 方差分析应具备的条件,8.5.2 多个方差齐性检验,解:先计算每个处理的方差( ),得, 。结论是接受 。因此方差具有齐性。,如果经检验后发现各处理组间的方差不具齐性时,需经过适当的变换,使之满足方差齐性这一条件,然后再做方差分析。,本章作业,课后:8.1,