1、第10章 单因素方差分析 One-factor analysis of variance,用6种培养液培养红苜蓿,每一种培养液做5次重复,测定5盆苜蓿的含氮量,结果如下表(单位:mg)问用6种不同培养液培养的红苜蓿含氮量差异是否显著?,方差分析(analysis of varianceANOVA)是由英国统计学家R.A.Fisher于1923年提出的。方差分析是一种特殊的假设检验,是用来判断多组数据之间平均数差异显著性的它不同于t检验之处在于:它把所有数据放在一起,一次比较就对所有各组间是否有差异做出判断,如果没有显著性差异,则认为各组平均数相同;如果发现有差异,再进一步比较是哪组数据与其它数
2、据不同,在多组数据的平均数之间做比较时,可以在平均数的所有对之间做t检验,但这样做会提高犯I型错误的概率,因而是不可取的。方差分析可以防止该问题的出现。如对5个平均数进行检验,若做t检验,则需做10次,假设每一次检验接受零假设的概率为0.95,那么10次都接受零假设的概率为(0.95)10=0.60,(至少有1次)拒绝零假设的概率为0.40,犯I型错误的概率明显平加,方差分析中常用基本概念 (一)试验指标(experimental index)为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目。 (二)试验因素 (experimental factor)试验中所研究的影响
3、试验指标的因素叫试验因素。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上的因素对试验指标的影响时, 则称为两因素或多因素试验。按是否可控制因素可分为:固定因素和随机因素,固定因素:可准确控制且其水平固定后效应也固定,比如:温度、化学药物浓度等随机因素:因素水平不能严格控制或者说即使其水平可控制但其效应也不固定比如:动物的窝别、农家肥的效果等试验因素常用大写字母A、B、C、等表示。 (三)因素水平(level of factor)试验因素所处的某些特定状态或数量等级称为因素水平,简称水平。比如:不同的温度;溶液不同浓度等 (四)重复 (repeat) 在试验中,将一个处理
4、实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。,第一节 单因素方差分析的基本原理,一、线性模型 二、固定线性模型 三、随机线性模型 四、多重比较 五、基本假定,(一)线性模型 假设某单因素试验有a个处理,每个处理有n次重复,共有na 个观测值。这类试验资料的数据模式如表7-1所示。,一、线性模型,表7-1 单因素方差分析的典型数据模式,各处理总和、平均数、大总和、总平均数是计算的一级数据,在本章我们采用了黑点符号体系法表示,要注意熟悉和掌握。,可以分解为表示第i个处理观测值总体的平均数。为了看出各处理的影响大小,将 再进行分解,其中表示全试验观测值的
5、总体平均数(overall mean), 是第i个处理的效应(treatment effect),表示处理i对试验结果产生的影响。 是试验误差,相互独立,且服从正态分布N(0,2)。,上式就称为单因素试验的线性统计模型(linear statistical model)亦称数学模型。方差分析的目的就是要检验处理效应的大小和有无。 (二) 方差分析的基本思路将总的变差分解为构成总变差的各个部分。即将a个处理的观测值作为一个整体看待, 把观察值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源的总体方差估计值;通过这些估计值的适当比值,就能检验各样本所属总体均值是
6、否相等。方差分析实质上是关于观测值变异原因的数量分析。,二 固定模型fixed model:因素固定、效应也固定反应到线性模型中即 为常数可要求 1. 假设固定模型的零假设为:备择假设为:,故an个观察值的总变异可分解为处理间的变异和处理内的变异两部分。全部观察值的总变异可以用总均方来度量,处理间变异和处理内变异分别用处理间均方和处理内均方来度量。,2. 平方和与自由度的剖分,总均方的拆分是通过将总均方的分子称为总离均差平方和,简称为总平方和(total sum of squares,SST) ,剖分成处理间平方和(sum of squares between treatments ,SSA)
7、与处理内平方和(sum of squares within treatment ,SSe)两部分;将总均方的分母称为总自由度 ,剖分成处理间自由度 与处理内自由度 两部分来实现的。处理间均方(处理均方,MSA )处理内均方(误差均方,MSe ),总平方和的拆分,三种平方和的简便计算公式如下: 等重复时:, 不等重复时:, 在计算总平方和时,资料中的各个观察值要受 这一条件约束,总自由度等于资料中观察值的总个数减1,即an-1。总自由度记为dfT,则 dfT = an-1 。 在计算处理间平方和时,各处理均数要受 这一条件的约束,故处理间自由度为处理数减1,即a-1。处理间自由度记为dfA,则d
8、fA= a-1。,总自由度的拆分, 在计算处理内平方和时,要受a个条件的约束,即 ,i=1,2,.a。故处理内自由度为资料中观察值的总个数减a ,即an- a 。处理内自由度记为dfe,则dfe= an-a= a(n-1)。因为 na -1=(a-1)+(na-a)=(a -1)+ a(n-1)所以 dfT= dfA+ dfe 综合以上各式得:,各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方(误差均方),分别记为:MST(或ST2 )、 MSA(或SA2 )和MSe(或Se2 ),即MST= ST2 =SST/dfT;MSt= St2 =SSt/dft;MSe= Se2 =S
9、Se/dfe注意: 在方差分析中不涉及总均方的数值,所以一般不必计算; 总均方一般不等于处理间均方加处理内均方。,3. 期望均方(expected mean squares EMS)若A是B的无偏估计,则称B是A的数学期望。处理内均方MSe是误差方差2的无偏估计值,即2称为MSe 的数学期望。,4. 统计量 当零假设 成立时,处理效应的方差为零,亦即各处理观察值总体均数i (i=1,2,a) 相等时,处理间均方MSA与处理内均方一样,也是误差方差2的估计值。方差分析就是通过MSA 与MSe的比较来推断各处理平均数 间差异的大小F= MSA/ MSe F具有两个自由度:df1=dfA=a-1;d
10、f2=dfe=a(n-1)。,查附表7: 若F ,即P0.05,不能否定H0,可认为各处理间差异不显著; 若 F ,即0.01P0.05, 否定H0,接受HA,认为各处理间差异显著,标记“*” ; 若F ,即P0.01,否定H0,接受HA, 认为各处理间差异极显著,标记“*”。,【例10.2】 某试验研究不同药物对腹水癌的治疗效果,将患腹水癌的25只小白鼠随机分为5组,每组5只。其中A1组不用药作为对照,A2、A3为两个不同的用中药组,A4、A5为两个不同的西药组。各组小白鼠的存活天数如表72所示。 表102 用不同药物治疗腹水癌小白鼠的结果,这是一个单因素试验,处理数a =5,重复数n=5。
11、 第一步:计算一级数据(见表); 第二步:计算SS e、SSA、 dfe 、 dfA矫正项 C=x2/an 总平方和 处理间平方和 =248274-2291.96=1905.44 处理内平方和 SS e=SST -SSA=2183.04-1905.44=277.60,总自由度 dfT =an-1=25-1=24 处理间自由度 dfA=a-1=5-1=4 处理内自由度 dfe =dfT- dfA=24-4=20 处理间均方 MSA=SSt /dfA = 1905.44 /4=476.36 处理内均方 MSe=SSe /dfe = 277.60 /20=13.88 第三步:提出假设零假设为: H0
12、:各处理组小鼠存活天数差异不显著备择假设为: HA:各处理组小鼠存活天数差异显著,第四步:计算统计量F=MSA/MSe=476.36/13.88=34.32* 第五步:查表根据df1=dft=4,df2=dfe=20 查附表7,得F0.01(4,20)=4.43 第六步:做出推断及生物学解释:FF0.01(4,20)=4.43,P0.01。说明五个处理小白鼠存活天数差异极显著,用不同药物治疗小白鼠腹水癌的疗效是不同的。,在方差分析中,通常将变异来源、平方和、自由度、均方和F值归纳成一张方差分析表。 表103 例10.2资料的方差分析表,F值应与相应的被检验因素齐行; 在表的左下方注出显著水平。
13、,应用举例: 例4 调查了5个不同小麦品系的株高,结果见下表,问该5个小麦品系株高间的差异是否显著?,为了简化计算,将每一个原始数据均减去65,列成下表,1. 提出假设:H0: HA: 2计算检验统计量F:=147.32=131.74 SSe SSTSSA 15.58 MSASSA(a-1)32.72 MSeSSe(an-a) 0.78 FMSAMSe41.95 3查附表3得:F4,20,0.052.87,F4,20,0.014.43。 FF4,20,0.01,拒绝H0,说明5个不同小麦品系的株高差异极显著。,将以上结果列为方差分析表:,三、随机模型Random model:因素随机、效应不固
14、定是试验误差,相互独立,且服从正态分布不再为常数,且服从正态分布 1. 假设随机模型的零假设为:备择假设为:,2. 总平方和与总自由度的剖分:同固定模型3. 数学期望: 4. 统计量F:注意:在做生物学解释时,固定模型中的结论只适用于 检查的那几个因素水平;随机模型中的结论可推广到这一因素的各个水平,四、多重比较 (multiple comparisons) (一)为什么要进行多重比较?F值显著或极显著,否定了无效假Ho,表明试验的总变异主要来源于处理间的变异,试验中各处理平均数间存在显著或极显著差异。但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极
15、显著差异,哪些没有显著差异。因而,有必要进行两两处理平均数间的比较,以具体判断两两处理平均数间的差异显著性。,(二)概念统计上把多个平均数两两间的相互比较称为多重比较。 (三)常用的多重比较方法多重比较的方法甚多,常用的有最小显著差数法(LSD法)和最小显著极差法(LSR法)。1、最小显著差数法(LSD法,Least significant difference)此法的基本原理是:在处理间F检验显著的前提下, 先计算出显著水平为的最小显著差数LSD ,然后将任意两个处理平均数的差数的绝对值 与其比较,作出结论。,最小显著差数由下式计算:式中 为在F检验中误差自由度下,显著水平为的临界t 值,均
16、数差异标准误 则下式算得。其中MSe为F检验中的误差均方,n为各处理内的重复数。,显著水平取0.05和0.01时,从t 值表查出 代入 ,即可求得LSD0.05和LSD0.01 利用LSD法进行多重比较时,步骤如下: 列出平数的多重比较表,比较表中各处理按其平均数从 大到小自上而下排列; 计算最小显著差数LSD0.05和LSD0.01; 将平均数多重比较表中两两平均数的差数与计算出的LSD0.05 、LSD0.01 比较,作出统计推断。,【例10.2】 dfe=20, n=5, MSe=13.88查t值表得 t0.05(dfe)=t0.05(20)=2.086,t0.01(dfe)=t 0.0
17、1(20)=2.845所以显著水平为0.05与0.01的最小的显著差数为:表10-4 五个处理小鼠平均存活天数多重比较表(LSD法),将表104中的10个差数与LSD0.05 、LSD0.01比较:小于LSD0.05者不显著;介于LSD0.05与LSD0.01之间者显著,标记“*”;大于LSD0.01者极显著,标记“*”。 检验结果除差数1.6不显著、5.2显著外,其余各差数极显著。表明所用的药物不论中西药对小白鼠腹水癌都有一定疗效,除中药A3与西药A4的疗效差异不显著外,其余药物间的疗效都有显著或极显著差异。,说明:LSD实质上就是t检验法:它是将t检验中由所求得的t的绝对值 与临界值 的比
18、较转化为将各对均数差值的绝对值 与最小显著差数 的比较,从而做出统计推断的,2、最小显著极差法(LSR法,Least significant ranges) LSR 法的特点:把平均数的差数看成是平均数的极差,根据极差范围内所包含的处理数(称为秩次距) k的不同而采用不同的检验尺度,以克服LSD法的不足。 这些在显著水平上依秩次距k的不同而采用的不同的检验尺度叫做最小显著极差。因此,若有k个平均数相互比较,就有k-1种秩次距(k,k-1,k-2,2),因而需求得k-1 个最小显著极差R(,k ),以作为判断各秩次距(k)平均数的极差是否显著的标准。,常用的LSR法为Duncan法。检验步骤:
19、列出平均数多重比较表; 由自由度dfe、秩次距k查“多重比较中的Duncan表”(附表7),计算最小显著极差R0.05,k 和 R0.01,k ; 将平均数多重比较表中的各极差与相应的最小显著极差R0.05,k 和 R0.01,k比较,作出统计推断。,对于【例10.1】,已算出 =1.67,依dfe=20, k=2,3,4,5,由附表6查临界r0.05(20,k) 和 r0.01(20,k)值,乘以 ,求得各最小显著极差。所得结果列于表105。表105 r值与R值,表10-6 五个处理小鼠平均存活天数多重比较表(Duncan 法),五、基本假定 效应的可加性(additivity) 分布的正态
20、性(normality) 方差的同质性(homogeneity),方差分析的基本步骤 1. 计算各项平方和与自由度。 2. 列出方差分析表,进行F检验。 3. 若F 检验显著,则进行多重比较。多重比较的方法有最小显著差数法(LSD法)和最小显著极差法(LSR法)。,第二节 单因素方差分析的基本步骤,一、各处理重复数相等的方差分析 【例10.2】 为了研究小白鼠患白血病后脾组织中 DNA含量的变化,测定四组,每组各8只(即a=4,n=8)小白鼠脾组织中DNA的含量;第1组为正常脾,第2组为患自发性白血病的脾;第3组为患移植性白血病 AK4的脾;第4组为患移植性白血病9421的脾。测定结果见表10
21、7。试检验各组DNA含量差异是否显著。,表107 四组小白鼠脾组织中DNA含量1. 计算各项平方和与自由度C=x2/an=398.12/(48)=4952.61,SSe=SST SSA=133.40-89.72=43.68dfT=an-1=4 8-1=31dfA=a-1=4-1=3dfe=dfT-dfA=31-3=282. 列出方差分析表,进行F检验,见表(108)。表108 四组小白鼠脾中DNA含量方差分析表,根据df1=dfA=3,df2=dfe=28查临界F值得:F0.05(3,28)=2.95,F0.01(3,28)=4.57因为FF0.01(3,28),即P0.01,表明处理间DNA
22、含量的差异达到1显著水平。 3. 多重比较采用Duncan法。各处理平均数多重比较表,见表109。因为MSe=1.56,n=8,所以根据dfe=28,秩次距k=2,3,4由附表9 查出=0.05和=0.01的各临界r值, 各r值乘以 ,即得各最小显著极差。所得结果列于表109。,表109 r值及LSR值表1010 各组DNA含量平均数多重比较表(Duncun法),检验结果表明:正常脾中DNA含量极显著高于患有各类白血病脾中DNA含量;患自发性白血病脾中DNA含量极显著高于患移植性白血病9421,显著高于患移植性白血病AK4;第三组第四组之间差异不显著。四组中以正常脾DNA含量最高,第二组次之,
23、第三、四组最低。 也就是说各类白血病都将导致小白鼠脾中DNA含量明显降低。,二、各处理重复数不相等的方差分析这种情况下方差分析步骤与各处理重复数相等的情况相同,只是在有关计算公式上略有差异。设处理数为a;各处理重复数为n1 ,n2 ,na ;试验观察值总数为N=ni。则,【例10.3】五个不同品种猪的育肥试验,30天后增重(kg)如表1011所示。试比较品种间增重有无差异。 表1011 五个品种猪30天增重,此例处理数a=5,各处理重复数不等。现对此试验结果进行方差分析:1. 计算各项平方和及其自由度,2、列出方差分析表,进行F检验 表1012 五品种育肥猪增重方差分析表临界F值为F 0.05
24、(4,20)=2.87,F 0.01(4,20)=4.43,因为5.994.43,故P0.01,表明品种间差异极显著。 3.多重比较 采用Duncan法,各处理平均数多重比较表见表1012。,因 各处理重复数不等,应先计算出平均重复次数no,此例中:于是,标准误为:根据dfe=20,秩次距k=2,3,4,5从附表6中查出=0.05及=0.01的临界r值,并计算出最小显极差,所得结果列于表1013。,表1013 r值及R值表,表1014 五品种育肥猪平均增重多重比较表(Duncan法),多重比较结果表明:B1、B4品种的平均增重极显著或显著地高于B2、B5品种的平均增重,其余不同品种之间差异不显著。可以认为B1、B4品种增重最快,B2、B5品种增重较差,B3品种居中。,方差分析与两样本平均数t-test有何异同?,