1、第六章 方差分析,在实际研究过程中,对三个及三个以上多个样本平均数进行比较,用t或u检验会出现的问题:,第六章 方差分析,在实际研究过程中,对三个及三个以上多个样本平均数进行比较,用t或u检验会出现的问题:,所出现的问题,检验过程繁锁无统一的试验误差,误差估计的精确性和检验的灵敏性低推断的可靠性降低,犯I类错误的概率增加,方差分析(analysis of variance, ANOVA)又叫变量分析,是英国著名统计学家R.A. Fisher于1923年提出的。方差分析是将所有处理的观测值作为一个整体,一次比较就对所有各组间样本平均数是否有差异作出判断。如果差异不显著,则认为他们都是相同的,如果
2、差异显著,再进一步比较是哪组数据与其他数据不同。,第六章 方差分析,方差分析 是对两个或多个样本平均数差异学著性检验的方法,是将测量数据的总变异按照变异来源分解为处理效应和试验误差,并做出其数量估计。,分类,单因素方差分析二因素方差分析多因素方差分析,基本步骤,分解F检验多重比较,第六章 方差分析,方差分析 是对两个或多个样本平均数差异性作显著性检验的方法,是将测量数据的总变异按照变异来源分解为处理效应和试验误差,并做出其数量估计。,多重比较,最小显著差数法最小显著极差法,第六章 方差分析,方差分析 是对两个或多个样本平均数差异性作显著性检验的方法,是将测量数据的总变异按照变异来源分解为处理效
3、应和试验误差,并做出其数量估计。,多重比较,最小显著差数法最小显著极差法,基本假定条件,正态性可加性方差同质性,数据缺失,可利用误差平方和最小的原则对其进行弥补,第六章 方差分析,1. 方差分析的基本原理,1. 相关术语,1) 试验因素,试验中所研究的影响试验指标的原因或原因组合称为试验因素(experimental factor)或处理因素(treatment factor),简称因素或因子。按性质不同,可分为可控因素和非控因素。,可控因素(controllable factor),非控因素(uncontrollable factor),试验因素常用大写字母A、B、C等来表示。,第六章 方差
4、分析,1. 方差分析的基本原理,1. 相关术语,2) 因素水平,每个试验因素的不同状态(处理的某种特定状态或数量上的差别)称为因素水平(level of factor),简称水平。,水平常用大写字母添加下标1、2、3等来表示,如A1、A2、A3、 ,B1、 B2、 B3 , C1、 C2、C3 等来表示。,1) 试验因素,第六章 方差分析,1. 方差分析的基本原理,1. 相关术语,2) 因素水平,试验处理(experimental treatment)通常也称为处理(treatment),指对受试对象给予的某种外部干预,是试验实施因子水平的一个组合。,1) 试验因素,3) 试验处理,单因素处理
5、(single factor treatment),多因素处理(multiple factor treatment),4) 试验单位,5) 重复,二因素处理(single factor treatment),2. 方差分析的基本原理,观测值的差异,处理效应,误差效应,方差分析的基本思想就是将测量数据的总变异按照变异原因不同进行分解,分为处理效应和试验误差,并对其进行数量估计。,判定标准?,方差,即均方(mean squares),3. 数学模型,固定模型(fixed model),随机模型(random model),混合模型(mixed model),不同的模型在平方和及自由度的计算上是相同
6、的,但在进行假设检验时,F值的计算公式是不同的,具有不同的侧重点,4. 平方和与自由度的分解,总平方和(total sum of squares,总自由度(total degree of freedom),1) 平方和的分解,2) 自由度的分解,3) 算计方差,5. 统计假设的显著性检验-F检验,处理内方差SSe,也就是饲料内方差可以估计误差方差,处理间方差SSt,饲料间方差,可以估计不同饲料喂养增重的差异。,F检验(F-test),被检验因素的均方,误差均方,6. 多重比较,1) 最小显著差数法(LSD法),2)最小显著极差法(LSR法),为了比较不同处理平均数两两间差异的显著性,每个处理的
7、平均数都要与其他处理的平均数进行比较,统计上把多个平均数两两间的相互比较称为多重比较(multiple comparisons),是Fisher最早用于检验所有总体均数间两两相等假设的方法,其实质是两个平均数相比较的t检验法。,是在一定的显著水平上,根据极差范围内所包含的处理数据(也称为秩次距)M的不同而采用不同的显著差数标准进行比较。其又可分为新复极差检验和q检验。,最小显著差数法(LSD),首先计算出达到差异显著的最小差数,记为LSD;然后与两个处理平均数的差值进行比较;如果处理的平均数差值大于LSD,则认为在给定的显著水平上有显著性差异,反之,则认为没有显著性差异。,多重比较结果表示方法
8、,标记字母法梯形法,标记字母法,首先将全部平均数从大到小依次排列,然后在最大的平均数上标记字母a,将该平均数以下各平均数相比,凡相差不显著的(LSD0.05)都标上字母a,直至某个与之相差显著的则标以字母b。再以标有b的平均数为标准与各个平均数比较,凡差数差异不显著的在字母a后再续标字母b,直至差异显著的平均数标以c,然后重复上述工作,直到最小的平均数有标记为止。凡标有一个相同字母的即为差异不显著。,多重比较结果表示方法,标记字母法梯形法,梯形法,首先将各处理的平均数差数按梯形列于表中,并将这些差数的LSD值比较。若差数LSD0.05说明处理平均数间的差异达到显著水平,在右上角标上“*”;差数
9、 LSD0.01,说明处理平均数间差异达到极显著水平,在差数的右上角标“*”,反之如差数小于LSD说明差异不显著。,利用LSD法进行多重比较的步骤,1) 计算最小显著差数LSD0.05和LSD0.01;2) 列出平均数的多重比较表,表中各处理按其平均数从大到小依次进行排列。3) 将两两平均数的差数与 LSD0.05和LSD0.01 进行比较,作出统计推断。,不足,在差数比较时没有考虑到大小排列上的次序,仍有推断可靠性低,犯I类错误概率增加的问题。,最小显著极差法(LSR法),相对于LSD法,该类方法同时考虑到平均数差数的秩序问题,然后进行不同的显著性标准进行比较,因此比LSD法更为可靠。LSR
10、检验又可分为新复极差检验和q检验,新复极差检验是由邓肯提出的,因此又称Duncan法或SSR法;,q检验法也称为Student-Newman-Keuls法,SNK,新复极差检验,新复极差检验是由邓肯于1955年提出的,又称Duncan法,或SSR法。其比较步骤如下:,1) 按相比较的样本容量计算平均数标准误,当n1=n2=n时,有:,2) 查s2e所具有自由度dfe和比较所含平均数个数M时的SSR值,然后计算最小显著极差:,3) 将各平均数按大小顺序排列,用各个M值的LSRa值即可检验各平均数间差异的显著性。:,对上面的各组平均值作新复极差检验:,查附表获得df=16,M=2时,SSR的值:,
11、查附表获得df=16,M=2时,SSR的值:SSR0.05=3.0, SSR0.01=4.13,则:,当A1与A4比较时,M=2,差值(32.0)31.02且小于42.70,所以两者差异达到显著水平; 当A1与A2比较时,M=3,差值(49.0)44.57,所以差异达到极显著水平; 同理可将本个平均数一一用此方法进行比较和显著性水平判断。,LSR法,LSD法,新复极差检验(new multiple range test)是由邓肯于1955年提出,因此又称Duncan法或SSR(shortest significant ranges)法。,q检验法也称为Student-Newman-Keuls
12、(SNK)检验,是以统计量q的概率分布为基础的,方法与新复极差检验相似,其区别仅在于计算最小显著极差时不是查SSR,而是相q值。,对三种检验方法的比较中发现,当样本数(处理数)k=2时,LSD法、SSR法和q检验的显著尺度是相同的,当k3时三种显著尺度便不相同:LSD法SSR法q法 因此 对于精度要求高的研究-q检验一般试验-SSR检验,方差分析的基本步骤,将样本数据的总平方和与总自由度分解为各变异因素的平方和与自由度; 列方差分析表进行F检验,分析各变异因素在总变异中的重要程度; 若F检验显著,对各处理平均数进行多重比较,第六章 方差分析,2. 单因素方差分析,按重复数分类,单因素试验(si
13、ngle factor experiment)资料的方差分析是比较简单的一种,目的在于正确判断试验因素各水平的相对效果。在单因素方差分析中,根据组内观测数目(重复数)是否相同,可分为组内观测次数相等的方差分析和组内观测资料不等的方差分析,组内观测次数相等的方差分析,组内观测次数不相等的方差分析,一、 组内观测次数相等的方差分析,K组资料中,每一处理组皆含有n个观测值,其方差分析方法前面已做过介绍,此处只给出相关的计算公式:,例:测定东北、内蒙古、河北、安徽、贵州5个地区黄鼬冬季针毛的长度,每个地区随机抽取4个样本,测定的结果列于表中,试比较各地区其针毛长度的差异显著性。,组间有极显著性差异!,
14、哪一组?,计算结果:,多重检验1.: (最小显著差数法),当自由度为15时,可以得到t0.05、t0.01水平的值分别为:2.131, 2.947,多重检验2.: (最小显著极差法 LSR法),1) 按相比较的样本容量计算平均数标准误,2) 根据整体方差的自由度和各个M值,查出所对应的SSR值,然后计算出最小显著极差:,3) 将各平均数按大小顺序排列,用各个M值的LSR值来检查各平均数间差异的显著性。,查表,当df=15,M=2时,SSR0.05和0.01水平的值分别为:3.01,4.17。,多重检验3.: (q法),二、 组内观测次数不相等的方差分析,当每组资料中,每一处理组的观测值个数n不
15、同时,上面所述的方差分析方法仍然可用,只是总观测数要重新计算,不是nk。相对应的,计算平方和的公式也稍有改变。,多重比较-平均数的标准误-平均样本量n0,第六章 方差分析,3. 二因素方差分析,按重复数分类,二因素试验(two factor experiment)方差分析中,需要对因素的主效和因素间的互作进行分析。因素间的交互作用显著与否关系到主效的利用价值,有时互作效应相当大,甚至可以忽略主效应。二因素间是否存在互作可根据专门的统计方法或专业知识进行判断。,无重复观测值的二因素方差分析,具有重复 观测值的二因素方差分析,一、无重复观测值的二因素方差分析,即在试验中,依据经验或专业知识判断二因
16、素无互作时,每个处理可不设重复。假定A因素有a个水平,B因素有b个水平,每个处理组合只有一个观测值。其分组资料模式如下:,在无重复观测值的二因素试验资料中,A因素的每一个水平可看作有b个重复,B因素的每一个水平可看作有a个重复。因此每个观测值既受A因素影响,又受到B因素的影响。,若因素间不存在互作时,则二因素方差分析观测值的线性模型为:,其中, 、 分别是A因素和B因素的效应,可以是固定的,也可以是随机的,且 。 是随机误差,彼此独立且服从 。,(1) 平方和的分解,(2) 自由度的分解,(2) 各项方差的计算,例:将一种生长激素配成M1、M2、M3、M4、M5五种浓度,并用H1、H2、H3三
17、种时间浸渍某大豆种子,出苗45天后得各处理每一植株的平均干物重(g),结果列于下表,试作方差分析并进行多重比较。,(1) 平方和的分解,(2) 自由度的分解,(2) 各项方差的计算,二、具有重复观测值的二因素方差分析,在有重复观测值的二因素试验资料中,其典型设计是,A因素有a个水平,B因素有b个水平,所以每一次重复就包括ab个试验,如果设计重复n次的话,则试验的总观测数为abn。,方差分析的步骤和前面介绍的相类似,唯一不同的是F检验的方法有些区别。,第六章 方差分析,4. 多因素方差分析,1. 误差平方和:,2. 总平方和:,3. 总平方和可分解为:,4. 接下来的自由度计算、分解以及F值的计
18、算和多重检验均与前面所介绍的相同。,第六章 方差分析,5. 方差分析缺失数据的估计,缺失数据可用统计学方法从理论上进行估计,然后用前面介绍过的方法进行方差分析。但是必须明确: 缺失数据估计并不能恢复原来的数据,只能补足后不致于干扰其他数据; 估计数据不能提供任何新的信息。 原则-保证误差平方和最小,一、缺失一个数据的估计方法,假定表中的x23项是缺失的,在运算时,就需要把他补上。我们可以根据误差平方和公式进行估计。,根据误差平方和最小的原则,可以令 ,则可以得到x=42.857.,将估计出的x值数据填写在表中,在进行方差分析时,总了要求总自由度dfT和误差自由度dfe数需要减1外,其他的运算过
19、程仍然按照前面介绍的方法进行。,二、缺失两个数据的估计方法,同样,我们根据误差方平方和公式及误差和最小原则,通过对x和y求偏导数,也可以求到x和y的估计值。但是,应该注意的是:虽然通过缺失值估计可以弥补数据缺失的影响,但是其自由度也同时降低了,这样在进行F检验时,其灵敏度相应会降低,对分析结果不利。,第六章 方差分析,6. 方差分析的基本假定和数据转换,一、基本假定,1. 正态性 (normality),2. 可加性 (additivity),3. 方差同质性 (homogeneity),即实验误差服从正态分布(0, 2),处理效应与误差效应是可加的,并服从方差分析的数学模型。,所有试验的误差
20、方差应具备同质性,即不同处理不能影响随机误差的方差,也称方差齐性。,1. 正态性 (normality),试验误差应当是服从正记分布的独立的随机变量。因为方差分析只能估计随机误差,顺序排列或顺序取样资料不能作方差分析。应用方差分析的资料应服从正态分布,即每一观测值应围绕相应的平均数呈正态分布,非正态分布的资料进行适当数据转换后,亦能进行方差分析,2. 可加性 (additivity),即处理效应与误差效应是可加的,并服从方差分析的数学模型,这样才能将试验的总变异分解为各种原因所引起的变异,以确定各变异在总变异中所占的比例,最终对试验结果作为客观评价。,3. 方差同质性(homogeneity)
21、,所有试验的误差方差应具备同质性,即不同处理不能影响随机误差的方差,也称为方差齐性,即:,二、数据转换,1. 平方根转换,2. 对数转换,3. 反正弦转换,主要针对符合泊松分布的观测数据,一般将原来的数值转换为其开平方,或者原数值加1的开平方。这样可以减少极端大的变量对方差的影响,从而获得方差的同质性。,对于来自总体和上面提到的方差分析基本假定相抵触的数据,在进行方差分析之前必须进行适当的处理,即数据转换,来变更测量标尺。,对于已知资料中的效应是成比例的,而不是可加的,或者标准差与平均数成比例时,可以用对数转换。一般是将原数据转换为对数,使其转换后具有可加性。,如果数据是比例数或以百分率表示的
22、,其分布趋向于二项分布,方差分析时应作反正弦转换,转换后的数值 是以度为单位的,因此也称为角度转换。,平方根转换,有些生物学观测数据为泊松分布而非正态分布,如一定面积上某种杂草株数或昆虫头数等,样本平均数与其方差有比例关系。采用平方根转换可以对方差进行降缩,减少极端大的变量对于方差的影响,从而获得同质的方差。,例1. 平方根转换,燕麦田中某种杂草的株数,资料的平方根,组间的数据相关太大,方差同质性是不成立的,而且即使计算出误差的方差,也无法与各组进行比较。,对数转换,如果已知资料中的效应是成比例的而不是可加的,或者标准差(极差)与平均数成比例时,可以使用对数转换。一般是将原数据转换为对数,从而
23、使方差变与比较一致而且由相乘性变为相加性。如果原始数据包括0,可以采用lg(x+1)转换的方法。通常情况下,对数据换对于削弱大数的作用要比平方根转换强。例如,1、10、100进行平方根转换是1、3.16、10,进行对数转换则为0、1、2.,例2. 对数转换,正比,反正弦转换,如果数据是比例数或以百分率表示的,其分布趋于二项分布,方差分析时应作反正弦转换,转换后的数值是以度为单位的角度,因此也称为角度转换,转换公式为:其中P为百分数资料,为相应的角度值。,例3. 反正弦转换,不同贮藏时间有生活力花粉百分数(%),有生活力花粉百分数的反正弦值,用LSD法做多重比较:,比较结果表明,贮藏4h和6h的花粉生活力均极显著地低于对照,上表右边一列是将各反正弦平均数再转换为百分数,可以看出贮藏2h、4h和6h后,花粉生活力分别比对照降低4.9%、20.1%和34.5%.,无论采用何种数据转换方法,在对转换后的数据进行方差分析时,若经检验差异显著,在进行多重比较时需用转换后的数据进行计算,但在解释分析其最终结果时,应还原为原来的数值。对于一般非连续性的数据最好在方差分析前先检查各处理平均数内均方是否存在相关性,各处理内均方间的变异是否较大。如果存在相关性,或者变异较大,则应考虑对数据作出转换。,