1、第七章 方差分析,7.1 方差分析 7.2 多重比较 7.3 方差齐性分析,7.1 方差分析,7.1.1 问题的提出实际工作中我们经常碰到多个正态总体均值的比较问题,处理这类问题通常采用所谓的方差分析方法。,例7.1.1 在饲料养鸡增肥的研究中,某饲料研究所提出三种饲料配方:A1是以鱼粉为主的饲料,A2是以槐树粉为主的饲料,A3是以苜蓿粉为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:,表7.1.1 鸡饲料试验数据,本例中,我们要比较的是三种饲料对鸡的增肥作用是否相同。为此,我们把饲料称为因子,记为A,而三
2、种不同的配方称为因子A的三个水平,记为A1, A2, A3,使用配方Ai下第 j 只鸡60天后的重量用yij表示,i=1, 2, 3, j=1, 2, 10。我们的目的是比较三种饲料配方下鸡的平均重量是否相等,为此,需要做一些基本假定,把所研究的问题归结为一个统计问题,然后用方差分析的方法进行解决。,7.1.2 单因子方差分析的统计模型,在例7.1.1中我们只考察了一个因子,称其为单因子试验。通常,在单因子试验中,记因子为 A, 设其有r个水平,记为A1, A2, Ar。在每一水平下考察的指标可以看成一个总体 ,因为现共有 r 个水平,故有 r 个总体, 假定:,每一总体均为正态总体,记为 N
3、(i , i 2), i1, 2, r ; 各总体的方差相同: 1 2= 22= r2 = 2 ;(即,具有方差齐次性) 从每一总体中抽取的样本是相互独立的, 即所有的试验结果 yij 都相互独立。,我们要比较各水平下的均值是否相同,即要对如下的一个假设进行检验: H0 :1 =2 =r (7.1.1)备择假设为 H1 :1, 2, , r 不全相等在不会引起误解的情况下, H1 通常可省略不写。如果检验结果为H0成立,因子A的r个水平均值相同,称因子A的r个水平间没有显著差异,简称因子A不显著;反之,当H0不成立时,因子A的r个水平均值不全相同,这时称因子A的不同水平间有显著差异,简称因子A
4、显著。,为对假设(7.1.1)进行检验,需要从每一水平下的总体抽取样本,设从第i个水平下的总体获得mi个试验结果,记 yij 表示第i个总体的第j次重复试验结果。共得如下 个试验结果: yij, i1, 2, r , j1, 2, , mi, 其中r为水平数, mi为第i组的重复数,i为水平编号, j 为重复编号。,一般情况下,在水平Ai下的试验结果yij与该水平下的指标均值 i 一般总是有差距的,记 ij = yiji,ij 称为随机误差。于是有yij = i +ij (7.1.2)(7.1.2)式称为试验结果 yij 的数据结构式。,单因子方差分析的统计模型:(7.1.3)总均值与效应的概
5、念:1)称诸 i 的平均 为总均值(或,一般平均). 2)称第 i 水平下的均值 i 与总均值 的差: ai=i - 为 Ai 的效应。,模型(7.1.3)可以改写为(7.1.8)假设(7.1.1)可改写为H0 :a1 =a2 =ar =0 (7.1.9),第i个总体均值是由总均值与该水平的效应叠加而成的!,各效应之和一定为0!,7.1.3 平方和分解,一、试验数据通常在单因子方差分析中可将试验数据列成如下页表格形式。,表6.1.2中的最后二列的和与平均的含义如下:,表7.1.2 单因子方差分析试验数据,数据之间是有差异的。数据yij与总平均 间的偏差可用yij 表示,它可分解为二个偏差之和(
6、7.1.10)记,二、组内偏差与组间偏差,由于(7.1.11)所以yij - 仅反映组内数据与组内平均的随机误差,称为组内偏差;而(7.1.12)除了反映随机误差外,还反映了第i个水平的效应,称为组间偏差。,在统计学中,把k个数据y1 , y2 , , yk分别对其均值 =(y1+ + yk )/k 的偏差平方和称为k个数据的偏差平方和,它常用来度量若干个数据分散的程度。,三、重要概念:偏差平方和及其自由度,在构成偏差平方和Q的k个偏差y1 , , yk 间有一个恒等式 ,这说明在Q中独立的偏差只有k1个。 在统计学中把平方和中独立偏差个数称为该平方和的自由度,常记为f,如Q的自由度为 fQ=
7、k1。 自由度是偏差平方和的一个重要参数。,各yij间总的差异大小可用总偏差平方和表示,其自由度为fT=n1;,四、总平方和分解公式,仅由随机误差引起的数据间的差异可以用 组内偏差平方和 表示,也称为误差偏差平方和,其自由度为 fe=nr ;,由于组间差异除了随机误差外,还反映了效应间的差异,故由效应不同引起的数据差异可用组间偏差平方和 表示,也称为因子A的偏差平方和(或称为因子A的效应平方和) ,其自由度为 fA=r1;,定理7.1.1 在上述符号下,总平方和ST可以分解为因子平方和SA与误差平方和Se之和,其自由度也有相应分解公式,具体为:ST =SA +Se , fT =fA +fe (
8、7.1.16)(7.1.16)式通常称为总平方和分解式。,偏差平方和Q的大小与自由度有关,为了便于在偏差平方和之间进行比较,统计上引入了均方和的概念,它定义为MS=Q/fQ ,其意为平均每个自由度上有多少平方和,它比较好地度量了一组数据的离散程度。如今要对因子平方和 SA 与误差平方和 Se 之间进行比较,用其均方和 MSA= SA /fA , MSe= Se /fe 进行比较更为合理,故可用 作为检验H0的统计量。,7.1.4 检验方法,定理7.1.2 在单因子方差分析模型 (7.1.8) 及前述符号下, 有(1) Se / 2 2(nr) ,从而E(Se ) (nr) 2 (2) 进一步,
9、若H0成立,则有SA/ 2 2(r1) (3) SA与Se独立。,由定理7.1.2,若H0成立,则检验统计量F服从自由度为fA和fe的F分布,因此拒绝域为D=FF (fA ,fe),通常将上述计算过程列成一张表格,称为方差分析表。,表7.1.3 单因子方差分析表,对给定的,可作如下判断:,若F=F (fA ,fe) ,则说明因子A不显著。该检验的p值也可利用统计软件求出,若 以Y记服从F(fA ,fe)的随机变量,则检验的p 值为 p=P(YF)。,如果 F F (fA ,fe),则认为因子A显著;,常用的各偏差平方和的计算公式如下:(7.1.19)一般可将计算过程列表进行。,例7.1.2 采
10、用例7.1.1的数据,将原始数据减去1000,列表给出计算过程:表7.1.4 例7.1.2的计算表,利用(7.1.19),可算得各偏差平方和为:把上述诸平方和及其自由度填入方差分析表,表7.1.5 例7.1.2的方差分析表,若取=0.05,则F0.05 (2 ,21)=3.47 ,由于F=3.59483.47,故认为因子A(饲料)是显著的,即三种饲料对鸡的增肥作用有明显的差别。,7.1.5 参数估计,在检验结果为显著时,我们可进一步求出总均值 、各主效应ai和误差方差 2的估计。,一、点估计由模型(7.1.8)知诸yij相互独立,且yij N(+ ai , 2) ,因此, 可使用极大似然方法求
11、出一般平均 、各主效应ai和误差方差 2的估计:由极大似然估计的不变性,各水平均值i的极大似然估计 为 ,由于 不是 2的无偏估计,可修偏:,因为 所以 ,故可给出Ai的水平均值i的1- 的置信区间为其中 。,二、置信区间,例7.1.3 继续例7.1.2,此处我们给出诸水平均值的估计。因子A的三个水平均值的估计分别为从点估计来看,水平2(以槐树粉为主的饲料)是最优的。,误差方差的无偏估计为利用(7.1.23)可以给出诸水平均值的置信区间。此处, ,若取0.05 ,则t /2( fe )= t0.05( 21 )=2.0796, ,于是三个水平均值的0.95置信区间分别为,在单因子试验的数据分析
12、中可得到如下三个结果:,因子是否显著;,试验的误差方差 2的估计;,诸水平均值i的点估计与区间估计。,在因子A显著时,通常只需对较优的水平均值作参数估计,在因子A不显著场合,参数估计无需分不同水平进行。,例7.1.4 某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中二种包装各指定两个商店销售,另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表7.1.6左半边,其相应的计算结果列于右侧。,表7.1.6 销售量数据及计算表,由此可求得各类偏
13、差平方和如下 方差分析表如表6.1.7所示 .,若取0.01,查表得F0.01(3,6)=9.78,由于 F=11.229.78,故我们可认为各水平间有显著差异。,表7.1.7 例7.1.4的方差分析表,由于因子显著,我们还可以给出诸水平均值的估计。因子A的四个水平均值的估计分别为由此可见,第四种包装方式效果最好。误差方差的无偏估计为,进一步,利用(6.1.23)也可以给出诸水平均值的置信区间,。此处, ,若取0.05,则t/2( fe )=t0.05(6)=2.4469, ,于是效果较好的第三和第四个水平均值的0.95置信区间分别为,7.2 多重比较,7.2.1 效应差的置信区间如果方差分析
14、的结果因子A显著,则等于说有充分理由认为因子A各水平的效应不全相同,但这并不是说它们中一定没有相同的。就指定的一对水平Ai与Aj,我们可通过求i - j的区间估计来进行比较。,由于 ,故由此给出i - j的置信水平为1-的置信区间为(7.2.1) 其中 是 2的无偏估计。,这里的置信区间与第4章中的两样本的t区间基本一致,区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai, Aj下的观测值。,例7.2.1 继续例7.1.2, ,fe=21,取0.05 ,则t/2( fe )= t0.025(21)=2.0796, 于是可算出各个置信区间为可见第一个区间在0的左边,所以我们可以概率95%
15、断言认为1 小于2,其它二个区间包含0点,虽然从点估计角度看水平均值估计有差别,但这种差异在0.05水平上是不显著的。,7.2.2 多重比较问题对每一组(i, j), (7.2.1) 给出的区间的置信水平都是1 ,但对多个这样的区间,要求其同时成立,其联合置信水平就不再是1 了。,譬如,设E1 , , Ek是k个随机事件,且有 P(Ei)=1,i=1 ,k ,则其同时发生的概率这说明它们同时发生的概率可能比1 小很多。为了使它们同时发生的概率不低于1,一个办法是把每个事件发生的概率提高到1 /k. 这将导致每个置信区间过长,联合置信区间的精度很差,一般人们不采用这种方法。,在方差分析中,如果经
16、过F检验拒绝原假设,表明因子A是显著的,即r个水平对应的水平均值不全相等,此时,我们还需要进一步确认哪些水平均值间是确有差异的,哪些水平均值间无显著差异。同时比较任意两个水平均值间有无明显差异的问题称为多重比较,多重比较即要以显著性水平同时检验如下r(r1)/2个假设:(7.2.2),直观地看,当H0ij成立时, 不应过大,因此,关于假设(7.2.2)的拒绝域应有如下形式诸临界值应在(7.2.2)成立时由P(W)= 确定。下面分重复数相等和不等分别介绍临界值的确定。,7.2.3 重复数相等场合的T法在重复数相等时,由对称性自然可以要求诸cij相等,记为c. 记 ,则由给定条件不难有,于是当 (
17、7.2.2) 成立时,1= r = ,可推出其中 ,称为t化极差统计量,其分布与总体均值和方差均无关!一般由随机模拟方法得到。于是 , 其中q(r, fe)表示q(r, fe)的上 分位数(其值在附表6中给出)。,重复数相同时多重比较可总结如下:对给定的的显著性水平 ,查多重比较的分位数q(r,fe)表,计算 ,比较诸 与c的大小,若则认为水平Ai与水平Aj间有显著差异,反之,则认为水平Ai与水平Aj间无明显差别。这一方法最早由Turkey提出,因此称为T法。,例7.2.2 继续例7.1.2,若取 =0.05,则查表知q0.05(3, 21)=3.57,而 。所以,认为1与2有显著差别,认为1
18、与3无显著差别,认为2与3有显著差别这说明: 1与3之间无显著差别,而它们与2之间都有显著差异。,7.2.4 重复数不等场合的S法,在重复数不等时,若假设 (6.2.2) 成立,则或 从而可以要求 ,在此要求下可推出,可以证明 ,从而 亦即,例7.2.3 在例7.1.4中,我们指出包装方式对食品销量有明显的影响,此处r=4, fe =6, ,若取 =0.05 ,则F0.05(3,6)=4.76。注意到m1= m4=2,m2= m3=3,故,由于这说明A1 , A2 , A3间无显著差异,A1 , A2与A4有显著差异,但 A4与A3 的差异却尚未达到显著水平。综合上述,包装A4销售量最佳。,7
19、.3 方差齐性检验,在进行方差分析时要求r个方差相等,这称为方差齐性。理论研究表明,当正态性假定不满足时对F检验影响较小,即F检验对正态性的偏离具有一定的稳健性,而F检验对方差齐性的偏离较为敏感。所以r个方差的齐性检验就显得十分必要。所谓方差齐性检验是对如下一对假设作出检验:(6.3.1),很多统计学家提出了一些很好的检验方法,这里介绍几个最常用的检验,它们是:,Hartley检验,仅适用于样本量相等的场合;,Bartlett检验,可用于样本量相等或不等 的场合,但是每个样本量不得低于5;,修正的Bartlett检验,在样本量较小或较 大、相等或不等场合均可使用。,7.3.1 Hartley检
20、验,当各水平下试验重复次数相等时,即m1=m2=mr=m,Hartley提出检验方差相等的检验统计量:(7.3.2)其中,si为修正的样本方差。这个统计量的分布无明显的表达式,但在诸方差相等条件下,可通过随机模拟方法获得H分布的分位数,该分布依赖于水平数r 和样本方差的自由度f=m1,因此该分布可记为H (r,f),其分位数表列于附表10上。,直观上看,当H0成立,即诸方差相等(12 =22=r2)时,H的值应接近于1,当H的值较大时,诸方差间的差异就大,H愈大,诸方差间的差异就愈大,这时应拒绝 (7.3.1)中的H0。由此可知,对给定的显著性水平 ,检验H0的拒绝域为D=H H(r, f )
21、 (7.3.3)其中H(r, f )为H分布的上 分位数。,例7.3.1 有四种不同牌号的铁锈防护剂(简称防锈剂),现要比较其防锈能力。数据见表7.3.1。这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析,为此,首先要进行方差齐性检验。,本例中,四个样本方差可由表8.3.1中诸Qi求出,即由此可得统计量H的值在 =0.05时,由附表10查得H0.95(4,9) =6.31,由于H6.31,所以应该保留原假设H0,即认为四个总体方差间无显著差异。 进一步,可在正态性检验通过后进行单因子方差分析(略)。,7.3.2 Bartlett检验,在单因子方差分析中有r个样本,设第i
22、个样本方差为:由于几何平均数总不会超过算术平均数,故有GMSeMSe , 其中 等号成立当且仅当诸si2彼此相等,若诸si2间的差异愈大,则此两个平均值相差也愈大。,由此可见,在比值MSe/GMSe较大时,就意味着诸样本方差差异较大,从而检验(6.3.1)表示的一对假设的拒绝域应是W=ln (MSe/GMSe) d (6.3.4)Bartlett证明了,检验的拒绝域为W=B 2 (r-1) (6.3.8) 其中B的表达式较为复杂! 考虑到这里2分布是近似分布,在诸样本量mi均不小于5时使用上述检验是适当的。,7.3.3 修正的Bartlett检验,针对样本量低于5时不能使用Bartlett检验
23、的缺点,Box提出修正的Bartlett检验统计量(7.3.9)其中B与C同Bartlett检验,且,在原假设H0:12 =22=r2成立下,Box还证明了统计量 的近似分布是F分布F(f1, f2),对给定的显著性水平 ,该检验的拒绝域为(7.3.10)其中f2的值可能不是整数,这时可通过对F分布的分位数表施行内插法得到分位数。,作业: 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05),这里药物是因子,共有5个水平,这是一个单因素方差分析问题。 (1)写出单因素方差分析模型。 (2)试问:所有药物的效果是否都没有差别?(请列出方差分析表) (3)若因子显著,试对模型中的未知参数给出点估计值。 (4)若因子显著,,