1、第九章 方差分析在上一章的假设检验中,我们研究了两个总体的均值的差异是否显著的问题。但是如果需要检验两个以上总体的均值是否相等,上一章所介绍的方法就不再适用了。这需要用方差分析的方法来解决。方差分析主要用来检验两个以上正态总体的均值差异的显著程度。方差分析对于比较不同生产工艺或设备条件下产量、质量的差异,分析不同计划方案效果的好坏和比较不同地区、不同人员有关的数量指标差异是否显著时,是非常有用的。9.1单因素方差分析9.1.1 问题的提出例91 某灯泡厂用四种不同的配料方案制成的灯丝,生产了四批灯泡。在每批灯泡中随机抽取若干灯泡测得其使用寿命(单位:小时)数据如表91所示 :表 91灯丝类别
2、灯泡的使用寿命甲 1600 1610 1650 1680 1700 1720 1800乙 1580 1640 1640 1700 1750丙 1460 1550 1600 1640 1660 1740 1620 1820丁 1510 1520 1530 1570 1600 1680要求根据上述试验结果,在显著性水平 下,检验用不同灯丝生产的灯泡使用寿命是否显有著差异。从统计的角度看,就是要检验用四种不同灯丝生产的灯泡使用寿命的均值是否一致。通常,在方差分析中,我们把对试验结果发生影响和起作用的自变量称为因素。如果方差分析研究的是一个因素对于试验结果的影响和作用,就称为单因素方差分析。在本例中,
3、因素就是可能影响使用寿命的灯丝。因素的不同选择方案称之为因素的水平。上例中灯丝有四种不同的选择就说因素有四个水平。方差分析要检验的问题就是当因素选不同的水平时,对结果有无显著的影响。若无显著影响,则随便选择哪一种材料都无所谓。否则就要选择最终产品寿命最长的一种材料。一般地,我们假定所检验的结果受某一因素A 的影响,它可以取m个不同的水平:, , 。在因素A的各个水平 下进行 次试验,结果分别为 ,12miAinini21x,我们把这一组样本记作 ,且假定 ,即对于因素的每一个水平,所得到iX2i,N的结果都服从正态分布,且方差相等。用统计的语言来表达,要检验的假设就是:,:Hm210不是所有的
4、 都相等( ): i12,.i由此可见,方差分析是研究一个或多个可分组的变量(称为自变量)与一个连续变量(因变量)之间的统计关系,并测定自变量在取各种不同水平时对因变量的影响和作用的一种统计分析方法。方差分析通过比较和检验在因素的不同水平下均值之间是否存在显著的统计差异的方法来测定因素的不同水平对因变量的影响和作用的差异。9.1.2 方差分析的基本原理和步骤方差分析的基本思路是一方面确定因素的不同水平下均值之间的方差,把它作为对由所有试验数据所组成的全部总体的方差的一个估计值。另一方面,再考虑在同一水平下不同试验数据对于这一水平的均值的方差。由此,计算出对由所有试验数据所组成的全部数据的总体方
5、差的第二个估计值;最后,比较上述两个估计值。如果这两个方差的估计值比较接近就说明因素的不同水平下的均值间的差异并不大,就接受零假设。否则,就说明因素的不同水平下的均值间的差异比较大,就接受备择假设。根据上述思路我们可以得到方差分析的方法和步骤。1、提出假设即因素的不同水平对试验结果无显著影响,,:Hm20不全相等( ),即因素的不同水平对试验结果有显著影响。1i 1.i2、方差分解我们先定义总离差平方和为各样本观察值与总均值的离差平方和,记作SST= m1inj2jiix其中: 是样本总均值,即 = , 。xm1injijxi21n将总离差平方和分解为两部分:SST= =m1inj2jiixm
6、1inj 2iijii x= +1inj2iiji )(1i 2ix其中: =ixin1jji记 SSE= m1inj2ijii表示同一样本组内,由于随机因素影响所产生的离差平方和,简称为组内平方和。记 SSR= m1i 2ixn表示不同的样本组之间,由于变异因素的不同水平影响所产生的离差平方和,简称为组间平方和。由此可以得到SST=SSR+SSE对应于SST,SSR和SSE的自由度分别为:n-1, m-1, n-n相应的自由度之间的关系也有:n-1=(m-1)+(n-m)3、F检验将SSR和SSE分别除以其自由度,即得各自的均方差:组间均方差 MSR=SSR/(m-1)组内的均方差 MSE=
7、SSE/(n-m)统计上可以证明:E(MSE)= 2E(MSR)= + 1m2ikin由此可见,如果原假设 成立,则 E(MSE)= E(MSR)= ;否,:Hm210 2则E(MSR) 。2根据 F 分布,如果原假设 成立,那么 MSR 和 MSE 均是,:m210的无偏估计,因而 MSR/MSE 就服从自由度为(m-1)和(n-m)的 F 分布。2检验统计量MSERF如上所述,当原假设 成立时,E(MSE)= E(MSR)= 。此时,:Hm210 2MSR 较小,F 值也较小。反之 不成立时,MSR 较大,F 值也较大。对于给定的显著性水平 查 F 分布表得到 。如果 ,则原假设不成立,n
8、,n1,即 m 个组的总体均值之间有显著的差异,就拒绝 。若 ,则原假0Hm,设成立,即 m 个组的总体均值之间没有显著的差异,就接受 。0容易证明,在方差分析中,对所有试验数据 进行线性变换 ,(k 和ijxijxbijb 为常数),用 替代 ,检验统计量 F 的值不变。ijxij4、方差分析表上述方差分析的方法可以用一张标准形式的表格来实现,这种表格称为方差分析表。(见表 92)它将方差分析的计算方法以简洁的形式进行总结。表格分为五列,第一列表示方差的来源,第二列表示方差的离差的平方和,第三列表示自由度,第四列为均方差,第五列为统计检验量 F。表格又分为三行。第一行是组间的方差 SSR 和
9、均方差 MSR,表示因素的不同水平的影响所产生的方差,其值作为计算统计检验量 F 时的分子;第二行是组内方差 SSE 和均方差 MSE,表示随机误差所引起的方差,其值作为计算统计检验量 F的分母,第三行是检验行,表示总的方差 SST。由于方差分析表概括了方差分析的中统计量之间的关系,我们在进行方差分析时就可以直接按照方差分析表来逐行,逐列地计算出有关的统计量,最后得到检验量 F 的值,并把这一 F 值与查表所得到的一定显著性水平下的 F 检验的临界值进行比较,以得出接受或拒绝原假设的结论。表 92 单因素方差分析表方差来源 离差平方和 自由度 均方差 检验统计量 F组间 SSR 1m1mSRM
10、组内 SSE )(nnEMSER总方差 SST 1下面对于本节的例9-1进行方差分析。记X 1,X 2,X 3,X 4分别为四种灯泡的使用寿命,且X iN( i, 2),i=1, 2,3,4。则问题归结为判断原假设H 0: 1=2=3=4是否成立。将例9-1中所有寿命数据都减去 1600(仍记为x ij)后计算可得下表水平 ni in1jj i2n1jij/)(in1j2jx甲 7 560 44800 73400乙 5 310 19220 36100丙 8 290 10512.5 95700丁 6 -190 6016.67 2670026 970 80549.17 231900于是有SST=2
11、31900-9702/26=195712,SSR= 80549.17-9702/26=44560.7,SSE=SST-SSR=151351.3从而得方差分析表如下方差来源 离差平方和 自由度 均方差 检验统计量 F组间 44360.71 3 14786.9组内 151350.83 22 6879.62.15总方差 195711.54 25对显著性水平 =0.05,查表得到 。因为F=2 .153.89,所以在显89.3)12,(F0.5著性水平 =0.05下拒绝H 0,即机器对薄板厚度的影响显著。9.2 双因素方差分析前面所研究的是试验结果仅受一个因素影响的情形。要求检验的是当因素取不同水平时
12、对结果所产生的影响是否显著。但在实践中,某种试验结果往往受到两个或两个以上因素的影响。例如,产品的合格率可能与所用的设备以及操作人员有关,企业的利润可能与市场的潜力、产品的式样和所投入的广告费用有关等等有关。如果我们研究的是两个因素的不同水平对试验结果的影响是否显著的问题就称作双因素方差分析。双因素方差分析中两个因素的影响既可能是相互联系、相互影响的,也可能是相互独立的。因此,在分析的方法和步骤上要比单因素时来得复杂一些。双因素方差分析的基本思想与单因素方差分析基本相同。首先分别计算出总变差、各个因素的变差以及随机误差的变差。其次根据各变差相应的自由度求出均方差,最后计算出F值并作F检验。双因
13、素方差分析根据两个因素相互之间是否有交互影响而分为无交互影响的和有交互影响的两种情形。9.2.1 无交互影响的双因素方差分析在双因素试验中,为了考察两个因素A 、B对试验指标值的影响,取因素A的m个不同水平A 1,A2,Am,取因素B的r个不同水平B 1,B2,Br,在假定两个因素无交互影响的情形,通常采用不重复试验,即对于两个因素每一种水平的组合只进行一次试验,在每种组合(A i,Bj)下各进行一次试验,得到m r个试验指标值xij(i=1,2, ,m,j=1,2, ,r)。双因素方差分析实际上就是要比较因素A的m个水平的均值之间是否存在显著差异,因素B的r个水平的均值之间是否存在显著差异。
14、目的是要检验试验中这两个因素所起的作用有多大,是仅仅一个因素在起作用,还是两个因素起作用或者是两个因素的作用都不显著。表 93 双因素方差分析数据A B B1 B2 BrA1 X11 X12 X1rA2 X21 X22 X2r Am Xm1 Xm2 Xmr记是因素A 在水平下A i下的所有观察值的总和,m1,2ixArjji 是因素B在水平下B j下的所有观察值的总和r,jBm1ij 因素A 在水平下A i的平均值;rxri1jiji因素B在水平下B j的平均值;mBj1ijj是所有观察值的总和,1ir1jjrj1iijiAxT是所有观察值的平均值,m1irjjinTn是所有观测值的总数。r双
15、因素的方差分析问题实际上也是一个假设检验问题。对于无交互影响的双因素方差分析其方法和步骤如下:1、形成假设由于两因素相互独立,因此可以分别对每一个因素进行检验。对于因素A: :因素A的各个水平的影响无显著差异0H:因素A 的各种水平的影响有显著差异1对于因素B: :因素B的各种水平的影响无显著差异0,因素B的各种水平的影响有显著差异12、进行离差平方和的分解k1imj2jixST= 1irj 2jijiji xBAB上式展开式中三个二倍乘积项均为零。我们令m1irj 2jiji xxSE1i2iArr1j2jxBmS于是就有: SST=SSA+SSB+SSESST 的自由度为 ,SSA 和 S
16、SB 的自由度分别为 和 ,而 SSE 的自由度为n1mr( )-( )= =( )( ) 1n1r1rr3、编制方差分析表,进行F检验从方差分解式所得到的SSA、SSB 和SSE 除以各自的自由度,就得到各自相应的均方差,然后与单因素方差分析时一样,我们可以得到无交互影响时双因素方差分析表如下:表 94 双因素无交互影响时的方差分析表方差来源 离差平方和 自由度 均方差 检验统计量 F因素 A SSA 1n1mSAMMSE因素 B SSB rrBB误差 E SSE 1)(m1SE总方差 SST n根据方差分析表计算得到 和 以后,根据问题的显著性水平 ,查表得到AFB。于是我们可以分别检验因
17、素 A和B的影响是否显著。对于因素1rm,FA而言,若 ,我们就拒绝关于因素A的原假设,说明因素AA1r,对结果有显著的影响。否则,就接受原假设,说明因素A对结果没有显著的影响。对于因素B而言,若 ,我们就拒绝关于因素B 的原假设,说明因素BB对结果有显著的影响。否则,就接受原假设,说明因素B对结果没有显著的影响。例 9.3 某商品有五种不同的包装方式(因素 A),在五个不同地区销售(因素 B),现从每个地区随机抽取一个规模相同的超级市场,得到该商品不同包装的销售资料如下表。现欲检验包装方式和销售地区对该商品销售是否有显著性影响。(=0.05)解 若五种包装方式销售的均值相等,则表明不同的包装
18、方式在销售上没有差别。(1)建立假设。对因素 A:H 0:包装方式之间无差别H 1:包装方式之间有差别对因素 B:H 0:地区之间无差别H 1:地区之间有差别包装方式(A)地区(B) A1 A2 A3 A4 A5B1 20 12 20 10 14B2 22 10 20 12 6B3 24 14 18 18 10B4 16 4 8 6 18B5 26 22 16 20 10(2)计算 F 值。由表 8-8 中的数据计算得,因素 A 的列均值分别为:,6.21x,4.2,.163x,2.34,6.15x因素 B 的行均值分别为:,.51x,2,8.3x,.04,8.5x总均值=15.04于是,有:
19、SST=(20-15.04) 2 +(10-15.04)2=880.96SSA=5(21.6-15.04) 2 +5(11.6-15.04)2=335.36SSB=5(15.2-15.04) 2 +5(18.8-15.04)2=199.36SSE=880.96-335.36-199.36=346.24于是有 ,84.3156.MSA,.9.B64.21)5(.34SE因此,8743.6.21FA301.264.89FB(3)统计决策。对于因素 A,因为 ),(0.5.故拒绝 H0,接受 H1,说明不同的包装方式对该商品的销售产生显著的影响。对于因素 B,因为 30.2F)6(4,1.05.3故
20、接受 H0,说明不同地区之间在该商品的销售上没有显著的差异。9.2.2 有交互作用的两因素方差分析前面假定因素A与因素B之间相互独立,不存在相互影响,但有时两个因素会产生交互作用,从而使因素A的某些水平与因素 B的另一些水平相结合时对结果产生更大的影响。对于有交互作用的两因素之间方差分析的步骤几乎与前一种情形一样,不同的是当两因素之间存在交互作用时情形,先要剔除交互作用的影响,因此比较复杂。同时在有交互作用的影响时对于每一种试验条件要进行多次重复试验以便将因素间交互作用的平方和从误差平方和中分离出来。由于重复试验数据量就大大增加了。有交互作用的两因素方差分析的方法和步骤同前面一样,关键是对总离
21、差平方和进行分解时必须考虑两因素的交互作用。设因素A有 个水平,因素 B有 个水平,试验的重复次数记作 。记 为在因素mr nijkxA的第i个水平,因素B的第j个水平下进行第k次试验时的观察值。记 n1,2kr;,j;1,2 n1jijkix为在因素A的第I个水平,因素B 的第j个水平下进行各次重复试验的所有观察值的总和。记n1jijkijij xr1,2jm;, 为在因素A的第I个水平,因素B 的第j个水平下进行各次重复试验的所有观察值的平均值。记r1jijim,2iAnri m1iijjBr,2jni m1irjm1irjijnkjiABxT是所有观察值的平均值,N其中: 是所有观测值的
22、总数。rn利用上面所引入的符号,我们可以得到有交互作用的两因素方差分析的步骤如下:1、提出假设由于两因素有交互影响,因此除了分别检验两因素单独对试验结果的影响外,还需要检验两因素交互作用的影响是否显著。对于因素A: :因素A的各个水平的影响无显著差异,0H:因素A 的各个水平的影响有显著差异。1对于因素B: :因素B的各个水平的影响无显著差异,0,因素B的各个水平的影响有显著差异。1对于因素AB的交互作用: :因素AB的各个水平的交互作用无显著影响,0H:因素AB的各个水平的交互作用有显著影响。12、进行离差平方和的分解有交互作用的两因素方差分析的这时总离差平方和可以分解为四项:m1irjnk
23、2jixST 1irjnk 2jijiijijji xBAxBAB+m1irjnk2ijjixm1irj 2jijin+m1i2ixAnrr1j2jxBn总离差平方和 的自由度为 。STN分别记为因素 A 的离差平方和,自由度为 。m1i2ixnrA 1m为因素B的离差平方和,自由度为 。r1j2jSB r表示随机误差的离差平方和,自由度为m1irjnk2ijjiAxE。rNm1irj 2jiji xBnSAB表示因素间交互作用的离差平方和,自由度为。1rmr1nrN3、编制方差分析表,进行F检验从方差分解式所得到的SSA、SSB 、SSAB和SSE 除以各自的自由度,就得到各自相应的均方差,
24、然后我们对因素A 、因素B和因素AB的交互作用分别作F检验。与前面所讨论的情形一样的,这一过程也可以用表格来表示,就得到无交互影响时双因素方差分析表如下:表95 有交互影响的双因素方差分析表方差来源 离差平方和 自由度 均方差 检验统计量 F因素 A SSA 1m1mSAMMSEA因素 B SSB rrBB交互作用 SSAB 1rm1rmSABMMSEABF误差 E SSE rNNE总方差 SST 1与前面所讨论过的一样,根据方差分析表计算得到 、 和 以后,根据问题的AFB显著性水平 ,查表分别得到 、 和mr)(N1),Fmr)(N1),r。于是我们可以分别检验因素A和B的影响,以及两因素的交mr)(N1),r(F互作用的影响是否显著。对于因素A而言,若 ,我们就拒绝关于因素 A的原假设,r)(),说明因素A对结果有显著的影响。否则,就接受原假设,说明因素A 对结果没有显著的影响。对于因素B而言,若 ,我们就拒绝关于因素B的原假设,说BFN1,r明因素B 对结果有显著的影响。否则,就接受原假设,说明因素B 对结果没有显著的影响。对于两因素的交互作用,若 ,我们就拒绝关于两因素交Amr)(),r(互作用的原假设,说明因素A 和因素B对结果有显著交互影响。否则,就接受原假设,说明两因素对结果没有显著的交互影响。