1、第3章 方差分析,方差分析是两个母体参数假设检验的推广,它是根据来自多个母体的样本,来检验它们所属的母体是否为同一母体的问题。对于抽样所得的数据,一方面由于观测条件不同而引起的试验结果的差异,称为条件误差(或系统误差);另一方面,由于各种偶然因素的干扰对试验结果的影响所产生的差异,称为随机误差(偶然性的)。目的:确定各因素作用的大小,从而把条件误差与随机误差用数量的形式区别开来,以确定在某项试验中有否系统性因素起作用。,3.1 单因素方差分析,一、基本概念 One-Way Analysis of Variance(单因素方差分析,或称一元方差分析)过程用于检验多个独立样本是否来自于具有相同均值
2、的正态总体,相当于检验假设:H0:u1= u2= un= u目的:用于检验两个或两个以上样本均数间差别有无统计意义。,单因素方差分析只分析一个因素对指标影响是否显著,假设在试验中某因素A可能影响试验结果,现在在A的t个不同水平下观测到如下表中的数据。每一水平下的数据叫做同一组数据。当对同一水平Ai下进行ni次试验,由于试验中存在随机误差,其结果可能都不一样。,二、样本均数间差别的原因(变异的来源): 1、总变异:全部试验数据大小不等。用观察值与总均数的离均差平方和sum of squares of deviations from mean表示,记为SS总,或l总; 总的自由度总N1 2、组间变
3、异:各处理组的样本均数大小不一,用各组均数与总均数的离均差平方和表示,记为SS组间或l组间。 组间自由度 组间k-1。MS组间l组间/ 组间 组间变异反映的是处理因素的作用,同时也包括随机误差。 均方:mean square, MS,3、组内变异:各处理组内部观察值大小不等,用各处理组内部每个观察值与组均数的离均差平方各表示,记为l组内。组内(n1-1)+(nk-1)=N-kMS组内l组内/ 组内组内变异反映的观察值的随机误差,如个体差异和随机测量误差。,4、三种变异的关系l总l组间l组内,总N1(k-1)+(N-k)= 组间组内,4、三种变异的关系l总l组间l组内,三、方差分析的基本思想:总
4、变异可分解为组间变异和组内变异两个部分,相应的总自由度也分解为组间自由度和组内自由度。如果各样本均数来自同一总体,即各组之间无差别,则组间变异和组内变异均只反映随机误差,这时若计算组间均方与组内均方的比值,FMS组间/MS组内,应接近1。反之,若各样本均数不是来自同一总体,组间变异较大,F值将明显大于1。要大到多大程度才有统计学意义?,这个程度就是与随机误差而言。即以随机误差进行衡量,若处理组间的变异明显大于组内变异,则不能认为组间的变异仅反映随机误差,也就是说处理因素有作用。R. A. Fisher于20世纪20年代推导出在无效假设成立的情况下,统计量F的分布规律。1934年G. W. Sn
5、edecor以Fisher的名字命名了这一分布,称F分布,故ANOVA又称F检验。F(组间,组内)查表,基本思想:根据资料变异的不同来源,将全部观察值总的离均差平方和和自由度分解为两个或多个部分, 除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数间的变异SS组间,可由处理因素的作用加以解释,通过比较不同变异来源的均方,用F分布作出统计推断,从而了解该因素对观察指标有无影响。,注意: 1、ANOVA与试验设计类型联系在一起,并非任何变异都有适当的分解。 2、数据要求:各次观察独立,即任何两个观察值间均不相关 ;每一水平下的观察值xij分别服从总体均
6、数为ij的正态分布;各总体的方差相等,即方差齐性homogeneity of variance.(任何观察值都是独立地来自具有等方差的正态总体)。,例:设有5块砂岩标本,其胶结物都是碳酸盐,现欲确定此5块标本中的碳酸盐含量是否相等。为此,可将每块标本碎成6份,并测定每份的碳酸盐含量百分比,得到下表数据:,求解步骤: 在本例中因素A的不同水平即为不同的标本,因而t=5,每组的观测次数ni(i=1,2,5)均为6,故总数为30。1、建立检验假设和确定检验水准:H0:5块标本中的碳酸盐含量的总体均数相等, 即 1 2 3 = 4 = 5H1: 5块标本中的碳酸盐含量量的总体均数不全相等0.052、计算检验统计量F值,如下表:,成组设计方差分析计算表,按方差分析表计算得到结果如下:,通过F=10.14 F0.05(4,25) =2.76得知假设不成立,应否定原假设既5块标本碳酸盐含量不相等,有显著性差异。 同时通过显著性概率sig=0.000 4.18。,