1、单因素方差分析单因素方差分析方差分析入门单因素方差分析均数两两比较的方法趋势检验小结内容提要前面提到的有关统计推断的方法,如单样本、两样本 t检验等,其所涉及的对象千变万化,但归根结底都可以视为两组间的比较,如果是有一组的总体均数已知,则为单样本 t检验,如果两组都只有样本信息,则为两样本 t检验。但是如果遇到以下情形,该如何处理?方差分析入门案例 对于大学新生的入学成绩,可以通过 t检验来考察男女学生间的入学成绩是否有差异?但要是想知道来自于江苏、浙江、上海、安徽等省份的学生,其入学成绩是否有差异,那么是否可以用6次 t 检验来达成目的?方差分析入门在以上例子中,涉及的问题其实就是在单一 处
2、理因素之下,多个不同水平(多组)之间的连续性观察值的比较 ,目的是通过对多个样本的研究,来推断这些样本是否来 自于同一个总体。那么能否使用两两 t 检验,例如做三组比较,则分别进行三次 t检验来解决此问题呢?这样做在统计上是不妥的。因为统计学的结论都是概率性的,存在犯错误的可能。方差分析入门分析 :用 6次 t 检验来考察 4个省份的大学生新生入学成绩是否相同,对于某一次比较,其犯 I类错误的概率为 ,那么连续进行 6次比较,其犯 I类错误的概率是多少呢?不是 6,而是1-( 1- )6。也就是说,如果检验水准取 0.05,那么连续进行 6次 t 检验,犯 I类错误的概率将上升为 0.2649
3、!这是一个令人震惊的数字!结论 :多个均数比较不宜采用 t 检验作两两比较;而应该采用方差分析!方差分析入门 R.A.Fisher 提出的方差分析的理论基础:将总变异分解为由研究因素所造成的部分和由抽样误差所造成的部分,通过比较来自于不同部分的变异,借助 F分布作出统计推断。后人又将线性模型的思想引入方差分析,为这一方法提供了近乎无穷的发展空间。方差分析入门总变异 随机变异 处理因素导致的变异总变异 组内变异 组间变异SS总 SS组内 SS组间这样,我们就可以采用一定的方法来比较组内变异和组间变异的大小,如果后者远远大于前者,则说明处理因素的确存在,如果两者相差无几,则说明该影响不存在,以上即
4、方差分析的基本思想。方差分析入门方差分析的原假设和备择假设为:H0: 1 2 =kH1: k个总体均数不同或者不全相同k1 k/(k 1)/kBBNWWMS SSFMS SS=,(N )kkBWMS MS其中, 是组间均方, 是组内均方,在原假设成立时,F值应该服从自由度为 -1,N- 的中心F分布。方差分析入门独立性( independence):观察对象是所研究因素的各个水平下的独立随机抽样正态性( normality):每个水平下的应变量应当服从正态分布方差齐性( homoscedascity)各水平下的总体具有相同的方差。但实际上,只要最大 /最小方差小于 3,分析结果都是稳定的应用条
5、件有时原始资料不满足方差分析的要求,除了求助于非参数检验方法外,也可以考虑变量变换。常用的变量变换方法有:对数转换: 用于服从对数正态分布的资料等;平方根转换: 可用于服从 Possion分布的资料等;平方根反正弦转换: 可用于原始资料为率,且取值广泛的资料;其它: 平方变换、倒数变换、 Box Cox变换等。应用条件例 1 在肾缺血再灌注过程的研究中,将 36只雄性大鼠随机等分成三组,分别为正常对照组、肾缺血 60分组和肾缺血 60分再灌注组,测得各个体的 NO数据见数据文件 no.sav,试问各组的 NO平均水平是否相同?单因素方差分析分析:对于单因素方差分析,其资料在 SPSS中的数据结
6、构应当由两列数据构成,其中一列是观察指标的变量值,另一列是用以表示分组变量。实际上,几乎所有的统计分析软件,包括SAS, STATA等,都要求方差分析采 用这种数据输入形式,这一点也暗示了方差分析与线性模型间千丝万缕的联系。单因素方差分析预分析(重要):检验其应用条件单因素方差分析选择 data 中的 split file,出现如下对话框:单因素方差分析单因素方差分析单因素方差分析 这里仅取其中一组结果,表明该资料符合分组正态性的条件。单因素方差分析注意分组检验正态性后,要先回到 data菜单下的 split file ,如下操作取消拆分后才能进行后续的方差分析:单因素方差分析单因素方差分析选
7、入分组变量选入因变量给出各组间样本均数的折线图指定进行方差齐性检验单因素方差分析结果分析单因素方差分析( 1) 方差齐性检验 Levene方法检验统计量为 3.216,其 P值为 0.053,可认为样本所来自的总体满足方差齐性的要求。Test of Homogeneity of Variancesno3.216 2 33 .053Levene Statistic df1 df2 Sig.单因素方差分析 结果分析( 2) 方差分析表第 1列为变异来源,第 2、 3、 4列分别为离均差平方和、自由度、均方,检验统计量 F值为 5.564, P 0.008,组间均数差别统计学意义,可认为各组的 NO
8、不同。ANOVAno46925.950 2 23462.975 5.564 .008139157.6 33 4216.898186083.6 35Between GroupsWithin GroupsTotalSum ofSquares df Mean Square F Sig.变异来源单因素方差分析 结果分析( 3) 各组样本均数折线图Means plots 选项给出,更直观。注意 :当分组变量体现出顺序的趋势时,绘制这种折线图可以提示我们选择正确的趋势分析模型。通过以上分析得到了拒绝H0的结论,但实际上单因素方差分析并不这样简单。在解决实际问题时,往往仍需要回答多个均数间到底是哪些存在差异
9、。虽然结论提示不同组别个体的NO量不同,但研究者并不知道到底是三者之间均有差别,还是某一组与其他两组有差别。这就应当通过两两比较(多重比较)进行考察。均数两两比较方法直接校正检验水准 (相对粗糙)专用的两两比较方法:计划好的多重比较( Planned Comparisons)非计划的多重比较( Post Hoc Comparisons)均数两两比较方法Contrasts按钮 Post Hoc按钮点击单因素方差分析主对话框中的 Post Hoc按钮,总共有 14种两两比较的方法,如下:均数两两比较方法LSD法: 最灵敏 ,会犯假阳性错误;Sidak法:比 LSD法保守;Bonferroni法:比 Sidak法更为保守一些;Scheffe法:多用于进行比较的两组间样本含量不等时;Dunnet法:常用于多个试验组与一个对照组的比较;S-N-K法:寻找同质亚组的方法;Turkey法:最迟钝,要求各组样本含量相同;Duncan法:与 Sidak法类似。均数两两比较方法仍以例 1为例, LSD法的输出格式:均数两两比较方法结果分析仍以例 1为例, SNK法的输出格式:结果分析均数两两比较方法该方法的目的是寻找同质子集,故各组在表格的纵向上,均数按大小排序,然后根据多重比较的结果将所有的组分为若干个子集,子集间有差别,子集内均数无差别。