1、第十章 利用SPSS进行方差分析,第一节 单因素方差分析,一、方差分析 1、方差分析(analysis of variance,ANOVA)的菜单 One-Way过程:单因素简单方差分析过程。在Compare Means菜单项中,可以进行单因素方差分析、均值多重比较和相对比较 General Linear Model(简称GLM)过程:GLM过程由Analyze菜单直接调用。这些过程可以完成简单的多因素方差分析和协方差分析,不但可以分析各因素的主效应,还可以分析各因素间的交互效应,General Linear Model菜单项有四项: Univariate:提供回归分析和一个因变量和一个或几个
2、因素变量的方差分析。 Multivariate:可进行多因变量的多因素分析 Repeated Measure:可进行重复测量方差分析 Variance Component:可进行方差成分分析。通过计算方差估计值,可以帮助我们分析如何减小方差。,2、方差分析的基本原理,总变异= 组内变异 + 组间变异 总变异= 随机变异 + 处理因素导致的变异 方差分析就是采用一定方法来比较组内变异(随机变异)和组间变异(处理因素导致的变异)的大小,如果组间变异远远大于组内变异,就说明处理因素的影响存在;如果组间变异与组内变异相差无几,就说明处理因素的影响不存在,即差异是由于随机因素造成的,这是方差分析的核心概
3、念,3、方差分析中几个常用术语,(1)、试验指标(experimental index) 为 衡 量 试 验结果的好坏或处理效应的高低 ,在试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同 ,选择的试验指标也不相同。 在畜禽 、水产试验中常用的试验指标有 :日增重 、产仔数 、产奶量 、产蛋率、瘦肉率、某些生理生化和体型指标(如血糖含量、体高、体重)等。在田间试验中常用田间量、千柆重、干重、鲜重、叶绿素含量、土壤重金属含量、营养物质含量等作为试验指标,(2)、试验因素(experimental factor),试验中所研究的影响试验指标的因素叫试验因素。 如研究如何提高猪的日增重
4、时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对日增重有影响,均可作为试验因素 如研究田间产量时,不同施肥量、肥料品种、施肥方法、种植方法、土壤类型、土壤肥力等均可作为试验因素,(2)、试验因素(experimental factor),当试验中考察的因素只有一个时,称为单因素试验; 若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用大写字母A、B、C、等表示。,(3)、因素水平(level of factor),试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。 如比较3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平;
5、 如研究某种饲料中4种不同能量水平对肥育猪瘦肉率的影响,这4种特定的能量水平就是饲料能量这一试验因素的4个水平。,如研究8种不同量的某种肥料或不同肥料类型对作物产量的影响,这8种特定量的肥料或不同肥料类型就是这一试验因素的8个水平因素水平用代表该因素的字母加添足标1,2, , 来表示。如 A1 、 A2 、 , B1 、B2、,等。,(4)、试验处理(treatment),事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。 在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。 例如进行饲料的比较试验时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。 所以进行
6、单因素试验时,试验因素的一个水平就是一个处理。,在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。例如进行3种饲料和3个品种对猪日增重影响的两因素试验,整个试验共有33=9个水平组合,实施在试验单位(试验猪)上的具体项目就是某品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。,(5)、试验单位(experimental unit),在试验中能接受不同试验处理的独立的试验载体叫试验单位。 在畜禽、水产试验中, 一只家禽、 一头家畜、一只小白鼠、一尾鱼,即一个动物;或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单位。 在田间试验中,不
7、同试验小区 试验单位往往也是观测数据的单位。,(6)、重复(repetition),在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。 如用某种饲料喂4头猪,就说这个处理(饲料)有4次重复。 如在5个试验小区施用相同数量的同种肥料,则重复数为5次,二、单因素方差分析过程,1、概述 单因素方差分析也称有一维方差分析(one-way ANOVA, completely random design ANOVA),是对单因素多水平均值进行比较。 检验由单一因素各水平影响的一个(或几个相互独立的)变量的均值之间的差异是否有统计意义。 进行两两组
8、间均值的比较,称作组间均值的多重比较, 对该因素的若干水平分组中哪些组均值不具有显著性差异进行分析,即一致性检验,分析变量属于正态分布总体,若分析变量的分布明显的是非正态,应该用非参数分析过程 如果几个因变量之间彼此不独立,应该用GLM过程 对被观测对象的实验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用Repeated Measure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析,2、One-Way ANOVA过程要求,3、对话框介绍,Analyze-Compare Means-One-Way ANOVA的顺序打开One-Way ANOVA主对话框(如下图)
9、,Contrasts对话框,该对话框有两个用途:对平均数的变动趋势进行趋势检验和定义根据研究目的需要进行的某些精确两两比较(较少用),Post Hoc对话框,用于选择进行各组间两两比较的方法,即多重比较的方法(如下图),Equal Variance Assumed复选框,LSD (Least-signification difference):最小显著性差异法,T检验的变形,敏感度最高,各个水平间的均值存在微小的差异也有可能被检验出来,但在比较时对I型错误、即弃真错误的概率不进行控制和调整 Sidak:根据t统计量进行配对多重比较,调整多重比较的显著性水平,其界限比Bonferroni方法小
10、S-N-K:即Student Newman Keuls法,是运用最广泛的一种两两比较方法,控制了I型错误。,Bonferroni:由LSD法修正而来,敏感度介于LSD法和Scheffe法之间,通过设置每个检验的误差率来控制第一类错误的概率 Sidak:从T检验修正而来,和Bonferroni法非常相似,但比Bonferroni法保守 R-E-G-W-F:Ryan-Einot-Gabrief-Welsch F法,根据F统计量检验的Ryan-Einot-Welsch多重比较 R-E-G-W-Q:Ryan-Einot-Gabrief-Welsch Q法,根据Student极差统计量的Ryan-Ein
11、ot-Welsch多重比较,Tukey:即Tuleys honestly significant difference法(Tukeys HSD),采用Student-Range统计数进行所有组间平均数的两两比较,但与S-N-K法不同的是控制的是所有比较中最大的一类错误概率值不超过显著性水平 Tukeys-b:Tukey b方法,用Student-Range分布进行组间均值的配对比较,其精确值为Tukey和S-N-K检验相应值的平均值 Scheffe:当各组观察值不等时,用此法较为稳妥。它检验的是各个平均数的线性组合,Dunnett:将所有的处理组平均数分别与指定对照组平均数进行比较,并控制所有
12、比较中最大的一类错误概率值不超过显著性水平。(激活Control Catetory栏,该栏展开下拉菜单选择对照组,其中可选最后一个和第一个分类,并在Test选项组中设定单双侧检验的选择,2-Side:双侧检验;Control:对照分类; Hochbergs GT2:用正态最大系数进行多重比较 Gabriel:用正态标准系统进行配对比较 Duncan:指定一系列的Range值逐步进行计算比较得出结论 Waller-Duncan:用t统计量进行多重比较检验,使用贝叶斯过程的多重比较试验,Options对话框,用于定义检验统计量、检验和缺失值的处理方式等设置,如下图,4、例题分析,用4种饲料喂猪,共
13、19头猪分为四组,每组用一种饲料。一段时间后称重。猪体重增加数据如下。比较四种饲料对猪体重增加的作用有无不同。,试验指标:猪体重增加量;试验因素:饲料品种;因素水平:4种饲料,4、例题分析,(1)、操作步骤 本例数据保存为不同饲料对猪体重的影响.sav,其中1、2、3和4分别代表A、B、C和D四种饲料 Analyze-Compare Means-One-Way ANOVA的顺序打开One-Way ANOVA主对话框,打开不同饲料对猪体重的影响.sav数据文件,并将猪体重增加量选入Dependent List框;将不同饲料选入Factor框 单击Contrasts按钮, 勾选Polynomial
14、复选框,在Degree框中选择5次方曲线,再单击Continue按钮返回主对话框,单击Post Hoc按钮,在Equal Variance Assumed复选框勾选LSD和Scheffe等,再单击Continue按钮返回主对话框 单击Options 按钮,在statistics复选框勾选所有选项,再选中means plots框,最后单击Continue按钮返回主对话框 单击OK按钮,得到分析结果,(2)、结果分析,此表格为基本描述统计量,有观测值个数、平均值、标准差、标准误、95%的置信区间、最大值、最小值及固定效应模型的标准差、标准误和95%置信区间;随机效应模型的标准误、 95%置信区间及
15、方差成分间的估计值,此表为方差同质性Levene检验,检验的概率为0.9950.05,故方差是同质的,故可以进行单因素方差分析,此表格为单因素方差分析表,表中第1列为名称 第2列表示偏差平方和,其中组间偏差平方和为20538.698,组内偏差平方和为652.16,总偏差平方和为21190.858;此外给出了几种模型图的组间偏差平方和,第3列表示的自由度,组间自由度为3,组内自由度为15,总自由度是18,还给出了几种模型图的自由度 第4列表示的均方,分别是6846.233和43.477,还给出了几种模型图的均方 第5列是统计量F值,F统计量的观测值为157.467,还给出了几种模型图的F统计量的
16、观测值 第6列为相应概率,从数据来看,不同饲料对猪体重的增重量有显著性影响,且A、B、C、D四种饲料的均值呈直线模式,此表格为Brown-Forsythe统计量和Welch统计量的方差检验,从表中第2列和第5列的数值来看,用4种饲料来喂猪,使猪体重的增重量有显著性影响,此表格为多种比较表,从表中数值来看,用A、B、C、D4种饲料喂猪,而猪体重的增重量间有显著性差异,此表格为Scheffe检验的多重比较分析结果,从表中可以看出,用A、B、C、D4种饲料喂猪,猪体重的增重量之间有显著性差异,此图为用4种饲料喂猪后猪体重的增重量的均值连线,从图中可以看出,用4种饲料喂猪后猪体重的增重量的均值呈线型关
17、系,例2 21名要求持续镇痛的病人被随机分到四组,接受同剂量的吗啡,6小时后测量血中游离吗啡水平,问四组之间有无差别?,例3 某社区随机抽取糖尿病患者、IGT异常和正常人共30人进行载蛋白测定,结果如下,问3种人的载蛋白有无差别?,5、例题,(1) 少儿身高1(2) Cars(3) 类固醇(4) 10章_数据1(5) titin.sav,第二节 多因素方差分析,一、多因素方差分析 1、多因素方差分析概述 是对两个或两个因素是否对观察变量产生显著性影响进行方差分析。 多因素方差分析不仅能够分析多个因素对观测变量的影响,还能分析多个因素的交互作用能否对观测变量的分布产生影响,进而最终找到利于观测变
18、量的最优组合,(1)、多因素方差分析的基本思想,总变异= 组内变异 + 组间变异 总变异= 随机变异 + 处理因素导致的变异 组间变异=不同因素间的变异+不同因素相互作用导致的变异 如两因素方差分析总变异=随机变异+A因素变异+B因素变异+AB变异SST=SSA+SSB+SSAB+SS edfT=dfA+dfB+dfAB+dfe 多因素方差分析也是采用一定方法来比较两个或多个样本均值间是否存在显著性差异,从而得出结论,(2) 多因素方差分析模型,用X ijk表示任意一个测量数据。下标的意义分别为: i(i=1,c)为A因素的水平数;j(j=1,r)为B因素的水平数;k(k=1,n)为A,B因素
19、不同水平组合下受试对象的序号。,(2)、多因素方差分析菜单,SPSS通过General Linear Model菜单来实现多因素方差分析。 General Linear Model菜单共有4个菜单,即 Univariate:提供回归分析和一个或几个因素变量对一个观测变量进行方差分析。 Multivariate:进行多因变量的多因素分析 Repeated Measure:可进行重复观测量方差分析 Variance Component:可进行方差成分分析。通过计算方差估计值,可以帮助我们分析如何减小方差。,二、多因素方差分析过程,1、对话框简介 Analyze - General Linear M
20、odel - Univariate的顺序打开Univariate主对话框(如下图),Model对话框,该对话框用于选择因素相互作用模型,Contrasts对话框,Controst下拉菜单按钮: None:不进行均值比较 Deviation:差别对照,比较每一水平的平均效应和总平均效应 Simple:简单对照,每个水平与指定水平的平均效应比较,可选择第一组或最后一组作为参考水平 Difference:差分对照,每个水平与前面各水平的平均效应的比较 Helmert: Helmert对照,每个水平与随后的各水平的平均效应的比较 Repeated:重复对照,每个水平与随后的一个水平的比较 Polyno
21、mial:多项式对照,比较线性效应、二次效应、三次效应等。常用于预测多项式趋势,Plots对话框,该对话框可以绘制一个或多个因素变量为参考的因变量均数分布图,当只有一个因素水平时,为因变量估计边缘均数的线图;在两个以上因素水平时,绘制分离线,Factors列表框显示因素的变量名,将该列表框中的因素变量移动到右侧的不同列表框中,再单击Add按钮,所选因素变量就出现在Plots列表框中,Horizontal Axis:横坐标 Separate Lines:分离线 Separate Plots:分离图,Post Hoc Multiple Comparision对话框,用于选择进行各组间两两比较的方法
22、,即多重比较的方法(如下图)。当Factor列表框中选择变量到Post Hoc Test for列表框中,就可以选择了,Save对话框,用于给出预测值残差和检测值作为新的变量的保守选项,Options对话框,Descriptive statistics:输出描述统计量 ,显示所有单元格中因变量的观测均数、标准差和例数 Estimates of effect size:效应大小的估计。计算每个效应的估计及参数估计、标准误和置信区间 Observed power:观察效能。给出计算功效的显著性水平Alpha值,该值在0.01-0.99。显示观测功效系统,默认显著性水平为0.05 Parameter
23、 estimates:参数估计。给出各因变量与自变量的回归 Homogeneity tests:方差齐性检验,Spread vs. level plot:散布对水平图。可绘制观测值与残差的散点图 Residual plot:绘制残差图 Lack of fit:拟合度不足的检验。检查独立变量和非独立变量间的关系是否被充分描述 General estimable function:广义估计函数。可以根据一般估计函数自定义假设检验对比系数矩阵的行与一般估计函数是线性组合的。,2、例题分析,3台机器 (A、B、C表示)生产同一种产品,下表给出4名工人操作机器A、B和C生产产品的产量,问机器之间、工人之
24、间在产量上是否存在显著性差异?,试验指标:产品的产量;试验因素:机器、工人;因素水平:3台机器、4名工人,(1)、操作步骤 本例数据保存为产量.sav。 General Linear Model - Univariate的顺序打开Univariate主对话框,打开产量.sav数据文件,并将产量选入Dependent Variable框;将工人和机器变量选入Fixed Factor框 单击Model按钮, 选择Custom选项,在Buil Term下拉菜单中选择Main effects,然后在Factor and Covariates中将工人、机器引入Model列表框, Sum of squar
25、es下拉菜单中选择Type III, 勾选Include Intercept in mode框,再单击Continue按钮返回主对话框,Contrasts对话框选择默认 Plots对话框选择默认 Save对话框选择默认 Options对话框选择默认 单击Post Hoc按钮,在Univariate: Post Hoc Multiple Comparisions Observed Means对话框的Factor列表框中选择变量工人和机器,移动到Post Hoc Tests for列表框,并且在Equal Variances Assumed中选择S-N-K、LSD和Scheffe选项,再单击Con
26、tinue按钮返回主对话框 单击OK按钮,得到分析结果,(2)、结果分析,此表格为各因素的水平数,分组变量工人有4个水平,每个水平有3例;分组变量机器有3个水平,每个水平有4例,此表为组间效应检验结果。从表中可以看出,因素机器的检验统计量F的观测值为29.102,检验的概率为0.0010.05,故认为机器之间存在显著性差异,即各机器间的产量不全相等;因素工人的检验统计量F的观测值为6.985,检验的概率为0.0220.05,故认为工人之间存在显著性差异,即工人间的产量不全等,此表格为工人因素多重检验结果(LSD法)。从第二行分析结果来看,工人1与工人4之间无显著性差异;从第三行来看,工人2与工
27、人3之间无显著性差异,其它工人间都有显著性差异,此表格为工人因素多重检验结果(S-N-K法)。从第三列分析结果来看,工人2、工人3与工人4在同一个格子里,即它们平均数之间无显著性差异;从第四列来看,工人1与工人4在同一个格子时,即它们平均数之间无显著性差异,而工人1与工人2、工人3不在同一个格子里,即它们平均数之间有显著性差异,此表格为机器因素多重验结果(LSD法)。从第二行分析结果来看,机器A与机器C之间无显著性差异;从第三行来看,机器B与机器C之间有显著性差异,机器B与机器A之间有显著性差异,,此表格为机器因素多重检验结果(S-N-K法)。从第三列分析结果来看,机器A与机器C在同一个格子里
28、,即它们平均数之间无显著性差异;从第四列来看,机器B在一个格子、但与机器A和机器C不在同一个格子里,即它们平均数之间有显著性差异,3、例题2,外敷浓度1%普鲁卡因缩短第一产程试验的数据如下表。试分析产程(h)与药物及年龄的关系,试验指标:产程;试验因素:药物、年龄;因素水平:是否用药、20岁或25-30岁,(1)、操作步骤 本例数据保存为产量.sav。 General Linear Model - Univariate的顺序打开Univariate主对话框,打开产程.sav数据文件,并将产量选入Dependent Variable框;将用药和年龄变量选入Fixed Factor框 单击Mode
29、l按钮, 选择Custom选项,在Buil Term下拉菜单中选择Interaction,然后在Factor and Covariates中将用药、年龄引入Model列表框, Sum of squares下拉菜单中选择Type III, 勾选Include Intercept in mode框,再单击Continue按钮返回主对话框,Contrasts对话框选择默认 Plots对话框选择默认 Save对话框选择默认 Options对话框选择默认 单击Post Hoc按钮,在Univariate: Post Hoc Multiple Comparisions Observed Means对话框的
30、Factor列表框中选择变量用药和年龄,移动到Post Hoc Tests for列表框,并且在Equal Variances Assumed中选择S-N-K、LSD和Scheffe选项,再单击Continue按钮返回主对话框 单击OK按钮,得到分析结果,(2)、结果分析,此表格为各因素的水平数,分组变量处理分组有2个水平,每个水平有24例;分组变量年龄有2个水平,每个水平有24例,此表为描述统计量。从表中可以看出,是否用药、年龄及总体对产程的影响的平均数、标准差和观测值个数;,此表为方差齐性检验,从表中可以看出方差是齐性的,此表为组间效应检验结果。从表中可以看出,处理分组的检验统计量F的观测
31、值为63.636,检验的概率为0.0000.05,故认为年龄之间不存在显著性差异,即年龄对产程影响不大,3、例题3,外对小白鼠喂以A、B、C三种不同的营养素了解不同营养素的增重效果。24只小白鼠分为3组,来自8窝,每窝3只。3周后测量体重。问3种不同营养素喂养后所增体重有无差别?,试验指标:体重增加最;试验因素:窝别、营养素;因素水平:8窝、3种营养素,5、例题,(1) twoway.sav(2) xiyin.sav(3) pkc.sav(4) pkc1.sav(5) oc.sav,三、协方差分析,1、协方差分析的基本思想 协方差分析有二个意义 , 一是对试验进行统计控制,二是对协方差组分进行
32、估计,现分述如下。 为了提高试验的精确性和准确性 ,对处理以外的一切条件都需要采取有效措施严加控制,使它们在各处理间尽量一致,这叫试验控制。但在有些情况下,即使作出很大努力也难以使试验控制达到预期目的。,例如:研究几种配合饲料对猪的增重效果,希望试验仔猪的初始重相同,因为仔猪的初始重不同,将影响到猪的增重。 经研发现:增重与初始重之间存在线性回归关系。但是,在实际试验中很难满足试验仔猪初始重相同这一要求。 这时可利用仔猪的初始重(记为x)与其增重(记为y)的回归关系, 将仔猪增重都矫正为初始重相同时的增重,于是初始重不同对仔猪增重的影响就消除了。由于矫正后的增重是应用统计方法将初始重控制一致而
33、得到的,故叫统计控制。统计控制是试验控制的一种辅助手段。,经过这种矫正,试验误差将减小,对试验处理效应估计更为准确。若 y 的变异主要由x的不同造成(处理没有显著效应),则各矫正后的y间将没有显著差异(但原y间的差异可能是显著的)。若 y的变异除掉x不同的影响外, 尚存在不同处理的显著效应,则可期望各y间将有显著差异 (但原y间差异可能是不显著的)。此外,矫正后的y和原y的大小次序也常不一致。所以, 处理平均数的回归矫正和矫正平均数的显著性检验,能够提高试验的准确性和精确性,从而更真实地反映试验实际。这种将回归分析与方差分析结合在一起,对试验数据进行分析的方法,叫做协方差分析(analysis of covariance)。,二、估计协方差组分在第八章曾介绍过表示两个相关变量线性相关性质与程度的相关系数的计算公式:若将公式右端的分子分母同除以自由度(n-1),得(10-1),