1、第5章 方差分析,第5章 方差分析,本章学习目标 理解方差分析的基本思想与原理; 掌握单因素、双因素方差分析实验目的、实验内容和实验步骤; 掌握实验结果的统计分析; 了解方差分析在经济管理数据分析中的应用。,第5章 方差分析,方差分析是通过对各样本观测数据误差来源的分析来检验多个总体均值是否相等或者是否具有显著性差异的方法。方差分析方法在不同领域的各个分析研究中都得到了广泛应用。,第5章 方差分析,方差分析从对观测变量的方差分解入手,认为观测变量取值的变化受两类因素的影响: 控制变量 随机变量,第5章 方差分析,方差分析的基本思想 方差分析的基本假设条件 根据控制变量的个数,可以将方差分析分为
2、:单因素方差分析、多因素方差分析和协方差分析。,实验一 单因素方差分析,实验目的 明确单因素方差分析有关的概念; 理解单因素方差分析的基本思想与原理; 熟练掌握单因素方差分析的方法; 能用SPSS软件进行单因素方差分析; 培养运用单因素方差分析解决实际问题的能力。,实验一 单一样本t检验,准备知识 单因素方差分析定义,单因素方差分析是测试某一个控制变量的不同水平是否给观测变量造成了显著性差异和变动,也称一维方差分析。,单因素方差分析基本原理 方差分析认为,观测变量值的变动会受到控制变量和随机变量两方面的影响,据此,将观测变量总的离差平方和分解为两部分:组内离差平方和与组间离差平方和。,定义观测
3、变量总离差平方和(SST)为: 其中,k为控制变量的水平数:为控制变量第i水平下第j个样本值:为控制变量第i个水平下样本个数:又为观测变量均值。总的离差平方和(SST)反映了全部数据总的误差程度。,定义组间离差平方和(SSA)为: 其中,k为控制变量的水平数;为控制变量第i个水平下样本个数;为控制变量第i水平下观测变量的样本均值,又为观测变量均值。组间离差平方和(SSA)是各水平组均值和总体均值离差的平方和,反映了控制变量的不同水平对观测变量的影响。,定义组内离差平方和(SSE)为: 其中,k为控制变量的水平数;为控制变量第i个水平下样本个数;为控制变量第i水平下观测变量的样本均值。组内离差平
4、方和(SSE)是每个样本数据与本水平组均值离差的平方和,反映了数据抽样误差的大小程度。,于是有:SST=SSA+SSE。可见,在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以由控制变量来解释,控制变量给观测变量带来了显著影响:反之,如果组内离差平方和所占的比例较大,则说明观测变量的变动主要是由随机因素引起的,不可以由控制变量来解释,控制变量没有给观测变量带来显著影响。,单因素方差分析基本步骤,单因素方差分析的原假设Ho:控制变量不同水平下观测变量的均值无显著性差异,即Ho :u1=u2=.=uk (所有总体的均值相等)。,单一样本t检验
5、基本原理和步骤,方差分析采用的检验统计量是F统计量,数学定义为: 其中,n为总样本容量,k-1和n-k分别为SSA和SSE的自由度;MSA是平均组间平方和,MSE为平均组内平方和, 目的是为了消除水平数和样本数对分析带来的影响。这里,FF(k-1,nk)。,单一样本t检验基本原理和步骤,由F的计算公式可以看出,如果控制变量的不同水平对观测变量有显著影响,那么观测变量的组间离差平方和必然大,F值也就越大。反之,如果控制变量的不同水平没有对观测变量造成显著影响,那么,组内离差平方和影响就会必然大,F值就比较小。,单一样本t检验基本原理和步骤,单一样本t检验基本原理和步骤,对给定的显著性水平,与检验
6、统计量相对应的p值进行比较。如果p值小于显著性水平,则拒绝原假设,认为总体均值与检验值之间存在显著差异;反之,如果p值大于显著性水平,则不能拒绝原假设,认为总体均值与检验值之间无显著性差异。,多重比较,当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较检验。 多重比较检验的原假设是,相应两水平下观测变量总体均值不存在显著性差异。 SPSS提供了诸多多重比较检验的方法,包括LSD法、Bonferroni法、Tukey法、Scheffe法、S-N-K法等。,LSD法 LSD法称为最小显著性差异法,水平间的均值只要
7、存在一定程度的微小差异就可能被检出来,LSD法的检验统计量为t统计量,其定义为:其中MSE为观测值的组内方差,它利用了全部观测变量值,而非仅使用某两水平组的数据。t统计量服从自由度为n-k的t分布。,实验一 单因素方差分析,实验内容 单因素方差分析由SPSSl7.0的比较均值过程过程中的单因素ANOVA子过程实现。下面以案例说明单因素方差分析的单因素ANOVA子过程的基本操作步骤。,实验一 单因素方差分析,实验步骤,(1)准备工作在SPSSl7.0中打开数据文件4-1.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口,结果如图。,旅游投资数据文件,(2)选择“分析比较均
8、值单因素ANOVA”命令,打开单因素方差分析对话框,如图所示,(3)在图所示的单因素ANOVA对话框中 ,相关内容介绍如下:因变量列表:用于选择观测变量。 因子:用于选择控制变量。控制变量有几个不同的取值就表示控 制变量有几个水平。 本例在单因素ANOVA对话框左端的变量列表中将变量“旅游投资”添加到右边的因变量列表中,选择“投资来源”变量移入因子框中。,(4)单击“选项”按钮,出现如图所示对话框,该对话框用来对方差分析的前提条件进行检验,方差分析的前提是各个水平下的总体服从方差相等的正态分布,其中对于方差相等的要求比较严格,因此必须对方差齐性进行检验。另外,该对话框还用来指定输出其他相关统计
9、量和对缺失值如何进行处理。,统计量框:用来指定输出相关统计量。描述性:输出观测变量的基本描述统计量,包括样本容量、平均数、标准差、均值的标准误差、最小值、最大值、95的置信区间。固定与随机效应:显示标准离差和误差检验。方差齐性检验:计算分组方差齐性检验的Levene统计量。SPSS的运行结果中就会出现关于方差是否相等的检验结果和伴随概率。,Brown-Forsythe:布朗均值检验,输出分组均值相等的Brown-Forsythe统计量。Welch:维茨均值检验,输出分组均值相等的Welch统计量。均值图:表示输出各水平下观测变量均值的折线图。缺失值选框提供了两种缺失值的处理方法。 按分析排序排
10、除个案:剔除各分析中含有缺失值的个案。 按列表排除个案:剔除含有缺失值的全部个案。,(5)单击“对比”按钮,出现如图所示对话框,该对话框用来实现先验对比检验和趋势检验。,多项式:将组间平方和分解为多项式趋势成分,即进行趋势检验。选中多项式选型,其后的度菜单将被激活,变为可选。度:在下拉菜单中可以设定多项式趋势的形式,可选择线性、 二次多项、三次多项、四次多项)、五次多项式。对比:用来实现先验对比检验。系数:为多项式指定各组均值的系数,因素变量有几组就输入几个系数。系数总计:在大多数程序中系数的总和应该等于0,否则会出现警告信息。,(6)单击“两两比较”按钮,出现如图所示对话框,该对话框用来实现
11、多重比较检验,定方差齐性:适合于各水平方差齐性的情况。在该条件下有14种比较均值的方法可供选择: LSD:最小显著差异法,用t检验完成各组均值之间的两两比较。Bonferroni:修正最不显著差异法,用t检验完成各组均值之间的配对比较。Sidak:Sidak法,根据t统计量进行配对多重比较,调整多重比较的显著性水平。Scheffe:塞弗检验法,对所有可能的组合进行同步进入的配对检验。R-E-G-WF:Ryan-Einot-Gabriel-Welsch F法,根据F检验的多重下降过程。R-E-G-WO:Ryan-Einot-Gabriel-Welsch Q法,根据Student极差的多重下降过程
12、。,S-N-K:Student-Newman-Kenls法,用Student极差分布对所有均值进行配对检验。Tukey:可靠显著差异法,用Student极差统计量对所有组间进行配对比较。Tukeys-b:用Student极差统计量对所有组间进行配对比较。Duncan:修复极差法,使用SNK检验进行逐步配对比较。Hochbergs GT2:使用Student最大模数的多重比较及极差检验。Gabriel:使用Student最大模数的多重比较试验。Waller-Duncan:根据t统计量使用Bayesian过程的多重比较试验。Dunnett:用配对多重比较t检验与一个对照组的均数进行比较。,未假定方
13、差齐性:适合于各水平方差不齐性的情况。选择4种方法:Tamhanes T2:根据t检验的保守配对比较。DunnettsT3:根据Student最大模数的配对比较试验。Games-Howell:Games-Howell法,使用较为灵活。DunnettsC:根据Student极差的配对检验。,Significance level:显著性水平,系统默认值为0.05。本例选择方差齐性栏下的LSD法、Bonferroni法、Scheffe法、S-N-K进行多重比较检验。单击继续按钮,返回单因素方差分析对话框。单击“确定”按钮,SPSS自动完成计算。SPSS结果输出窗口查看器中就会给出所需要的结果。,实验
14、结果,描述性统计分析,实验结果,单个样本检验,实验结果,方差(ANOVA)分析表,多重比较检验,相似子集,观测变量均值的相似子集,实验总结 方差分析一般应满足三个基本假设,即要求各个总体应服从正态分别,各个总体的方差应相同以及观测值是独立的。,2. 单因素方差分析将观测变量总的离差平方和(SST)分解为两部分,组内离差平方(SSE)和与组间离差平方和(SSA),其数学公式为:SST=SSE+SSA。,3. 单因素方差分析的基本分析只能得到控制变量是否对观测变量有显著影响。如果控制变量对观测变量产生了显著性影响,要进一步研究控制变量的不同水平对观测变量的影响程度,则需要进行多重比较检验,实现对各
15、个水平下观测变量总体均值的逐对比较。,实验二 多因素方差分析,实验目的 明确多因素方差分析有关的概念; 理解多因素方差分析的基本思想与原理; 熟练掌握多因素方差分析的方法; 能用SPSS软件进行多因素方差分析; 培养运用多因素方差分析解决身边实际问题的能力。,实验二 多因素方差分析,准备知识 多因素方差分析定义,多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。多因素方差分析不仅能够分析多个控制变量对观测变量的独立影响,还能够分析多个控制变量的交互作用能否对观测变量的结果产生显著影响,进而最终找到有利于观测变量的最优组合。,多因素方差分析基本原理 多因素方差分析中,观测变
16、量取值的变动会受到控制变量独立作用、控制变量交互作用和随机变量三方面的影响,据此,将观测变量总的离差平方和分解为三部分内容:控制独立作用引起的变差,控制变量交互作用引起的变差和随机因素引起的变差。以两个控制变量为例,定义组内离差平方和(SSE)为: 其中,k为控制变量的水平数;为控制变量第i个水平下样本个数;为控制变量第i水平下观测变量的样本均值。组内离差平方和(SSE)是每个样本数据与本水平组均值离差的平方和,反映了数据抽样误差的大小程度。,SSA为: 其中, 为控制变量A第i个水平下和控制变量B第j个水平下的样本观测值个数, 为控制变量A第i个水平下观测变量的样本均值。,SSB为: 其中,
17、 为控制变量B第i个水平下和控制变量A第j个水平下的样本观测值个数, 为控制变量B第i个水平下观测变量的样本均值。,定义观测变量总离差平方和(SST)为: 总的离差平方和(SST)反映了全部数据总的误差程度。设控制变量A有k个水平,变量B有r个水平。,SSE为: 其中, 为控制变量A、B在水平i、j下的观测变量均值。,SSAB为: 其中,I为每个组合重复试验次数,即每个交叉水平下均有1个样本。,可得,多因素方差分析的总变差分解公式为:SST=SSA+SSB+SSAB+SSE 式中,SST为观测变量的总方差,SSA、SSB分别为控制变量A、B独立作用引起的变差,SSAB为控制变量A、B交互作用引
18、起的变差,SSE为随机因素引起的变差。通常,称SSA+SSB为主效应,SSAB为多项交互效应,SSE为剩余部分。,同理,当控制变量为3个时,观测变量的总变差可分解为:SST=SSA+SSB+SSC+SSAB+SSAC+SSBC+SSABC+SSE 可见,在观测变量总离差平方和中,如果SSA所占比例较大,则说明控制变量A是引起观测变量变动的主要因素之一,观测变量的变动可以部分地由控制变量A来解释:反之,如果SSA所占比例较小,则说明控制变量A不是引起观测变量变动的主要因素,观测变量的变动无法由控制变量A来解释。对于SSB和SSAB也相同。,多因素方差分析基本步骤,单因素方差分析的原假设H0:各控
19、制变量不同水平下观测变量各总体的均值无显著性差异,控制变量各效应和交互效应同时为零。,多因素方差分析基本步骤,多因素方差分析采用的检验统计量仍然是F统计量,数学定义为: 以上三个F统计量服从F分布。,多因素方差分析基本步骤,SPSS自动计算出F统计量的观测值,并根据F分布表给出相应的伴随概率p值。,多因素方差分析基本步骤,对给定的显著性水平,依次与各个检验统计量相时应的p值进行比较。如果FA的伴随概率p小于或等于显著性水平,则应拒绝原假设,认为控制变量A不同水平下观测变量各总体的均值存在显著差异,即第一个控制变量A的不同水平对观测变量产生了显著影响;如果的伴随概率p小于或等于显著性水平,则应拒
20、绝原假设,认为控制变量B不同水平下观测变量各总体的均值存在显著差异,即第二个控制变量B的不同水平对观测变量产生了显著影响;如果FAB的伴随概率p小于或等于显著性水平,则应拒绝原假设,第一个控制变量A和第二个控制变量B各个水平的相互作用对观测变量均值产生了显著影响;相反,则认为不同水平对结果没有显著影响。,实验二 多因素方差分析,实验内容 某车间3台机器(用A、B、C表示)生产同一种产品,表5-2-1给出了4名个人操作机器A、B、C生产的产品的产量(数据文件5-3.sav),问机器之间、工人之间在产量上是否存在显著差异。,不同机器不同工人的产量数据,实验二 两独立样本t检验,实验步骤,(1)准备
21、工作。在SPSSl7.0中打开数据文件5-3.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口 。,(2)选择“分析般线性模型单变量”命令,打开“一般线性模型:单变量”对话框 。,(3)在如图所示多变量对话框中,相关内容介绍如下: 因变量列表:用于选择观测变量。固定因子栏:用于指定固定效应的控制变量。随机因素栏:指定随机效应的控制变量。协变量栏:指定作为协变量的变量。WLS权重栏:放入加权变量作最小二乘法(WLS)分析。,本例在单变量对话框左端的变量列表将要检验的变量“产量”添加到右边的因变量中,将变量“机器”和“工人”移入固定因子栏。,(4)单击“模型”按钮,如图所示
22、对话框,该对话框可以选择建立多因素方差模型的种类。相关选项介绍如下: 指定模型。 1.全因子模型:SPSS默认选项,包括所有因素主效应、协变量效应以及因素间的交互效应。 2.设定模型:即建立非饱和模型。点击激活因子与协变量和模型项。,因子与协变量栏:列出源因素,显示固定因素(F)和协变量(C),R表示随机因素指定模型。模型列表:放入自定义模型各因素的构成,模型的选择取决于数据的性质。,构建项:由下拉菜单可以进行选择。 交互效应:SPSS默认选项,建立所有被选变量最高水平的交互效应。 主效应:建立每个被选变量的主效应。 所有二阶交互作用:建立被选变量所有可能的两方向交互效应。 所有三阶交互作用:
23、建立被选变量所有可能的三方向交互效应。 所有四阶交互作用:建立被选变量所有可能的四方向交互效应。 所有五阶交互作用:建立被选变量所有可能的五方向交互效应。,平方和选项:由下拉列表可以选择下列任一类平方和。1.类型:常用于平衡数据方差分析模型,任何一级交互效应之前的主效应,二级交互效应之前的一级交互效应等;多项式回归模型,任何高次项之前的低次项;完全嵌套模型,第二指定效应嵌套的第一指定效应等。 2.类型:常用于平衡数据方差分析模型,任何仅包含主效应的模型,回归模型和完全嵌套设计。,平方和选项:由下拉列表可以选择下列任一类平方和。3.类型:SPSS默认选项,适合于一类、二类平方和适用的所有模型,无
24、缺失值的所有平衡与不平衡数据模型,最为常用。4.类型:适用于一类、二类平方和适用的所有模型,有缺失值的平衡或不平衡数据模型。,在模型中包含截距项:SPSS默认选项。本例选择主效应模型,平方和选项选择类型。然后在“因子与协变量”中将“机器”和“工人”引入模型列表框,如图所示。单击继续按钮,返回单变量对话框。,(5)单击“两两比较检验”按钮,如图所示对话框,该对话框用来实现多重比较检验。相关选项如下: 因子:列出固定因素。 两两比较检验:选择将做两两比较的因素。,假定方差齐性的两两比较方法:在该条件下有14种比较均值的方法可供选择,各种方法的含义与第一节单因素方差分析相同。,未假定方差齐性的两两比
25、较方法:在该条件下有4种方法,各种方法的含义与第一节单因素方差分析相同。 本例选择“机器”变量和“工人”变量添加到“两两比较检验”框中,选择 S-N-K比较检验法。单击“继续”按钮,返回单变量对话框,本例选择“机器”变量和“工人”变量添加到“两两比较检验”框中,选择 S-N-K比较检验法。单击“继续”按钮,返回单变量对话框,(6)单击“确定”按钮,SPSS自动完成计算。SPSS结果输出窗口查看器中就会给出所需要的结果。,实验结果,组间因素,主体间效应的检验,因素“机器”的多重验后检验产量,因素“工人”的多重验后 检验产量,实验总结 多因素方差分析不仅需要分析每个控制变量独立作用对观测变量的影响
26、,还要分析多个控制变量交互作用对观测变量的影响,以及其他随机变量对结果的影响。多因素方差分析将观测变量总的离差平方和(SST)分解为(以两个控制变量为例):控制变量A独立作用引起的离差(SSA),控制变量B独立作用引起的离差(SSB),控制变量A,B交互作用引起的离差(SSAB)和随机因素引起的离差(SSE)。其数学公式又SST=SSA+SSB+SSAB+SSE。,实验总结 多因素方差分析只能得到多个控制变量的不同水平是否对观测变量有显著影响。如异要进一步研究究竟是哪个组(或哪些组)和其他组有显著的差别,则需要再对各个样本间进行多重比较检验。,实验三 协方差分析,实验目的 明确协方差分析有关的
27、概念; 理解协方差分析的基本思想与原理; 熟练掌握协方差分析的方法; 能用SPSS软件进行协方差分析; 培养运用协方差分析解决身边实际问题的能力。,知识准备 协方差分析定义,协方差分析,是将回归分析同方差分析结合起来,以消除混杂因素的影响,对试验数据进行分析的一种分析方法。协方差分析一般研究比较一个或者几个因素在不同水平上的差异,但观测量同时还受到另一个难以控制的协变量的影响,在分析中剔除其影响,再分析各因素对观测变量的影响。,知识准备 协方差分析基本原理,协方差分析中,在分析观测变量变差时,考虑了协变量的影响,认为观测变量的变动受控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素
28、的作用四个方面的影响,并在扣除协变量的影响后,再分析控制变量对观测变量的影响。以单因素协方差分析为例,总的离差平方和表示为SST=SSA+SSC+SSE式中,SST为观测变量的总方差,SSA为控制变量A独立作用引起的变差,SSC为协变量C作用引起的变差,SSE为随机因素引起的变差。,知识准备 协方差分析基本步骤,协方差分析的原假设H0:协变量对观测变量的线性影响不显著;在协变量影响扣除的条件下,控制变量各水平下的观测变量的总体均值无显著性差异,控制变量各水平对观测变量的效应同时为零。,协方差分析基本步骤,协方差分析采用的检验统计量仍然是F统计量,它们是各均方与 随机因素引起的均方之比。显而易见
29、,如果相对于随机因素引起的变差,协变量带来的变差比例较大,即F值较大,则说明协变量是引起观测变量变动的主要因素之一,观测变量的变动可以部分地由协变量来线性解释;反之,如果相对于随机因素引起的变差,协变量带来的变差比例比较小,即F值较小,则说明协变量没有给观测变量带来显著的线性影响。在排除了协变量线性影响之后,控制变量对观测变量的影响分析与方差分析一样。,知识准备 协方差分析基本步骤,首先求出每对观测值的差值,得到差值序列;然后对差值求平均值;最后检验差值序列的均值,即平均差是否与0有显著差异。 可以看出,配对样本t检验是间接通过单样本t检验实现的,即最终转化成对差值序列总体均值是否显著为0的检
30、验。这里所采用的检验统计量与单样本t检验中的统计量完全相同,也采用t统计量,该统计量服从自由度为n-1的t分布。,知识准备 协方差分析基本步骤,SPSS将自动计算t统计量的观测值,并根据t分布表给出相应的伴随概率p值。,知识准备 协方差分析基本步骤,给出显著性水平,检验判断。对给定的显著性水平,依次与各个F检验统计量相对应的p值进行比较。如果控制变量计算的F统计量值所对应的伴随概率p小于等于显著性水平,则控制变量的不同水平对观测变量产生显著影响;如果协变量计算的F统计量值所对应的伴随概率p小于等于显著性水平,则协变量的不同水平对观测变量产生显著影响。,实验三 协方差分析,实验内容 某学校实施新
31、政策以改善部分年轻教师的生活水平。政策实施后开始对年轻教师待遇的改善进行调查,调查结果如数据5-6.sav所示。用实施新政策后的工资来反映生活水平的提高,要求剔除实施新政策前的工资差异,试分析教师的级别和该新政策对年轻教师工资的提高是否有显著影响 。,实验表格,实验三 协方差分析,实验步骤,(1)准备工作。在SPSSl7.0中打开数据文件5-6.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口,(2) 选择“分析一般线性模型单变量”命令,打开其对话框 ,如图所示。,(3)在如图所示的“单变量”对话框中,相应的选框与上一节的多因素方差分析相同。本例在“单变量”对话框左端的
32、源变量中的“现工资”添加到右边的“因变量”中,将“教师级别”和“政策实施”移入“固定因子”栏,将“原工资”放入“协变量”框中。,(4)多因素交互作用判断。单击“绘制”按钮,弹出“轮廊图”对话框。选择“教师级别”并单击按钮进入“水平轴(H)”编辑框,选择“政策因素”并单击按钮进入“单图(S)”编辑框,然后单击“添加”按钮,设置进入“图(T)”框 。,(5)单击“选项”按钮,在“选项”对话框的“输出”一栏选择“方差齐次检验”,并单击“继续”按钮返回。,(6) “一般线性模型”对话框中的其他按钮“模型”、“对比”、“保存”对应的对话框与多因素分析一样。本例这些选项选择SPSS默认项。,(7)单击“确
33、定”按钮,SPSS自动完成计算。SPSS结果输出窗口查看器中就会给出所需要的结果。,实验结果,误差方差等同性的 Levene 检验,主体间效应的检验,参数估计,两因素交互折线图,实验总结 协方差分析将一些很难可知的随机变量作为协变量,在分析中将其排除,然后再分析控制变量对观测变量的影响,从而实现对控制变量的准确评价。,实验总结 协方差分析将观测变量总的离差平方和(SST)分解为(以两个控制变量为例):控制变量A独立作用引起的离差(SSA),控制变量交互作用引起的离差,协变量作用引起的离差(SSC)和随机因素引起的离差(SSE),其数学公式为:SST=SSA+SSC+SSE。,实验总结 协方差分析要求协变量一般应该是定距变量,多个协变量之间互相独立,且与控制变量之间也没有交互作用。,Thank You !,