1、第六章 方差分析,6.1 方差分析概述,问题1:分析不同施肥量是否给农作物产量带来显著影响;考察地区差异是否会影响妇女的生育率;研究学历对工资收入的影响等。 问题2:在制定某商品广告宣传策略时,不同组合方案所获得的广告效果是不一样的。广告效果可能受到广告形式、地区规模、选择的栏目播放时段、播放频率等因素的影响。人们需要研究在影响广告效果的众多因素中,哪些因素是主要的,它们是如何产生影响的,哪些因素的搭配是最合理的,等等。,2,3,方差分析的基本概念,观测因素(观测变量):如农作物产量、妇女生育率、工资收入、广告效果。 控制因素(控制变量):如广告问题中的广告形式、地区规模、选择的栏目播放时段、
2、播放频率等。 水平:控制变量的不同类别成为控制变量的不同水平。如广告形式中的电视广告、广播广告、网络广告等。 注:通常观测变量为定距以上的变量、控制变量为定类或定序的变量。,当控制变量的水平k超过2个时,已经不适宜采用两独立样本的T检验,究其原因,此时要进行k(k-2)/2次测验比较,不仅工作量大,而且精确度降低。因此对多个总体均值的假设检验,需要采用方差分析法。方差分析(Analysis of Variance ,ANOVA)是由英国统计学家R.A.Fisher于1923年提出的。,4,方差分析的基本思想,方差分析的目的:从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响
3、的变量,对观测变量有显著影响的各个控制变量其不同水平及各个水平的交互搭配是如何影响观测变量的。 方差分析认为,观测变量受两类因素的影响:一类是控制因素,另一类是随机因素,这里的随机因素是指那些认为很难控制的因素,主要值试验过程中的抽样误差。,5,如果观测变量的取值在某控制变量的各个水平中出现了明显波动,则认为该控制变量是影响观测变量的主要因素。反之,如果观测变量的取值在某个控制变量的各个水平中没有出现明显波动,则认为该控制变量没有对观测变量产生重要影响,其数据的波动是抽样误差造成的。,6,7,总结方差分析的基本思想:导致观测变量值变化的原因有两类,一是控制因素,二是随机因素。若观测变量值在某个
4、控制变量的各个水平中出现了明显波动,则认为该控制变量是影响观测变量的主要因素。反之,则认为其数据的波动是抽样误差造成的。判断波动的方法是考察控制变量各水平下观测变量总体的分布是否出现了显著差异。,方差分析的三个基本假设: 各样本应相互独立 观测变量的k个水平下的k个总体应服从正态分布 观测变量的k个水平下的k总体的方差应相等注:在实际应用中能够严格满足这些假定条件的客观现象是很少的,但一般应近似地符合上述要求。,8,如何判断控制变量的不同水平上观测变量值是否产生明显波动呢?方差分析是通过推断控制变量各水平下观测变量的总体分布是否有显著差异来实现。在基本假设2,3下,方差分析对各总体分布是否有显
5、著差异转换成对各总体均值是否存在显著差异的推断。 因此:方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的总体均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。,9,6.2 单因素方差分析,概念:仅研究一个控制变量的不同水平是否对观测变量产生了显著影响。方差分解:将观测变量总的离差平方和分解为组间离差平方和组内离差平方和,即SST(总)=SSA(组间)+SSE(组内) SSA:主要是由控制变量的不同水平造成的变差 SSE:主要是由抽样误差引起的变差,10,这里:设控制水平有k个,第i个水平下有 个样本。,
6、11,显见:在观测变量的总离差平和中,如果组间离差平方所占的比例较大,则说明观测变量的主要变动是由控制变量引起的;反之,观测变量值的变动是由随机变量引起的。因此,单因素方差分析是通过比较观测变量总离差平方所占的比例,推断控制变量是否给观测变量带来了显著影响。,12,13,单因素方差分析的数学模型,假设:控制水平A有k个水平,每个水平有r个样本,在水平 下的第j次试验的样本值记为 。 数学模型:其中 为观测变量的均值, 为观测变量在水平 下的期望值, 是控制变量在水平 下的对观测变 量产生的效应, 为抽样误差,是服从正态分布 的独立随机变量。,注:这是一个线性模型。其中, 的无偏估计 的无偏估计
7、是 , 的无偏估计是 如果控制变量A对观测变量没有影响,则各水平的所有效应 应全部为0,否则应不全为0。单因素方差分析正是对控制变量的所有效应是否同时为0进行推断。,14,模型的零假设:检验的统计量:,15,应用举例,例:某企业在制定某商品的广告策略时,对不同广告形式在不同地区的广告效果(销售额)进行了评估。利用单因素方差分析分别对广告形式、地区对销售额的影响进行分析。,16,17,18,两两比较,对比,方差齐性检验等,19,齐方差性检验:对控制变量不同水平下各观测变量总体方差是否相等进行分析。其零假设:各水平下观测变量总体方差无显著差异。,当不能把握方差齐性假设时,这两个统计量比F检验更稳健
8、。,注:该图可以辅助对平均数的趋势做出判断。,20,21,6.2 单因素方差分析的进一步分析,多重比较检验先验对比检验趋势分析,22,多重对比检验,原因: 当方差分析得出的结论是控制变量各水平之间有显著差异时,并不能断言两两之间都有显著差异。为找出哪两个水平之间差异显著,有必要进行两两水平间均值的比较,以具体判断两两水平间均值差异的显著性。 此类问题如果采用两独立样本t检验解决,这样的比较无疑需要进行很多次 ,必然会使犯弃真错误的概率明显增大,此时为 。,23,多重比较检验:利用全部观测变量值,同时避免弃真错误概率的增大,实现对各个水平下观察变量总体均值的逐对比较。其零假设:相应水平下观测变量
9、的均值间不存在显著差异。,24,25,注:Tukey和S-N-K的方法要求各水平的观测值个数相等。 方差齐性检验不通过时,Tamhene是常用方法。 方差齐性检验通过时,LSD是常用方法。,由此法得出:报纸、广播、体验的宣传效果是优于宣传品的,报纸是优于体验的。,26,由此法得出:报纸、广播、体验的宣传效果是优于宣传品的。,27,由此法得出:报纸、广播、体验的宣传效果是优于宣传品的。,28,29,先验对比检验,先验对比检验:事先指定各均值的系数,再对其线性组合进行检验的分析方法。通过该检验能够更精确地掌握各水平间或个相似性子集间均值的差异程度。其零假设:作用:用于精确定义某些组间均值的比较。,
10、30,注:一般按照分组变量顺序给出每个水平值一个系数,但所有系数之和为零。,因此,广播和体验的方式下,两者销售额的平均值不等于报纸的销售额。,31,趋势检验,趋势检验:当控制变量为定序变量时,该检验能够分析随着控制变量水平的变化,观测变量值得总体趋势是怎样的,是呈现线性变化趋势,还是呈二次、三次等多项式变化。其零假设:观测变量与控制变量间不是线性(或二次、三次,四次,五次)相关。,32,33,注:如果假定不同地区的差异主要表现在人口密度上,地区编号越小的人口密度越大,那么可以进一步利用该检验分析销售额总体上是否会随着地区人口密度的减少而呈现某种趋势性的变化规律呢?,34,35,没有勾选趋势检验
11、,勾选了趋势检验,注:趋势检验时将观测变量的组间变差做进一步的细分,分解为可被地区线性解释的变差(其值为543.938),以及不可被地区线性趋势解释的变差(其值为8721.367)。其中,可被地区线性解释的变差实质是,观测变量(销售额)以控制变量(地区)为解释变量的一元线性回归分析中的回归平方和部分,体现解释变量对被解释变量的线性贡献程度。本例中,显著性水平小于0.05,故认为地区和销售额之间具备线性相关,但从折线图中看出,线性关系比较微弱。,36,37,6.2 多因素方差分析,概念:用来研究两个及两个以上控制变量是否对观测变量产生显著影响。不仅能够分析多个因素对观测变量的独立影响,更能够分析
12、多个控制因素的交互作用能否对观测变量的分布产生的影响,进而最终找到有利于观测变量的最优组合。 例如:不同广告形式对产品销售额有显著影响,不同地区的产品销售额也存在显著差异,进一步可以通过多因素方差分析研究不同广告形式和不同地区的搭配是否会对销售额产生影响,以及哪种搭配方式可获得最理想的销售业绩等。,方差分解: 多因素方差分析认为观测变量取值的变动会受到三方面影响 控制变量独立作用:指单个控制变量独立作用对观测变量的影响。 控制变量交互作用:指多个控制变量不同水平相互搭配后对观测变量产生的影响。 随机因素:抽样误差带来的影响。,38,以两个控制变量为例,基于上述思想,多因素方差分析将观测变量的总
13、方差分解为: SST(总变差)=SSA(A因素变差)+SSB(B因素变差)+SSAB(A,B交互作用变差)+SSE(随机因素变差) 其中:SSA+SSB+SSAB为主效应SSAB为交互效应SSE为剩余,39,这里:设控制变量A有k个水平,变量B有r个水平。,40,A、B交互作用解释的变差为SSAB=SSTSSASSBSSE显见:与单因素方差分析思想类似,通过分别比较观测变量总离差平方和中各部分所占比例,推断控制变量及控制变量的交互作用是否给观测变量带来显著影响。,41,多因素方差分析的数学模型,假设:控制变量A有k个水平,B有r个水平,每个交叉水平下均有l个样本。在控制变量A的水平 和控制变量
14、B的水平 下的第k个样本值记为 。 数学模型:其中 为观测变量的均值, 是控制变量A在水平i下对观测变量产生的效应,是控制变量B在水平j下对观测变量产生的效应,,42,为控制变量A在水平i和控制变量B在水平j下对观测变量产生的交互效应,为抽样误差,是服从 正态分布的独立随机变量。,43,注:这是一个多因素方差分析的饱和模型,是一个线性模型。其中 的无偏估计是 , 的无偏估计是 , 的无偏估计是 ,的无偏估计是 。 如果控制变量A(或B)对观测变量没有影响,则各水平的效应 (或 )应全部为0,否则应不全为0。同理,如果控制变量A和B对观测变量没有交互影响,则各水平的效应 应全部为0,否则应不全为
15、0。多因素方差分析正是要分别对控制变量A、B及交互作用的所有效应是否同时为0进行推断。,44,模型的零假设:即各控制变量不同水平下观测变量各总体的均值无显著差异,换言之,控制变量的各效应和交互效应同时为0。,45,固定效应、随机效应、协变量,在多因素方差分析中,因素变量根据其可控性可以进一步划分为固定效应和随机效应。 固定效应:指控制变量的各个水平是可以严格控制的,它们给观测变量带来的影响是固定的,如温度、品种、广告类型等。 随机效应:指控制变量的各个水平无法做严格的控制,它们给观测变量带来的影响是随机的,如城市规模、受教育水平、气候条件等。,46,注:一个因素变量无论是固定效应还是随机效应,
16、它们有一个共同的特点,就是它们都是离散型的分类变量,即它们都可以根据自身的不同水平把观测变量分为有限的类别。 协变量:无法控制其水平的连续性变量在方差分析中称为协变量,例如居民收入。 协方差分析:将那些很难人为控制的连续型因素作为协变量单独抽取出来,分析其对观测变量带来的影响。,47,检验的统计量,固定效应模型中,各F检验的统计量,48,随机效应模型中,各F检验的统计量注: 统计量同固定效应模型。 注:以上所有检验的统计量都是服从F分布,自由度可以由分子、分母获得。,49,注:在随机效应模型中,应先对A、B的交互作用是否显著进行推断,然后再分别依次对A、B的效应进行检验。,50,应用举例,利用某企业对不同广告形式在不同地区的广告效果(销售额)的数据,分析广告形式、地区、广告形式和地区的交互作用给销售额带来的影响,进而为制定广告和地区的最优组合方案提供依据。,51,52,如此,建立了一个最简单的固定效应的饱和模型。,53,54,55,56,57,58,59,