1、第5章 SPSS的方差分析,5.1 方差分述析概念,在上节课中我们讨论了如何对一个总体及两个总体的均值进行检验,如我们要确定两种销售方式的效果是否相同,可以对零假设进行检验。但有时销售方式有很多种,这就是多个总体均值是否相等的假设检验问题了,所采用的方法是方差分析。,5.1.1 方差分析的概念,方差分析中的术语,因素与处理(Factor and Treament) 水平(Level) 单元(Cell) 因素的主效应和因素间的交互效应 均值比较 协方差分析,1因素与处理,因素(Factor)是影响因变量变化的客观条件;例如影响农作物产量的因素有气温、降雨量、日照时间等; 处理(Treatment
2、s)是影响因变量变化的人为条件。也可以通称为因素。如研究不同肥料对不同种系农作物产量的影响时农作物的不同种系可称为因素,所施肥料可视为不同的处理。 一般情况下Factors与Treatments在方差分析中可作相同理解。在要求进行方差分析的数据文件中均作为分类变量出现。即它们的值只有有限个取值。即使是气温、降雨量等平常看作是连续变量的,在方差分析中如果作为影响产量的因素进行研究,就应该将其数值用分组定义水平的方法事先变为具有有限个取值的离散变量,2水平,因素的不同等级称作水平。 例如,性别因素在一般情况下只研究两个水平:男、女。 应该特别注意的是在SPSS数据文件中,作为因素出现的变量不能是字
3、符型变量,必须是数值型变量。例如性别变量SEX,定义为数值型,取值为0、1。换句话说,因素变量的值实际上是该变量实际值的代码,代码必须是数值型的。可以定义值标签F、M(或Fema1e、ma1e)来表明0、1两个值的实际含义,以便在打印方差分析结果时使用。使结果更加具有可读性。,3. 单元(Ce11),在方差分析中Cell指各因素的水平之间的每个组合。例如研究问题中的因素有性别Sex,取值为1、2;有年龄,分三个水平1(10岁)、2(11岁)、3( 12岁)。两个变量的组合共可形成六个单元:1,1、1,2、1,3、2,1、2,2、2,3,代表两种性别与三种年龄的六种组合。,4因素的主效应和因素间
4、的交互效应,如果一个因素的效应大小在另一个因素不同水平下明显不同,则称两因素间存在交互作用,表5-1 某公司产品销售方式所对应的销售量,5.1.2 方差分析的基本思想,在表5-1中,要研究不同推销方式的效果,其实就归结为一个检验问题,设为第i(i=1,2,3,4)种推销方式的平均销售量,即检验原假设是否为真。从数值上观察,四个均值都不相等,方式二的销售量明显较大。 从表5-1可以看到,20个数据各不相同,这种差异可能是由以下两方面的原因引起的。一是推销方式的影响,不同的方式会使人们产生不同消费冲动和购买欲望,从而产生不同的购买行动。这种由不同水平造成的差异,称之为系统性差异。,二是随机因素的影
5、响。同一种推销方式在不同的工作日销量也会不同,因为来商店的人群数量不一,经济收入不一,当班服务员态度不一,这种由随机因素造成的差异,我们称之为随机性差异。 两个方面产生的差异用两个方差来计量: 1,变量之间的总体差异,即水平之间的方差。 2,水平内部的方差。注:前者既包括系统性差异,也包括随机性差异;后者仅包括随机性差异。,5.1.3 方差分析的基本假设,(1)各样本的独立性。即各组观察数据,是从相互独立的总体中抽取的。 (2)要求所有观察值都是从正态总体中抽取,且方差相等。在实际应用中能够严格满足这些假定条件的客观现象是很少的,在社会经济现象中更是如此。但一般应近似地符合上述要求。 水平之间
6、的方差(也称为组间方差)与水平内部的方差(也称组内方差)之间的比值是一个服从F分布的统计量 F = 水平间方差 / 水平内方差 = 组间方差 / 组内方差,5.2 SPSS在单因素方差分析中的应用,单因素方差分析也叫一维方差分析,它用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。 1.使用条件 应用方差分析时,数据应当满足以下几个条件:在各个水平之下观察对象是独立随机抽样,即独立性;各个水平的因变量服从正态分布,即正态性;各个水平下的总体具有相同的方差,即方差齐;,2.基本原理 方差分
7、析认为: SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和)如果在总的离差平方和中,组间离差平方和所占比例较大,说明观测变量的变动主要是由因素的不同水平引起的,可以主要由因素的变动来解释,系统性差异给观测变量带来了显著影响;反之,如果组间离差平方和所占比例很小,说明观测变量的变动主要由随机变量因素引起的。,SPSS将自动计算检验统计量和相伴概率P值,若P值小于等于显著性水平,则拒绝原假设,认为因素的不同水平对观测变量产生显著影响;反之,接受零假设,认为因素的不同水平没有对观测变量产生显著影响。 3.多重比较检验问题 多重比较是通过对总体均值之间的配对比较来进一步检验到
8、底哪些均值之间存在差异。,4.各组均值的精细比较 多重比较检验只能分析两两均值之间的差异性,但是有些时候需要比较多个均值之间的差异性。具体操作是将其转化为研究这两组总的均值是否存在显著差异。这种比较是对各均值的某一线性组合结构进行判断,即上述检验可以等价改写为对进行统计推断。这种事先指定均值的线性组合,再对该线性组合进行检验的分析方法就是各组均值的精细比较。显然,可以根据实际问题,提出若干种检验问题。,One-way过程就是单因素简单方差分析过程,它在Analyze菜单中的Compare Means过程组中,用 One-way ANOVA菜单项调用,可以进行单因素方差分析、均值多重比较和相对比
9、较。,One-way ANOVA过程要求因变量属于正态分布总体;如果因变量的分布明显的是非正态,不能使用该过程,而应该使用非参数分析过程;如果几个因变量之间彼此不独立,应该用GLM过程。,5.2.4 实例进阶分析:股票基金的费用比率,1. 实例内容Money杂志报告了股票和债券基金的收益和费用比率。10种中等规模的资本股票基金、10种小额资本股票基金、10种混合型股票基金和10种专项股票基金的费用比率的数据见表5-5所示(单位:)。 (1)请检验这4种类型股票基金之间的平均费用比率的差异性。 (2)混合型股票基金的费用比率是其他三种类型基金费用比率的平均水平吗?,2. 实例操作,Step01:
10、打开或建立数据文件5-2.sav,选择菜单栏中的【Analyze(分析)】 【Compare Means(比较均值)】【One-Way ANOVA(单因素ANOVA)】命令,弹出【One-Way ANOVA(单因素ANOVA)】对话框。 这里“rate”变量表示基金的费用比率;“fund”变量表示基金的类型,其中,“1”表示中等规模的资本股票基金,“2”表示小额资本股票基金,“3”表示混合型股票基金,“4”表示专项股票基金。,Step02:在【候选变量】列表框中选择“rate”变量作为因变量,将其添加至【Dependent List(因变量列表)】列表框中。Step03:在【候选变量】列表框中
11、选择“fund”变量作为水平值,将其添加至【Factor(因子)】列表框中。,Step04:单击【Contrasts】按钮,弹出【One-Way ANOVA:Contrasts(单因素ANOVA:对比)】对话框。勾选【Polynomial(多项式)】复选框,激活【Degree(度)】下拉菜单,默认选择【Linear(线性)】选项,表示要进行均值的精细比较。 接着在【Coefficients(系数)】文本框中依次输入线性多项式的系数“1”、“1”、“3”和“1”,并单击【Add (添加)】按钮确认设置。再单击【Continue】按钮,返回主对话框。,Coefficients:为多项式指定各组均值
12、的系数。因素变量分为几组,输入几个系数,多出的无意义。如果多项式中只包括第一组与第四组的均值的系数,必须把第二个、第三个系数输入为0值。如果只包括第一组与第二组的均值,则只需要输入前两个系数,第三、四个系数可以不输入 。多项式的系数需要由读者自己根据研究的需要输入。,Step05:单击【Post Hoc】按钮,弹出【Post Hoc(两两比较)】对话框。由于这里已计划好对这4组均值进行两两比较,则在其对话框中勾选【LSD】复选框。单击【Continue】按钮,返回主对话框。 LSD(最小显著差异法):用 t检验完成各组均值间的配对比较。对多重比较误差率不进行调整; Step06:单击【Opti
13、ons】按钮,在弹出的对话框中勾选 【Descriptive(描述性)】复选框表示输出描述性统计量,选择此项,会计算并输出:观测量数目、均值、标准差、标准误、最小值、最大值、各组中每个因变量的95置信区间;勾选【Homogeneity-of-variance (方差同质性)】复选框表示输出方差齐性检验表;勾选【Mean plot(均值图)】复选框表示输出各水平的均值折线图。再单击【Continue】按钮,返回主对话框。 Step07:单击【One-Way ANOVA(单因素ANOVA)】对话框中的【OK】按钮,完成操作。,3. 实例结果及分析,(1)描述性统计量表SPSS的结果报告中首先输出了
14、描述性统计量,如表5-6所示。首先,中等规模的资本股票基金的平均费用比率(1.440)最低,而专项股票基金的平均费用比率(2.000)最高,但各类型基金的平均值差距不大。其次,从标准差大小来看,中等规模的资本股票基金(0.3806)最低,而混合型股票基金(0.7379)最高。最后,表5-6还列出了各种类型基金的最大值、最小值及95水平的置信区间。,(2)方差齐性检验表5-7是方差齐性检验结果表。表中显示Levene统计量等于2.086。由于概率P值0.119大于显著性水平0.05,故认为这四种类型基金费用比率的方差是相同的,满足方差分析的前提条件。,(3)单因素方差分析表表5-7为单因素方差分
15、析表。可以看到,费用比率总的离差平方总和为13.320;不同基金的组间离差为1.772;组内离差为11.548;它们的方差比分别为0.591和0.321,相除得F统计量的观测值为1.841,对应的概率P值为0.157。这里显著性水平为0.05,由于P值大于显著性水平0.05,所以接受零假设,认为不同类型基金的费用比率没有显著性差异。,第一栏:方差来源;第二栏:离均差平方和;第三栏:自由度 第四栏:均方差(第二栏与第三栏之比);第五栏:F值(组间均方与组内均方之比);第六栏:F值对应的概率即P值,(4)多重比较检验结果表5-8显示了两两基金之间费用比率均值比较结果。表中的星号表示在显著性水平0.
16、05的条件下,相应的两组均值存在显著性差异。表中第四列Mean Difference表示两两不同基金费用比率差值的均值。第六列是进行t检验的概率P值,可以通过比较P值大小来判断两两基金之间的费用比率是否有显著差异。从结果来看,只有第一种和第四种基金费用比率的概率P值(0.033)小于显著性水平。因此这四种基金中,只有它们之间的费用比率存在显著性差异,其他基金的费用比率之间都没有显著差异。,(5)方差分析的精细比较案例中第二问要比较第三类基金的费用比率和其他基金之间的关系,其实就是要进行均值之间的多项式比较。表5-9首先列出了均值线性组合的系数,其实就是软件操作中第四步输入的数值。,表5-10列
17、出了多项式比较结果。SPSS分别给出了方差齐性和方差不齐性的检验统计量和概率P值。本案例中不管方差齐性还是不齐性,其概率P值都显著大于0.05,这说明了零假设成立,即混合型股票基金的费用比率是其他三种类型基金费用比率的平均水平。,(6)均值折线图 图5-11显示了这四类基金费用比率的均值折线图。从图中明显看到,第四类基金的费用比率均值明显高于其他类型的基金。,5.3 SPSS在多因素方差分析中的应用,5.3.1 多因素方差分析的基本原理 1.方法概述多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。它不仅能够分析多个因素对观测变量的独立影响,更能够分析多个因素的交互
18、作用能否对观测变量产生显著影响。例如,对稻谷产量进行分析时,不仅单纯考虑耕地深度和施肥量都会影响产量,但同时深耕和适当的施肥可能使产量成倍增加,这时,耕地深度和施肥量就可能存在交互作用。,2.基本原理 由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,而且因素其交互作用和一些随机因素都会对变量产生影响。因此观测变量值的波动要受到多个控制变量独立作用、控制变量交互作用及随机因素等三方面的影响。以两个因素为例,可以表示为:其中,Q表示各部分对应的离差平方和。多因素方差分析比较占 的比例,以此推断不同因素以及因素之间的交互作用是否给观测变量带来显著影响。,3.软件使用方法多因素方差分析仍
19、然采用F检验,其零假设是H0:各因素不同水平下观测变量的均值无显著差异。SPSS将自动计算F值,并依据F分布表给出相应的概率P值。我们可以根据相伴概率P值和显著性水平的大小关系来判断各因素的不同水平对观测变量是否产生了显著性影响。,5.3.3 实例图文分析:薪金的区别,1 实例内容假设某一杂志的记者要考察职业为财务管理、计算机程序员和药剂师的男女雇员其每周的薪金之间是否有显著性差异。从每种职业中分别选取了5名男性和5名女性组成样本,并且记录下来样本中每个人的周薪金(单位:美元)。所得数据见表5-11所示。 请你分析职业和性别对薪金有无显著影响。,2 实例操作由于薪金水平的高低和所从事的职业、性
20、别等因素都有关系。因此这里要考虑两个因素水平下的薪金差异问题,即建立双因素的方差分析模型。本案例中,职业和性别是两个影响因素,而每周薪金是因变量。同时,我们也要考虑职业和性别这两个因素之间有无交互作用。具体操作步骤如下。 Step01:打开对话框 打开数据文件5-3.sav,选择菜单栏中的【Analyze(分析)】 【General Linear Model(一般线性模型)】【Univariate(单变量)】命令,弹出【Univariate(单变量)】对话框。这里“wage”变量表示每月薪金;“job”变量表示职业的类型;“sex”变量表示性别。 提示:在使用前,请注意数据是否符合方差分析的前
21、提条件。,Step02:选择观测变量 在候选变量列表框中选择“wage”变量作为因变量,将其添加至 【Dependent Variable(因变量)】列表框中。 Step03:选择因素变量 选择“job”和“sex”变量作为因素变量,将它们添加至【Fixed Factor(s)(固定因子)】列表框中。,Step04:选择多重比较 单击【Post Hoc】按钮,弹出【Post Hoc(两两比较)】对话框。在【Factors(因子)】列表框中选择“job”变量至【Post Hoc Test for(两两比较检验)】列表框,并且勾选【LSD】选项。这里表示要进行职业变量的两两多重比较。再单击【Con
22、tinue】按钮,返回主对话框。,Step05:其他选项选择 单击【Options】按钮,弹出【Options(选项)】对话框。勾选【Descriptive(描述性统计量)】复选框表示输出描述性统计量;勾选【Homogeneity-of-variance(方差同质性检验)】复选框表示输出方差齐性检验表。再单击【Continue】按钮,返回主对话框。 提示:根据数据特点及 实验要求,选择不 同的均值多重比较方法。,Step06:完成操作 最后,单击【OK(确定)】按钮,操作完成。,3. 实例结果及分析 (1)描述性统计分析表表5-12和表5-13是对样本数据的基本描述结果。表5-12列出了各种水
23、平下的样本个数。表5-13列出了不同职业、性别每周薪金的样本均值和标准差。从数值大小比较看,不少职业和性别之间每周薪金差异较大,说明有进一步采用方差分析的必要。,(2)方差齐性检验SPSS的结果报告接着列出了方差齐性检验结果表5-14。由于这里采用的是Levene检验法,故表格首先显示Levene统计量等于0.383。由于概率P值0.856明显大于显著性水平,故认为样本数据的方差是相同的,满足方差分析的前提条件。,(3)双因素方差分析检验表在表5-15中,第一行的Corrected Model是对所用方差分析模型的检验,其原假设为模型中所有的影响因素均无作用,即职业、性别及两者的交互作用等对每
24、周薪金都无显著影响。该检验的P值远小于0.05,因此所用模型有统计学意义,以上所提到的因素中至少有一个是有显著差异的,但具体是哪些则需要阅读后面的分析结果。 第二行是对模型中常数项是否等于0进行的检验,虽然根据概率P值判断它显著不等于零,但它在分析中没有实际意义,忽略即可。 第三、四行分别是对职业、性别的影响效应进行的检验,其零假设分别是:职业或性别对薪金没有显著性差异。但这两行对应的相伴概率P都接近0,显然小于显著性水平0.05。可见,两者分别对薪金有显著性影响。,第五行是对职业和性别的交叉作用进行检验,可见P为0.011,小于显著性水平,表示交互作用对观测变量每周薪金有显著性影响作用。从上面方差分析结果看到,职业、性别及其两者的交互项都直接影响了每周薪金的高低,存在统计学意义下的显著差异。,(4)多重比较检验结果表5-16显示了不同职业之间每周薪金均值比较结果。表中的星号表示在显著性水平0.05的条件下,相应的两组均值存在显著性差异。可以通过比较表中概率P值大小来判断职业之间的薪金水平是否有显著差异。从结果来看,药剂师和其他两个职业的每周薪金存在显著性差异。该职业的平均薪金要明显高于财务管理和计算机程序员职业。,