1、第10章 方差分析与试验设计,10.1 方差分析引论 10.2 单因素方差分析10.3 方差分析中的多重比较10.4 双因素方差分析10.5 试验设计初步,10.1 方差分析引论,10.1.1 方差分析及其有关术语10.1.2 方差分析的基本思想和原理10.1.3 方差分析中的基本假定10.1.4 问题的一般提法,10.1.1 方差分析及其有关术语,(1)检验多个总体均值是否相等(2)研究定性的自变量(条件)对数值型因变量(结果)的影响 (3)有单因素方差分析和双因素方差分析 单因素方差分析:涉及一个分类的自变量(条件) 双因素方差分析:涉及两个分类的自变量(条件),例 10.1,为了对几个行
2、业的服务质量进行评价,消费者协会在四个行业分别抽取了23家不同的企业作为样本. 得最近一年中消费者对企业投诉的次数如下表.,表 101 消费者对四个行业的投诉次数,续,(1)分析四个行业之间的服务质量是否有显著差异,也就 是要判断不同“行业”的“投诉次数”是否有显著差异.可归结为 检验这四个行业被投诉次数的均值是否相等.(2)如果它们的均值相等,就意味着它们之间的服务质量 没有显著差异;如果均值不全相等,则表示它们之间的服务质 量有显著差异.,几个基本概念,1.对投诉次数是否有影响的那些(可以控制的)条件称为因素.2.为了考察一个因素的影响,一般把他严格控制在几个不同的状态或等级上,把因素的每
3、一个状态或等级称为一个水平.3.只考察一个因素的方差分析,称为单因素方差分析.4.同时考察两个或两个以上因素的方差分析,称为多因 素方差分析.5.假定各水平的数据是来自正态分布总体的随机样本,各水平的样本互相独立,且方差相等.,二.方差分析的基本思想和原理,.两类误差及两类方差,(1)每个水平为一个总体(2)每个水平的一组观察值为总体的一个随机样本,同一 水平下样本观察值之间的差异称为随机误差, 用组内方差来表示.(3)不同水平下样本观察值之间的差异可能是由于不同水 平引起的,这种误差称为系统误差,但也包含随机误差.不同水平样本观察值之间差异用组间方差来表示,即组间方差包括随机误差,也包括系统
4、误差.,2.方差的比较,(1)如果不同水平对试验结果没有不同影响,那么组间方 差中只包括随机误差.这时,组间方差与组内方差应该相近,组间方差与组内方差之比接近 1 .(2)如果不同水平对试验结果有不同影响,那么组间方差 除了随机误差之外还包括系统误差.这时,组间方差就会大于组内方差,组间方差与组内方差之比就会大于 1 .(3)方差分析就是通过这种方差的比较,作出判断.,三.方差分析中的基本假定,(1)每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布 总体的简单随机样本.(2) 各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的(3) 样本是独立的即每个行业
5、的样本是独立抽取的,三.方差分析中的基本假定,(1)每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本.(2)各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的(3)样本是独立的即每个行业的样本是独立抽取的,四.问题的一般提法,(1)要检验k个水平(总体)的均值是否相等,需要提出如下假设:,不全相等,对例10.1,设 为零售业被投诉次数的均值, 为旅游业被投诉次数的均值, 为航空公司被投诉次数的均值, 为家电制造业被投诉次数的均值,则提出的假设为,不全相等,10.2 单因素方差分析 (one-way analysis of variance
6、),一.数据结构二.分析步骤三.关系强度的测量四.用Excel进行方差分析,一.数据结构,表10-2 单因素方差分析的数据结构,二.分析步骤,(一)提出假设,对于 k 个水平的单因素方差分析,原假设和备择假设为,不全相等,(二)构造检验的统计量,1.水平的样本均值:设第 I 水平有 个观察值,则第 i 个水平的样本均值,2.样本的总均值,其中,(10.1),(10.2),消费者对四个行业的投诉次数及均值,表103,3.计算误差平方和,(1)总误差平方和(sum of squares for total),用 SST 表示总误差平均和,反映全部数据的离散情况,即,(10.3),例10.1的总误差
7、平方和为,(2) 水平项误差平方和(sum of squares for factor A),用 SSA 表示水平项误差平方和,反映各水平样本数据之间的异差程度,即,对于例 10.1 有,(10.4),(3) 误差项平方和(sum of squares for error),续,三个平方和的关系,续(三个平方和的关系),4. 计算统计量,(1)各个误差平方和的大小与数据的多少有关,各个误差平 方和的平均称为平均平方,也称均方或方差,用 MS 表示.(2)平均平方是离差平方和除以相应的自由度(3)三个平方和的自由度分别为SST 的自由度为 n1SSA 的自由度为 kSSE 的自由度为,续(计算统
8、计量),续(计算统计量),对于例 10.1,求得,(三) 统计决策,续(统计决策),图10-4 统计量F的抽样分布,F(k-1,n-k),0,F,(四)方差分析表(analysis of variance table),前面这些计算结果可以列成表格的形式,称为方差分析表.,表104 方差分析表,例10.1的方差分析表,表105,三. 关系强度的测量,拒绝原假设则表明因素(自变量)与观测值之间有关系,而 组间平方和(SSA)则度量了自变量(行业)对因变量(投诉次数)的 影响大小.因此变量间关系的强度用用自变量平方和(SSA)总平 方和(SST)的比例大小来反映,其平方根 R 就可以用来测量两 个
9、变量之间的关系强度 .,(10.10),对于例10.1,得,四. 用Excel进行单因素方差分析,第1步:选择【工具】下拉菜单 第2步:选择【数据分析】选项 第3步:在数据分析工具中选择【单因素方差分析】,然后选 择【确定】 第4步:当对话框出现时在【输入区域】方框内键入数据单元格区域在【】方框内键入0.05(也可根据需要确定)在【输出区域】中选择输出位置,表10-6,用Excel进行方差分析的步骤,表10-7,Excel输出的方差分析结果,10.3 方差分析中的多重比较,当方差分析拒绝 ,从而接受 时,认为各水平均值不全相等.多重比较 (multiple comparison procedu
10、res) 是通过对各均值之间的配对比较来进一步检验到底那些均值之间有显著差异.多重比较的方法有多种,这里介绍最小显著差异法.,最小显著差异法(LSD),多重比较的步骤,LSD 方法,例10.1的LSD方法,例 10.1 的多重比较表(LSD 法),表中差值右上角标 者表示相应的,10.4 双因素方差分析,一、双因素方差分析及其类型,(1)同时分析两个因素(因素A 和因素B)对试验结果的影响.(2)分别对两个因素进行检验,考察各自的作用.(3)如果因素A和因素B对试验结果的影响是相互独立的, 则可以分别考察各自的影响,这种双因素方差分析称为无交互 作用的双因素方差分析.(4)如果因素A和因素B
11、除了各自对试验结果的影响外,还 产生额外的新影响,这种额外的影响称为交互作用,这时的双因素方差分析则称为有交互作用的双因素方差分析.(5)无交互作用的双因素方差分析,相当于对每个因素分别进行单因素方差分析.,例10.3,表10-8 不同品牌的彩电在各地区的销售量数据,有四个品牌的彩电在五个地区销售为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据. 试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05),二、无交互作用的双因素方差分析,(一) 数据结构,双因素方差分析的基本假定(1)每个水平组合的观察值,是来自正态总体的简单随
12、机样 本.(2)各正态总体的方差都相等.(3)各随机样本相互独立.,表109,双因素方差分析数据结构,各水平样本均值与样本总均值,(二) 分析步骤,1.提出假设,2.构造检验统计量,(1) 计算误差平方和,续(计算误差平方和),续(计算均方),续(计算均方),构造检验统计量,3. 统计决策,方差分析表,表1010 双因素方差分析表,例 10.4,用Excel进行双因素方差分析,第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在数据分析工具中选择【无重复双因素方差分 析】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据单元格区域在【】方框内键入0.05(也可根
13、据需要确定)在【输出选项】中选择输出区域,用Excel进行双因素方差分析的步骤,表10-11,Excel输出的方差分析结果,统计决策,(三)关系强度的测量,把A (行)因素的平方和SSR 和B(列)因素的平方和SSC加在 一起,与总平方和的比值定义为R2,即,(10-25),对于例10.4,得,三、有交互作用的双因素方差分析,例10.5 城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响,让一名交通警察分别在两个路段和高峰期与非高峰期亲自驾车进行试验,通过试验取得共获得20个行车时间(分钟)的数据如下. 试分析路段、时段以及路段和时段的交互作用对行车时间的影响.,表10-14
14、不同时段和不同路段的行车时间 单位:分钟,各水平样本均值与样本总均值,续,计算误差平方和,续,SSRC 代表交互作用平方和,表1015,有交互作用的双因素方差分析表,用Excel进行有交互作用的双因素方差分析,第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在数据分析工具中选择【可重复双因素方差分 析】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据单元格区域在【】方框内键入 0.05(也可根据需要确定)在【每一样本的行数】方框内键入 5在【输出区域】中选择输出位置,表10-16,用Excel进行双因素方差分析的步骤,表10-17,Excel输出的方差分析结
15、果,10.5 试验设计初步,一、完全随机化设计二、随机化区组设计三、因子设计,一、完全随机化设计,完全随机化设计(completely randomized design)是指因素的水平或水平组合采用随机方法安排到试验单元的一种试验 设计.“处理”是指因素的各个水平或水平组合“试验单元(experiment unit)”是安排“处理”的对象或材料对单因素或双因素的完全随机化设计可采用单因素或双因 素方差分析.,例10.6,一家种子开发股份公司研究出三个新的小麦品种:品种1、品种 2 和品种 3. 为研究不同品种对产量的影响,需要选择一些地块,在每个地块种上不同的品种,然后获得产量数据进行分析.
16、 这里的 “小麦品种” 就是试验因子或因素,而品种1、品种2、品种3就是因子的三个不同水平,称为处理.假定选取3个面积相同的地块,这里的 “地块” 就是试验单元. 将每个品种随机地指派给其中的一个地块,这就是随机化设计.试验数据见表10-18.,表10-18,完全随机化设计的数据,表10-19,例10.6的方差分析表,二、随机化区组设计(randomized block design),先将试验单元划分为若干个同质组,称为“区组”(Block). 再将各种处理随机地指派给各个试验单元.比如在上面的例子,首先根据土壤的好坏分成若干个区组. 假定分成四个区组:区组1、区组2、区组3和区组4,每个区
17、组中有三个试验单元. 在每个区组内的三个试验单元以随机方法决定小麦品种. 单因素随机化区组设计采用无重复双因素方差分析.,表10-20,随机化区组设计的数据,表10-21,随机化区组设计的方差分析表,三、因子设计,设同时考察两个因素:小麦品种和施肥方式.假定有三个小 麦品种和两种施肥方式. 这样三个小麦品种和两种施肥方式的 水平搭配共有32=6种. 如果我们用30个地块(试验单元)进行 实验,则每一种水平搭配可以做 5 次试验,也就是每个品种与 施肥方式的水平组合重复5次试验.考虑两个或两个以上因素的全部水平搭配的试验设计称为 因子设计. 对于两个因素的因子设计可采用有交互作用的双因 素方差分析方法,表10-22,因子设计的数据,表10-23,因子设计的方差分析表,