1、第八章 方差分析与回归分析,8.1 方差分析 8.2 多重比较 8.3 方差齐性分析 8.4 一元线性回归 8.5 一元非线性回归,8.1 方差分析,8.1.1 问题的提出,方差分析, 是20世纪20年代由英国统计学家费希尔首先提出的。最初主要应用于生物和农业田间试验,以后推广到各个领域应用。它是直接对多个总体的均值是否相等进行检验,这样不但可以减少工作量,而且可以增加检验的稳定性。,方差分析根据试验的结果进行分析,鉴别各个有关因子(素)对试验结果的影响程度。,目的检验单个因子的改变是否会给观察变量带来显著影响。水平,例8.1.1 在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:A1是以鱼粉
2、为主的饲料,A2是以槐树粉为主的饲料,A3是以苜蓿粉为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:,y25,例8.1.2,8.1.2 单因子方差分析的统计模型,设因子A有r个水平,记为A1, A2, Ar,每一水平下考察的指标可以看成一个总体,现有r个水平,故有 r 个总体, 假定:,每一总体均为正态总体,记为 N(i , i 2), i1, , r ;,各总体的方差相同: 1 2= 22= r2 = 2 ;,从每一总体中抽取的样本是相互独立的, 即所有的试验结果 yij 都相互独立。,问题:比较各水平下
3、的均值是否相同,建立假设:原假设:H0 :1 =2 =r 自变量对因变量没有显著影响, 简称因子A不显著;备择假设:H1 :1, 2, , r 不全相等 自变量对因变量有显著影响,简称因子A显著。,注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等 。,其中r为水平数,m为重复数,yij中i为水平编号, j 为重复编号。,为对上述假设进行检验,需要从每一水平下的总体抽取样本,设从第i个水平下的总体获得m个试验结果,共得如下n=rm个试验结果:,试验结果 yij 的数据结构式:,yij = i +ij,可控因素,随机因素,单因子方差分析的统计模型:,总均值与效应:,
4、假设改写为:H0 :a1 =a2 =ar =0,数学模型的等价形式:,一、试验数据,8.1.3 平方和分解,数据间是有差异的。数据yij与总平均 间的偏差可用yij 表示,它可分解为二个偏差之和,二、组内偏差与组间偏差,组内偏差,组间偏差,记,在统计学中,把k个数据y1 , y2 , , yk分别对其均值 =(y1+ + yk )/k 的偏差平方和称为k个数据的偏差平方和.,三、偏差平方和及其自由度,构成偏差平方和Q的k个偏差y1 , , yk 间有一个恒等式 ,这说明Q中独立的偏差只有k1个. 在统计学中把平方和中独立偏差个数称为该平方和的自由度,常记为f,如Q的自由度为fQ=k1。自由度是
5、偏差平方和的一个重要参数.,总偏差平方和自由度为fT=n1;,四、总平方和分解公式,组内偏差平方和,仅由随机误差引起, 也称误差偏差平方和, 自由度为 fe=nr ;,组间偏差平方和,也称为因子A的偏差平方和,自由度为 fA=r1.,定理8.1.1 在上述符号下,总平方和ST可以分解为因子平方和SA与误差平方和Se之和,其自由度也有相应分解公式,具体为:ST =SA +Se , fT =fA +fe,通常称上式为总平方和分解式。,均方和 MS=Q/fQ ; 其意为平均每个自由度上有多少平方和,它比较好地度量了一组数据的离散程度; 因子均方和 MSA= SA /fA ; 误差均方和 MSe= S
6、e/fe;检验H0的统计量:,8.1.4 检验方法,拒绝域形式?,定理8.1.2 在单因子方差分析模型及前述符号下,有(1) Se/ 2 2(nr) ,从而E(Se ) (nr) 2 ; (2) ,进一步,若H0成立,则有SA/ 2 2(r1) ;(3) SA与Se独立。,由定理8.1.2,若H0成立,则检验统计量F服从自由度为fA和fe的F分布,因此拒绝域为W=FF1 (fA ,fe),通常将上述计算过程列成一张表格,称为方差分析表。,对给定的,可作如下判断:,如果F F1 (fA ,fe) ,说明因子A不显著。,如果 F F1 (fA ,fe),认为因子A显著;,常用的各偏差平方和的计算公
7、式如下:,例8.1.2 采用例8.1.1的数据,将原始数据减去1000,列表给出计算过程:,例8.1.3,可算得各偏差平方和为:把上述诸平方和及其自由度填入方差分析表,若取=0.05,则F0.95 (2 ,21)=3.47 ,由于F=3.59483.47,故认为因子A(饲料)是显著的,即三种饲料对鸡的增肥作用有明显的差别。,例8.1.3,8.1.5 参数估计,在检验结果为显著时,我们可进一步求出总均值 、各主效应ai和误差方差 2的估计。,一、点估计由于各yij相互独立,且yij N(+ ai , 2) ,因此,可使用极大似然方法求出一般平均 、各主效应ai和误差方差 2的估计:,似然函数,对
8、数似然函数,似然方程,由极大似然估计的不变性,各水平均值i的极大似然估计为 ,由于 不是 2的无偏估计,可修偏: .,各参数的最大似然估计,Ai的水平均值i的1- 的置信区间为其中 。,二、置信区间,例8.1.3 继续例8.1.2,此处我们给出诸水平均值的估计。因子A的三个水平均值的估计分别为从点估计来看,水平2(以槐树粉为主的饲料)是最优的。,误差方差的无偏估计为各水平均值的置信区间:此处, ,若取0.05 ,则 t1- /2( fe )=t0.95( 21 )=2.0796, ,于是三个水平均值的0.95置信区间分别为,在单因子试验的数据分析中可得到如下三个结果:,因子是否显著;,试验的误
9、差方差 2的估计;,诸水平均值i的点估计与区间估计。,在因子A显著时,通常只需对较优的水平均值作参数估计,在因子A不显著场合,参数估计无需进行。,8.1.6 重复数不等情形单因子方差分析并不要求每个水平下重复试验次数全相等,在重复数不等场合的方差分析与重复数相等情况下的方差分析极为相似,只在几处略有差别。,数据:设从第i个水平下的总体获得mi个试验结果,记为 ,i=1,2, r,统计模型为:,总均值:诸i的加权平均(所有试验结果的均值的平均)称为总均值或一般平均。,效应约束条件:,各平方和的计算: SA的计算公式略有不同,例8.1.4 某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾
10、客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中二种包装各指定两个商店销售,另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表8.1.6左半边,其相应的计算结果列于右侧。,表8.1.6 销售量数据及计算表,由此可求得各类偏差平方和如下 方差分析表如下:,若取0.01,查表得F0.01(3,6)=9.78,由于 F=11.229.78,故我们可认为各水平间有显著差异。,由于因子显著,我们还可以给出诸水平均值的估计。因子A的四个水平均值的估计分别为由此可见,第四种包装方式效果最好。误差方差的无偏估
11、计为 .,进一步,也可以给出诸水平均值的置信区间,只是在这里要用不同的mi代替那里相同的m。此处, ,若取0.05,则t1-/2( fe ) =t0.95(6)=2.4469, ,于是效果较好的第三和第四个水平均值的0.95置信区间分别为,作业:习题8.1 1, 5, 8.,单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。,8.2 多重比较,如果控制变量确实对观测变量产生了显著影响,进一步还应确定:控制变量的不同水平对观测变量的影响程度如何;哪个水平的作用明显区别于其他水平;哪个水平的作用是不显著的;等等,例如,如果确定了不同施肥量对农作物的产量有显著影响,那么还需要了解
12、10公斤、20公斤、30公斤肥料对农作物产量的影响幅度是否有差异,其中哪种施肥量水平对提高农作物产量的作用不明显,哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案,实现低投入高产出。,同时比较任意两个水平均值间有无明显差异的问题称为多重比较,多重比较即要以显著性水平同时检验如下r(r1)/2个假设:,多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。,8.2.1 效应差的置信区间就指定的一对水平Ai与Aj,我们可通过求i - j的区间估计来比较因子A各水平的效应。,由此给出i - j的置信水平为1-的置信区间为其中 是 2的无偏
13、估计。,注:这里的置信区间与第六章中的两样本的t区间基本一致,区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai, Aj下的观测值。,例8.2.1 继续例8.1.2, ,fe=21,取0.05 ,则t1-/2( fe )= t0.975(21)=2.0796, 于是可算出各个置信区间为,第一个区间在0的左边,所以我们可以概率95%断言认为1 小于2;其它二个区间包含0点,虽然从点估计角度看水平均值估计有差别,但这种差异在0.05水平上是不显著的。,8.2.2 多重比较问题问题:对每一组(i, j), 上述区间的置信水平都是1 ,但对多个这样的区间,要求其同时成立,其联合置信水平就不再是
14、1 了。,为了使它们同时发生的概率不低于1,一个办法是把每个事件发生的概率提高到1 /k. 这将导致每个置信区间过长,联合置信区间的精度很差,一般不采用这种方法,而采用多重比较来解决此问题。,因此拒绝域应有如下形式诸临界值应在假设H0成立时由P(W)= 确定。下面分重复数相等和不等分别介绍临界值的确定。,假设:,直观地看,当H0ij成立时, 不应过大.,8.2.3 重复数相等场合的T法在重复数相等时,由对称性自然可以要求诸cij相等,记为c. 记 ,则由给定条件不难有,于是假设H0成立时,1= r = ,可推出其中 ,称为t化极差统计量,其分布可由随机模拟方法得到。,于是 , 其中q1(r,
15、fe)表示q(r, fe)的1 分位数,其值在附表8中给出。,方法总结:对给定的的显著性水平 ,查多重比较的分位数q(r,fe)表,计算 ,比较诸与c的大小,若则认为水平Ai与水平Aj间有显著差异,反之,则认为水平Ai与水平Aj间无明显差别。这一方法最早由图基(Turkey)提出,因此称为T法。,例8.2.2 继续例8.1.2,若取 =0.05,则查表知 q1-0.05(3, 21)=3.57,而 。所以,认为1与2有显著差别,认为1与3无显著差别,认为2与3有显著差别这说明: 1与3之间无显著差别,而它们与2之间都有显著差异。,8.2.4 重复数不等场合的S法,在重复数不等时,若假设 成立,
16、则或 从而可以要求 ,在此要求下可推出进而,例8.2.3 在例8.1.4中,我们指出包装方式对食品销量有明显的影响,此处r=4, fe =6, ,若取 =0.05 ,则F0.95(3,6)=4.76。注意到m1= m4=2,m2= m3=3,故,由于这说明A1 , A2 , A3间无显著差异,A1 , A2与A4有显著差异,但 A4与A3 的差异却尚未达到显著水平。综合上述,包装A4销售量最佳。,8.3 方差齐性检验,在进行方差分析时要求r个方差相等,这称为方差齐性。理论研究表明,当正态性假定不满足时对F检验影响较小,即F检验对正态性的偏离具有一定的稳健性,而F检验对方差齐性的偏离较为敏感。方
17、差齐性检验是对如下一对假设作出检验:,很多统计学家提出了一些很好的检验方法,这里介绍几个最常用的检验,它们是:,Hartley检验,仅适用于样本量相等的场合;,Bartlett检验,可用于样本量相等或不等 的场合,但是每个样本量不得低于5;,修正的Bartlett检验,在样本量较小或较 大、相等或不等场合均可使用。,8.3.1 Hartley检验,当各水平下试验重复次数相等时,即m1=m2=mr=m,Hartley提出检验方差相等的检验统计量:这个统计量的分布无明显的表达式,但在诸方差相等条件下,可通过随机模拟方法获得H分布的分位数,该分布依赖于水平数r 和样本方差的自由度f=m1,因此该分布
18、可记为H (r,f),其分位数表列于附表10上。,对给定的显著性水平 ,检验H0的拒绝域为W=H H1(r, f ) 其中H1(r, f )为H分布的1 分位数。,例8.3.1 有四种不同牌号的铁锈防护剂(简称防锈剂),现要比较其防锈能力。数据见表8.3.1。这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析,为此,首先要进行方差齐性检验。,本例中,四个样本方差可由表8.3.1中诸Qi求出,即由此可得统计量H的值在 =0.05时,由附表10查得H0.95(4,9) =6.31,由于H6.31,所以应该保留原假设H0,即认为四个总体方差间无显著差异。,8.3.2 Bartl
19、ett检验,在单因子方差分析中有r个样本,设第i个样本方差为:由于几何平均数总不会超过算术平均数,故有GMSeMSe , 其中 等号成立当且仅当诸si2彼此相等,若诸si2间的差异愈大,则此两个平均值相差也愈大。,由此可见,在比值GMSe/MSe较大时,就意味着诸样本方差差异较大,从而检验表示的一对假设的拒绝域应是 W=ln GMSe/MSe d,Bartlett证明了,检验的拒绝域为W=B 1- 2 (r-1) 考虑到这里2分布是近似分布,在诸样本量mi均不小于5时使用上述检验是适当的。,检验统计量:,例8.3.2 为研究各产地的绿茶的叶酸含量是否有显著差异,特选四个产地绿茶,其中A1制作了
20、7个样品, A2制作了5个样品, A3与A4各制作了6个样品,共有24个样品,按随机次序测试其叶酸含量,测试结果如表8.3.3所示。,为能进行方差分析,首先要进行方差齐性检验,从表8.3.3中数据可求得s12=2.14, s22=2.83, s32=2.41, s42=1.12,再从表8.3.4上查得MSe =2.09。,可求得Bartlett检验统计量的值对给定的显著性水平 =0.05,查表知0.952 (3) =7.815。由于B7.815,故应保留原假设H0,即可认为诸水平下的方差间无显著差异。,8.3.3 修正的Bartlett检验,针对样本量低于5时不能使用Bartlett检验的缺点
21、,Box提出修正的Bartlett检验统计量其中B与C如前所示,且,在原假设H0:12 =22=r2成立下,Box还证明了统计量 的近似分布是F分布 F(f1, f2),对给定的显著性水平 ,该检验的拒绝域为其中f2的值可能不是整数,这时可通过对F分布的分位数表施行内插法得到分位数。,例8.3.3 对例8.3.2中的绿茶叶酸含量的数据,我们用修正的Bartlett检验再一次对等方差性作出检验。在例8.3.2中已求得:C=1.0856,B=0.970,还可求得:对给定的显著性水平 =0.05,在F分布的分位数表上可查得 F0.95(3,682.4)= F0.95(3,)=2.60 由于 2.60
22、,故保留原假设H0,即认为四个水平下的方差间无显著差异。,8.4 一元线性回归,8.4.1 变量间的两类关系十九世纪,英国生物学家兼统计学家高尔顿研究发现: 其中x表示父亲身高, y 表示成年儿子的身高(单位:英寸,1英寸=2.54厘米)。这表明子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。,回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法;按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分
23、析。,确定性关系,变量间关系完全确定; 可用函数表示,设有两个变量x和y,变量y 随变量x一起变化,并完全依赖于x,当变量x 取某个数值时,y依确定的关系取相应的值; 例如:各观测点落在一条线上 。,相关关系,变量间关系不能用函数关系精确表达; 一个变量的取值不能由另一个变量唯一确定; 当变量 x 取某个值时,变量 y 的取值可能有几个; 例如各观测点分布在直线周围。,回归分析的作用,从一组样本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一
24、个特定变量的取值,并给出这种预测或控制的精确程度,y的分布为p(yx),则y的均值E(Yx):,设y与x间有相关关系,x为自变量(预报变量),y为因变量(响应变量).,8.4.2 一元线性回归模型,这是y关于x的理论回归函数条件期望,也就是我们要寻找的相关关系的表达式。第一类回归问题,如果x是可控变量,则相关关系可用下式表示y =f (x)+ 其中是随机误差,一般假设 N(0, 2)。 第二类回归问题,例8.4.1 合金的强度y (107Pa) 与合金中碳的含量x (%) 有关. 为研究两个变量间的关系. 首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,n. 收集到12组数据
25、:,回归函数形式的选择画散点图,例8.4.2,为找出两个量间存在的回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图.,从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为:,y =0+ 1x+ ,这是y关于x的一元线性回归的数据结构式.,误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的变异性 通常假定: E() =0, Var() = 2,在对未知参数作区间估计或假设检验时,还需要假定 误差服从正态
26、分布: y N(0+ 1x, 2 ),x为一般变量,是非随机变量;0,1均未知; 收集数据时,要求观察独立进行,即假定y1, y2, yn,相互独立。,一元线性回归的统计模型:,由数据(xi,yi),i=1,2,n,可以获得0, 1的估计 ,称 为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定x=x0后, 称 为回归值(在不同场合也称其为拟合值、预测值)。,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法,即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小; 这样得到的 称为 的最小二乘估计,记为LSE.,8.4.3 回归系数
27、的最小二乘估计,残差,最小二乘估计可以通过求偏导数并命其为0而得到:这组方程称为正规方程组,经过整理,可得,可得这就是参数的最小二乘估计,其中,由此给出回归方程为:,例8.4.2 使用例8.4.1中合金钢强度和碳含量数据,我们可求得回归方程,见下表.,8.4.3,定理8.4.1 在统计模型下,有(1)(2)(3)对给定的x0,,关于最小二乘估计的一些性质罗列在如下定理之中,定理8.4.1 说明,分别是0, 1的无偏估计;,是E(y0)=0+ 1 x0的无偏估计;,除 外, 与 是相关的;,要提高 的估计精度(即降低它们的方差)就要求n大,lxx大(即要求x1, x2, xn较分散)。,8.4.
28、4 回归方程的显著性检验,对回归方程是否有意义作判断就是要作如下的显著性检验:H0:1=0 vs H1: 10拒绝H0表示回归方程是显著的.,如果1=0,那么不管x如何变化,E(y)不随x的变化作线性变化,那么这时求得的一元线性回归方程就没有意义,称回归方程不显著;,如果10,E(y)随x的变化作线性变化,称回归方程是显著的.,其它一切因素引起的波动,包括随机误差、x对E(y)的非线性影响等,这可用残差平方和 表示.,由H0不真引起的波动,E(y)随x的变化而变化,从而在每一个x的观测值处的回归值不同,其波动用回归平方和 表示;,一、F 检验,采用方差分析的思想,研究各yi不同的原因.,数据总
29、的波动用总偏差平方和,平方和分解式: ST= SR + Se,定理8.4.2 设yi=i+ 1 xi + i,其中i n相互独立,且Ei=0,Var(yi)= 2,i=1,n,沿用上面的记号,有这说明 是 2的无偏估计。,定理8.4.3 设 y1, y2, yn 相互独立,且 yiN(i + 1 xi , 2), i=1, , n,则在上述记号下,有(1)Se / 2 2(n2), (2)若H0成立,则有SR / 2 2(1)(3) SR与Se , 独立(或 与Se , 独立)。,如同方差分析,可以考虑采用F比作为检验统计量:在1 =0时,FF(1, n2),其中fR =1, fe =n2.对
30、于给定的显著性水平,拒绝域为F F1-(1, n2)整个检验也可列成一张方差分析表。,例8.4.3 在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有,若取=0.01,则F0.99(1,10) =10F,因此在显著性水平0.01下回归方程是显著的。,对给定的显著性水平 ,拒绝域为 .由于 ,称 为 的标准误,即 的标准差的估计。,二、t 检验,H0 : 1 =0,注意到t2=F,因此,t检验与F检验是等同的。,以例8.4.2中数据为例,可以计算得到若取 =0.01,则由于13.28723.1698,因此,在显著性水平0.01下回归方程是显著的。,三、相关系数检验,一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数的检验进行。,检验假设 H0:=0 vs H1: 0,检验统计量,拒绝域 W=rc,其中临界值c应是H0: =0成立下r的分布的1 分位数,故记为c=r1- (n2).,由样本相关系数的定义可以得到 r与F统计量之间的关系,这表明, r是F的严格单调增函数,故可以从F分布的1 分位数 F1-(1, n2) 得到 r 的1 分位数为,