1、第十三讲 方差分析(定类定距)( x、 y属丌同变量层次),定类定距是常见的现象:,性别考试成绩地区平均收入民族离婚率 方差分析:分析或检验总体间均值是否有所不同,而不是方差是否不同。检验所用的手段则是通过方差来进行的。 种类:一元方差分析(一个定类变量),二元方差分析 三元方差分析,不只一个,第一节 一元方差分析,一、方差分析的假定1、与回归的比较(定距定距)自变量控制后,因变量是一连串的值 ( yi 为随机变量)回归:可以找出自变量与因变量之间的 变化方向。方差:自变量取不同类别时,因变量 yi 的均值是否有所不同,例:回归不方差分析比较,职业声望,受教育程,度,80,18,7060504
2、0,1512108,职业,子女数,工人(4人) 2;1;3;2;,干部(3人)农民(3人),1;2;1;2;3;4;, 21 m ,2、方差分析的假定:(对因变量分布的必要限制,只有总体分 布满足这些限制的条件下,方差分析的讨 论才是有意义的)1)等方差性 总体中,自变量 xi 的每一个数值 A1 , A2 , Am 对应的因变量 yi 的分布都具有相同的方差2 2 2,注意:,1、总体方差相等,样本方差不一定相等。2、来自等总体的样本方差不会相差太远,最大与最小相差不超过2-3倍。3、总体方差可通过样本方差进行点估计。公式:样本容量的加权:,n1 1S12 n2 1S22 n1 1 n2 1
3、 ,S 2 ,2)yi 的分布为正态形要求每一个 Ai 所对应的 yi 分布都呈正态性(与回归一致)总结:,yi 应满足正态分布,N ui , 2 ,二、方差 分析的检验:,设:总体自变量A共分为m类,A1 , A2 , Am,从A1 中抽取 n1A2 n2 Am nm 则有统计表:,A1,A2,Am,2122,m1m 2,y1n1,y2n2,y,nm,m,y11y12,yy,yy,y1,y,2,y,m,原假设 H 0 : u1 u2 um 备择假设 H 1 :有一个以上类别,其均值不等 统计量:,BSSRSS,F ,m 1n m,F m 1, n m,当 F F 时,拒绝原假设 当 F F
4、时,接受原假设,总平方和:TSS ( yij y ),组间平方和: BSS (yi y ) n i ( yi y ),m n i m,统计量的推导不计算,2,2,2,TSS BSS RSS,i 1 j1 i 1,2i 1 j1,m n ii 1 j1, y, yij n n i yi,ij,1,1n,1n i,n ij1,总平均值:y ,第i类样本的组平均值: yi ,统计量的计算还需:观测总数:n n i,例:下列资料,迚行方差检验。,教师(n=5) 读书数(本/年)81012205,学生(n=5)读书数(本/年)1036125,yij y ,E1 TSS ,2, ij ,y y,RSS。,
5、2,E RSS ,i,当方差分析检验呈显著性后,讨论两变量之间的相关程度,用减少误差比例PRE的方法:E1 :不知因变量y与自变量取值A1 , A2 , Am有关时,预测y所犯的错误,其值为TSS。m ni 1 j 1 E 2 :知道因变量y 与自变量取值 A1 , A2 , Am 有关后,预测y时所犯的错误,其值等于m n2i 1 j 1,2,三、相关比率 eta,E1 E2 TSS RSS BSSBSS为已经被自变量解释掉的误差,解释掉的误差越大,变量之间的关系越密切,因此:,TSS,eta2 BSS,例:,已知:BSS=3.5 RSS=95求eta2,练习:以下资料求eta2,甲地(家庭
6、人口数)67735,乙地(家庭人口数)44535,丙地(家庭人口数)33242,第三节 二元方差分析(自变量增加到两个 ),一、二元方差分析的数学模型,(一)两种模型1、自变量A、B独立的对因变量发生影响:独立模型(或线性可加性模型)每一观测值 yi 均为三种以上因素作用的结果:yij y Ai 的效果 B j 的效果 ij2、同时考虑A、B两变量的交互影响: 交互模型:yij y Ai 的效果 B j 的效果 ABij 交互作用 ij,(二)两种模型对观测值数目的要求 1、对独立模型:A共有a 种取值,B共有b种取值,对于可能取值 a b 种搭配,每种情况只要随机抽取一次,组成 a b 个观
7、测值即可。 2、对具有交互作用的模型:如果a b 种搭配只进行一次观测,则无法区别数据的变化是由于自变量的交互作用,还是外界未知因素干扰的结果。因此,对于a b 种搭配,每种情况至少要观测2次,则总观测数为a b r r 2,A与B两个变量独立,图形是平行线,(三)、忽略外界干扰因素后的两种模 型的图形: 01、理想的独立模型yij y Ai 的效果 B j 的效果 例:教员不同教学方法(A)和不同性格(B) 对教学效果的影响。,A1 注入式教学法A2 启发式教学法,B1 性格内向B1 性格外向,2、理想的交互模型:yij y Ai 的效果 B j 的效果 ABij 交互作用线段失去平衡是变量
8、间存在交互作用的标志。,使每种搭配 至少测量二次以上 。 2rBA,(四)实际的模型 在存在干扰情况下 ij ,上述线段不再是平行 线,有三种情况: 1、本身为独立模型,其图形为非平行性是由 外界随机因素干扰而成的:yij y Ai 的效果 B j 的效果 ij 2、非平行性是由交互作用引起的。yij y Ai 的效果 B j 的效果 ABij 交互作用 3)非平行性由交互因素和随机因素引起的。yij y Ai 的效果 B j 的效果 ABij 交互作用 ij 由于交互影响(长驻)与随机干扰(随机)性 质不同,因此,为使交互作用表现出来,必须i j,二、无重复情况下二元方差分析,(一)无重复情
9、况下二元方差分析的假 定和假设。 原假设 H 0 为:1、ai 0i 1a 2、 i 0 j 1b备择假设 H 1 为:参数不全为0,(二)、方差分析的 检验统计量的推导(平方和的分析法)1、样本观测值,T*1T*2,T*j,B1 B2, B j,Bb,A1 y11 y12,A2 Ai y21 yi 1y22 yi 2,Aa ya1 ya 2, y1 j, y,2 j, y,ij, yaj,y1bT1*,y2 bT2*,yibTi*, yab,i 1 yij a T * j,j 1 yij b T i*,yi , yij a i 1 yi b j 1 y j,2、行平均值 y j,1 a 1a
10、,y j ,y ,1 a 1 b,1ab, 5、总离差平方和TSS2A B,y j 是A的平均值,因此,A的影响已被抵消,只 反映变量B对A的影响。3、列平均值 yi :按列将观测值加总求平均1 a 1b 4、总平均值, T i* T *,1,BssA b i1,:变量B的离差平方和(已被变量B,:剩余平方和,未被A、B解释掉的误差,7、BssB,8、 Rss,6、BssA :变量A的离差平方和(已被变量A 解释掉的错误) 2a2ab,解释掉的错误)2b2,Rss ,9、变量A的平均离差平方和,10、变量B的平均离差平方和,BssAa 1,BssA ,a 1 为自由度,BssBb 1,BssB
11、 ,b 1 为自由度,11、平均剩余误差平方和Rssa 1b 1a 1b 1 为自由度,Fb 1a 1b 1,F B ,统计量:,RssRss,A,F A ,Fa 1a 1b 1,F,RssBRss 根据显著性水平 ,查附表得 A B 若: A A 显著即拒绝域,原假设不成立F A A 相反,接受域,原假设成立;F B B 显著即拒绝域,原假设不成立F B B 相反,接受域,原假设成立, ijk 相互独立,且有,0, ,三、重复情况下的二元方差分析,i,备择假设 H 1 :参数不全为0,(一)、假设与假定 除考虑自变量A和B的独立作用外,还要A和B的交互作用,其数学模型为:yijk u ai
12、j a ij ijkk 1,2r (r为 A B j 每种搭配重复数)2 原假设 H 0 :ai 0 j 0, 0, a ij,T *, yijk abr,y ,y j ,(二)、重复情况下二元方差分析的检验,对每一种搭配各进行r次重复的独立观测, 得到a、b、r个样本观测值。1、总平均值:1abr 2、行平均值:T * j*ar 3、列平均值:yi T i*br,Tss , Bss A BssB ,T T *,4、格平均值:,Tr,ij,yij, Rss,AB, 5、总离差平方和TSS:2yijk y,6、Bss A :列间平方和变量A解释掉的误差。,2i*br abr,Bss A ,Bss
13、B ,T T,T T,Rss yijk yij ,2 2ij* *r abr,Bss ,7、行间平方和:2 2* j* *ar abr8、交互作用: AB AB Bss BssA BssB,9、剩余误差RSS:2Rss Tss BssA BssB AB,检验的统计量为:H 0 : a ij 0H 1 :不全为0统计量:,abr 1 a 1b 1,F A B, ABRss, ABRss,Fa 1b 1, abr 1, TRssTRssAF,H 0 :ai 0H 1 :不全为0 统计量:Rss A Rss A abr a b 1a 1Fa 1, abr a b 1,F B TRss TRss ,H 0 :ai 0H 1 :不全为0 统计量:,abr a b 1b 1,BssB BssB,Fb 1, abr a b 1,给出 ,查表,对于临界值 如果 AB AB :拒绝原假设,