1、方差分析 与卡方检验,2018年10月15日星期一,计算中心,方差分析,应用:两个或两个以上组均数的比较 几个概念: 分类变量:把要考察的处理因素做为分类变量,即自变量。它的取值即为分类变量的水平,可以是数值型,也可是字符型 因变量:也称响应变量,为连续的数值型变量。 效应:方差分析模型中规定的各分类变量组合代表其相应的效应,计算中心,方差分析,主效应: 由分类变量本身引起,不考虑其他因素的影响,可以用分类变量本身表示。Y=a b c ;其中a b c 是主效应 交叉效应:即交互作用。用*连接两个变量以表示它们之间的交互作用 ,检验在A因素的各个水平B因素的效应是否相同,即一个因素的效应是否依
2、赖于交叉项里其他因素 Y=a b c a*b a*c a*b*c ;其中a*b a*c a*b*c 是交互效应 把Y称为因变量,a b c 称为自变量。因变量的个数反映出是一元或多元方差分析,自变量的个数反映的是方差分析的因素的个数,计算中心,一、多组比较的假设检验,例:比较5种品牌木板的耐久性。,计算中心,基本思想: 总变差=组间差别+组内误差,不同的条件构成的差异,测量条件造成的误差,计算中心,总变差=组间差别+组内误差,因为检验的是分析数据中的变差,故称为方差分析(Analysis of Variance)ANOVA ANOVA在只考虑组间变差和误差变差时称为单向方差分析(One-Way
3、 ANOVA) ANOVA判断由各组间的不同引起的变差L组是否比纯粹由机会引起的变差L误要大如果L组 L误,各组均值很可能是不同的。,计算中心,1、单向方差分析,(1)假定 观测是独立的。对一个个体的测量不影响另一个个体的测量 样本为正态分布。如果存在组间差异,则每组有不同的正态分布。 各组的方差相等,计算中心,1、单向方差分析,(2)数据集的建立 DATA ANOVA1; INPUT BRAND $ W ; CARDS; X1 2.3 X1 2.1 X1 2.4 X1 2.5 X2 2.2 X2 2.3 X2 2.4 X2 2.6 X3 2.2 X3 2.0 X3 1.9 X3 2.1 X4
4、 2.4 X4 2.7 X4 2.6 X4 2.7 X5 2.3 X5 2.5 X5 3.3 X5 3.4 RUN;,计算中心,1、单向方差分析,(3)用程序分析 PROC ANOVA data=anova1; CLASS BRAND; MODEL W=BRAND; RUN; 其中,CLASS语句指出分组变量MODEL语句指出效应模式,即:MODEL 因变量=效应变量,计算中心,1、单向方差分析,(4)结果分析 输出的第一部分:给出了把数据分组的变量的名字(BRAND),此变量所取的水平、此变量的各个值和数据集中的观测数。 输出的第二部分:标有BRAND的一行PrF一列中给出了比较各组的P值,
5、此例中为0.0112。得出各个品牌的平均磨损有显著的差异,计算中心,关于多重比较:,以上的方差分析只能发现各组间有显著差异,但无法知道哪些均值不同 若想具体知道哪些组之间的均值差异显著,则要进行多重比较 两两比较常用的方法 SNK DUNCAN等 相应的选项分别为SNK和DUNCAN;,计算中心,用菜单实现,解决方案/分析/分析家 打开数据集 统计/方差分析/单向方差分析Dependent brandIndependent Means/brands/snk/ok OK 结论:X3品牌的耐久性较其余品牌的好,计算中心,用程序实现,PROC ANOVA data=数据集名; CLASS BRAND
6、; MODEL W=BRAND; Means brand/snk; RUN; 其中,means语句请求进行组间均值的两两比较,计算中心,2、单向方差分析的非参数检验,(1)假定 正态性的假定不满足 (2)数据集的建立 同上,计算中心,2、单向方差分析的非参数检验,(3)用程序分析 PROC NPAR1WAY data=anova1; CLASS BRAND; VAR W; RUN;,计算中心,2、单向方差分析的非参数检验,(3)用菜单分析 解决方案/分析/分析家 打开数据集 统计/方差分析/非参数单向方差分析wDependent brandIndependent OK,计算中心,2、单向方差分
7、析的非参数检验,(4)结果分析 看ProbCHISQ右边的数字0.0175 结论:各品牌的平均磨损有显著的差异,计算中心,用INSIGHT进行单因素方差分析,在使用Insight进行方差分析时自变量X必须是列名型的。选分析( Analyze)/拟合(Fit)(X Y) 在弹出的拟合窗选中自变量BRAND,点击X选中因变量 W ,点击 Y确定(OK) . 在随即显示的分析结果中包含若干个表:,第一个表提供拟合模型的一般信息:(1) W= BRAND表示这个分析是以W为因变量,BRAND为自变量的线性模型;,计算中心,用INSIGHT进行单因素方差分析,方差分析结果如下,计算中心,3、二因素方差分
8、析,为研究火箭的射程在其他条件基本相同时,与燃料种类及推进器型号的关系,对4种不同的燃料及3种不同的推进器进行搭配,每种搭配各发射了火箭2次,测得射程数据如下:,推进器1 推进器2 推进器3燃料1 58.2 52.6 56.2 41.2 65.3 60.8燃料2 49.1 42.8 54.1 50.5 51.6 48.4燃料3 60.1 58.3 70.9 73.2 39.2 40.7燃料4 75.8 71.5 58.2 51.0 48.7 41.4,计算中心,3、二因素方差分析,考虑如下问题:1) 燃料(因素A)、推进器(因素B)对射程y有无显著性影响?2) 因素A和因素B是否有交互作用?3
9、) 使射程达到最大的条件是什么?要用方差分析将不同燃料和不同推进器的影响区分开来。即检验:H0A:不同燃料对射程无影响,H1A:不同燃料对射程有显著影响H0B:不同推进器对射程无影响,H1B:不同推进器对射程有显著影响,计算中心,数据集的格式,计算中心,菜单,解决方案/分析/分析家 打开数据集 统计/方差分析/因子方差分析XDependent a,bIndependentMeans/a/snk/ok OK,计算中心,结果,总体有非常显著的差异 A因素:燃料显著影响火箭的射程 B因素:推进器的不同,显著影响火箭射程 组间两两比较结果 第2组燃料最差 第3组推进器最差,计算中心,非平衡数据的方差分
10、析,例健康男子各年龄组淋巴细胞转换率之间的差异是否显著?(单因素) 10-20岁 58 61 61 62 63 68 70 70 74 78 41-50岁 54 57 57 58 60 60 63 64 66 61-75岁 43 52 55 56 60,计算中心,数据集,计算中心,程序,Proc glm data=temp.an; Class a; Model x=a; Run;,计算中心,非平衡数据的方差分析,用菜单实现: 解决方案/分析/分析家,并打开数据集 统计/方差分析/线性模型 XDependent aclass Ok 结果:p=0.001 总体或A因素各水平间有非常显著的差异,计算
11、中心,非平衡数据的方差分析,例二因素非平衡数据的方差分析,计算中心,数据集,计算中心,非平衡数据的方差分析,用菜单实现: 解决方案/分析/分析家,并打开数据集 统计/方差分析/线性模型 XDependent a,Bclass MODEL/STANDARD MODELS/Effects up to 2-way interactions(考虑交互效应) Ok 结果:交互效应不显著,修改上述参数再作一次,则两因素对分析指标都有显著影响,计算中心,卡方检验,例对独身子女政策的调查,计算中心,数据集的建立,Data chisq; Input liberty $ onechild $ count; Car
12、ds; Agree yes 98 Agree no 22 Disagree yes 0 Disagree no 80 Proc freq; Weight count; Tables liberty*onechild/chisq; Run;,计算中心,数据集,计算中心,卡方检验,用assist分析 Solutions/assist Elementary/frequency tables/generate n-way crosstabulation table 在table处选数据集:选liberty,onechild :选liberty*onechild Additional options:选
13、weight column-count 选statistics中的分析方法/OK,计算中心,卡方检验,结果: 有非常显著的差异 表明赞成妇女解放的受试者也支持独身子女政策 表明不赞成妇女解放的受试者不支持独身子女政策,计算中心,SAS实习,一 . 用二氧化硅50mg对大鼠染尘后,不同时期全肺湿重的变化如下。 1月 3月 6月 3.3 4.4 3.6 3.6 4.4 4.4 4.3 3.4 5.1 4.1 4.2 5.0 4.2 4.7 5.5 3.3 4.2 4.7 试比较染尘后1月、3月、6月三个时期的全肺湿重有无差别。将方差分析的输出结果以ANOVA1.TXT为名存入D盘你的文件夹中。你的
14、结论:,计算中心,二.考虑合成纤维收缩率(因素A)和总拉伸倍数(因素B)对纤维弹性y的影响。收缩率取4个水平:A1 = 0,A2 = 4,A3 = 8,A4 = 12;因素B也取4个水平:B1 = 460,B2 = 520,B3 = 580,B4 = 640。在每个组合AiBj下重复做二次试验,弹性数据如表所示,计算中心,三、某医院为了探索导致手术切口感染的原因,收集了305例手术患者的情况如下。,手术时间(h) 例 数感染 未感染 合计 5 13 229 242 5 7 56 63 合计 20 285 305 试检验手术时间长短对患者切口是否感染有无显著影响。将卡方检验的输出结果以CHISQ1.TXT为名存入D盘你的文件夹中。你的结论:,