1、方差分析,Analysis of Variance, ANOVA,方差分析简介 方差分析又叫变异数分析,1928年由英国统计学家Ronald Fisher爵士首先提出来的,在无效假设成立的前提下检验统计量F的分布规律,当时的检验统计量记做Z。1934年,WSnedecor转换了另一个更容易计算的统计量,为了纪念Fisher的贡献,将检验统计量命名为F,所以方差分析又叫F检验。,COPD患者白细胞、NE、1-AT、IL-8检测结果,注:*与健康对照组比较P0.01;#与COPD稳定期比较P0.01,处理本例,通常人们错误的做法是:重复应用成组设计的检验对3个组的均数进行3次的两两比较.正确的做法
2、是运用单因素水平的方差分析。若总体均值差异有统计学意义,再利用检验等方法进行两两比较。,t检验我选择我喜欢,t检验在目前的医学研究中应用的频率最高,医学论文中随处可见。研究结论需要统计方法的支持;传统的医学统计学教程都把t检验作为假设检验的入门方法进行介绍,使之成为广大医学研究人员最为熟悉的统计分析方法;t检验的方法简单,结果 便于解释。简单、熟悉加之外界的要求促成了t检验的流行。,不考虑应用的前提,对于两组比较,一律用t检验;将各种试验设计类型一律视为多个单因素的两水平设计,多次使用t检验进行均数之间的两两比较。忽视t检验的应用前提进行滥用的行为都是错误的。,独门绝技超级无敌旋风t,Cont
3、ent1. Basal ideal and application conditions 2. ANOVA of completely random designed data 3. ANOVA of randomized block designed data 4. ANOVA of latin square designed data 5. ANOVA of cross-over designed data 6. Multiple comparison of sample means 7. Bartlett test and Levene test,第一节 方差分析的基本思想 及其应用条件
4、,目的:推断多个总体均数是否有差别。也可用于两个方法:方差分析,即多个样本均数比较 的F检验。基本思想:根据资料设计的类型及研究目的,可将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释。通过比较可能由某因素所至的变异与随机误差,即可了解该因素对测定结果有无影响,借助于F分布做出统计推断。,如果各处理因素间无差异,那么各部分变异只是反映随机误差,F值不会偏离1太远,如果远远大于1,可以认为是除随机误差外,处理因素的作用导致的处理间的差异。,应用条件:总体正态且方差相等样本独立、随机 设计类型: 完全随机设计资料的方差分析 随机区组设计资料的方差分析 拉丁方设计资料的方差分析 两
5、阶段交叉设计资料的方差分析,方差分析的用途 1 用于两个或多个均数间的比 较 2 分析两个或多个因素的交互作用 3 回归方程的假设检验 3 方差齐性检验,完全随机设计资料的方差分析的基本思想,合计 N S:第i个处理组第j个观察结果,记总均数为 ,各处理组均数为 ,总例数为Nnl+n2+ng,g为处理组数。,1.总变异:全部测量值大小不同,这种变异称为总变异。 总变异的大小可以用离均差平方和(sum of squares of deviations from mean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。 总变异SS总反映了所有测量值之间总的变异程度。,变异的分解,计
6、算公式为,其中:,2组间变异: 各处理组由于接受处理的水平不同,各组的样本均数 (i1,2,g)也大小不等,这种变异称为组间变异。它反映了处理因素和随机误差的作用。 其大小可用各组均数与总均数的离均差平方和表示,记为SS组间 。,计算公式为,3组内变异: 在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异(误差),它反映了处理因素和随机误差的影响。组内变异可用组内各测量值Xij与其所在组的均数的差值的平方和表示,记为SS组内。,三种变异的关系:,均方差,均方(mean square,MS)。,检验统计量:,如果 ,则 都为随机误差 的估计,F值应接近于1。
7、 如果 不全相等,F值将明显大于1。 用F界值(单侧界值)确定P值。,第二节,完全随机设计资料的方差分析,(completely random design)是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。,一、完全随机设计,例4-1 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名患者,采用完全随机设计方法将患者等分为4组进行双盲试验。问如何进行分组?,(1)完全随机分组方法:,1. 编号:120名高血脂患者从1开始到120,见表4-2第1行(P72); 2.
8、取随机数字:从附表15中的任一行任一列开始,如第5行第7列开始,依次读取三位数作为一个随机数录于编号下,见表4-2第2行;,3. 编序号:将全部随机数字从小到大 (数据相同则按先后顺序)编序号,见表4-2第3行。 4. 事先规定:序号1-30为甲组,序号31-60为乙组,序号61-90为丙组,序号91-120为丁组,见表4-2第四行。,(2)统计分析方法选择:,1. 对于正态分布且方差齐同的资料,常采用完全随机设计的单因素方差分析(one-way ANOVA)或成组资料的 t 检验(g=2); 2. 对于非正态分布或方差不齐的资料,可进行数据变换或采用Wilcoxon秩和检验。,二、变异分解,
9、例4-2 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名高血脂患者,采用完全随机设计方法将患者等分为4组(具体分组方法见例4-1),进行双盲试验。6周后测得低密度脂蛋白作为试验结果,见表4-3。问4个处理组患者的低密度脂蛋白含量总体均数有无差别?,表4-3 4个处理组低密度脂蛋白测量值(mmol/L),三、分析步骤,H0: 即4个试验组总体均数相等 H1:4个试验组总体均数不全相等,2 . 计算检验统计量 :,1. 建立检验假设,确定检验水准:,表4-5 完全随机设计方差分析表,列方差分析表,3. 确定P值,作出推断结论:按 水准,拒绝H0,接受H1,认为4个试验组ldl-
10、c总体均数不相等,即不同剂量药物对血脂中ldl-c降低影响有差别。,注意:,方差分析的结果拒绝H0,接受H1,不能说明各组总体均数间两两都有差别。如果要分析哪些两组间有差别,可进行多个均数间的多重比较(见本章第六节)。当g=2时,完全随机设计方差分析与成组设计资料的t 检验等价,有 。,第三节 随机区组设计资料的方差分析,一、随机区组设计配伍组设计 (randomized block design),随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区
11、组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。,(1)随机分组方法:,(2)随机区组设计的特点,随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同。区组内均衡。在进行统计分析时,将区组变异离均差平方和从完全随机设计的组内离均差平和中分离出来,从而减小组内离均差平方和(误差平方和),提高了统计检验效率。,例4-3 如何按随机区组设计,分配5个区组的15只小白鼠接受甲、乙、丙三种抗癌药物?,分组方法:先将小白鼠按体重编号,体重相近的3只小白鼠配成一个区组,见表4-6。在随机数字表中任选一行一列开始的2位数作为1个随机数,如从第
12、8行第3列开始纪录,见表4-6;在每个区组内将随机数按大小排序;各区组中内序号为1的接受甲药、序号为2的接受乙药、序号为3的接受丙药,分配结果见表4-6。,(3)统计方法选择:,1. 正态分布且方差齐同的资料,应采用两因素(处理、配伍)方差分析(two-way ANOVA)或配对t检验(g=2); 2. 当不满足方差分析和t检验条件时,可对数据进行变换或采用随机区组设计资料的Friedman M检验。,表4-7 随机区组设计的试验结果,二、变异分解,(1)总变异:反映所有观察值之间的变异,记为SS总。 (2) 处理间变异:由处理因素的不同水平作用和随机误差产生的变异,记为SS处理。 (3) 区
13、组间变异:由不同区组作用和随机误差产生的变异,记为SS区组. (4) 误差变异:完全由随机误差产生的变异,记为SS误差。对总离均差平方和及其自由度的分解,有:,表4-8 随机区组设计资料的方差分析表,三、分析步骤,例4-4 某研究者采用随机区组设计进行实验,比较三种抗癌药物对小白鼠肉瘤抑瘤效果,先将15只染有肉瘤小白鼠按体重大小配成5个区组,每个区组内3只小白鼠随机接受三种抗癌药物(具体分配方法见例4-3),以肉瘤的重量为指标,试验结果见表4-9。问三种不同的药物的抑瘤效果有无差别?,表4-9 不同药物作用后小白鼠肉瘤重量(g),H0: ,即三种不同药物作用后 小白鼠肉瘤重量的总体均数相等 H
14、1:三种不同药物作用后小白鼠肉瘤重 量的总体均数不全相等,据1=2、2=8查附表3的F界值表,得在=0.05的水准上,拒绝H0,接受H1,认为三种不同药物作用后小白鼠肉瘤重量的总体均数不全相等,即不同药物的抑瘤效果有差别。同理可对区组间的差别进行检验。,注意:,方差分析的结果拒绝H0,接受H1,不能说明各组总体均数间两两都有差别。如果要分析哪些两组间有差别,可进行多个均数间的多重比较(见本章第六节)。当g=2时,随机区组设计方差分析与配对设计资料的t 检验等价,有 。,随机区组设计确定区组因素应是对试验结果有影响的非处理因素。区组内各试验对象应均衡,区组之间试验对象具有较大的差异为好,这样利用
15、区组控制非处理因素的影响,并在方差分析时将区组间的变异从组内变异中分解出来。因此,当区组间差别有统计学意义时,这种设计的误差比完全随机设计小,试验效率得以提高。,第六节,多个样本均数间的多重比较 (multiple comparison),多重比较不能用两样本均数比较的 t 检验!,若用两样本均数比较的t 检验进行多重比较,将会加大犯类错误(把本无差别的两个总体均数判为有差别)的概率。,例如,有4个样本均数,两两组合数为 ,若用 t 检验做6次比较,且每次比较的检验水准定为=0.05,则每次比较不犯类错误的概率为(10.05),6次均不犯类错误的概率为 ,这时,总的检验水准变为 ,远比0.05
16、大。因此,样本均数间的多重比较不能用两样本均数比较的 t 检验。,适用条件:,当方差分析的结果为拒绝H0,接受H1时,只说明g个总体均数不全相等。若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较。,一、LSD-t检验 (least significant difference),适用范围:一对或几对在专业上有特殊意义的样本均数间的比较。,检验统计量t的计算公式为,式中,注意:,例4-7 对例4-2资料,问高血脂患者的降血脂新药2.4g组、4.8g组、7.2g组与安慰剂组的低密度脂蛋白含量总体均数有无差别?,,即降血脂新药2.4g组与安慰剂组的低密度脂蛋白含量总体均
17、数相等, 即降血脂新药2.4g组与安慰剂组的低密度脂蛋白含量总体均数不等 =0.05,降血脂新药2.4g组与安慰剂组的比较:,新药4.8g组VS安慰剂组: LSD-t为-4.297.2g组VS安慰剂组: LSD-t 为-8.59。同理:按 水准,降血脂新药4.8g组、7.2g组与安慰剂组间差别有统计学意义。,二、Dunnett- t 检验,适用条件:g-1个实验组与一个对照组均数差别的多重比较,检验统计量为t ,亦称t检验。,式中,计算公式为:,Dunnett-,例4-8 对例4-2资料,问高血脂患者的三个不同剂量降血脂新药组与安慰剂组的低密度脂蛋白含量总体均数是否有差别?,H0:i=0,即各
18、实验组与安慰剂组的低密度脂蛋白含 量总体均数相等 H1:i 0,即各实验组与安慰剂组的低密度脂蛋白含量总体均数不等 =0.05,Dunnett-,Dunnett-,Dunnett-,三、SNK-q检验 (Student-Newman-Keuls),适用于多个样本均数两两之间的全面比较。运用最为广泛的一种两两比较的方法。采用Student Range分布进行所有组间均数的配对比较,该方法保证在无效假设真正成立的前提下,总的检验水准等与实际上设定的值,即控制了型错误。,检验统计量q的计算公式为,例4-9 对例4-4资料,问三种不同药物的抑瘤效果两两之间是否有差别?,H0:A=B,即任两对比较组的总
19、体均数相等 H1:AB,即任两对比较组的总体均数不相等 =0.05,将三个样本均数由小到大排列,并编组次:,列出对比组,并计算两对比组的均数之差,写出两对比组包含的组数a。已知=8和a,查附表4的q界值,得出相应的q界值。以实际的q值和相应的q界值作比较,确定对应的P值 。,表4-15 多个均数两两比较值,结论:可认为A药和B药、C药的抑瘤 效果有差别,还不能认为B药和C药的 抑瘤效果有差别。,第七节,多样本方差比较的Bartlett检验和Levene检验,在进行方差分析时要求所对比的各组即各样本的总体方差必须是相等的,这一般需要在作方差分析之前,先对资料的的方差齐性进行检验,特别是在样本方差相差悬殊时,应注意这个问题。对两样本方差进行齐性检验的方法前已介绍。本节介绍多样本(也适用于两样本)方差齐性检验的Bartlett检验法和Levene检验法。,一、 Bartlett 检验,表4-17 例4-2的方差齐性检验表,二、 Levene 检验,资料要求:可不具有正态性。 检验统计量:F 计算公式:,F,式中,检验步骤:,谢谢大家!,