1、中国疾病预防控制中心1方差分析Analysis of Variance (ANOVA)中国疾病预防控制中心2胡跃华中国疾病预防控制中心公共卫生监测与信息服务中心卫生统计研究室E-mail: 中国疾病预防控制中心31、统计思维:用最小的风险、最低的成本、最高的信度得到最大的效益;2、概念理解与实际工作结合,淡化公式和计算过程;3、结论:概率性统计的根本是概率思维。如何才能依靠有限的数据资料,对需要的信息作出更加准确的判断。中国疾病预防控制中心养猴人心中暗笑:“朝四暮三和朝三暮四,不是都等于七吗?这畜牲就是不如人聪明。”猴子们窃窃私语:“朝四暮三和朝三暮四,虽然吃到肚子里都等于七,但朝四暮三更符合
2、早吃饱、晚吃少的科学道理,不信去问问费雪。人虽然比我们聪明,但没学过统计的人,智商还真不如我们高”。新编齐物论4中国疾病预防控制中心5ANOVA 由英国统计学家R.A.Fisher首创,为纪念Fisher,以 F命名,故方差分析又称 F 检验 ( Ftest)。用于推断 多个总体均数 有无差异http:/en.wikipedia.org/wiki/R.A._Fisher中国疾病预防控制中心6方差分析设计基本思想、基本原理单因素方差分析的定义单因素方差分析过程以及方差分析的用途、要求条件学习要点SAS实现中国疾病预防控制中心7完全随机设计资料的方差分析多个样本均数两两比较SAS实现方差分析概述第
3、一节第二节第三节第四节方差分析(一)概述、单因素方差分析方差分析概述第一节中国疾病预防控制中心这两组的平均数都是70,但 A组的标准差为18.708 分, B组的标准差为2.37分,说明A组学生之间的差距要比B组学生之间的差距大得多。8均数 标准差0, 5, 9, 145, 6, 8, 9A、B两组各有6 位学生参加同一次语文测验A组分数:95 、85、 75、65 、55、 45,B组分数:73 、72、 71、69 、68、 67。标准差的直观含义 :均数 10 标准差 3 均数 10 标准差 10中国疾病预防控制中心表 1 喂养不同饲料的大白鼠红细胞数 ( 1012/L)编号 普通饲料1
4、0%大豆饲料1 4.78 4.652 4.65 6.923 3.98 4.444 4.04 6.165 3.44 5.996 3.77 6.677 3.65 5.298 4.91 4.709 4.79 5.0510 5.31 6.0111 4.05 5.6712 5.16 4.68均数4.38 5.52回忆t检验9X %大豆饲料中国疾病预防控制中心10方差分析:推断多个总体均数是否有差别。也可用于两个(结果与t检验同效)中国疾病预防控制中心t检验:方差分析:一个或 两个样本均数的假设测验11多个样本均数的假设测验中国疾病预防控制中心表2 喂养三种不同饲料的大白鼠红细胞数(1012/L)编号 普
5、通饲料 10%大豆饲料 20%大豆饲料1 4.78 4.65 6.802 4.65 6.92 5.913 3.98 4.44 7.284 4.04 6.16 7.515 3.44 5.99 7.516 3.77 6.67 7.747 3.65 5.29 8.198 4.91 4.70 7.159 4.79 5.05 8.1810 5.31 6.01 5.5311 4.05 5.67 7.7912 5.16 4.68 8.03均数 4.38 5.52 7.3012中国疾病预防控制中心表3 血滤液放置不同时间的血糖浓度(mmol/L)放置时间(分)区组0 45 90 1351 5.27 5.27
6、4.94 4.612 5.27 5.22 4.88 4.663 5.88 5.83 5.38 5.004 5.44 5.38 5.27 5.005 5.66 5.44 5.38 4.886 6.22 6.25 5.61 5.227 5.83 5.72 5.38 4.888 5.27 5.11 5.00 4.44均数 5.60 5.50 5.20 4.8013中国疾病预防控制中心方差分析单因素:完全随机设计两因素:随机区组设计多因素:析因、拉丁方、正交设计重复测量设计单组多组中国疾病预防控制中心因素是指所要研究的变量,它可能对因变量产生影响。因素是一个独立的变量,是方差分析研究的对象。例如,要分
7、析不同给药方式对药物吸收量是否有影响,所以,药物吸收量是因变量,而给药方式是可能影响药物吸收量的因素。15基本概念中国疾病预防控制中心16基本概念只分析处理组间有无差别,以说明研究因素对结果有无影响的均数间比较的检验方法。即只有一个因素变量的方差分析称为单因素方差分析。研究多个因素变量对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。中国疾病预防控制中心方差分析 用途 :1)用于多个(或两个)样本均数的比较;2)用于分析因素间的交互作用;3)用于方差齐性检验;4)用于方程的拟合度检验。17中国疾病预防控制中心方差分析 要求条件 :1)各样本是随机独立;2)样本来自正
8、态总体(服从正态分布);3)各总体方差相等,即12=22 = =n2 ;18中国疾病预防控制中心方差分析 基本思想:将所有测量值上的总变异按照其变异的来源分解为 两个或多个部分 ,即每个部分的变异可由某因素的作用来解释。通过比较可能由某因素所至的变异与随机误差,即可了解 该因素对测定结果有无影响 (评价由 某种因素 所引起的变异是否具有统计学意义)。19中国疾病预防控制中心单因素方差分析基本思想:将所有测量值上的总变异按照其变异的来源分解为 两个 部分:1)组间变异(处理因素的影响)用MS间表示2)组内变异(个体因素的影响)用MS内表示F= MS间/ MS内如果:处理组因素确无效的话, MS间
9、MS内,F 1;处理组因素确有效的话,MS间 MS内,F 1F越大,P值越小,就越有理由认为组间有差别。20中国疾病预防控制中心方差分析的基本原理自由度和平方和的分解 F测验表4 完全随机设计的方差分析表 多重比较变异来源SS df MS F组间( 处理组间) SS组间k-1 SS组间/v组间MS组间/ MS组内组内( 误差) SS组内N-kSS组内/v组内总SS总N-121 H0: 1= 2= = n ;H1: i(i=1, 2,n) 不全相等中国疾病预防控制中心22方差分析的实质中国疾病预防控制中心方差分析的实质如果原假设成立,即H0: 1= 2= 3= 4 四种颜色饮料销售的均值都相等
10、没有系统误差这意味着每个样本都来自均值为 、差为 2的同一正态总体Xf(X)1= 2= 3= 423中国疾病预防控制中心方差分析的实质如果备择假设成立,即 H1: i(i=1,2,3,4) 不全 相等 至少有两个总体的均值是不同的 有系统误差意味着四个样本来自的四个正态总体均值 不全 相同,极端情况:Xf(X)3 1 2 424中国疾病预防控制中心全部测量值大小不同,这种变异称为总变异。总变异的大小可以用离均差平方和(sum of squares of deviations from mean, SS)表示,即各测量值 Xij与总均数差值的平方和,记为 SS总。总变异 SS总反映了所有测量值之
11、间总的变异程度。1.总变异:25211()ingijijXCN=其中:1N = 总()2211 11iinnggij ijij ijSS X X X C= = 总计算公式为中国疾病预防控制中心各处理组由于接受处理的水平不同,各组的样本均数 ( i1,2, g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为 SS组间。2组间变异:26计算公式为21211()()inijjggiiiXSS n X X Cn= 组间1g = 组间中国疾病预防控制中心在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异(误差)。组内变异可用组内
12、各测量值 Xij与其所在组的均数的差值的平方和表示,记为 SS组内, 表示随机误差的影响。3组内变异:27计算公式为Ng = 组内211()ingij iijSS X X=组内中国疾病预防控制中心28SS总SS组间三种变异的关系:SS组内 = +总 组间 组内SS SS SS= +总 组间 组内中国疾病预防控制中心SSMSSSMS=组间组间组间组内组内组内均方差,均方(mean square,MS)29中国疾病预防控制中心检验统计量F:如果 ,则 都为随机误差 的估计,F值应接近于1 。如果 不全相等,F值将明显大于1。用F界值(单侧界值)确定P值。12, , MSFMS =组间组间 组内组内12 g =L,MSMS组间 组内212,g L参考:单因素方差分析基本思想30