1、方差分析(1),孟 辰 10210730019 吴 琼 10210730024 朱冰洁 10210730027,Outline,1原理回顾抽样分布律 2 T test 3 One-way ANOVA 4 Two-way ANOVA & Regression 5 ANCOVA,参考书目,1 祝国强医药数理统计方法高等教育出版社 2 李沛良社会研究中的统计应用社会科学文献出版社 3 杰克莱文,詹姆斯艾伦福克斯著,王卫东译,社会研究中的基础统计学,中国人民大学出版社 4 郭志刚,社会统计分析方法SPSS软件应用,中国人民大学出版社 5 卢淑华,社会统计学,北京大学出版社 6 Alan Agresti
2、 & Barbara Finlay Statistical Methods for the Social Sciences(3rd Edition) Prentice Hall 7 David Khoke,George W.Bohrnstedt & AlisaPotter MeeStatistics for Social Data Analysis(4th Edition) Thomson Wadsworth,1原理回顾,抽样分布律构造统计量的基础,单样本,已知总体方差,单样本,总体方差未知,1原理回顾,双样本,总体方差齐性,且未知,1原理回顾,双样本,主要用于检验两样本是否方差齐性,T-te
3、st,概念 目的 适用条件 公式以及意义 举例说明 注意事项,T检验,亦称student t检验(Students t test),主要用于样本含量较小(例如n30),总体标准差未知的正态分布资料。 T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。,单个样本的t检验 目的:比较样本均数 所代表的未知总体均数和已知总体均数0。 计算公式: t统计量: 自由度:v=n - 1 适用条件: (1) 已知一个总体均数; (2) 可得到一个样本均数及该样本标准误; (3) 样本来自正态或近似正态总体。,配对样本
4、t检验 配对设计:将受试对象的某些重要特征按相近的原则配成对子,目的是消除混杂因素的影响,一对观察对象之间除了处理因素/研究因素之外,其它因素基本齐同,每对中的两个个体随机给予两种处理。 两种同质对象分别接受两种不同的处理,如性别、年龄、体重、病情程度相同配成对。 同一受试对象或同一样本的两个部分,分别接受两种不同的处理 自身对比。即同一受试对象处理前后的结果进行比较。 目的:判断不同的处理是否有差别 计算公式及意义: t 统计量: 自由度:v=对子数-1 适用条件:配对资料,T检验的步骤 1、建立虚无假设H0:1 = 2,即先假定两个总体平均数之间没有显著差异; 2、计算统计量T值,对于不同
5、类型的问题选用不同的统计量计算方法; 1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量T值的计算公式为: 2)如果要评断两组样本平均数之间的差异程度,其统计量T值的计算公式为:,差异的显著水平为0.01级或0.05级。不同自由度的显著水平理论值记为T(df)0.01和T(df)0.05 4、比较计算得到的t值和理论T值,推断发生的概率,依据下表给出的T值与差异显著性关系表作出判断。 T值与差异显著性关系表 T P值 差异显著程度 差异非常显著 差异显著 T 0.05 差异不显著 5、根据是以上分析,结合具体情况,作出结论。,T检验举例说明 例如,T检验可用于比较药物治
6、疗组与安慰剂治疗组病人的测量差别。理论上,即使样本量很小时,也可以进行T检验。(如样本量为10,一些学者声称甚至更小的样本也行),只要每组中变量呈正态分布,两组方差不会明显不同。,T检验中的P值是接受两均值存在差异这个假设可能犯错的概率。在统计学上,当两组观察对象总体中的确不存在差别时,这个概率与我们拒绝了该假设有关。,2、T检验图 在T检验中用箱式图可以直观地看出均值与方差的比较,见下图: 这些图示能够很快地估计并且直观地表现出分组变量与因变量关联的强度。 3、多组间的比较 科研实践中,经常需要进行两组以上比较,或含有多个自变量并控制各个自变量单独效应后的各组间的比较,(如性别、药物类型与剂
7、量),此时,需要用方差分析进行数据分析,方差分析被认为是T检验的推广。在较为复杂的设计时,方差分析具有许多t-检验所不具备的优点。(进行多次的T检验进行比较设计中不同格子均值时)。,T检验注意事项,要有严密的抽样设计随机、均衡、可比 选用的检验方法必须符合其适用条件(注意:t检验的前提是资料服从正态分布) 单侧检验和双侧检验 单侧检验的界值小于双侧检验的界值,因此更容易拒绝,犯第错误的可能性大。 假设检验的结论不能绝对化 不能拒绝H0,有可能是样本数量不够拒绝H0 ,有可能犯第类错误 正确理解P值与差别有无统计学意义,方差分析,(一)从t检验到方差分析 (二)单因素方差分析,(一)从t检验到方
8、差分析 t检验与方差分析的比较,t检验:比较两个子总体的样本平均值方差分析(analysis of variances ANOVA):比较多个子总体的样本平均值,例:贫困程度对青少年犯罪的影响,贫困程度分为严重、中度、轻度 T检验:3个t值 t1: 严重和中度 t2: 严重和轻度 t3: 中度和轻度 缺点: 计算繁琐 统计限制:增加犯第一类错误的概率,(二)单因素方差分析 (one-way analysis of variance),数据要求 假设条件 方差分析的思路 方差分析的检验,1. 数据要求,自变量定类变量 因变量定距变量,2. 假定条件,1)随机抽样 2)因变量为正态分布 3)因变量
9、为等方差性,3. 方差分析的思路,内容均值 检验所用的方法或手段方差,(1)统计假设,统计假设:子总体的平均值中是否至少有一个与其他子总体的平均值存在显著差异 _ _ _ _ H0:Y1=Y2=Y3=Yg,(2)两个部分,组内变动:本组内各案例值关于组平均值的分布离散程度。 组间变动:各组平均值关于总平均值的分布离散程度,(3)F值,组间平方和/自由度 组间方差 F= =组内平方和/自由度 组内方差,4. 方差分析的检验,(1)平方和 (2)方差 (3)显著性检验,(1)平方和,总体平方和:各个原始数据总体均值的离差的平方的和。_SST=X-Xt 组内平方和:各个原始数据距其组均值的离差的平方
10、的和。 RSS 随机误差和系统误差_ SSE=X-Xg组间平方和:每个组的均值距总体均值的离差的平方的和。BSS随机误差_SSA=NgXg-XtSST=SSE+SSA,(2)方差,组内方差:组内平方和除以自由度 组间方差:组间平方和除以自由度MSA SSA/df1 F= = MSE SSE/df2 分子自由度df1=m-1 (m为组数) 分母自由度df2=n-m (n为总个数;m为组数),方差分析基本结构,(3)显著性检验,在=0.05,查表得F0.05值 FF0.05:拒绝原假设,显著 FF0.05:接受原假设,不显著,双因素方差分析(无交互),4 Two-way ANOVA & Regre
11、ssion,引例(Agresti 3rd Edition): Party Identification (PD):Democrat, Independent & Republican Political Ideology: 7-point scale (from extremly liberal to extremely conservative) N=943 & Source:“recent” GSS,4 Two-way ANOVA & Regression,Model:,1 线性回归与方差分析的联系2 是否还有其他因素产生相应影响,比如Gender?,4 Two-way ANOVA & R
12、egression,3 Null Hypotheses Main Effects a:控制了第2个定类变量(性别)后,第1个定类变量(党派)组间均值一致Main Effects b:控制了第1个定类变量(党派)后,第2个定类变量(性别)组间均值一致 c: 无交互作用,无交互模型:有交互模型:,无交互模型,H0:B3=0 H0:B1=B2=0,有交互模型:,5 ANCOVA,引例: N=80 16-black; 14-Hispanic; 50-white) Y=income X=number of years of education Z=ethnic group (z1=1, b; z2=1, H; Otherwise,w),协方差分析模型,Dependent variable: Income,有交互作用,Black,Hispanic,the end,thank you,