1、数据转换,方差分析的数学模型假设:随机误差都服从正态分布,且彼此独立。随机误差的独立性、正态性和等方差性(或称方差同质性)。从观测值的角度,也可将这些假设表述为:(1) 独立性:每组(或水平组合)内的个体彼此间是独立的;(2)正态性:每组(或水平组合)所代表的总体服从正态分布;(3)等方差性:每个正态总体的方差是相等的。,这些假设是方差分析的基本假设,如果这些假设不满足,检验统计量F就不服从F分布,F检验的可靠性就会受到影响。所以在进行方差分析前,首先要考察这些假设能否满足或近似满足。独立性:应通过合理的试验设计来保证。正态性和等方差性:往往取决于观测值本身的性质。因而,对于已经获得的数据,我
2、们主要考察它们是否满足正态性和等方差性的要求,如果相差太远,就要考虑采取适当的处理措施。数据转换就是可采取的措施之一。通过对数据进行某种转换,可使转换后的数据近似满足这些假设。,数据的非正态性和和方差的不同质二者经常相伴出现,因为往往是数据的非正态性导致了方差的不同质,此时我们可以仅考虑利用某种转换使得变换后的数据具有等方差性,而非正态性的缺陷也同时得到了改善。 主要内容:(1)方差的同质性检验。(2)常用的方差同质性转换方法。用变换后的资料进行方差分析后,为解释所得到的结果,往往需要将结果再转换到原来的尺度。如果资料中处理均数和均方有一定关系(如二项分布的均数与方差成比例,波松分布资料的均数
3、与方差相等),不能直接进行方差分析,而应考虑采用非参数分析或进行适当数据转换后再进行.,一 方差的同质性检验,1 Hartley F检验,只适用于所有样本的含量均相等的情况。 (1)假设H0: ;HA:至少有两个方差不等其中, 是第i个样本所代表的总体的方差,k是样本数。 (2)检验统计量,分别为最大、最小的样本方差。 :分布由样本数k和各样本的df决定 df:每个样本的样本含量1 临界值查(附表)。,例1设有3个样本的方差分别为 、 和 ,样本含量均为20,试对3个样本所在总体的方差的同质性进行检验。,解:H0:HA:至少有两个方差不等 检验统计量:,取显著性水平 = 0.05,查附表7得,
4、 因为 ,所以我们不能否定3个总体方差是同质的这一假设。,适用于当某个样本方差明显大于其他样本方差时1)假设:同Hartley F检验2)检验统计量:,2 Cochran检验,其中: 是第i个样本的方差, 是最大的样本方差。 G 的分布也取决于样本的个数k和df。 如各样本含量相等都为n,df = n-1; 如各样本含量不等但差别不大, ,其中, 是各样本含量的调和平均数。 查附表8,得到临界值。,例2:设有5个样本的方差分别为26、51、40、24、28,样本含量均为10。,查附表8:因为:0.3020.4241,所以我们不能拒绝这5个总体的方差是同质的这一假设。,3 Bartlett 检验
5、适用于检验不同正态总体的方差的同质性,它可用于样本含量不等的情形。,例3 用Bartlett 检验对下表中给出的3个样本所在总体的方差的同质性进行检验。,查附表3,得 因为0.7315.99,所以不否定3个总体的方差是同质的这一假设,二方差稳定性转换,1 方差稳定性转换的一般原理如果经过检验判定总体方差是不同质的,在很多情况下可以对数据进行转换,使转换后的数据的方差近似同质,故而称这种数据转换为方差的稳定性转换。在很多情况下方差的异质性表现为方差的大小随着平均数的大小而变化,即方差是平均数的函数,因而当不同总体的平均数有差异时,总体方差也随之出现差异。,2 平方根转换 如果资料具有方差与均数成
6、正比的特征,在方差分析前,应该对每个观测值进行平方根变换。 典型例子有:显微镜视野下计数的细菌数;一定面积范围内的某种植物的数目或某种昆虫的数目等等。 此类资料通常服从普哇松分布,而普哇松分布的基本特征是总体平均数等于总体方差。 如果X的值较小,也有人建议用下式:,例4:以下是经不同除草剂处理后在燕麦试验区中所含某种杂草的草株数,欲比较不同除草剂对该种杂草的除草效果。,以上数据表明:随着平均数的增大,标准差也增大。所以断定总体方差是不同质的。需要进行数据转换。,进行平方根转换后的数据为:,以上数据表明:各个处理的方差是非常接近的,说明转换有效。,用转换后的数据进行方差分析,结果如下:,由F检验
7、可知不同除草剂间的差异极显著。,3 对数转换如果数据具有标准差和均数成正比的趋势,则做对数变换。Y=logX 或 Y=lnX 。如果数据中含有0值,则用Y =log(X+1)。对数变换主要用于各样本的方差差异较大,但变异系数相近 的资料。例5:为了诊断某种疾病,需要测定一个指标,为了增加诊断的可靠性,用4个人在4种不同的条件下测定这一指标。测定的结果如下:,上述计算结果表明:标准差变异很大,但是变异系数相差不大,说明标准差和平均数有成正比的趋势,所以考虑用对数变换。,变换后的数据如下:,一般用于服从二项分布的百分率资料。如果在n次独立试验中,具有性质A的事件发生r次,则r服从二项分布B(n,P
8、),其中P为在一次试验中A事件发生的概率。当百分率都在30%70%之间时可以不做转换,因为变换后的数据与变换前相差不大。这种变换是使两端的率向中间接50%靠近,使数据的差异幅度变小。,4 反正弦转换,反正弦变换,又称为角变换。,例6:6个大豆品种的样本患茎癌肿的百分率数据(%)如下:,反正弦变换后,36.51,37.25.7,5 倒数转换,倒数转换常用于以反应时间为指标的数据,例如某疾病患者的生存时间。,例7:比较两种不同浓度的杀虫剂的灭蝇效果,在喷洒后观察苍蝇的存活时间(以分计),其结果见下表:,对转换后的数据进行t检验:数据转换后,则认为两样本所代表的总体方差相等。,所以:用两种不同浓度的杀虫剂喷洒后苍蝇的存活时间有极其显著的差异。,如果不进行数据变换,则用总体方差未知且不相等的 t 检验。,两种方法所得结果的差别很大,这说明如果两个总体的方差相差悬殊,直接用原数据进行t检验的检验功效远低于用转换后的数据进行t检验的功效。,作业,数据转换3种检验4种变换为了提高假设检验的可靠性,因为假设检验所使用的检验统计量都是在一定假设基础上的(总体方差、观测值是否服从正态分布)。,