1、拟合优度检验,一、一般原理,(一)什么是拟合优度检验?拟合优度检验(goodness of fit test)是用来检验实际观测数据与依照某种假设或模型计算出来的理论数之间的一致性,以便判断该假设或模型是否与观测数相配合。,(二)主要内容和注意事项1.主要内容 1)一致性检验 根据某一假设或模型检验观测数与理论数的一致性。 例如: A:判断按照回归方程的预测值与实际值之间的符合程度。 B:某一组数据的正态性检验。,2)独立性检验根据检验两组数据之间的关联性或差异性来判断事件之间的独立性没有假设和理论值。 如: A:遗传学中检验子二代花色分离差异性检验。 B:对照和处理之间的差异性检验。,2.注
2、意事项 1)对上述两种类型的检验均用2检验来实现。注意与显著性检验时的2检验的区别。 2) 2检验主要应用于次数资料的检验。 3)2检验也会出现两种类型错误。,K.Pearson根据的 定义,根据属性性状资料的分布,推导出用于次数资料分析的 公式,上式中O为观察次数,E为理论次数,自由度为df.,(三) 2统计量的计算,卡方分布,图7-1 几个自由度的概率分布密度曲线,由于 分布是连续性的分布,而次数资料则是间断性的,所以用上式计得的值总是偏大,尤其当自由度df=1时,这种偏差会较大,故在计算时需要用 的连续性矫正公式:,当自由度大于1时,这时,可不作连续性矫正,但要求各组内的理论次数不小于5
3、。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止。,(三)拟合优度检验的一般程序,1.分组 2.计算理论值 3.估计参数 4.判断理论数的数目 5.计算自由度:df=k-1- 6.假设 7.计算统计量,作出判断,四、 适合性检验检验实得次数资料的次数与假设的理论次数是否相互符合的 检验称为适合性检验。,在适合性检验中,理论次数和自由度的计算: Ei=npi df=k-m,在适合性检验中,无效假设为H0:实际观察的属性类别分配符合已知属性类别分配的理论或学说;备择假设为HA:实际观察的属性类别分配不符合已知属性类别分配的理论或学说。 并在无效假设成立的条件下,按
4、已知属性类别分配的理论或学说计算各属性类别的理论次数。,因所计算得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数的总和,即独立的理论次数的个数等于属性类别分类数减1。也就是说,适合性检验的自由度等于属性类别分类数减1。,(一) 适合性检验的基本步骤 1、建立假设。即无效假设和备择假设:H0:符合假设的总体分布,HA:不符合假设的总体分布。 2 确定显著水平 3 计算。在无效假设为正确的前提下,计算 值。与查表得的 值进行比较 4 结论,如果 接受H0,否定HA,(二)次数资料的适合性检验 1、 k=2组次数资料的适合性检验这种资料仅分成2组,即k=2,其总体分布为二项总体分布。无效
5、假设H0:符合假设的二项分布,对HA:部符合假设的二项分布。由于受到理论总次数等于实际总次数这一条件的限制,即Ei=N,因而约束条件数m=1,自由度df=2-1=1.故需用矫正公式。,例8.1 海棠种子发芽试验的结果列于下表,试检验该样本所属的二项总体与假设发芽率p=0.90的二项总体分布之间有无显著差异,(1) 直接法 统计假设:H0:符合假设p=0.90的二项分布;HA: 不符合假设p=0.90的二项分布 显著水平:=0.05 检验计算:,=1.5625,df=2-1=1 查分布表得右尾临界值 =3.84,推断:因 =1.5625 =3.84故接受H0,否定HA ,即该批海棠种子发芽试验的
6、结果所属的二项分布与假设发芽率p=0.90的二项总体之间无显著性差异。,(2)简算法对于k=2 的次数资料O1和O2,欲检验其是否属于r:s的总体二项分布时,可以省略理论次数的计算,简化公式,如本例 = =1.5625,2、k3组次数资料的适合性检验这种资料分3组以上,即k3,其总体分布为多项分布。无效假设H0:符合假设的多项分布。HA:不符合假设的多项分布。这种分布亦受理论次数等于实际总次数即E=N这一条件的限制。自由度df=k-12,不用矫正公式。,例8.2 用乳白色和红色金鱼草杂交F2代的实验结果列于下表。试检验该样本所属的总体分布与假设理论比率为 1:2:1的多项分布之间有无显著性差异
7、。,(1) 直接法 统计假设: H0符合1:2:1 对HA 不符合1:2:2 显著水平 = 0.05 计算: =1.5 df=k-1=2,查表得右尾检验临界值 =5.99 推断:因 =1.5 =5.99 故接受H0,否定HA,即金鱼草杂交F2代的试验结果所属的总体分布与假设理论比率为1:2:1的多项分布之间无显著差异。,2)简算法 对于k3的次数资料,有下式简化计算,式中oi为实际次数,n为总次数,pi为理论概率,本例,=1.5,例:检验200头大白猪仔猪一月窝重的资料是否服从正态分布,1、先将资料(原始数据略)整理成次数分布表,组限、组中值、各组的次数列于表7-7的(1)、(2)、(3)栏,
8、再将各组上限列于第(4)栏中。 2、计算各组组上限与均数( =65.6kg)之差,列于第(5)栏。 3、计算校正标准差Sc。由于由分组资料求得的标准差较不分组时所得标准差为大,故需作校正。,4、依公式 求各组上限的正态离差,列入第6栏。如第一组5、设该资料服从正态分布,依u值查正态分布表得各组段的累计概率(a),列入第(7)栏。如当u=-2.57时,a=0.0051,u=0.29时,a=0.6141。 6、求出每一组段的概率,列入第(8)栏。由下一组段的累加概率减去本组段的累加概率而得。如8 组段的概率为0.0136-0.0051=0.0085。,7、以总数n=200头乘以各组概率便得理论次数
9、,列入第(9)栏。凡理论值小于5者应加以合并。本例前三组与后三组分别合并。合并后的实际次数与理论次数分别为10与6.44、7与8.72,见第(3)与第(9)栏。 8、求各组2值,列入第(10)栏。 9、确定自由度。这里是因为求理论次数时用去均数,标准差与总次数三个统计量,该例经合并共12个组,故df=12-3=9。,10、结论。由df=9查2表得:20.05(9)=16.919,而计算所得的2值为:2=8.7808,因为20.05,表明各组实际次数与由正态分布计算的理论次数差异不显著,可以认为大白猪仔猪一月窝重服从正态分布。,例:用显微镜检查某样品内结核菌的数目,对某些视野内各小方格的结核菌数
10、计数,然后按不同的结核菌数目把格子分类,记录每类的格子数。其结果见表79第(1)、(2)栏。试检验结核菌数是否服从波松分布。,是波松分布所依赖的唯一参数。值愈小分布愈偏倚,随着的增大,分布趋于对称(如图4-11所示)。当=20时分布接近于正态分布;当=50时,可以认为波松分布呈正态分布。所以在实际工作中,当20时就可以用正态分布来近似地处理波松分布的问题。,1. 计算理论概率 设结核菌数服从波松分布P(),其概率计算公式为:其中为平均数,且等于方差2。此时因未知,可利用样本平均数来估计。利用加权法求样本平均数为:则:各项理论概率为,计算结果列于第(3)栏,2. 计算理论次数 将总次数N=118
11、乘以各组的理论概率即得各组理论次数T。计算结果列于第(4)栏。由于表后4组的理论次数小于5,故将后4组与第7组合并为一组,合并后的实际格子数为8,理论格子数为9.5818。 3. 计算2值 根据表79第(5)栏的数据可得2值为:,因为此例经并组后的分组数为7;计算理论次数利用了样本平均数和总次数,所以自由度为7-2=5。当df=5时,查2值表得:20.05(5)=11.07,因为20.05,表明结核菌的各实际格子数与根据波松分布计算出的理论格子数差异不显著,可以认为结核菌数服从波松分布。,注意事项: 计算自由度时的的数目确定! df=n-1- ,五、独立性检验,(一)独立性检验根据次数资料判断
12、两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关性的研究。,(二)两项分组次数资料的独立性检验这种资料按两个方向分组,按行分为r个组,按列分为c个组,故称为两项分组次数资料。实得的两向分组资料的次数与假设理论次数间是否相互独立的 检验称为 独立性检验。可以对任意二维的假设分布进行 检验。,理论次数和自由度的计算 Eij=npij=n = df=rc-r-c+1=(r-1)(c-1),=,式中r为行区组;c为列区组;ri 为行合计次数;cj为列合计次数;n为总次数;pij为二维联合概率pij=pipj,这是按独立事件概率的乘法原理计算的。,1. 2
13、2组次数资料的独立性检验这种资料按行分为2组,即r=2;按列分为2组,即c=2;资料的一般形式如下表,其自由度df=(2-1)(2-1)=1,需要用矫正公式。,其中Aij为实际观察次数,Tij为理论次数。,例.试验用80头小白鼠检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有12头发病,32头未发病;未注射的36头中有22头发病,14头未发病,问该疫苗是否有预防效果?,(1)提出无效假设与备择假设H0:发病与否和注射疫苗无关,即二因子相 互独立。HA:发病与否和注射疫苗有关,即二因子彼此相关。 (2)计算理论次数 根据二因子相互独立的假设,由样本数据计算出各个理论次数。二因子相互独立,就
14、是说注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同,均应等于总发病率34/80=0.425。依此计算出各个理论次数如下:,注射组的理论发病数:T11=4434/80=18.7 注射组的理论未发病数:T12=4446/80=25.3, 或:T12=44-18.7=25.3; 未注射组的理论发病数:T21=3634/80=15.3, 或T21=34-18.7=15.3; 未注射组的理论未发病数:T22=3646/80=20.7, 或T22=36-15.3=20.7。,从上述各理论次数Tij的计算可以看到,理论次数的计算利用了行、列总和,总总和,4个理论次数仅有一个是独立的。
15、表中括号内的数据为相应的理论次数。,计算值 将表中的实际次数、理论次数代入公式:,+,5、 由自由度df=1查临界2值,作出统计推断 因为20.01(1)=6.63,而 =7.94420.01(1),P0.01,否定H0,接受HA,表明发病率与是否注射疫苗极显著相关,这里表现为注射组发病率极显著低于未注射组,说明该疫苗是有预防效果的。,2 值简算法,在(7-6)式中,不需要先计算理论次数, 直接利用实际观察次数Aij,行、列总和 Ti.、T.j和总总和T进行计算简便,且误 差小。,2. 2c列联表的独立性检验,2c列联表是行因子的属性类别数为2,列因子的属性类别数为c(c3)的列联表。其自由度
16、df=(2-1) (c -1),因为c3,所以自由度大于2,在进行2检验时,不需作连续性矫正。2c表的一般形式见下表,(i=1,2;j=1,2,c)为实际观察次数。,例.在甲、乙两地进行某种作物生长情况调查,将体型按优、良、中、劣四个等级分类,其结果见下表,问两地该作物生长情况是否相同。,1. 提出无效假设与备择假设H0:作物生长情况与地区无关,即两地作物生长情况与相同。HA:作物生长情况与与地区有关,即作物生长情况与不同。,2. 计算各个理论次数,并填在各观察次数后的括号中 计算方法与22表类似,即根据两地水牛体型构成比相同的假设计算。如优等组中,甲地、乙地的理论次数按理论比率20/135计
17、算;良等组中甲地、乙地的理论次数按理论比率15/135计算;中等、劣等组中甲地、乙地的理论次数分别按理论比率80/135和20/135计算。 甲地优等组理论次数:T11=9020/135=13.3, 乙地优等组理论次数:T21=4520/135=6.7,或T21=20-13.3=6.7; 其余各个理论次数的计算类似。,3.计算计算2值,4. 由自由度df=3查临界2值,作出统计推断 因为2005(3)=7.815,而2=7.5820.05,不能否定H0,可以认为甲、乙该作物生长情况相同。 本例同样可以利用2值简算法。,生物学研究中有时需将数量性状资料以等级分类这些由数量性状资料转化为质量性状的
18、次数资料检验,也可用2检验。 例.分别统计了A、B两个品种各67头试验用小白鼠的产仔情况,结果见下表,问A、B两品种的产仔构成比是否相同?,1、提出无效假设与备择假设 H0:A、B两个品种产仔数分级构成比相同。 HA:A、B两个品种产仔数分级构成比不同。 2、计算2值 用简化公式计算为:3、由自由度df=(2-1)(3-1)=2查临界2值,作出统计推断 因为20.05(2)=9.21,2 20.01, P0.01,所以否定H0,接受HA ,表明A、B两品种产仔数构成比差异极显著。,注意本例中A、B两品种产仔数构成比差异极显著。 但是无法具体确定分级构成比差异在那样的等级。 需用2检验的再分割法
19、 。,2检验的再分割法,(1)先对两个品种产仔数在9头以下和1012头进行2检验,分割后的情况见下表 :,利用简化公式(7-7)计算21值为:,由df1=2-1=1,查2值表得:20.05(1)=3.841,因为210.05,表明这两个品种的产仔数在9头以下和1012头这两个级别内的比率差异不显著。,(2)对产仔数在13头以上组与其他合并组(即9头以下和1012头两个组的合并)进行2检验,分割后见下表:,简算法计算2值,由df2=2-1=1,查2值表得:20.05(1)=3.846,20.01(1)=6.63,因为2220.01(1),P0.01,表明这两个品种的产仔数在合并组与13头以上组的
20、比率差异极显著。其中B品种产仔数在13头以上的比率为29/67=42.38%,极显著高于A品种产仔数在13头以上的比率6/67=8.96%。或者说B品种产仔数在合并组(12头以下)的比率为38/67=56.72%,极显著低于A品种产仔数在合并组(12头以下)的比率61/67=91.04%。,经分割检验后,df=df1+df2=2+1=3, 2=23.25=21+ 22=2.93+20.458=23.388,2略小于21+22,是由于简算中的舍入误差所致。,(三)rc列联表的独立性检验,rc表是指行因子的属性类别数为r(r2),列因子的属性类别数为c( c2)的列联表。其一般形式见表,rc列联表
21、各个理论次数的计算方法与上述(22)、(2c)表适合性检验类似。但一般用简化公式计算2值,其公式为:,【例】 对三组小白鼠(每组39头)分别喂给不同的饲料,各组发病次数统计如下表,问发病次数的构成比与所喂饲料是否有关?,检验步骤如下:1、提出无效假设与备择假设 H0:发病次数的构成比与饲料种类无关,即二者相互独立。 HA:发病次数的构成比与饲料种类有关,即二者彼此独立。 2、计算理论次数 对于理论次数小于5者,将相邻几个组加以合并(见下表),合并后的各组的理论次数均大于5。,3、计算2值 利用公式计算2值,得:,4、查临界2值,进行统计推断 由自由度df=(4-1)(3-1)=6,查临界2值得
22、:2005(6)=12.9,因为计算所得的20.05,不能否定H0,可以认为小白鼠的发病次数的构成比与饲料种类相互独立,即用三种不同的饲料饲喂奶牛,各组小白鼠发病次数的构成比相同。,【例】用同一方法对甲、乙、丙三种试管做灭菌试验,每种试管又分为完好和破碎两组,32组次数资料列于下表,试做独立性检验,统计假设 H0 独立 HA 不独立 显著水平 =0.05 计算,直接法:,=1.82,df=(r-1)(c-1)=2 查表得右尾检验临界值 =5.99 推断:因 1.82 =5.99,接受H0,否定HA, 即甲、乙、丙三种试管在完好数和破碎数的总体分布之间无显著差异。,(2)简算法,=1.82,六、
23、独立性检验与适合性检验的区别,1.目的不同 2.独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成22、2c、rc列联表(r为行因子的属性类别数,c为列因子的属性类别数)。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。,3.适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。,4.在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。而在rc列联表的独立性检验中,共有rc个理论次数,但受到以下条件的约束:1、rc个理论次数的总和等于rc个实际次数的总和;2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。但由于r个横行实际次数之和的总和应等于rc个实际次数之和,因而独立的行约束条件只有r-1个;3、类似地,独立的列约束条件有c-1个。因而在进行独立性检验时,自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1),即等于(横行属性类别数-1)(直列属性类别数-1)。,