第四节-二项资料的百分数假设检验.ppt-道客多多

资源描述

1、适用于以百分数或成数表示试验的结果分析。如病株率、有虫株率、杀虫率、发芽率等。理论上讲，这类资料应按照二项分布进行，但当样本容量n较大，p不过小，np、nq又均不小于5时，(p+q)n的分布趋近于正态分布，因而，可将百分数的资料作正态分布处理。,第四节二项资料的百分数假设检验 Test of percent hypothesis,第四节二项资料的百分数假设检验 Test of percent hypothesis,二项资料在以下情况可以用U 测验进行分析。适合于用正态离差测验的二项样本的np和n值表,注意表中、以及 n 的关系,第四节二项资料的百分数假设检验 Test of per

2、cent hypothesis,1、单个样本百分数的假设测验2、两个样本百分数相比较的假设测验3、二项样本假设测验时的连续矫正,二项总体抽样的分布,二项总体的平均数p，方差2 p(1-p)=p q标准差为,样本平均数抽样分布平均数，方差，标准误，,Test of percent hypothesis,二项总体的分布参数,例：一个总体内有5个个体，分别为0、1、0、1、1。则：（ 01 0 1 1 ）50.6所以 p2(0-0.6)2+(1-0.6)2+(0-0.6)250.24,（每次取一个样，即: n =1）,1、单个样本百分数的假设测验,测试百分数所属总体百分数与某一理论值或期望值p

3、0的差异显著性。样本百分数的标准误为：,故由,例：紫花与白花大豆杂交，在F2代共得到289株，其中紫花208株，白花81株。如果花色受一对等位基因控制，根据遗传学原理，F2代紫花与白花分离的比例应为3:1，即紫花理论数为p=0.75，白花为q =1-p =0.25。问该试验是否符合一对等位基因的的遗传规律？,Test of percent hypothesis,假设：H0：p=0.75；HA：p0.75。=0.05，作两尾测验u.05=1.96。,计算：,因为：u.05=1.96，u(1.19)0.05。推断：接受H0：p=0.75，即该试验中大豆花色符合一对等位基因的遗传规律。试验中的p=

4、0.7197与p=0.75的差别属于随机误差。,单个样本百分数的假设测验,2、两个样本百分数相比较的假设测验,测验两个样本百分数和所属总体百分数p1和p2的差异显著性。一般假设两个样本总体方差是相等的，即两个样本总体的个体百分数不同为p1和p2。两个样本百分数的差数标准误为：,如果两总体的百分数相同，即p1=p2=p，q1=q2=q，则：,Test of percent hypothesis,2、两个样本百分数相比较的假设测验,在两个总体百分数p1和p2未知时，在两个总体方差相等的前提下（），可用两样本百分数的加权平均值作为p1和p2的估计。即：,故有：,两个样本百分数的差数标准误为：,

5、即可对H0：p1=p2作出假设测验。,Test of percent hypothesis,例题：调查一低洼地，小麦378株，其中有锈病355株，病株率93.92，一高地调查396株，有346株发病，病株率为87.37。问两块田发病情况有无差异？n1=378，x1=355，n2=396，x2=346,假设： H0：p1=p2； HA：p1 p2；=0.05，作两尾测验u.05=1.96。,两个样本百分数相比较的假设测验,计算：,因为：u.05=1.96，u(3.12)u0.05，所以p0.05。推断：否定H0：p1=p2，接受HA：p1p2，即该试验中两块麦田锈病的发生程度有显著差异。,两个样

6、本百分数相比较的假设测验,3、二项样本假设测验时的连续矫正,以上所分析的事例在性质上属于间断性变易，其分布是间断性的二项分布。将其按照连续性的正态分布或 t 分布，一般容易发生第一类错误。补救的办法是假设测验时进行连续矫正。这种矫正工作当n30，npt 0.05(2.014)，否定H0，接受了HA。这就将本来错误的东西接受了，即犯了纳伪错误，增加了发生第一类错误的可能性。,单个样本百分数假设测验的连续矫正,第五节参数的区间估计 Estimate of confidence interval,对统一总体进行多次调查时，会出现不同的平均数值，为说明不同平均数的代表性，需要估计出一个范围或一个区

7、间能够覆盖参数，这个区间称作置信区间(confidence interval)。区间的上限和下限，称作置信限（confidence limit）。保证该区间能够覆盖参数的概率以p=(1-)表示，称为置信系数或置信度。点估计：以样本均数（）估计总体均数()。,第五节参数的区间估计,经过转换可得到在置信度p=1-时，对的置信区间为：,以上置信区间的含义为：如果从总体中抽出容量为n的所有样本，并且每一个样本都算出L1、L2，则在所有的L1、L2区间中，将有95能覆盖参数。区间估计的精度要求决定于值。,或称在（1-）概率下：,若有95(1-,0.05)的样本落在(-1.96)至(+1.96)的

8、范围内，即：,Estimate of confidence interval,Estimate of confidence interval,1、总体平均数的置信限2、两总体平均数差数的置信限3、二项总体百分数的置信限4、两个二项总体百分数差数的置信限5、区间估计与假设测验,1、总体平均数的置信限,1.1 在总体方差为已知时的置信区间为：,例题：棉花株行圃中，36个单行的皮棉平均产量x=4.1kg，已知=0.3kg，求99置信度下该株行圃单行皮棉产量的置信区间。,故90的置信区间为(4.1-2.580.05) (4.1+2.580.05)，即4.0 4.2 u推断：估计单行皮棉产量在4.04.

9、2之间，可靠度为99。,u为正态分布下的置信度p=1-的 u 临界值。,在置信度p=1-=99%时，由附表3查得u0.01=2.5758；计算得,Estimate of confidence interval,1.2 在总体方差为未知时,2需要由样本均方S2估计，于是置信区间为：,t为置信度p=1-时 t 分布的 t 临界值。,例：某自外地引入一新品种，在8个小区种植，得其千粒重为：35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6，问在95概率保证下新引入品种的千粒重的范围？,计算：千粒重的平均数为35.2g，标准差为0.58g。查附表4，v=7时 t0.05=2

10、.365，故：35.22.3650.58 35.22.3650.58即：33.836.6，置信度为95。,总体平均数的置信限,35.22.3650.58 35.22.3650.58即：33.836.6，置信度为95。写材料时的表达方式为：,含义是：35.2(2.3650.58)=35.2 1.37g,总体平均数的置信限,t,与总体方差已知情况相比：,2、两总体平均数差数(1-2)的置信限,2.1 两总体方差已知或为大样本2.2 两总体方差未知2.3 成对数据总体差数d的置信区间,在一定置信度条件下，估计两个总体平均数的差别，其方法依据两总体方差是否已知或是否相等可分为三种情况。,Estimat

11、e of confidence interval,2.1 两总体方差已知或为大样本时,对1-2的1-置信区间应为：,上式中为平均数差数标准误，为正态分布下置信度为1-时的临界值。,两总体平均数差数(1-2)的置信限,与一个样本总体置信区间的区别。,例题：测得甘薯1号332株的单株平均产量，,甘薯2号282株的单株平均产量，,试估计在95概率保证下，两品种单株平均产量相差的置信区间。,两总体平均数差数(1-2)的置信限,计算平均数差数标准误,因而，95的置信限为：L1=(750-600)1.9618114.7(g)L2=(750-600)1.9618185.3(g)结果表明：1号甘薯品种较2号

12、品种的产量多114.7185.7(g)，此估计结果有95的把握。,两总体平均数差数(1-2)的置信限,2.2 两总体方差未知,两总体方差未知时还有两种情况：A、两总体方差相等，即的1- 置信区间为：,B、两总体方差不相等，即,置信限为：,置信限为：,两总体平均数差数(1-2)的置信限,置信度1时自由度的t分布临界值。,A、两总体方差未知，但可以相等：例：调查某生产队每亩30万苗和35万苗的稻田各5块，得亩产量（kg）X1(30)：400 420 435 460 425X2(35)：450 440 445 445 420试测验两种密度亩产量在99的置信区间。,查表4得 =8，t0.013.3

13、55，,L1=(428440)(3.35511.136)-49.4 L2=(428440)(3.35511.136)25.4结果表明：每亩30万苗较35万苗少收49.4kg或多收25.4kg，波动很大，所以接受H0：1= 2。,两总体平均数差数(1-2)的置信限,分析：平均数X1(30)428， X2(35)440 。,计算：,以上结果说明两个总体平均数相等，因此可用两总体的加权平均数作为对的估计：,或,因此，对的置信区间为：,依据：,所以：,两总体平均数差数(1-2)的置信限,依据：,计算12 ：的1-的置信区间。,B、两总体方差未知，但不会相等：由于两总体方差未知，且不相等，故由样本方差

14、S作为的估计值，此时的计算的t已不是v=v1+v2的 t 值。而是其自由度近似于v的 t 值，因此：,两总体平均数差数(1-2)的置信限,例题：,测定冬小麦品种东方红3号的蛋白质含量()10次，得其平均数为14.3，方差为1.621；测农大139号的蛋白质含量5次，其平均数为11.7，方差为0.135。试测验两品种蛋白质含量相差的95置信区间。计算：平均数、方差。,查附表4得：=11， t0.052.201，故有：,因此，东方红小麦的蛋白质含量可比农大139高1.63.6，该估计的可靠度为95。,两总体平均数差数(1-2)的置信限,2.3 成对数据总体差数d的置信区间,依据：两个样本平均数相比

15、较的假设测验中成对数据比较的计算公式：（5.15A）,可以得到d的1-的置信区间，两个置信限分别为：,Sd的计算公式为: （5.14）,t为置信度为1 ，v=n1 时 t 分布的临界 t 值。,两总体平均数差数(1-2)的置信限,表两种处理方法产生的病毒病斑数目,例题：试求表中资料利用两种处理方法产生病毒病斑数目d的99置信区间。,两总体平均数差数(1-2)的置信限,H0： d=0,即：,查附表4，V=6时， t0.01=3.707。,依据,得：,或写作：-15.7d-0.9。负值表明说明A法比B法处理减少病斑0.915.7个，此置信度为99。,总体平均数的置信限,3. 二项总体百分数p 的

16、置信限,适合于用正态离差测验的二项样本的np和n值表,二项总体百分数p置信区间的估计方法有两种即按、二项分布；、正态分布估计。前者准确方便，但附表范围小。后者较粗，但范围广。例题：调查100株玉米，受玉米螟危害的20株，即p=0.2，np=20，计算95置信度的玉米螟危害率置信区间。,Estimate of confidence interval,、按二项分布估计,附表9 二项分布95的置信区间（部分数据）,二项总体百分数p 的置信限,表中： f 为观察次数，f/n为观察分数。,条件： n=100， p=0.2，np=20。,结果表明：玉米螟危害率置信区间为0.130.29，置信度为95。,

17、、按照正态分布估计,二项总体百分数p 的置信限,条件： n=100， p=0.2，np=20。,计算公式：,计算：0.05=1.96,结果表明：玉米螟危害率置信区间为0.120.278，置信度为95。,适合于用正态离差测验的二项样本np和n值表,二项分布结果：危害率置信区间为0.130.29。,4.两个二项总体百分数差数p1-p2的置信限,这种估计只有在已经明确两个百分数间有显著差异时才有意义。在1-置信度下，p1-p2的置信区间为：,式中两样本百分数差数标准误的计算公式为：(5.18),Estimate of confidence interval,低地锈病的发病率为93.92(n1=378

18、)，高地为87.31(n2=396)。按95置信区间估计两地发病率相差的置信区间。已知0.05=1.96 在1-置信度下，p1p2的置信区间为：,两地发病率相差的置信区间为2.5410.68，置信度为95。,两个二项总体百分数差数p1-p2的置信限,5. 区间估计与假设测验,区间估计也可用于假设测验。因为置信区间是一定置信度下总体参数的所在范围。若对参数所作的假设落在该范围内，则可接受H0，否则接受HA。例5.1：某春小麦良种的千粒重034g，现自外地引入一高产品种，在8个小区种植，得其千粒重为：35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6，求其95置信区间？

19、,因为原品种034g，新品种千粒重的平均数落在33.836.6范围之内，所以推断新引进的品种与原品种无显著差异。,Estimate of confidence interval,t0.05(7),计算千粒重的平均数：,L1=35.2(2.3650.58)=33.8（g）L2=35.2(2.3650.58)=36.6（g）,例：低地锈病的发病率为93.92(n1=378)，高地为87.31(n2=396)。按95置信区间估计两地发病率相差的置信区间。已知0.05=1.96 在1-置信度下，p1p2的置信区间为：,两地发病率相差的置信区间为2.5410.68，置信度为95。93.92-87.316

20、.61因为原假设：H0：P1=P2，即P1P2=0 。该假设超出计算结果，所以接受HA。,区间估计与假设测验,表两种处理方法产生的病毒病斑数目,例题：试求表中资料利用两种处理方法产生病毒病斑数目d的99置信区间。,两总体平均数差数(1-2)的置信限,H0： d=0,查附表4，V=6时，,已求得：,即：-15.7d-0.9。负值表明说明A法比B法处理减少病斑0.915.7个，若假设d=0，则该区间不包括0，所以接受HA，两种方法处理结果不同。,总体平均数的置信限,t0.01=3.707。,例：调查某生产队每亩30万苗和35万苗的稻田各5块，得亩产量（斤）X1(30)：800 840 870 9

21、20 850 n=5X2(35)：900 880 890 890 840,查表，t0.05,82.306 因为 |t|=1.080.05推断：接受H0，即两种密度的亩产量没有显著差异。,原计算结果：,按照置信区间计算：X1(30)：800 840 870 920 850 n=5X2(35)：900 880 890 890 840X1-X2 -100 -40 -20 30 10 -120 平均： 24假设：H0：1 2；HA： 1 2 显著水平：0.05SSd=10120 Sd=SSdn(n-1)1/2=22.5 t=24/22.5=1.07V=5-1=4 查表得 t0.05=2.776 因为1

22、.072.776，所以差异不显著，接受HA。依据：L1=24-1.0422.5-0.075；L2241.0422.548.075。,置信区间不仅提供一定概率保证的总体参数范围，而且可以获得假设测验的信息。在1-的置信度下，其间关系可归纳为以下两点： 1.若两个置信限为同号(正号或负号)，则否定H0:，接受HA:。如否定：H0:-00、 H0:d=0、H0:p1-p2=0等。其中：、若两个置信限皆为正号，则有一个参数大于另一个参数成立，如： H0:12或p1p2等，如例415 、417、420等。、若两个置信限皆为负号，则有一个参数小于另一个参数成立，如： 12或p1p2等，如例418（p45）。2. 两个置信限为异号（一正一负），即其区间包括零值，则H0：被接受。如：H0:-0=0、H0:1-2=0、H0:d=0, H0:p1-p2=0等。如例416。,区间估计与假设测验,

展开阅读全文