1、适用于以百分数或成数表示试验的结果分析。 如病株率、有虫株率、杀虫率、发芽率等。理论上讲,这类资料应按照二项分布进行,但当样本容量n较大,p不过小,np、nq又均不小于5时,(p+q)n的分布趋近于正态分布,因而,可将百分数的资料作正态分布处理。,第四节 二项资料的百分数假设检验 Test of percent hypothesis,第四节 二项资料的百分数假设检验 Test of percent hypothesis,二项资料在以下情况可以用U 测验进行分析。适合于用正态离差测验的二项样本的np和n值表,注意表中 、 以及 n 的关系,第四节 二项资料的百分数假设检验 Test of per
2、cent hypothesis,1、单个样本百分数的假设测验2、两个样本百分数相比较的假设测验3、二项样本假设测验时的连续矫正,二项总体抽样的分布,二项总体的平均数p,方差2 p(1-p)=p q标准差为,样本平均数抽样分布 平均数, 方差, 标准误,,Test of percent hypothesis,二项总体的分布参数,例:一个总体内有5个个体,分别为0、1、0、1、1。则:( 01 0 1 1 )50.6所以 p2(0-0.6)2+(1-0.6)2+(0-0.6)250.24,(每次取一个样,即: n =1),1、单个样本百分数的假设测验,测试百分数所属总体百分数与某一理论值或期望值p
3、0的差异显著性。样本百分数的标准误为:,故由,例:紫花与白花大豆杂交,在F2代共得到289株,其中紫花208株,白花81株。如果花色受一对等位基因控制,根据遗传学原理,F2代紫花与白花分离的比例应为3:1,即紫花理论数为p=0.75,白花为q =1-p =0.25。问该试验是否符合一对等位基因的的遗传规律?,Test of percent hypothesis,假设:H0:p=0.75;HA:p0.75。=0.05, 作两尾测验u.05=1.96。,计算:,因为:u.05=1.96,u(1.19)0.05。推断:接受H0:p=0.75,即该试验中大豆花色符合一对等位基因的遗传规律。试验中的p=
4、0.7197与p=0.75的差别属于随机误差。,单个样本百分数的假设测验,2、两个样本百分数相比较的假设测验,测验两个样本百分数 和 所属总体百分数p1和p2的差异显著性。一般假设两个样本总体方差是相等的,即两个样本总体的个体百分数不同为p1和p2。两个样本百分数的差数标准误为:,如果两总体的百分数相同,即p1=p2=p,q1=q2=q,则:,Test of percent hypothesis,2、两个样本百分数相比较的假设测验,在两个总体百分数p1和p2未知时,在两个总体方差相等的前提下( ),可用两样本百分数的加权平均值作为p1和p2的估计。即:,故有:,两个样本百分数的差数标准误为:,
5、即可对H0:p1=p2作出假设测验。,Test of percent hypothesis,例题:调查一低洼地,小麦378株,其中有锈病355株,病株率93.92,一高地调查396株,有346株发病,病株率为87.37。问两块田发病情况有无差异?n1=378,x1=355,n2=396,x2=346,假设: H0:p1=p2; HA:p1 p2;=0.05,作两尾测验u.05=1.96。,两个样本百分数相比较的假设测验,计算:,因为:u.05=1.96,u(3.12)u0.05,所以p0.05。推断:否定H0:p1=p2,接受HA:p1p2,即该试验中两块麦田锈病的发生程度有显著差异。,两个样
6、本百分数相比较的假设测验,3、二项样本假设测验时的连续矫正,以上所分析的事例在性质上属于间断性变易,其分布是间断性的二项分布。将其按照连续性的正态分布或 t 分布,一般容易发生第一类错误。补救的办法是假设测验时进行连续矫正。这种矫正工作当n30,npt 0.05(2.014),否定H0,接受了HA。 这就将本来错误的东西接受了,即犯了纳伪错误,增加了发生第一类错误的可能性。,单个样本百分数假设测验的连续矫正,第五节 参数的区间估计 Estimate of confidence interval,对统一总体进行多次调查时,会出现不同的平均数值,为说明不同平均数的代表性,需要估计出一个范围或一个区
7、间能够覆盖参数,这个区间称作置信区间(confidence interval)。区间的上限和下限,称作置信限(confidence limit)。保证该区间能够覆盖参数的概率以p=(1-)表示,称为置信系数或置信度。点估计:以样本均数( )估计总体均数()。,第五节 参数的区间估计,经过转换可得到在置信度p=1-时,对的置信区间为:,以上置信区间的含义为:如果从总体中抽出容量为n的所有样本,并且每一个样本都算出L1、L2,则在所有的L1、L2区间中,将有95能覆盖参数。 区间估计的精度要求决定于 值。,或称在(1-)概率下:,若有95(1-,0.05)的样本落在(-1.96)至(+1.96)的
8、范围内,即:,Estimate of confidence interval,Estimate of confidence interval,1、总体平均数的置信限2、两总体平均数差数的置信限3、二项总体百分数的置信限4、两个二项总体百分数差数的置信限5、区间估计与假设测验,1、总体平均数的置信限,1.1 在总体方差为已知时的置信区间为:,例题:棉花株行圃中,36个单行的皮棉平均产量x=4.1kg,已知=0.3kg,求99置信度下该株行圃单行皮棉产量的置信区间。,故90的置信区间为(4.1-2.580.05) (4.1+2.580.05),即4.0 4.2 u推断:估计单行皮棉产量在4.04.
9、2之间,可靠度为99。,u为正态分布下的置信度p=1-的 u 临界值。,在置信度p=1-=99%时,由附表3查得u0.01=2.5758;计算得,Estimate of confidence interval,1.2 在总体方差为未知时,2需要由样本均方S2估计,于是置信区间为:,t为置信度p=1-时 t 分布的 t 临界值。,例:某自外地引入一新品种,在8个小区种植,得其千粒重为:35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6,问在95概率保证下新引入品种的千粒重的范围?,计算:千粒重的平均数为35.2g,标准差为0.58g。查附表4,v=7时 t0.05=2
10、.365,故:35.22.3650.58 35.22.3650.58即:33.836.6,置信度为95。,总体平均数的置信限,35.22.3650.58 35.22.3650.58即:33.836.6,置信度为95。写材料时的表达方式为:,含义是:35.2(2.3650.58)=35.2 1.37g,总体平均数的置信限,t,与总体方差已知情况相比:,2、两总体平均数差数(1-2)的置信限,2.1 两总体方差已知或为大样本2.2 两总体方差未知2.3 成对数据总体差数d的置信区间,在一定置信度条件下,估计两个总体平均数的差别,其方法依据两总体方差是否已知或是否相等可分为三种情况。,Estimat
11、e of confidence interval,2.1 两总体方差已知或为大样本时,对1-2的1-置信区间应为:,上式中 为平均数差数标准误,为正态分布下置信度为1-时的临界值。,两总体平均数差数(1-2)的置信限,与一个样本总体置信区间的区别。,例题:测得甘薯1号332株的单株平均产量,,甘薯2号282株的单株平均产量,,试估计在95概率保证下,两品种单株平均产量相差的置信区间。,两总体平均数差数(1-2)的置信限,计算平均数差数标准误,因而,95的置信限为:L1=(750-600)1.9618114.7(g)L2=(750-600)1.9618185.3(g)结果表明:1号甘薯品种较2号
12、品种的产量多114.7185.7(g),此估计结果有95的把握。,两总体平均数差数(1-2)的置信限,2.2 两总体方差未知,两总体方差未知时还有两种情况:A、两总体方差相等,即 的1- 置信区间为:,B、两总体方差不相等,即,置信限为:,置信限为:,两总体平均数差数(1-2)的置信限,置信度1时自由度 的t分布临界值。,A、两总体方差未知,但可以相等:例:调查某生产队每亩30万苗和35万苗的稻田各5块,得亩产量(kg)X1(30):400 420 435 460 425X2(35):450 440 445 445 420试测验两种密度亩产量在99的置信区间。,查表4得 =8,t0.013.3
13、55,,L1=(428440)(3.35511.136)-49.4 L2=(428440)(3.35511.136)25.4结果表明:每亩30万苗较35万苗少收49.4kg或多收25.4kg,波动很大,所以接受H0:1= 2。,两总体平均数差数(1-2)的置信限,分析:平均数X1(30)428, X2(35)440 。,计算:,以上结果说明两个总体平均数相等,因此可用两总体的加权平均数作为对的估计:,或,因此,对的置信区间为:,依据:,所以:,两总体平均数差数(1-2)的置信限,依据:,计算12 :的1-的置信区间。,B、两总体方差未知,但不会相等: 由于两总体方差未知,且不相等,故由样本方差
14、S作为的估计值,此时的计算的t已不是v=v1+v2的 t 值。而是其自由度近似于v的 t 值,因此:,两总体平均数差数(1-2)的置信限,例题:,测定冬小麦品种东方红3号的蛋白质含量()10次,得其平均数为14.3,方差为1.621;测农大139号的蛋白质含量5次,其平均数为11.7,方差为0.135。试测验两品种蛋白质含量相差的95置信区间。计算:平均数、方差。,查附表4得:=11, t0.052.201,故有:,因此,东方红小麦的蛋白质含量可比农大139高1.63.6,该估计的可靠度为95。,两总体平均数差数(1-2)的置信限,2.3 成对数据总体差数d的置信区间,依据:两个样本平均数相比
15、较的假设测验中成对数据比较的计算公式:(5.15A),可以得到d的1-的置信区间,两个置信限分别为:,Sd的计算公式为: (5.14),t为置信度为1 ,v=n1 时 t 分布的临界 t 值。,两总体平均数差数(1-2)的置信限,表 两种处理方法产生的病毒病斑数目,例题:试求表中资料利用两种处理方法产生病毒病斑数目d的99置信区间。,两总体平均数差数(1-2)的置信限,H0: d=0,即:,查附表4,V=6时, t0.01=3.707。,依据,得:,或写作:-15.7d-0.9。负值表明说明A法比B法处理减少病斑0.915.7个,此置信度为99。,总体平均数的置信限,3. 二项总体百分数p 的
16、置信限,适合于用正态离差测验的二项样本的np和n值表,二项总体百分数p置信区间的估计方法有两种即按、二项分布;、正态分布估计。 前者准确方便,但附表范围小。后者较粗,但范围广。例题:调查100株玉米,受玉米螟危害的20株,即p=0.2,np=20,计算95置信度的玉米螟危害率置信区间。,Estimate of confidence interval,、按二项分布估计,附表9 二项分布95的置信区间(部分数据),二项总体百分数p 的置信限,表中: f 为观察次数,f/n为观察分数。,条件: n=100, p=0.2,np=20。,结果表明:玉米螟危害率置信区间为0.130.29,置信度为95。,
17、、按照正态分布估计,二项总体百分数p 的置信限,条件: n=100, p=0.2,np=20。,计算公式:,计算:0.05=1.96,结果表明:玉米螟危害率置信区间为0.120.278,置信度为95。,适合于用正态离差测验的二项样本np和n值表,二项分布结果:危害率置信区间为0.130.29。,4.两个二项总体百分数差数p1-p2的置信限,这种估计只有在已经明确两个百分数间有显著差异时才有意义。在1-置信度下,p1-p2的置信区间为:,式中两样本百分数差数标准误的计算公式为:(5.18),Estimate of confidence interval,低地锈病的发病率为93.92(n1=378
18、),高地为87.31(n2=396)。按95置信区间估计两地发病率相差的置信区间。已知0.05=1.96 在1-置信度下,p1p2的置信区间为:,两地发病率相差的置信区间为2.5410.68,置信度为95。,两个二项总体百分数差数p1-p2的置信限,5. 区间估计与假设测验,区间估计也可用于假设测验。因为置信区间是一定置信度下总体参数的所在范围。若对参数所作的假设落在该范围内,则可接受H0,否则接受HA。例5.1:某春小麦良种的千粒重034g,现自外地引入一高产品种,在8个小区种植,得其千粒重为:35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6,求其95置信区间?
19、,因为原品种034g,新品种千粒重的平均数落在33.836.6范围之内,所以推断新引进的品种与原品种无显著差异。,Estimate of confidence interval,t0.05(7),计算千粒重的平均数:,L1=35.2(2.3650.58)=33.8(g)L2=35.2(2.3650.58)=36.6(g),例:低地锈病的发病率为93.92(n1=378),高地为87.31(n2=396)。按95置信区间估计两地发病率相差的置信区间。已知0.05=1.96 在1-置信度下,p1p2的置信区间为:,两地发病率相差的置信区间为2.5410.68,置信度为95。93.92-87.316
20、.61因为原假设:H0:P1=P2,即P1P2=0 。该假设超出计算结果,所以接受HA。,区间估计与假设测验,表 两种处理方法产生的病毒病斑数目,例题:试求表中资料利用两种处理方法产生病毒病斑数目d的99置信区间。,两总体平均数差数(1-2)的置信限,H0: d=0,查附表4,V=6时,,已求得:,即:-15.7d-0.9。负值表明说明A法比B法处理减少病斑0.915.7个,若假设d=0,则该区间不包括0,所以接受HA,两种方法处理结果不同。,总体平均数的置信限,t0.01=3.707。,例:调查某生产队每亩30万苗和35万苗的稻田各5块,得亩产量(斤)X1(30):800 840 870 9
21、20 850 n=5X2(35):900 880 890 890 840,查表,t0.05,82.306 因为 |t|=1.080.05推断:接受H0,即两种密度的亩产量没有显著差异。,原计算结果:,按照置信区间计算:X1(30):800 840 870 920 850 n=5X2(35):900 880 890 890 840X1-X2 -100 -40 -20 30 10 -120 平均: 24假设:H0:1 2;HA: 1 2 显著水平:0.05SSd=10120 Sd=SSdn(n-1)1/2=22.5 t=24/22.5=1.07V=5-1=4 查表得 t0.05=2.776 因为1
22、.072.776,所以差异不显著,接受HA。依据:L1=24-1.0422.5-0.075;L2241.0422.548.075。,置信区间不仅提供一定概率保证的总体参数范围,而且可以获得假设测验的信息。在1-的置信度下,其间关系可归纳为以下两点: 1.若两个置信限为同号(正号或负号),则否定H0:,接受HA:。 如否定:H0:-00、 H0:d=0、H0:p1-p2=0等。 其中:、若两个置信限皆为正号,则有一个参数大于另一个参数成立,如: H0:12或p1p2等,如例415 、417、420等。 、若两个置信限皆为负号,则有一个参数小于另一个参数成立,如: 12或p1p2等,如例418(p45)。2. 两个置信限为异号(一正一负),即其区间包括零值,则H0:被接受。如:H0:-0=0、H0:1-2=0、H0:d=0, H0:p1-p2=0等。如例416。,区间估计与假设测验,