1、8,假设检验,内容,总体分布参数的假设检验,总体分布的2检验,学习目标,1.假设检验,原假设、备择假设,2.两类错误,3. 显著水平,拒绝域,4. 正态总体均值或方差的假设检验,8.1 假设检验的基本概念,数理统计的基本任务是根据对样本的考察来对总体的某些情况作出判断。采用先对总体X的分布或未知参数作某种假设,再运用统计分析的方法来检验这一假设是否正确,从而作出接受或拒绝的决定。这就是假设检验问题。,例 某车间用一台包装机包装葡萄糖。包得的袋装糖重是一个R.V,它服从正态分布N(,0.0152)。当机器正常时,其均值为0.5kg,随机地抽取它所包装的糖9袋,称得净重(kg),分别为 0.497
2、 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512问包装机工作是否正常?,H0,称为原假设(或零假设)(null hypothesis),H1,称为备择假设.(alternative hypothesis),H0为真时,统计量,两类错误:,第一类错误 在原假设为真时,决定拒绝原假设,称为第一类错误,其出现的概率通常记作;,第二类错误 在原假设不真时,决定接受原假设, 称为第二类错误,其出现的概率通常记作。,原则,在控制第一类错误的概率的条件下,使犯第二类错误的概率尽量小。,这样的假设检验问题称为显著性检验问题,概率称为显著性水平 (evidence
3、 level).,1) 反证法思想,2) 小概率原理,概率很小的事件在一次试验中实际上是不会发生的。,原假设H0和备择假设H1,可有如下的形式:,参数假设检验:,对未知参数提出假设,再根据样本进行检验。,非参数假设检验:,常见是对总体的未知分布提出假设,再根据样本进行检验。,拒绝域:,当样本观测值(x1,x2,xn)落在某区域C时我们拒绝原假设,则称区域C为拒绝域,拒绝域的边界点称为临界点。,假设检验的步骤如下:, 建立H0和H1;, 选定统计量并分析拒绝域的形式;, 给定显著性水平 ,并确定出拒绝域C;, 根据样本观测值作出判断是否拒绝H0。,8.2 单个正态总体参数的假设检验,设(x1,x
4、2,xn)是正态总体XN(,2)的样本。,1 关于的假设检验,对常见的假设检验问题:,双边检验,右边检验,左边检验,(1)2已知,取统计量,当H0为真时,,给定显著性水平 ,有,试计算此时犯第二类错误的概率。,(2)2未知,取统计量,当H0为真时,,给定显著性水平 ,有,例作物栽培已知豌豆百粒重X(单位:g)服从正态分布N(37.72,0.1089),在改善栽培条件后随机抽出9粒,平均重量37.92,问改善栽培条件是否显著地提高了豌豆的百粒重,0.05。,解:因为改善栽培条件不会降低豌豆籽的百粒重,所以设,H0为37.72,H1为37.72,计算出z=1.818,例 设考生的某次考试成绩服从正
5、态分布,从中任取36位考生的成绩,其平均成绩为66.5分,标准差为15分。,问在0.05的显著水平下,能否认为全体考生这次的平均成绩为70分。,2 关于2的假设检验,对2常见的假设检验问题:,双边检验,右边检验,左边检验,由于样本方差s2是总体方差2的无偏估计,当H0为真时,,给定显著性水平,,1)双边检验,2)右边检验,3)左边检验,未知时,例品种提纯一个混杂的小麦品种,其株高的标准差为14cm,经提纯后随机地抽出10株,它们的株高(单位:cm)为90,105,101,95,100,100,101,105,93,97,试检验提纯后的群体是否比原来的群体较为整齐,0.05。,解:提纯后的群体应
6、该比原来的群体较为整齐,故设,H0为2196,H1为20, 对左边检验问题:,t检验法,也可从附表6查得所需容量n,使得当H1且 时,犯第类错误的概率不超过.,3) 双边检验问题:,t检验法,也可从附表6查得所需容量n,使得当H1且 时,犯第类错误的概率不超过.,例 考虑在显著水平=0.05下进行t检验:,要求在H1中1=68+时犯第类错误的概率不超过=0.05,求所需的样本容量.,若样本容量为n=30, 问在H1中=1=68+0.75时犯第类错误的概率是多少.,8.6 分布拟合检验,Pearson构造了统计量,定理 设 是总体的真实分布,其中 为r个未知参数。在F0中用 的极大似然估计 代替
7、 令,此时拒绝域,对总体分布作2检验的步骤如下:,设H0为总体X服从某个指定的分布; 将随机变量X的取值范围划分为k个互不相交的区间或区域D(i1至k);,由样本的观测值求随机变量X在各个Di中取值的观测频数vi(i1至k);,按所指定的分布求随机变量X在各个Di中取值的概率pi(i1至k),如果所指定的分布中有未知的参数时,可先用极大似然法求出各个未知参数的估计量后,再求上述各个概率的估计值 ;,根据样本容量n及概率pi或估计值,求随机变量X在各个Di中取值的理论频数,或理论频数的估计值n (i1至k);,计算2统计量的观测值,当被估计的未知参数有r个,例2.6丢掷骰子将一粒均匀的骰子丢掷1
8、00次,1点朝上13次、2点朝上14次、3点朝上20次、4点朝上17次、5点朝上15次、6点朝上21次,试检验这粒骰子是否均匀。(=0.05),解:如果这粒骰子是均匀的,则1至6点朝上的次数服从均匀分布,即 P1点朝上P2点朝上P3点朝上P4点朝上P5点朝上P6点朝上1/6,,根据所给的观测值,,因此接受2检验的原假设,认为这粒骰子是均匀的。,例2.7放射研究用计数器每隔一定时间观测一次试验铀所放射的粒子数x,共100次,结果有1个x=0、5个x=1、16个x=2、17个x=3、26个x=4、11个x=5、9个x6、9个x7、2个x8、1个x9、2个x=10、1个x=11,试在=0.05下检验
9、总体是否服从P()分布。,解:如果总体是否服从P()分布,则, x 0 1 2 3 4 5 6 7 vx 1 5 16 17 26 11 9 9 n 13.23 18.52 19.44 16.33 11.43 6.86 x 8 9 10 11 vx 2 1 2 1 n 3.60 1.68 0.71 0.21 6.26,查2分布的分位数表得到,认为总体服从P()分布。,8.7 秩和检验,要检验下述假设:,秩(rank) 设X为一总体,将一容量为n的样本观察值按从小到大的次序编号排列成,称x(i)的足标i为x(i)的秩,i=1,2,,n.,例 考察两种不同类型的肥料A和B对玉米的增产效果,共选10
10、块实验田,随抽取n1=5块地施用A肥料, n2=5块地施用B肥料,施用两种不同肥料所得到的玉米产量如表: A肥料 84 76 86 70 94 B肥料 122 90 92 106 100,H0: A,B肥料有相同的效应,H1:A,B肥料对于玉米增产效果不同.,肥料种类 A A A A B B A B B B 产量 70 76 84 86 90 92 94 100 106 122 秩 1 2 3 4 5 6 7 8 9 10,计算出秩和RA=17,总秩和R=55,则得B秩和,RB=R-RA=38.,设自1,2两总体分别抽取容量为n1,n2的样本,且两样本独立,总设n1n2,将这n1n2个观察值放
11、在一起,按由小到大的秩序排列.求出每个观察值的秩,然后将属于第1个总体的样本观察值的秩相加,其和记为R1,其余观察值的秩的总和记为R2,称为第2样本的秩和,显然有,对双边检验问题,在给定显著水平下,H0的拒绝域为,其中临界点 是满足,的最大整数,而是满足,的最小整数而犯第类错误的概率为,类似可得左边检验的拒绝域,可得右边检验的拒绝域,例为查明某种血清是否会抑制白血病,选取患白血病已到晚期的老鼠9只,其中有5只接受这种治疗,另4支不作这种治疗。设两样本相互独立。从实验开始时计算,其存活时间(以月计)如下:不作治疗 1.9 0.5 0.9 2.1接受治疗 3.1 5.3 1.4 4.6 2.8设治疗与否的存活时间的概率密度至多只差一个平移,取=0.05,问这种血清对白血病是否有抑制作用?,数据0.5 0.9 1.4 1.9 2.1 2.8 3.1 4.6 5.3 秩1 2 3 4 5 6 7 8 9,可以证明,当H0为真时(即a=0),而当n1,n210时(当H0为真时),近似地有,故当n1,n210时,可以用Z统计量检验,在水平下双边检验,右边检验,左边检验的近似拒绝域分别为,