1、前面已经研究了假设检验的基本思想,并讨论了当总体分布已知时,关于其中未知参数的假设检验问题 .,然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设 .,例如, 从1500年到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:,Poisson分布?,对总体分布进行检验的问题称为分布的拟合检验.,第四节 分布拟合检验,K.皮尔逊,2检验法是在总体X 的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法.,基本思想:,H0:总体X的分布函数为F(x),然后根据样本的经验分布和
2、所假设的理论分布之间的吻合程度来决定是否接受原假设.这种检验通常称作拟合优度检验,它是一种非参数检验.,基本原理和步骤如下:,一、2拟合优度检验,提出原假设:,3.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率pi ,于是npi就是落入 Ai 的样本值的理论频数.,将总体X的取值范围分成k个互不重迭的小区间(或小组), 记作 A1, A2, , Ak .,2.把落入第i个小区间Ai的样本值的个数记作ni ,称为实测频数. 所有实测频数之和n1+ n2+ +nk等于样本容量n.,它标志着经验分布与理论分布之间的差异的大小.,4. 皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:
3、,在理论分布 已知的条件下, npi是常量,实测频数,理论频数,其分布是什么?,H0:P(Ai) =pi , i=1,2,.k.,Pearson证明了如下,若原假设中的理论分布F(x)已经完全给定,那么当 n充分大时,统计量,注:若在H0下分布类型已知,但其参数未知,这时需要先用最大似然估计法估计参数,然后作检验.,Fisher证明了如下,若原假设中的理论分布F(x)中有r 个未知参数需用相应的最大似然估计来代替,那么当 n 充分大时,统计量,定理1:,定理2:,如果根据所给的样本值 x1, x2, , xn算得统计量2的实测值落入拒绝域,则拒绝原假设;否则就认为差异不显著而接受原假设.,分别
4、得拒绝域:,(不需估计参数),(估计r 个参数),查2 分布表可得临界值21-,,使得,根据以上定理,对给定的显著性水平,注:皮尔逊定理是在n无限增大时推导出来的,因而使用时要注意n要足够大以及npi 不太小这两个条件. 根据计算实践,要求n不小于50以及npi 不小于 5. 否则应适当合并相邻区间,使npi满足此要求 .,例1.掷一颗骰子60次,结果如下:试在 =0.05水平下检验其是否均匀? (P367),解: 这是一个分布的拟合优度检验,记出现点数i 的概率为pi , 提出假设:,检验的拒绝域为:,现在 =0.05,k=6,查表得,由样本,得检验统计量的值:,未落入拒绝域,,即认为是均匀
5、的。,例2.试检验每年爆发战争次数分布是否服从泊松分布.,解: 这是一个分布的拟合优度检验,提出假设:H0: XP(),按参数为0.69的泊松分布,计算事件X=i 的概率pi ,,将有关计算结果列表如下:,pi 的估计是,i=0,1,2,3,4,由观察值,得参数的最大似然估计为,13.91,注:将n 5的组予以合并,即将发生3次及以上次数的组归并为一组.,3,因H0所假设的理论分布中有一个未知参数,即r=1,又k=4,故自由度为4-1-1=2.,又=0.05, 查2分布表得:,未落入拒绝域,,例3.某建筑单位宣称其麾下的建筑工地每天发生的事故不超过0.6起.现记录了该建筑单位工地200天的安全
6、生产情况,数据如下,试在 =0.05水平下检验其宣称是否成立 ? (P352),分析: 先检验每天发生的事故数服从泊松分布, 这是关于总体分布的拟合优度检验, 再进行关于总体均值的大样本检验.,检验的拒绝域为:,由样本,得检验统计量的值:,故认为每年发生战争次数X服从泊松分布.,按=0.05,自由度为4-1-1=2查2分布表得,按参数为0.74的泊松分布,计算事件X=i 的概率pi ,,将有关计算结果列表如下:,pi 的估计是,i=0,1,2,3,4,5,6,由观察值,得参数的最大似然估计为,7.84,由样本得:,=3.1085.9915,,未落入否定域.,即认为X服从泊松分布.,解: 这是一
7、个分布的拟合优度检验,提出假设:H0: XP(),检验的拒绝域为:,3,例4:设,现观察了80个数值,其中落入每个区间Ai ( i=1,2,3,4) 的频数分别为6,18,20,36,试问在0.05水平下,假设总体的密度为,是否可信?在2水平下是否可信?,二、列联表的独立性检验,rc的二维列联表:,总体按两个属性A和B分类, A有r个类: A1 A2 , Ar; B有c个类: B1 ,B2, Bc. 共有rc个类. 若进行n个试验其中所属Ai又属Bj的结果有nij个, 按矩阵排列, 就得到 rc 二维列联表.,H0:P(AiBj) = pij = pi pj = P(Ai ) P(Bj), i
8、=1,2,.r. j=1,2,.c.,提出原假设:,在诸pij未知时, 检验统计量,其中 是pij的最大似然估计.,因此, 拒绝域:,n个个体可看成来自服从多项分布,P(X AiBj) = pij , i=1,2,.r. j=1,2,.c 的样本.,H0:属性A与B独立,等价于,H0为真,例5.为研究儿童智力发展与营养的关系,某研究机构调查了1436个儿童,得到下表的数据,试在显著性水平0.05下判断智力发展与营养有无关系. (P360),诸 计算结果-理论频数,例6.在某校甲、乙两班进行某种技能测试,测验成绩按优、良、中差四级给分,其结果如下表,试在显著性水平0.05下判断成绩与班级有无关系
9、。,注:特别当r =c =2时,22列联表又称为四格表.,此时统计量简化为,拒绝域为,正态概率纸,三、正态性检验,1、正态概率纸,正态概率纸上不同曲线状,2. 对每个i, 计算修正频率,首先将样本值从小到大按次序排列: x(1), x(2), , x(n).,4. 判断:若诸点在一直线附近,则认为该样本来自正态总体. 否则认为该样本不是来自正态总体.,3. 将点 逐一描在正态概率纸上.,用正态概率纸检验正态性步骤如下(要求样本量8) :,5. 若诸点不在一直线附近,即认为该样本不是来自正态总体.可选择做数据变换,如:,然后将点 逐一描在正态概率纸上, 来判断变换后的数据是否服从正态分布.,例7
10、 从一批电子元件中随机抽取10只进行寿命试验,得10个寿命时间(单位:小时) 32.4,310.7,216.5,130.0,93.0,361.3,905.3,2.2,9.7,14.1,正态概率纸上表明:这组数据不是来自正态分布,正态概率纸上表明:对数变换后的数据来自正态分布,2、Shapiro-wilk检验,步骤如下:,2. 从附表6中查得对应n的系数a1, a2, , an . 其中它们满足 :an+1-i = - ai, i=1,2,n ;,首先将样本值从小到大按次序排列: x(1), x(2), , x(n).,注:国家标准GB/T4882-2001中规定: 样本容量n8.因为在n8时对偏离正态分布 的检验不太有效.,3. 计算检验统计量,4. 拒绝域: 可查附表7.,W检验(8n50),例8 某种防锈剂的防锈能力的试验获得容量为10的一个样本: 43.9,39.0,46.7,43.8,44.2,47.7,43.6,38.9,43.6,40.0 在这里n=10,,=0.05,从附表7查得,故拒绝域为,,接受H0,