1、假设检验概述一、假设检验的基本概念1.假设检验是统计推断的另一种方式,它与区间估计的差别主要在于:区间估计是用给定的大概率推断出总体参数的范围,而假设检验是以小概率为标准,对总体的状况所做出的假设进行判断。假设检验与区间估计结合起来,构成完整的统计推断内容。假设检验分为两类:一类是参数假设检验,另一类是非参数假设检验。本章分别讨论这两类检验方法。 2.与原假设对立的是备选假设(alternative hypothesis) ,备选假设是在原假设被否定时另一种可能成立的结论。备选假设比原假设还重要,这要由实际问题来确定,一般把期望出现的结论作为备选假设。 构造一个统计量来决定是“接受原假设,拒绝
2、备选假设”,还是“拒绝原假设,接受备选假设”。对不同的问题,要选择不同的检验统计量。检验统计量确定后,就要利用该统计的分布以及由实际问题中所确定的显著性水平,来进一步确定检验统计量拒绝原假设的取值范围,即拒绝域。在给定的显著性水平 下,检验统计量的可能取值范围被分成两部分:小概率区域与大概率区域。小概率区域就是概率不超过显著性水平 的区域,是原假设的拒绝区域;大概率区域是概率为 1- 的区域,是原假设的接受区域。二、两种类型的错误 接受 拒绝真实 判断正确 弃真错误(第一类错误或 错误 ) 不真实 取伪错误(第二类错误或 错误 ) 判断正确原假设1. 研究者想收集证据予以反对的假设2. 又称“
3、0 假设”3. 总是有符号 , 或4. 表示为 H0 H0 : = 某一数值 指定为符号 =, 或 备择假设1. 研究者想收集证据予以支持的假设2. 也称“研究假设”3. 总是有符号 , 或 4. 表示为 H1 H1 : ”或“”,称为 右侧检验 单侧检验假设 双侧检验左侧检验 右侧检验原假设 H0 : m = m0 H0 : m m0 H0 : m m0备择假设 H1 : m m0 H1 : m m0用单侧检验还是双侧检验,使用左侧检验还是右侧检验,决定于备选假设中的不等式形式与方向。与“不相等” 对应的是双侧检验,与“ 小于”相对应的是左侧检验,与“ 大于”相对应的是右侧检验。 二、参数检
4、验参数检验都是先对样本所属总体的性质作出若干的假定,或对总体的分布形状加以限定,然后对总体的有关参数情况进行统计假设检验。因此,参数检验又称为限定分布检验。如在总体服从正态分布条件下,对其均值进行检验。下面通过具体例子来说明参数检验方法。在例 1 中,按历史资料,总体的标准差是 4 毫升。我们通过检验总体均值是否等于 250 毫升,来判断饮料厂商是否欺骗了消费者。程序如下: 第一步:确定原假设与备选假设。 : =250; : m0 已知: 统计量 未知: 拒绝域 P 值决策 拒绝 H0总体均值的检验(t检验)1. 假定条件 总体服从正态分布2. 检验统计量 2 未知总体均值的检验 (检验方法的
5、总结 )假设 双侧检验 左侧检验 右侧检验假设形式 H0 : m =m0H1 : m m0 H0 : m m0H1 : m m0统计量 未知: 拒绝域 P 值决策 拒绝 H01将由显著性水平所规定的拒绝域平分为两部分,置于概率分布的两边,每边占显著性水平的二分之一,这是( b ) 。a. 单侧检验 b.双侧检验 c.右侧检验 d.左侧检验2.检验功效定义为( b ) 。a. 原假设为真时将其接受的概率 b. 原假设不真时将其舍弃的概率c. 原假设为真时将其舍弃的概率 d. 原假设不真时将其接受的概率3.符号检验中, (+)号的个数与(-)号的个数相差较远时,意味着(c ) 。a.存在试验误差(
6、随机误差) b.存在着条件误差c.不存在什么误差 d.既有抽样误差,也有条件误差4.得出两总体的样本数据如下:甲:8,6,10,7,8 乙:5,11,6,9,7,10秩和检验中,秩和最大可能值是( c ) 。a. 15 b. 48 c. 45 d. 661.显著性水平与检验拒绝域关系( a b d )a. 显著性水平提高( 变小) ,意味着拒绝域缩小b. 显著性水平降低,意味着拒绝域扩大 c. 显著性水平提高,意味着拒绝域扩大d. 显著性水平降低,意味着拒绝域扩大化e. 显著性水平提高或降低,不影响拒绝域的变化2. 错误( a c d e )a. 是在原假设不真实的条件下发生b. 是在原假设真
7、实的条件下发生c. 决定于原假设与真实值之间的差距d. 原假设与真实值之间的差距越大,犯 错误的可能性就越小e. 原假设与真实值之间的差距越小,犯 错误的可能性就越大1假设某产品的重量服从正态分布,现在从一批产品中随机抽取 16 件,测得平均重量为 820 克,标准差为 60 克,试以显著性水平 =0.01 与 =0.05,分别检验这批产品的平均重量是否是 800 克。解:假设检验为 (产品重量应该使用双侧检验)。采用 t80:,80:10H分布的检验统计量 。查出 0.05 和 0.01 两个水平下的临界值(df=n-1=15)nxt/为 2.131 和 2.947。 。因为 2.34(2.
8、32),所以拒绝原假设,无故障时间有显310/5z著增加。3回顾本章开头的案例,医院从 2008 年元旦出生的新生儿中随机抽取了 50 名,测量他们的平均体重为 3300 克,而 2007 年元旦时抽取的 50 名新生儿的平均体重是 3200 克。现假设根据以住的调查,新生儿体重的标准差是 65 克。试问:(1)以 0.05 的显著性水平,检验新生儿体重在这两年中是否有显著的变化?(2)计算检验的 p-值,并根据 p-值重新检验(1)中的结论。解:(1)假设检验为 。新生儿体重服从正态分布,320:,320:10H构造检验统计量 。查出 0.05 水平下的临界值为 1.645。计算统计量值nx
9、z/。因为 z1.645,所以拒绝原假设。10.8755/6320z(2)对应 p 值1/2*(1-F(z) ,由于 z=10.878573,可以认为 p 值几乎等于 0,拒绝原假设。 (1) 、 (2)都说明这两年新生儿的体重显著增加了。4某加油站经理希望了解驾车人士在该加油站的加油习惯。在一周内,他随机地抽取100 名驾车人士调查,得到如下结果:平均加油量等于 13.5 加仑,样本标准差是 3.2 加仑,有 19 人购买无铅汽油。试问:(1)以 0.05 的显著性水平,是否有证据说明平均加油量并非 12 加仑?(2)计算(1)的 p-值。(3)以 0.05 的显著性水平来说,是否有证据说明
10、少于 20%的驾车者购买无铅汽油?(4)计算(3)的 p-值。(5)在加油量服从正态分布假设下,若样本容量为 25,计算(1)和(2)。解:(1)(2)假设检验为 。采用正态分布的检验统计量12:,:00H。查出 0.05 水平下的临界值为 1.96。计算统计量值nxz/0。因为 z=4.68751.96,所以拒绝原假设。对应 p 值2(1-F(z) 6875.41/2.35,查表得到 F(z)在 0.999 994 和 0.999 999 之间,所以 p 值在 0.000 006 和 0.000 001 之间(因为表中给出了双侧检验的接受域概率,因此本题中双侧检验的 p 值1-F(|z|),直接查表即得 F(|z|)) 。p 值1.96,所以拒绝原假设。对应 p 值2(1-F(z) ,查表得到 F(z)在 0.9807 和0.9817 之间,所以 p 值在 0.0193 和 0.0183 之间(因为表中给出了双侧检验的接受域概率,因此本题中双侧检验的 p 值1-F(|z|),直接查表即得 F(|z|)) 。显然 p 值0.05,拒绝原假设。