1、第七讲 假设检验第一节 假设检验的基本问题一、假设检验的基本概念对总体的概率分布或分布参数作出某种“假设” ,根据抽样得到的样本观测值,运用社会统计的分析方法,检验这种“假设” 是否正确,从而决定接受或拒绝“假设”,这就是本讲要讨论的假设检验问题。1、什么是假设?假设:定义为一个调研者或管理者对被调查总体的某些特征所做的一种假定或猜想。本讲所讨论的假设都是经验假设,而非理论假设。是对总体参数的一种假设。常见的是对总体均值或比例和方差的检验;在分析之前,被检验的参数将被假定取一确定值。什么是假设?对总体参数的一种看法总体参数包括总体均值、比例、方差等分析之前必需陈述什么是假设检验?1. 概念事先
2、对总体参数或分布形式作出某种假设然后利用样本信息来判断原假设是否成立2. 类型参数假设检验(检验法、t检验法等)非参数假设检验(在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法,在推断过程中不涉及有关总体分布的参数,如卡方检验)3. 特点采用逻辑上的反证法依据统计上的小概率原理3. 小概率原理小概率原理是假设检验的基本依据,即认为小概率事件在一次试验中几乎是不可能发生的。当进行假设检验时,先假设 H0 正确,在此假设下,若小概率事件 A 出现的概率很小,例如 P(A)=0.01,经过取样试验后, A 出现了,则违反了上述原理,我们认为这是一个不合理的结果。例如,我们
3、每天从电视、报纸上都能看到交通事故的发生,但人们绝不会因此而放弃交通工具的使用。“套中人”每天带雨伞、雨鞋而被视作怪人。可见,人们总是在不自觉地运用小概率原理。这时,我们只能怀疑作为小概率事件 A 的前提假设 H0 的正确性,于是否定H0。反之,如果试验中 A 没有出现,我们就没有理由否定假设 H0,从而做出接受 H0 的结论。下面我们通过实例来说明假设检验的基本思想及推理方法。4、原假设和备择假设 原假设 H0(零假设、虚无假设 ) 是关于总体均值而非样本统计量的假设 总是假设原假设是正确的 原假设可能被接受也可能被拒绝 备择假设 H1(研究假设) 是原假设的对立 备择假设可能被接受也可能被
4、拒绝 备择假设是试图要建立的检验二、假设检验的基本思路与方法 假设检验的步骤提出原假设和备择假设确定适当的检验统计量规定显著性水平计算检验统计量的值作出统计决策提出原假设和备择假设 什么是原假设?(Null Hypothesis)1. 待检验的假设,又称“0 假设” 2. 如果错误地作出决策会导致一系列后果3. 总是有等号 , 或 4. 表示为 H0H0: 某一数值 指定为 = 号,即 或 例如, H0 : 3190(元)什么是备择假设?(Alternative Hypothesis)1. 与原假设对立的假设 2. 总是有不等号: , 或 3. 表示为 H1 H1: m0双侧检验与单侧检验根据
5、否定域位置的不同,可以将假设检验分为双侧检验和单侧检验。在统计中,必须把否定域分配到抽样分布的两端的检验,被称为双侧检验。 在统计中,可以事先能预测偏差方向,因而可以把否定域集中到抽样分布更合适的一端的检验,被称为单侧检验。 双侧检验(原假设与备择假设的确定)1. 双侧检验属于 决策中的假设检验 。也就是说,不论是拒绝 H0 还是接受H0,我们都必需采取相应的行动措施。2. 例如,某单位职工上月平均收入为 2100 元,本月大于或小于 2100 元均属于发生变化。3. 建立的原假设与备择假设应为 H0: = 2100 H1: 2100双侧检验(确定假设的步骤) 1. 某单位职工上月平均收入为
6、2100 元,本月调查了 100 名职工,平均收入为 2200 元,标准差为 150 元。问该单位职工本月平均收入与上月相比是否有变化? 2. 步骤 从统计角度陈述问题 ( = 2100) 从统计角度提出相反的问题 ( 2100) 必需互斥和穷尽 提出原假设 ( = 2100) 提出备择假设 ( 2100) 有 符号 解 首先建立虚无假设(H0)和研究假设(H1)即有 H0 :=2100 H1 : 2100 选择显著性水平 =0.05,查标准正态分布得 由于 Z=6.67 所以,拒绝虚无假设,即从总体上说,该单位职工平均收入与上月相比有变化。双侧检验(显著性水平与拒绝域 ) 抽样分布抽样分布H
7、0值值临界值临界值临界值临界值/2 /2 样本统计量样本统计量拒绝域拒绝域 拒绝域拒绝域接受域接受域1 - 置信水平置信水平总体均值和成数的单样本检验 已知,对总体均值的检验例 一位研究者试图检验某一社会调查所运用的抽样程序,该项96.12/05.Z 67.10/52/nSXZ96.12/05.调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收入是 7500 元,标准差是 1500 元;此次调查共抽取 100 个家庭样本平均收入是 7900 元。问:该研究人员是否有理由怀疑该样本有偏估?(选用 =0.05)解 根据题意,可做如下假
8、设,并做单侧检验因 =0.05,查表得 Z 0.05=1.65,故否定域为根据中心极限定理,检验统计量计算得检验统计量 Z 的计算表明,样本均值比总体均值大267 个标准差( ) ,超过了显著性水平规定的临界值,调查者应该否定“随机抽样”的零假设。也就是说,由于抽样在程序上不合要求,这项社会调查有必要重新组织。 中心极限定理实际解决了大样本均值的检验问题。假定样本比较大(n50 ,这在社会调查中一般都能得到满足),样本均值的抽样分布就与总体分布无关,而服从正态分布。当 H0 成立时,样本均值的观察值比较集中地分布在总体均值 周围;当 H0 不成立时, 将对 有明显偏离的趋势。因而,我们可以在选
9、定的显著性水平上,通过计算检验统计量 Z,对零假设进行检定。 注:当 未知时,只要样本量很大,就可用 S 来代替 。但对于小样本,Z 检验就要用 t 检验来替代了,而且还必须严格限于正态总体。750:750:10H65.1Z),01507N(X65.17210579 ZX为了验证统计报表的正确性,作了共五十人的抽样调查,人均收入的结果有: ,问能否证明统计报表中人均收入 =880 元是正确的(显著性水平 =0.05 ) 。单侧检验(原假设与备择假设的确定) 检验 研究中的假设1. 将所研究的假设作为备择假设 H12. 将认为研究结果是无效的说法或理论作为原假设 H0。或者说,把希望(想要)证明
10、的假设作为备择假设3. 先确立备择假设 H1 例如,根据抽样调查,九个人的平均初婚年龄是 23.5 岁,该地区平均初婚年龄是否超过 20 岁?属于研究中的假设建立的原假设与备择假设应为 H0: 20 H1: 20元元 , 2187SX )%95( 8096.105. 03.-521878H0 2 20 ,5n11的 可 靠 程 度 否 定 原 假 设即 有有 误 的 。, 可 以 认 为 统 计 报 表 是 元均 收 入 为据 抽 样 调 查 不 能 认 为 人因 此 拒 绝 原 假 设 , 即 根 ,体 平 均 数 存 在 显 著 差 异, 说 明 样 本 平 均 数 和 总因 为 时 ,
11、对 应 的 临 界 值 元:元 ;:解 : )代 替未 知 , 用: 选 择 检 验 统 计 量 ( 当方 法 ZZnSXZH S元 。假 设 推 翻 了 原小 概 率 事 件 , 从 而 也 就 说 出 现 了出 来 的 区 间 内 , 也 就 是 样 本 计 算未 包 含 在 ),即 : 的 区 间 为 :的 就 不 否 定 原 假 设如 果 求 出 的 区 间 包 含( 区 间 估 计 ) :方 法 ,80%9582.67 865.1( 5021.19,2nX HO检验 某项声明的有效性1. 将所作出的说明(声明)作为原假设2. 对该说明的质疑作为备择假设3. 先确立原假设 H0 除非我
12、们有证据表明“声明” 无效,否则就应认为该 “声明”是有效的2.小样本总体均值的检验(学生 t 分布)中心极限定理解决了大样本均值的检验问题。但是当 n 较小时,n20因为 n 小,又不知 值,因此用 t 检验对自由度 9 来讲,单侧检验和显著性水平 0.01,查表知否定域为 t 值等于或大于 2.821。再计算检验统计量因此拒绝 H0,即可以认为在显著性水平为 0.01 的条件下,该地区的初婚年龄已超过 20 岁。左侧检验(显著性水平与拒绝域 ) )1(1ntnSXtX821.53/20.1nSXtH0值临界值样本统计量拒绝域接受域抽样分布抽样分布1 - 置信水平观察到的样本统计量观察到的样
13、本统计量右侧检验(显著性水平与拒绝域 ) H0值值临界值临界值样本统计量样本统计量拒绝域拒绝域接受域接受域抽样分布抽样分布1 - 置信水平置信水平观察到的样本统计量观察到的样本统计量右侧检验(例子)学生中经常上网的人数超过 25%吗?(属于研究中的假设,先提出备择假设) 提出原假设: H0: 25% 选择备择假设: H1: : 25%3.大样本成数的检验有时,需要对总体中具有某种特征的单位在总体中所占的的比例 p(即总体成数)作显著性检验,如人口中的失业率、学龄儿童中的失学率等等。成数检验与二项检验的联系是不言而愈的。因为在二项检验中,随机变量是样本的“成功”次数 x。而在成数检验中,随机变量
14、是样本的“成功” 比例 (即样本成p数) ,这样在 n 一定的情况下,显然有 既然 是一个随机变量,那么把具体概率赋予样本成数的每一个取值,我们就得到了样本成数的抽样分布。根据中心极限定理,我们不难想见,当 n 足够大时,样本成数的抽样分布也服从正态分布。由于数学上很容易证明 , npqD)(pE)(,这样一来,对于大样本(n30,np5),成数的检验统计量 Z 可表示为例 某地区成年男性中吸烟者占 64%,经过戒烟宣传后进行抽样调查,发现100 名被调查者中,有 55 人是吸烟者,试问戒烟宣传是否有成效(=0.05)解 已知 n100 30,npl000.64645,故可使用正态检验。又知 0.55,p0.64,q0.36,则 H0: p=0.64H1: p0.64据题意,选择单侧检验,因 0.05,查正态分布表得否定域为 |Z| 1 65 。再计算检验统计量因此,否定零假设,即认为戒烟宣传收到了显著成效。xp pnxq1npqZ/65.18.10/36.4.05 npq