1、SPSS参数检验和区间估计 (一),假设检验概述,假设检验是一种根据样本数据来推断总体的分布或均值、方差等总体统计参数的方法。 根据样本来推断总体的原因: 总体数据不可能全部收集到。如:质量检测问题 收集到总体全部数据要耗费大量的人力和财力 假设检验包括: 参数检验 非参数检验,假设检验的基本原理,基本信念:利用小概率原理进行反证明。小概率事件在一次实验中不可能发生。 例如:对人民大学男生平均身高进行推断 H0:平均身高为173 样本平均身高为178,由于存在抽样误差,不能直接拒绝H0。而需要考虑:在H0成立的条件下,一次抽样得到平均身高为178的可能性有多大。如果可能性较大,是个大概率事件(
2、与相比较),则不能认为H0不正确。否则,如果可能性较小,是个小概率事件,但确实发生了,则只能认为H0不正确。 概率P值即为观测结果或更极端现象在零假设成立时出现的概率,总体分布(population distribution) 总体中各元素的观察值所形成的分布 分布通常是未知的 可以假定它服从某种分布,三种不同性质的分布,样本分布(sample distribution) 一组样本中各观察值的分布,也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,三种不同性质的分布,抽样分布(sampling distribution) 样本统计量(样本均值, 样本比例,样本方差等)的概率分布
3、 结果来自容量相同的所有可能样本 提供了样本统计量稳定性的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,三种不同性质的分布,三种不同性质的分布,抽样分布,容量相同的所有可能样本的样本均值的概率分布 推断总体均值的理论基础 【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布,计算出各样本的均值,样本均值的抽样分布, = 2.5 2 =1.25,总
4、体分布,样本均值的抽样分布,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n),样本均值的抽样分布,中心极限定理 设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,样本均值的抽样分布,的分布趋于正态分布的过程,样本均值的抽样分布,假设检验的基本问题,假设检验的概念和基本思想 什么是假设(hypothesis) 假设是对总体参数的数值所作的一种陈述 总体参数包括总体均值、比例、方差等 分析之前必需陈述 事先对总体参数或分布形式作出某
5、种假设,然后利用样本信息来判断原假设是否成立,我认为该地区新生 婴儿的平均体重为3190克! 我认为人口平均年龄为50岁,假设检验的基本问题,. 因此我们拒绝假设 = 50,样本均值,m,= 50,抽样分布,H0,假设检验的基本问题,假设检验的概念和基本思想,假设检验的基本问题,假设检验的概念和基本思想依据统计上的小概率原理,采用逻辑上的反证法。 小概率:在一次试验中,一个几乎不可能发生的事件发生的概率 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设 小概率由研究者事先确定,假设检验的基本问题,假设检验的概念和基本思想 假设检验的基本步骤 提出假设 确定适当的检验统计量 规定显著性水平
6、 计算检验统计量的观测值和概率P值 作出统计决策,假设检验的基本步骤:提出原假设或备择假设 什么是原假设?(null hypothesis) 待检验的假设,又称“0假设”,表示为H0 研究者想收集证据予以反对的假设(支持不容易,则找一个反例来拒绝) 总是有等号 , 或,表示为: H0: 某一数值 H0: 某一数值 H0: 某一数值例如, H0: 50(岁),假设检验的基本问题,假设检验的基本步骤:提出原假设或备择假设 什么是备择假设?(alternative hypothesis) 与原假设对立的假设,也称“研究假设”,表示为 H1 研究者想收集证据予以支持的假设。 总是有不等号: , 或 ,
7、表示为: H1: 某一数值 H1: 某一数值 H1 : 某一数值例如, H1: 50(岁),或 50(岁),假设检验的基本问题,假设检验的基本步骤:确定恰当的检验统计量 什么是检验统计量? 用于假设检验决策的统计量,用于反映在原假设成立条件下,样本或更极端情况出现的可能性或样本与零假设间的差距。 应针对不同的问题选择不同的统计量,如: 是大样本还是小样本 总体方差已知还是未知 如:检验统计量的基本形式为,假设检验的基本问题,假设检验的基本步骤:规定显著性水平 (significant level) 什么是显著性水平? 是一个概率值,表示为 (alpha) 原假设为真时,拒绝原假设(弃真)的概率
8、;小概率标准 常用的 值有0.01, 0.05, 0.10,由研究者事先确定值是决定样本能否推翻原假设的依据,假设检验的基本问题,假设检验的基本步骤:计算检验统计量的观测值和概率P值 什么是检验统计量的观测值? 即:样本所反映的信息与原假设间的差距。 什么是检验统计量的概率P值? 即:一个概率值,观察到的样本或更极端情况在原假设成立时出现的可能性 如果原假设为真,P值是抽样分布中大于或小于样本统计量的概率,假设检验的基本问题,假设检验的基本问题,假设检验的基本问题,假设检验的基本问题,假设检验的基本问题,假设检验的基本步骤:作出统计决策 根据给定的显著性水平,查表得出相应的临界值z或z/2,
9、t或t/2。 将检验统计量的观测值与 水平的临界值进行比较,或将检验统计量的概率P值与进行比较。 得出拒绝或不能拒绝原假设的结论 若检验统计量观测值的绝对值大于 水平的临界值,则应拒绝H0 若检验统计量观测值的绝对值小于 水平的临界值,则不应拒绝H0 若检验统计量的概率p-值 ,则不能拒绝 H0,假设检验的基本问题,一个正态总体参数的假设检验,假设检验的基本问题,总体 是否已知?,一个总体均值的假设检验,总体均值的检验(2 已知或2未知大样本) 假定条件 总体服从正态分布 若不服从正态分布, 可用正态分布来近似(n30) 使用Z-统计量2 已知:2 未知:,一个总体均值的假设检验,总体均值的检
10、验(2 未知小样本) 假定条件 总体为正态分布 2未知,且小样本 使用t 统计量,一个总体均值的假设检验,t分布:英国酿造化学师戈塞特,小样本研究提出的 Student分布t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,一个总体均值的假设检验,SPSS单样本t检验,含义:检验某变量的总体均值与指定的检验值之间是否存在显著差异。例如:人均住房面积的平均值是否为20平方米 基本操作步骤 (1)菜单选项:Analyze-compare means-one-samples T test (2)指定检验值
11、: 在test后的框中输入检验值应用举例 人均住房面积的平均值是否为20平方米 注意书写步骤,SPSS单样本t检验,(3)option选项: Missing values: 缺失值的处理(单样本检验时以下选项没有差别)exclude cases analysis by analysis:当分析时涉及到有缺失值变量时再剔除相应的个案 exclude cases listwise:剔除所有含缺失值的个案后再分析,参数估计的一般问题,点估计(point estimate) 用样本值直接作为总体参数的估计值 例如:用样本均值直接作为总体均值的估计 没有给出估计值接近总体参数程度的信息,区间估计(int
12、erval estimate) 在点估计的基础上,以一定的把握程度(置信水平)将总体参数估计在一个区域(置信区间)内 比如,某班级平均分数在7585之间,把握程度是95%,参数估计的一般问题,置信区间和置信水平 由样本统计量所构造的总体参数的估计区间称为置信区间 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个,参数估计的一般问题,置信区间和置信水平 将构造
13、置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 ,表示为 (1 - 为是总体参数未在区间内的比例 常用的置信水平值有 99%, 95%, 90%,相应的 为0.01,0.05,0.10,参数估计的一般问题,一个总体均值的区间估计,总体均值的区间估计 假定条件 总体服从正态分布,且方差() 已知 如果不是正态分布,大样本(n 30)可由正态分布来近似 区间估计思路总体均值 在1-置信水平下的置信区间为,边际误差,一个总体均值的区间估计,总体均值的区间估计 假定条件 总体服从正态分布,且方差()未知 大样本(n 30) 总体均值 在1-置信水平下的置信区间为,总体均
14、值的区间估计 假定条件 总体服从正态分布,且方差() 未知 小样本 (n 30) t 分布总体均值 在1-置信水平下的置信区间为,一个总体均值的区间估计,利用SPSS单样本t检验 进行区间估计,option选项: confidence interval:指定输出0的置信区间.默认值为95%. 可以再计算99%的置信区间,和95%的置信区间进行对比 区间估计和假设检验的关系: 如果检验值在置信区间内,则无法拒绝原假设 如果检验值不在置信区间内,则拒绝原假设,双侧检验和单侧检验,双侧检验 例如,某种零件的尺寸,要求其平均长度为10cm,大于或小于10cm均属于不合格 拒绝原假设有两种可能:大于或小
15、于。我们想要证明(检验)的是这两种可能性中的任何一种是否成立。 假设检验中的拒绝域在左右两边均存在 建立的原假设与备择假设应为:H0: = 10 H1: 10,单侧检验 例:一项研究表明,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上。检验这一结论是否成立 研究者总是想证明自己的研究结论(寿命延长)是正确的 拒绝假设的情况只有一种 例:一项研究表明,改进生产工艺后,会使产品的废品率降低到2%以下。检验这一结论是否成立 研究者总是想证明自己的研究结论(废品率降低)是正确的 拒绝假设的情况只有一种,双侧检验和单侧检验,假设检验的类型:双侧检验和单侧检验,双侧检验和单侧检验,单侧检
16、验中如何提出假设 将研究者想收集证据予以支持的假设作为备择假设H1,例如: 一个研究者总是想证明自己的研究结论是正确的 一个销售商总是想证明供货商的说法是不正确的 备择假设H1的方向与想要证明其正确性的方向一致 将研究者想收集证据证明其不正确的假设作为原假设H0 先确立备择假设H1,再确立原假设H0,双侧检验和单侧检验,单侧检验如何提出假设 例:一项研究表明,改进生产工艺后,会使产品的废品率降低到2%以下。检验这一结论是否成立 研究者总是想证明自己的研究结论(废品率降低)是正确的 备择假设的方向为“”(废品率降低) 建立的原假设与备择假设应为H0: 2% H1: 2% 为左侧检验,双侧检验和单
17、侧检验,与研究角度有关,单侧检验中的决策问题(左侧),双侧检验和单侧检验,单侧检验中的决策问题(左侧),双侧检验和单侧检验,左侧检验拒绝原假设的区域在左边,双侧检验和单侧检验,左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积,单侧检验如何提出假设 例:一项研究表明,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上。检验这一结论是否成立 研究者总是想证明自己的研究结论(寿命延长)是正确的 备择假设的方向为“”(寿命延长) 建立的原假设与备择假设应为H0: 1500 H1: 1500,为右侧检验,双侧检验和单侧检验,与研究角度有关,单侧检验中的决策问题(右侧),双侧检验和单
18、侧检验,单侧检验中的决策问题(右侧),双侧检验和单侧检验,双侧检验和单侧检验,右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积,右侧检验拒绝原假设的区域在右边,【例】根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N(1020,1002)。现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?(0.05)(2 已知),单侧检验,一个总体参数的单侧检验,基本步骤 提出假设:H0: 1020,H1: 1020 (右侧) 选择检验统计量: 确定显著性水平: = 0.05 计算检验统计量的观测值和概率P值:
19、 决策:,P=0.008198 在 = 0.05的水平上拒绝H0,表明这批灯泡的使用寿命有显著提高,能否站在项目验收者的角度?,一个总体参数的单侧检验,【例】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个由20个轮胎组成的随机样本作了试验,测得平均值为41000公里,标准差为5000公里。已知轮胎寿命的公里数服从正态分布,我们能否根据这些数据作出结论,该制造商的产品同他所说的标准相符?( = 0.05) (2 未知小样本),单侧检验!,一个总体参数的单侧检验,基本步骤 提出假设:H0: 40000,H1: 40000(左侧) 选择检验
20、统计量:确定显著性水平: = 0.05 计算检验统计量的观测值和概率P值: 决策:,P=0.191253 在 = 0.05的水平上不能拒绝H0,不能认为该轮胎的平均寿命小于40000公里,站在谁的角度?换个角度呢?,应本着尊重样本事实的原则,一个总体参数的单侧检验,利用SPSS单样本t检验 进行单侧检验,例如:检验保险公司具有高等教育水平的员工比例的平均值是否低于0.8 假设的提出 p/2与比较 单区间和假设检验的关系: 左侧检验中,检验统计量观测值值小于 右侧检验中,检验统计量观测值大于 则拒绝原假设,否则,不能拒绝,利用SPSS单样本t检验 进行单侧检验,单侧置信区间:应关注问题本身 产品
21、寿命等问题中,由于更关注最低值(不得低于某值),可将上限设为+ ,只计算置信下限 次品率等问题中,由于更关注最大值(不得高于某值),可将下限设-,只计算置信上限 计算方法:,假设检验中的两类错误,1. 第一类错误(弃真错误) 原假设为真时拒绝原假设,即:弃真错误 第一类错误的概率为 例如:身高175(真),但抽到的样本是篮球队队员 2. 第二类错误(取伪错误) 原假设为假时接受原假设,即:取伪错误 第二类错误的概率为(Beta) 例如:身高200(假),抽到的样本是篮球队队员,假设检验中的两类错误,红线越接近蓝线(假与真越接近),越大;反之,越小 越小, 越大;反之,越小,通常希望发生这两类错
22、误的概率越小越好 但在一定的样本容量下,不可能作到两类错误同时减少,通常,较容易控制,而会受到诸多因素的影响。当真值和假设检验值相差较小时,很容易犯取伪错误 拒绝零假设,接受备择假设犯错的概率是可控制的,即为,接受零假设是无意义的,因为犯错误的可能性是不可控的;应将希望证明的假设放在H1上,假设检验中的两类错误,【例】一项统计结果声称,某市老年人口(年龄在65岁以上)的比重为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比重为14.7%的看法?(= 0.05),双侧检验,一个总体比例的检验,假定条件
23、 有两类结果 总体服从二项分布 可用正态分布来近似 比例检验的 Z 统计量,0为假设的总体比例,一个总体比例的检验,H0: = 14.7% H1: 14.7% = 0.05 n = 400 临界值(s):,检验统计量:,在 = 0.05的水平上不能拒绝H0,认为该市老年人口比重与14.7%无显著差异,决策:,结论:,一个总体比例的检验,利用SPSS单样本t检验 进行比例检验,例:利用住房调查数据,对总体的性别比例进行推断 数据的1、0转换 假设检验和区间估计,一个总体均值检验 和区间估计总结,提出原假设和备择假设 将希望证明的假设放在H1上,希望推翻的假设放在H0上 确定适当的检验统计量,规定
24、显著性水平 计算检验统计量的观测值和概率P值 作出统计决策 双侧检验: |z或t的观测值| ,拒绝原假设|z或t的观测值| /2,无法拒绝原假设 置信区间:,一个总体均值检验 和区间估计总结,单侧检验: 左侧检验 z或t的观测值 , 不能拒绝原假设P/2 ,无法拒绝原假设 置信区间上限:不高于某值,- 至,一个总体均值检验 和区间估计总结,单侧检验: 右侧检验 z或t的观测值 ,拒绝原假设z或t的观测值 ,无法拒绝原假设 置信区间上限:不低于某值 至+,一个总体均值检验 和区间估计总结,假设检验和参数估计有什么不同点和相同点? 解释假设检验中的P值已知某炼铁厂的含碳量服从正态分布N(4.55,
25、0.1082),现测定了9炉碳水,其平均含碳量为4.484。如果估计 方差没有变化,可否认为现在生产的铁水平均含碳量为4.55( =0.05)?给出置信区间 。 一种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。已知道该元件寿命服从正态分布,标准差为60小时,试在显著性水平0.05下确定这批元件是否合格。给出置信区间。,思考和习题,某地区小麦的一般生产水平为亩产250公斤,其标准差为30公斤。现用一种化肥进行试验,从25个小区抽取平均产量为270公斤。这种化肥是否使小麦显著增产( =0.05)?给出置信区间。 某种大量生产的袋装食品,按规定不得小于250克。从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂( =0.05)?给出置信区间。 某厂家在广告中声称其生产的汽车轮胎在正常行驶下超过平均水平25000公里。对随机抽取的15个轮胎进行检测,平均值和标准差为27000公里和5000公里。问该厂家的广告是否真实( =0.05)?给出置信区间。,思考和习题,