1、第五章 假设检验, 假设检验的基本原理 假设检验的步骤 一个总体参数的检验 利用p 值进行假设检验,随机原则,总体,样本,总体参数,统计量,推断估计,参数估计,检验,假设检验,抽样分布,假设检验在统计方法中的地位:,统计方法,描述统计法,推断统计法,参数估计,假设检验,正常人的平均体温是37oC吗?当问起健康的成年人体温是多少时,多数人的回答是37oC!这似乎已经成了一种共识以下是一位研究人员测量的50个健康成年人的体温数据。,根据样本数据,计算的平均值为36.8oC,标准差为0.36oC 根据参数估计方法,健康成年人平均体温的95%的置信区间为(36.7,36.9)研究人员发现这个区间内并没
2、有包括37oC!因此,提出了“不应该再把37oC作为正常人体温的一个有任何特定意义的概念”我们应该放弃“正常人的平均体温是37oC”这个共识吗?,1 先对总体参数(或分布形式)提出某种假设,再利用样本信息判断假设是否成立 2参数检验总体的分布形式已知;非参数检验 3逻辑上运用反证法,统计上依据小概率原理!小概率是在一次试验中,一个几乎不可能发生的事件发生的概率;在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设,一、假设检验的基本原理 1. 假设检验(hypothesis test),2. 假设检验的基本思想,因此,我们拒绝假设 =50!,样本均值,m,= 50,抽样分布,H0,3.假设检
3、验的过程(提出假设抽取样本作出决策),二、假设检验的步骤 1. 提出原假设和备择假设 2. 确定适当的检验统计量 3. 规定显著性水平 4. 计算检验统计量的值 5. 作出统计决策,1. 提出假设,1原假设(null hypothesis)研究者收集证据,指的是待检验的假设,用H0表示统计学涵义是指参数没有变化或变量之间没有关系 起初被假设是成立的,后面根据样本数据确定是否有足够的证据拒绝它 总是有符号 , , H0 : = 某一数值 H0 : 某一数值 H0 : 某一数值,也称“研究假设”,研究者想收集证据予以支持的假设,通常用 H1 表示 统计学涵义是指总体参数发生了变化或变量之间有某种关
4、系备择假设用于表达研究者自己倾向于支持的看法,然后收集证据拒绝原假设,以支持备择假设 总是有符号 , , H1 : 某一数值 H1 : 某一数值 H1 : 某一数值,2备择假设(alternative hypothesis),【例1】一种零件的生产标准直径为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,来确定这台机床生产的零件是否符合标准要求。若零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设。,解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为:H0 : 10cm H
5、1 : 10cm,【例2】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克,从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设。,解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述。建立的原假设和备择假设为:H0 : 500 H1 : 500,【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超过30%。为验证这一估计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设。,解:研究者想收集证据予以支持的假设是“该城市中家庭拥有汽车的比例超过30%”。建立的
6、原假设和备择假设为:H0 : 30% H1 : 30%,1原假设和备择假设是一个完备事件组,而且相互对立 2先确定备择假设,再确定原假设 3等号“”总是放在原假设上,提出假设(小结):,1用于假设检验问题的统计量 2选择统计量的方法与参数估计相同,需考虑:是大样本 or 小样本总体方差已知 or 未知,2. 确定适当的检验统计量,1是一个概率值 2原假设为真时,拒绝原假设的概率3表示为 常用的 值有0.01,0.05,0.10,3. 规定显著性水平(significant level),1根据样本观测结果,计算出对原假设和备择假设做出决策的某个样本统计量 2对样本估计量的标准化结果原假设H0为
7、真点估计量的抽样分布 3检验统计量的基本形式为(以正态分布为例):,4. 检验统计量(test statistic)的计算,5. 作出统计决策,1根据给定的显著性水平,查表得出相应的临界值Z或Z/2 , t 或 t/2 2将检验统计量的值与 水平的临界值进行比较 3得出接受或拒绝原假设的结论,1备择假设没有特定的方向性,并含有符号“”的假设检验,称为双侧检验或双尾检验(two-tailed test) 2备择假设具有特定的方向性,并含有符号“”或“”,称为右侧检验,(1)双侧检验与单侧检验,以总体均值的检验为例:,假设检验的3种形式:,【例1】一种零件的生产标准直径为10cm,为对生产过程进行
8、控制,质量监测人员定期对一台加工机床检查,来确定这台机床生产的零件是否符合标准要求。若零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设。,解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为:H0 : 10cm H1 : 10cm,双侧检验:,观察到的样本统计量,双侧检验:,观察到的样本统计量,双侧检验:,观察到的样本统计量,【例2】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克,从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于
9、检验的原假设与备择假设。,解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述。建立的原假设和备择假设为:H0 : 500 H1 : 500,抽样分布,H0,临界值,a,拒绝H0,1 - ,置信水平,Region of Rejection,Region of Non rejection,左侧检验:,观察到的样本统计量,抽样分布,H0,临界值,a,拒绝H0,1 - ,置信水平,Region of Rejection,Region of Non rejection,左侧检验:,观察到的样本统计量,【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超过30%。为验证这一估计
10、是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设。,解:研究者想收集证据予以支持的假设是“该城市中家庭拥有汽车的比例超过30%”。建立的原假设和备择假设为:H0 : 30% H1 : 30%,抽样分布,H0,临界值,拒绝H0,1 - ,置信水平,Region of Non rejection,Region of Rejection,右侧检验:,a,观察到的样本统计量,抽样分布,H0,临界值,拒绝H0,1 - ,置信水平,Region of Non rejection,Region of Rejection,右侧检验:,a,观察到的样本统计量,1给定显著性水平,查
11、表得出相应的临界值Z或Z/2 , t 或 t/2 2将检验统计量的值与 水平的临界值进行比较 3作出决策双侧检验:|统计量| 临界值,拒绝H0左侧检验:统计量 临界值,拒绝H0,统计量决策规则:,第一类错误(弃真错误)原假设为真时,拒绝原假设会产生一系列后果第一类错误的概率为,被称为显著性水平第二类错误(取伪错误)原假设为假时,接受原假设第二类错误的概率为,(2)假设检验中的两类错误,假设检验的结果不一定正确!,0,x,原假设抽样分布,0,原假设抽样分布,x,拒绝域,弃真错误:原假设为真,却落在拒绝域内被拒绝。,扩大拒绝域(变大),第一类错误可能性变大;反之,为防止弃真错误,就要缩小。,拒绝域
12、,第一类错误(弃真错误),接受域 (原假设为真),原假设:,1-,0,接受域,拒绝域,备择假设:,1-,1,拒绝域,接受域,研究者总是希望能做出正确的决策,但由于决策是建立在样本信息的基础之上,而样本又是随机的,因而就有可能犯错误;原假设和备择假设不能同时成立,决策的结果要么拒绝H0 ,要么不拒绝H0 。决策时总是希望当原假设正确时,没有拒绝它;当原假设不正确时拒绝它,但实际上很难保证不犯错误,H0 :无罪,假设检验中的两类错误(决策结果),假设检验就好像 一场审判过程,统计检验过程,是针对原假设H0 说的!,冤枉好人,放过坏人,对于一个给定的样本,如果犯第一类错误的代价比犯第二类错误的代价相
13、对较高,则将犯第类错误的概率定得低些较为合理;反之,则将犯第类错误的概率定得高些;一般来说,发生哪一类错误的后果更为严重,就应该首要控制哪类错误发生的概率。由于犯第一类错误的概率是可以由研究者控制的,因此在假设检验中,人们往往先控制第一类错误的发生概率,两类错误的控制:, 错误和 错误的关系:,两类错误与显著性水平:,第一类错误:弃真(显著水平),第二类错误:取伪,显著 水平 与 两类 错误,生活中如何避免弃真错误控制得小一些!,传统上,做出决策所依据的是样本统计量,现代检验中人们直接使用由统计量算出的犯第一类错误的概率,即所谓的P值。,注:假设检验不能证明原假设正确。 假设检验只提供不利于原
14、假设的证据。当拒绝原假设时,表明样本提供的证据证明它是错误的;当没有拒绝原假设时,我们也不说“接受原假设”,因为没法证明原假设是正确的这与法庭上对被告的定罪类似:先假定被告是无罪的,直到你有足够的证据证明他是有罪的,否则法庭就不能认定被告有罪。当证据不足时,法庭的裁决是“被告无罪”,这里也没有证明被告就是清白的 如果你主观上要想拒绝原假设,那就一定能拒绝它这类似于我们通常所说的“欲加之罪,何患无词”只要你无限制扩大样本容量,几乎总能拒绝原假设,1用于假设检验问题的统计量 2选择统计量的方法与参数估计相同,需考虑:是大样本 or 小样本总体方差已知 or 未知,回顾上节课以下内容 2. 确定适当
15、的检验统计量,1是一个概率值 2原假设为真时,拒绝原假设的概率3表示为 常用的 值有0.01,0.05,0.10,3. 规定显著性水平(significant level),1根据样本观测结果,计算出对原假设和备择假设做出决策的某个样本统计量 2对样本估计量的标准化结果原假设H0为真点估计量的抽样分布 3检验统计量的基本形式为(以正态分布为例):,4. 检验统计量(test statistic)的计算,5. 作出统计决策,1根据给定的显著性水平,查表得出相应的临界值Z或Z/2 , t 或 t/2 2将检验统计量的值与 水平的临界值进行比较 3得出拒绝或不拒绝原假设的结论,1. 总体均值的检验(
16、大样本) 1假定条件:总体服从正态分布;总体为非正态分布或总体分布未知,可近似为正态分布(n 30) 2使用z 检验统计量 2 已知: 2 未知:,三、总体均值的检验,【例1】一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随机抽取了40罐进行检验,测得每罐平均容量为255.8ml。取显著性水平=0.05 ,检验该天生产的饮料容量是否符合标准要求?,双侧检验,H0 : = 255 H1 : 255,检验统计量:,统计决策:,没有证据表明该天生产的饮料不符合标准要求,观察到的样本统计量, = 0.05 n = 40,【
17、例2】某一小麦品种的平均产量为5200kg/hm2 。一家研究机构对小麦品种进行了改良以期提高产量。为检验改良后的新品种产量是否有显著提高,随机抽取了36个地块进行试种,得到的样本平均产量为5275kg/hm2,标准差为120/hm2 。试检验改良后的新品种产量是否有显著提高? (=0.05),右侧检验,2. 总体均值的检验( 2 未知、大样本),H0 : 5200 H1 : 5200,检验统计量:,拒绝H0,改良后的新品种产量有显著提高,统计决策:, = 0.05 n = 36,拒绝 H0,1.645,z,0.05,0,观察到的样本统计量,【例3】一种机床加工的零件尺寸绝对平均误差为1.35
18、mm。生产厂家现采用一种新的机床进行加工以期进一步降低误差。为检验新机床加工的零件平均误差与旧机床相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。利用这些样本数据,检验新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低? (=0.01),左侧检验,H0 : 1.35 H1 : 1.35,检验统计量:,拒绝H0,新机床加工的零件尺寸的平均误差与旧机床相比有显著降低,统计决策:, = 0.01 n = 50,观察到的样本统计量,1假定条件:总体服从正态分布;小样本(n 30) 2检验统计量: 2 已知: 2 未知:,3. 总体均值的检验(小样本),【例4】一种汽车配件的平均长度
19、要求为12cm,高于或低于该标准均被认为是不合格的。汽车生产企业在购进配件时,通常是经过招标,然后对中标的配件提供商提供的样品进行检验,以决定是否购进。现对一个配件提供商提供的10个样本进行了检验。假定该供货商生产的配件长度服从正态分布,在0.05的显著性水平下,检验该供货商提供的配件是否符合要求?,检验统计量:,不拒绝H0,没有证据表明该供货商提供的零件不符合要求,统计决策:,H0 : =12 H1 : 12, = 0.05 n = 10,0.025,观察到的样本统计量,样本量n,一个总体均值的检验(小结),四、利用 p 值进行假设检验有了P 值,我们并不需要用1%、5%、10%这类传统的显
20、著性水平。P 值提供了更多的信息,它让我们可以选择任意水平来评估结果是否具有统计上的显著性,从而可根据我们的需要来决定是否要拒绝原假设,用p值作决策,用统计量作决策,统计量检验是我们事先给出的一个显著性水平,以此为标准进行决策,无法知道实际的显著性水平究竟是多少。比如,根据统计量进行检验时,只要统计量的值落在拒绝域,我们拒绝原假设得出的结论都是一样的,即结果显著;然而,统计量落在临界值附近与落在远离临界值的地方,实际的显著性有较大差异,而P 值给出的是实际算出的显著水平,它告诉我们实际的显著性水平是多少。,P 值决策与统计量的比较:,拒绝H0,拒绝H0的两个统计量的不同显著性,Z,拒绝H0,0
21、,统计量1,P1 值,统计量2,P2 值,拒绝H0,临界值,P 值决策与统计量的比较:,拒绝原假设时,称样本结果是统计上显著的; 不拒绝原假设时,称样本结果是统计上不显著的“显著”和“不显著”之间没有清楚的界限,统计决策时,P 值越小,我们就有越强的证据拒绝H0,检验的结果也就越显著得到的样本概率(P)很小,则拒绝原假设,P 值越小,你拒绝原假设的理由就越充分, 要检验全校学生的平均生活费支出是否等于500元提出假设: H0:=500 H0:500 若抽出的样本均值为600元,得到的P 值=0.02(这个0.02是指如果平均生活费支出真的是500元,那么,从该总体中抽出一个均值为600的样本的
22、概率仅为0.02)如果你认为这个概率太小了,就可以拒绝原假设,因为如果原假设正确的话,几乎不可能抓到这样的一个样本,既然抓到了,就表明这样的样本不在少数,所以原假设是不对的。,在这么小的概率下竟然得到了这样的一个样本,表明这样的样本经常出现,所以,样本结果是显著的!,【例1】某儿童食品厂生产盒装儿童食品,每盒标准重量为368克。现从某天生产的一批食品中随机抽取25盒进行检查,测得每盒的平均重量为x = 372.5克。企业规定每盒重量的标准差为15克,确定P 值。(=0.05),(1)P 值计算实例双侧检验,p值为 :P(Z -1.5 或 Z 1.5),检验统计量未在拒绝区域,p = 0.0668 / 2 = 0.025,不能拒绝H0,【例2】某儿童食品厂生产盒装儿童食品,每盒标准重量不低于368克。现从某天生产的一批食品中随机抽取25盒进行检查,测得每盒的平均重量为x = 372.5克。企业规定每盒重量的标准差为15克,确定P 值。(=0.05),(2)P 值计算实例单侧检验,p值为:P(Z 1.5),检验统计量未在拒绝区域,p = 0.0668 = 0.05,不能拒绝H0,P 值告诉我们:如果原假设是正确的,我们得到目前这个样本数据的可能性有多大,如果这个可能性很小,就应该拒绝原假设 P 值被称为观察到的(或实测的)显著性水平决策规则:若p 值若p 值,用P 值决策(小结):,