1、,STAT,第八章 假设检验,统计实例,STAT,统计实例 1988年7月28日的纽约时报上刊登了一篇人们地理知识的文章。这篇文章描述了一个由国家地理协会委托Gallup公司所做的研究结果。研究者们从一些国家抽取许多成年人并请他们鉴别在一个地图上的16个地方(包括13个国家、中非、波斯湾和太平洋),然后把每个人答对的个数加起来。四个国家的样本中答对的个数均值为: (1)美国:6.9; (2)墨西哥:8.2; (3)英国:9.0; (4)法 国:9.2。问题:这四个国家在地理知识方面是否存在显著差异?(1)由于样本的随机性而导致的;(2)这四个国家的人们在此方面确实存在差异。,第八章 假设检验,
2、STAT,实践中,我们往往会遇到这样的问题:我们根据样本观测得到的一些结论,根据经验积累得到的一些认识,以及由此得到的一些判断是否成立?如居民的收入水平是否提高,作物的产量是否增加,产品的质量是否上升,经济发展的地区差异是否存在,现象间的数量关系是否成立,事物的发展是否具有某种规律等。如何科学客观回答这些问题?参数估计与假设检验的联系与区别?,第八章 假设检验,STAT,本章重点: 1.假设检验的基本原理 正确建立零假设和备择假设 理解第一类错误和第二类错误 2. 大样本情况下单个总体的假设检验 3. 区间估计与假设检验的关系 本章难点: 1. 假设检验中的P值问题 2. 小样本情况下的假设检
3、验问题,第八章 假设检验,STAT,第一节 假设检验的基本原理一、概念(一)假设检验 假设就是对研究对象的某些特征所做的一种假定或猜想。 统计假设就是对统计总体分布的某些特征所做的某种假定或论断。 常见的统计假设:总体均值(或总体成数、总体方差等)等于(或大于、小于)某一数值;总体,我认为到KFC消费的人平均花费2.5美元!,第八章 假设检验,STAT,相关系数等于0;两总体均值(或两总体成数、两总体方差)相等;总体分布服从正态正态分布等。 统计假设检验就是事先对总体参数或总体分布形态做出一个假设,然后利用样本提供的信息,以一定的概率来检验假设是否成立(或是否合理),或者说判断总体的真实情况是
4、否与原假设存在显著的系统性差异。 显著性检验 本课程只讨论总体参数的假设检验,我从来没有骂过人!,第八章 假设检验,STAT,(二)原假设和备择假设 例1一名被告即将接受法庭的审判。 H0:被告是无罪的 H1:被告是有罪的 注意:两假设能互换吗?假设检验 检验原假设的正确性。 例2某种袋装食品10万袋,按规定每袋重量不得低于250克。今从中任抽100袋,发现有6袋低于250克,若规定不符合标准的比例超过5%就不得出厂,该批食品能否出厂。,第八章 假设检验,STAT,例3河下乡统计员报告,该乡平均每个农户的家庭年收入为5000元。为核实其说法,县统计局从该乡随机抽取25户农户,得到平均年收入为4
5、650元,问该乡统计员的说法是否正确? H0: = 5000 “说法正确” H1: 5000 “说法不正确” 有方向吗?与例2比较之 1.原假设(零假设): 是接受检验的假设,是变量间无关系的、等价的陈述。 “被告是无罪的” “我没有骂过人” “ = 5000,说法正确” 是不允许或不应该轻易否定的假设,在没有其他信息的情况下原假设被看作可接受的真实状态。是研究者怀疑并希望否定的命题。,第八章 假设检验,STAT,原假设的目标:是研究的起点;是提供与观察到的结果进行比较的基准。 2.备择假设(研究假设):是研究者希望肯定的命题。“被告是有罪的” “他骂过人” “ 5000 ,说法不正确” 是变
6、量间有关系的、不等价的陈述。3.两假设设立的思路:哲学上的证实与证伪: 乌鸦都是黑的 波珀与库恩 数学上的反证法: 证A=B,设AB,第八章 假设检验,STAT,要证明他没有骂过人,他必须出示他从小到大每一时刻的录音录像,所有书写的东西等等,还要证明这些物证是完全的、真实的、没有间断的。这简直是不可能的。 即使他找到一些证人,比如他的同学、家人和同事,那也只能够证明在那些证人在场的某些片刻,他没有被听到骂人。 反过来,如果要证明这个人骂过人很容易,只要有一次被抓住就足够了。即样本结果与总体假设的矛盾 因此,企图肯定什么事物很难,而否定却相对容易得多。这就是假设检验背后的哲学。科学往往是在否定中
7、发展。 设立原假设的动机主要是企图利用人们掌握的样本结果与,第八章 假设检验,STAT,总体假设的矛盾,从而否定这个假设。假设检验都是以否定原假设为目标。如否定不了,说明证据不足,无法否定原假设。但不能说明原假设正确。就像一两次没有听过他骂人还远不能证明他从来没有骂过人。备选假设通常是被认为可能比零假设更符合样本数据所代表的现实。如H1:m5,这意味着至少样本均值应该大于5。 4.原假设与备择假设的区别 原假设是表示变量间无关系的、等价的,而备择假设是表示变量间有关系的、不等价的。这是基本的区别。 原假设总是对应总体的,而备择假设总是对应样本的。,第八章 假设检验,STAT,原假设是暗含的假设
8、,只能被间接检验(间接推论) ,而备择假设是明确的,能直接被检验。由于上一点,你在研究论文中很少看到原假设陈述而总是看到看到备择假设陈述。,第八章 假设检验,STAT,二、假设检验的基本原理 1.小概率事件原理小概率事件原理:一次试验中小概率事件几乎不发生。 假设检验的关键,是看样本统计值与总体参数假设值是否有矛盾出现,如果有则否定,反之则肯定。 根据抽样分布理论,若原假H0成立,则样本统计值与总体参数假设值偏差很大的事件是一个小概率事件,一旦在一次抽样中出现小概率事件,就要怀疑原假设的正确性,从而否定原假设。 若一次抽样中样本统计值与总体参数假设值相差不大,则就没有理由拒绝原假设,也就只好接
9、受原假设。,第八章 假设检验,STAT,例A声称他是一个素食者。 H0 :A是一个素食者 H1 :A不是一个素食者 (1)只抽一个样本: 黄瓜 判断:接受H0,否定H1 含义:很难拒绝 只好“含含糊糊地”接受或继续调查。 注意:这里“接受H0”的说法是不严格的。严格的说法是“不能拒绝H0 ” 。理由后面说明! (2)只抽一个样本: 香肠 判断:拒绝H0,接受H1。 含义:绝对无法接受 “信心十足地拒绝”。 “含含糊糊地接受,信心十足地拒绝”。,第八章 假设检验,STAT,2.显著性水平和拒绝域 概率小到多少的事件为小概率事件?或说取多大为宜?视具体情况而定,一般取0.05或0.01,有时也取0
10、.10。把概率小于上述值的事件称为小概率事件。 越大,样本统计值与总体参数假设值之间的差异成为显著性差异的可能性越大;反之则小。因此, 的大小就成为判定这种差异是否显著的标准,故称显著性水平。1- 则为样本统计值与总体参数假设值之差不超过一定范围的概率。 接受还是拒绝原假,最终要以显著性水平为依据确定评判规则。评判规则有二种:临界值规则和p-值规则。即样本统计量抽样分布曲线图中接受域与拒绝域的划分规则。,第八章 假设检验,STAT,临界值规则:先把值转化为一定分布下的临界值,然后计算检验统计值,最后把检验统计值与临界值相比较来判断是否拒绝原假设。 p-值规则:先计算检验统计值,然后求出样本统计
11、量抽样分布曲线图中与检验统计值相对应的称之为观测到的显著性水平p-值,最后把p-值与事先给定的显著性水平值相比较来判断是否拒绝原假设。 本课程只介绍临界值规则, p-值规则不要求掌握。,第八章 假设检验,STAT,例 据一调查公司声称2002年某市职工月收入XN(=750,2= 1502)。现随机抽取100名职工,计算出其月平均收入为780元。问该声称是否可以接受(显著性水平=0.05)。分析建立假设:H0:=750 H1:750,“质变”即显著性差异、系统性差异,不是由于样本随机性导致的,反之,“量变”是随机性差异,是不显著的差异。 程序性错误!,第八章 假设检验,STAT,例一调查公司声称
12、2002年某市职工月收入XN( 750, 1502 )。现随机抽取100名职工,得其月平均收入为780元,问该声称是否可以接受(=0.05)。H0:=750, +,-Z/2 0 Z /2,第八章 假设检验,STAT,例一调查公司声称2002年某市职工月收入XN(750, 1502 )。现随机抽取100名职工,得其月平均收入为780元,问该声称是否可以接受(=0.05)H0:=750,720.6 750 779.4,-1.96 0 1.96,第八章 假设检验,STAT,三、两类错误 例法官判案过程中的错误 H0:被告是无罪的,第一类错误:判定一个无罪的人有罪; 第二类错误:判定一个有罪的人无罪。
13、 减小 限制警察获取证词的权力,防止逼、供、信或用刑等增大。,第八章 假设检验,STAT,例一调查公司声称2002年某市职工月收入XN(750, 1502 )。现随机抽取100名职工,得其平均月收入为780元。问该声称是否可以接受(=0.05)。H0:=750 1. H0为真( =750 ) 样本均值740 接受 样本均值780 “弃真” 2. H0为伪( =785 ),720.6 750 779.4,第八章 假设检验,STAT,四、检验类型例新生儿的体重服从正态分布。根据2002年的统计,新生儿的平均体重为3190克。现从2003年的新生儿中随机抽取50名,测得其平均体重为3210克。问20
14、03年的新生儿与2002年相比,体重有无显著差异? (1)2003= 2002=3190 (2)2003 2002=3190 H0:=3190 H1: 3190, +,双侧检验:过大过小均拒绝,第八章 假设检验,STAT,例市政府欲购入10万只灯泡,按合同规定其使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,2=2002,现从中随机抽取100只,测得样本均值为960小时,可否认为这批灯泡的平均使用寿命低于1000小时(=0.05) H0:1000 H1: 1000 注:当样本数据 总体数据0时 H1: 5% 注:当样本数据总体数据P0时 H1: P P0,P P0,右单侧检验“
15、怕大不怕小”,第八章 假设检验,STAT,五、假设检验的逻辑步骤: 1. 写出零假设和备选假设; 2. 确定检验统计量; 3. 确定显著性水平a ; 4.根据样本统计量的概率分布确定与a相对应的临界值,即确定接受域和拒绝域; 5.根据样本数据计算检验统计值; 6.比较检验统计值与临界值,做出接受或拒绝原假设的判断。,第八章 假设检验,STAT,附:为什么说“接受零假设”的说法不严格的? 1.如果你说“接受零假设”,那么就应该负责任地提供接受零假设时可能犯第二类错误的概率。这就要算出在备选假设正确的情况下错误接受零假设的概率。但是,这只有在备选假设仅仅是一个与零假设不同的确定值(而不是范围)时才
16、有可能。多数统计教科书的备选假设是一个范围而根本无法确定犯第二类错误的概率。 2.不能拒绝零假设,仅仅说明根据所使用的检验方法(或检验统计量)和当前的数据没有足够证据拒绝这些假设而已。对于同一假设检验问题,往往有多个检验统计量;而且人们还在构造更优良的检验统计量。人们不可能把所有目前存在的和将来可能存在的检验都实施。 因此只能够说,按目前的证据,不足以拒绝零假设。,第八章 假设检验,STAT,例: 一大米加工厂卖给一个超市一批标明10kg重的大米。该超市怀疑厂家缺斤短两,对10包大米进行了称重,得到下面结果(单位:千克)。这里假定打包的大米重量服从正态分布。 9.93 9.83 9.76 9.
17、95 10.07 9.89 10.03 9.97 9.89 由于发生分歧,于是各方同意用这个数据进行大米重量均值m的t检验;以厂家所说的平均重量为10kg作为零假设,而以超市怀疑的份量不足10kg作为备选假设: 于是超市、加工厂老板和老板的律师都进行了检验。结果: 1超市用全部数据进行t检验,得到拒绝零假设的结论。他们根据计算得到:样本均值为9.92kg,而p-值为0.0106。因此超市认为,对于显著性水平a=0.05,应该拒绝零假设。,第八章 假设检验,STAT,2大米加工厂老板只用2个数据,得到“接受零假设”的结论。大米加工厂老板也懂些统计,他只取了样本的头两个个数目9.93和9.83进行
18、同样的t检验。通过这两个数计算得到:样本均值为9.88kg,而p-值为0.1257。虽然样本均值不如超市检验的大,但p-值大大增加。加工厂老板于是下了结论:对于水平a0.05,“接受零假设”,即大米平均重量的确为10kg。 3大米加工厂老板的律师用了全部数据,但检验方法不同,得到“接受零假设”的结论。律师用全部数据,进行连续变量比例的检验,即中位数的符号检验(注意对于正态分布,对中位数的检验等价于对均值的检验)。根据计算,得到该检验的p-值为0.0547。所以律师说,在显著性水平a=0.05时,应该“接受零假设”。还说,“既然三个检验中有两个都接受零假设,就应该接受。”,第八章 假设检验,ST
19、AT,加工厂老板实际上减少了作为证据的数据,因此只能得到“证据不足,无法拒绝零假设”的结论。但加工厂老板利用一些错误的统计教科书的说法,把“证据不足以拒绝零假设”改成“接受零假设”了。而且,从样本中仅选择某些数目(等于销毁证据)违背统计道德。 律师虽然用了全部数据,但用了不同的方法。他也只能够说“在这个检验方法下,证据不足以拒绝零假设” ,而不能说“接受零假设”。另外,律师对超市用更有效的检验方法得到的“拒绝零假设”的结论视而不见,这也违背了统计原理。其实,对于同一个检验问题,可能有多种检验方法。但只要有一个拒绝,就可以拒绝。那些不能拒绝的检验方法是能力不足。,第八章 假设检验,STAT,该例
20、说明了几个问题: 在已经得到样本的情况下,随意舍取一些数目是违背统计原理和统计道德的。这相当于篡改或销毁证据。 由于证据不足而不能拒绝零假设绝对不能说成“接受零假设”。如果一定要说,请给出接受零假设所可能犯第二类错误的概率(是无法算出的)。这是加工厂老板和律师所犯的错误。 律师的检验和超市的检验都针对同样的检验问题,但由于超市的检验方法比律师的检验更强大(或更强势,更有效率),所以超市拒绝了零假设,而律师的检验则不能拒绝。 如果对同一检验问题有多种检验方法,则只要有一个拒绝,就必须拒绝。绝不能“少数服从多数”,也不能“视而不见”。,第八章 假设检验,STAT,第二节 常用参数的假设检验一、单个
21、总体,的检验 1. 正态总体且2已知例某厂商声称其新开发的钓鱼线的强度服从正态分布,且平均强度为8kg,标准差为0.5kg。现从中随机抽出50条,测试结果为平均强度为7.85kg,问能否接受厂商的声称?(=0.05)解:H0:=8 H1: 8,-Z/2 0 Z/2,第八章 假设检验,STAT,例某厂商声称其新开发的钓鱼线的强度服从正态分布,且平均强度 8kg,标准差为0.5kg。现从中随机抽出50条,测试结果为平均强度为8.1kg,可否认为其平均强度比8kg高?(=0.05)解:H0: 8 H1: 8, x0,第八章 假设检验,STAT,2. 正态总体,2未知例某种金属线的抗拉强度XN(106
22、20, 2 ),据说目前有所下降。为此从新生产的产品中任取10根,测得样本均值10600kg,样本标准差为81kg。可否认为其抗拉强度比过去下降了?(=0.05)解:H0: 10620 H1: 500,1.645,第八章 假设检验,STAT,二、单个总体,P的检验(一)确定假设 1. H0:P=P0 H1: P P0 2. H0:PP0 H1: PP0 3. H0:PP0 H1: PP0(二)检验统计量当n很大(30),且np和n(1p)两者均大于5时,,第八章 假设检验,STAT,例据以往调查,购买某企业产品的顾客中30岁以上的男子占50% 。该企业关心这个比例是否有变,于是随机抽取400名
23、顾客进行调查,结果有210人为30岁以上的男子。该厂希望在0.05的显著性水平下检验“50%的顾客是30岁以上的男子”这个假设。解: H0:P=50% H1: P50%,-1.96 1.96,第八章 假设检验,STAT,三、两个总体平均数之差的假设检验 (不讲)(一)确定假设 1. H0:12=0 H1: 12 0 2. H0:12 0 H1: 12 0 3. H0:12 0 H1: 12 0(二)确定检验统计量,正态总体、2未知但相等,第八章 假设检验,STAT,例两种方法生产的产品抗拉强度都近似服从正态分布。方法1的标准差16kg,方法2的标准差28kg。现从方法1和方法2生产的产品中分别
24、抽取容量为12、16的样本,其样本均值分别40kg和34kg。管理部门想知道这两种方法生产出来的产品的平均抗拉强度是否相同(0.05)建立假设:H0:12=0 H1: 12 0,第八章 假设检验,STAT,四、两个总体比率之差的假设检验 (不讲)(一)确定假设 1. H0:P1=P2 H1: P1 P2 2. H0:P1P2 H1: P1P2 3. H0:P1P2 H1: P1P2(二)检验统计量 当n很大(30),且np和n(1p)两者均大于5时,,第八章 假设检验,STAT,例一保险机构称,对于新出台的某一险种,沿海地区的人们的喜爱程度要高于内地的人们。为此进行的一次抽样调查显示:沿海和内
25、地人们的喜爱程度分别为0.65、0.55,样本容量为300、400人。可否认为沿海比内地更喜爱这一险种(0.01)。 建立假设:H0:P1 P2 0 H1: P1P2 0,第八章 假设检验,STAT,五、正态分布总体方差的假设检验 (不讲)(一)单个正态总体方差的假设检验 1. 建立假设:H0:2= 02 2 02 双侧检验 H0:2 02 2 02 右侧检验 H0:2 02 2 02 左侧检验 2. 构造检验统计量,3. 确定决策准则,4. 计算统计量的值并决策。,第八章 假设检验,STAT,例某车间生产铜丝,生产一向稳定。今从中随机抽取10根,测得铜丝的折断力均值为575.2,方差为75.
26、73。问:是否仍可相信该车间生产的铜丝的折断力的方差依然是64?(=0.05,且已知铜丝折断力服从正态分布)解:建立假设:H0: 2= 64 H1: 2 64,第八章 假设检验,STAT,例某种保险丝的融化时间服从正态分布。按规定,融化时间的方差不得超过400。今从一批产品中随机抽取25个样品,测得融化时间的方差为410。问在0.05的显著性水平下能否认为这批产品的方差偏大?,第八章 假设检验,STAT,思考题 南昌市教育局要了解全市小学六年级学生语文理解程度是否达到及格水平(60分) 。从全市所有六年级学生中随机抽取400名学生进行测试,平均成绩为61.6分,标准差为14.4分。现拟根据样本
27、数据对“全市小学六年级学生语文理解程度达到及格水平”这一论断进行显著性检验,显著性水平先后按0.05和0.01考虑。要求: 1.指出由样本数据观测到何种差异。 2.指出出现这种差异的两种可能原因。 3.针对这两种可能原因提出相应的两种假设(原假设和备择,第八章 假设检验,STAT,假设),指出单侧检验还是双侧检验,并说明为什么要采用单侧检验或双侧检验。 4.构造检验统计量。 5.计算检验统计值。 6.确定临界值。 7.运用临界值规则判断“全市小学六年级学生语文理解程度达到及格水平”这一论断是否成立,为什么? 8.根据以上所做的工作,给出结论性表述。,第八章 假设检验,STAT,课外作业1.某体校男生100米跑的平均成绩为12秒,标准差为0.3秒。在采用一种新的教学训练方法三个月后,随机抽查25名男生进行测试,结果100米跑的平均成绩为11.89秒,问在0.05的显著性水平下,可否认为新的教学训练方法已使男生100米跑的平均成绩明显加快? 2.某研究机构猜想,至少有80%的行人在过马路时曾有闯红灯、不走斑马线等违章行为。为证实这一说法,随机询问了200名行人,结果有146人如实承认有过这种违章行为。问分别在0.05、0.01的显著性水平下,该研究机构的猜想是否成立?,第八章 假设检验,STAT,本章结束,谢谢!,