1、,第一节 假设检验的提出,例1 某企业生产一种零件,以往的资料显示零件平均长度为4cm,标准差为0.1cm。工艺改革后,抽查100个零件发现其平均长度为3.94cm。问:工艺改革后零件长度是否发生了显著变化?例2 某厂有一日共生产了200件产品,按国家标准,次品率不得超过3%才能出厂. 现从该批产品中随机抽取10件,发现其中有2件次品, 问:这批产品能否出厂?,这两个例子中都是要对某种“陈述”做出判断:,要回答此类问题,有必要引入假设检验!,总体分布已知, 检验关于未知参数 的某个假设,总体分布未知时的 假设检验问题,所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息
2、来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设.,让我们先看一个例子.,这一讲我们讨论对参数的假设检验 .,例 8.1 某厂生产干电池,根据长期的资料知道,干电池的寿命服从正态分布,且标准差 小时. 规定要求平均寿命(即均值) 小时. 今对一批产品抽查了10个样品,测得寿命的数据如下(小时):201 208 212 197 205 209 194 207 199 206 问这批干电池的寿命是否是 200 小时?,设干电池的寿命为X , 现在的问,题是,吗?,那么,如何判断原假设H0 是否成立呢?,较大、较小是一个相对的概念,合理的界限在何处?应由什么原
3、则来确定?,问题是:如何给出这个量的界限?,这里用到人们在实践中普遍采用的一个原则:,小概率事件在一次试验中基本上不会发生 .,现在回到我们前面干电池的例中:,在提出原假设H0后,如何作出接受和拒绝H0的结论呢?,在假设检验中,我们称这个小概率为显著性水平,用 表示.,常取,的选择要根据实际情况而定。,提出假设,选检验统计量, N(0,1),由于 已知,,对给定的显著性水平 ,可以在N(0,1)表中查到分位点的值 ,使,故我们可以取拒绝域为:,W:,如果由样本值算得该统计量的实测值落入区域W,则拒绝H0 ;否则,不能拒绝H0 .,不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达
4、到足以否定H0的程度 .,所以假设检验又叫,“显著性检验”,如果显著性水平 取得很小,则拒绝域也会比较小.,其产生的后果是: H0难于被拒绝.,基于这个理由,人们常把 时拒绝H0称为是显著的,而把在 时拒绝H0称为是高度显著的.,在上面的例子的叙述中,我们已经初步介绍了假设检验的基本思想和方法 .,下面,我们再结合另一个例子,进一步说明假设检验的一般步骤 .,例2 某工厂生产的一种螺钉,标准要求长度是32.5毫米. 实际生产的产品,其长度X假定服从正态分布 未知,现从该厂生产的一批产品中抽取6件, 得尺寸数据如下:,32.56, 29.66, 31.64, 30.00, 31.87, 31.0
5、3,问这批产品是否合格?,分析:这批产品(螺钉长度)的全体组成问题的总体X. 现在要检验E(X)是否为32.5.,提出原假设和备择假设,第一步:,已知 X,未知.,第二步:,能衡量差异 大小且分布 已知,第三步:,即“ ”是一个小概率事件 .,小概率事件在一次 试验中基本上不会 发生 .,得否定域 W: |t |4.0322,故不能拒绝H0 .,第四步:,将样本值代入算出统计量 t 的实测值,| t |=2.9974.0322,没有落入 拒绝域,这并不意味着H0一定对,只是差异还不够显著, 不足以否定H0 .,假设检验会不会犯错误呢?,由于作出结论的依据是下述,小概率原理,小概率事件在一次试验
6、中基本上 不会发生 .,如果H0成立,但统计量的实测值落入否定域,从而作出否定H0的结论,那就犯了“以真为假”的错误 .,如果H0不成立,但统计量的实测值未落入否定域,从而没有作出否定H0的结论,即接受了错误的H0,那就犯了“以假为真”的错误 .,请看下表,假设检验的两类错误,P拒绝H0|H0为真= ,P接受H0|H0不真= .,犯两类错误的概率:,显著性水平 为犯第一类错误的概率.,两类错误是互相关联的, 当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加.,要同时降低两类错误的概率 ,或者要在 不变的条件下降低 ,需要增加样本容量.,假设检验和区间估计的关系,参数估计:根据样本所
7、提供的信息,对未知参数进行估计,即求出置信区间,并以一定的概率保证总体参数落在该区间之内。 假设检验:由临界值围成的接受域就是以 为中心的置信区间。 越小,置信区间就越宽,接受域就越大,从而使犯弃真错误的可能性越小(当然,犯纳伪错误的可能性增大)。,单、双侧检验,前面一例的检验,拒绝域取在两侧,称为双侧检验.,下面看一个单侧检验的例子.,想了解单双侧检验的区别,请看演示.,单双侧检验,例3 某织物强力指标X的均值 =21公斤. 改进工艺后生产一批织物,今从中取30件,测得 =21.55公斤. 假设强力指标服从正态分布 且已知 =1.2公斤, 问在显著性水平 =0.01下,新生产织物比过去的织物
8、强力是否有提高?,解:提出假设:,取统计量,是 一小概率事件,U=2.512.33,故拒绝原假设H0 .,落入否定域,解:提出假设:,取统计量,此时可能犯第一类错误,犯错误的概率不超过0.01.,例4 为比较两台自动机床的精度,分别取容量为10和8的两个样本,测量某个指标的尺寸(假定服从正态分布),得到下列结果:,在 =0.1时, 问这两台机床是否有同样的精度?,车床甲:1.08, 1.10, 1.12, 1.14, 1.15, 1.25, 1.36, 1.38,1.40,1.42,车床乙:1.11, 1.12, 1.18, 1.22, 1.33, 1.35, 1.36, 1.38,解:设两台
9、自动机床的方差分别为 在 =0.1下检验假设:,否定域为 W:,或,由样本值可计算得F的实测值为:,查表得,由于 0.3041.513.68, 故接受H0 .,F=1.51,这时可能犯第二类错误.,想知道如何计算犯第二类错误的概率,再请看演示,两类错误的概率的关系,关于特性曲线的内容.,其它情况可参看书上表 (p252),否定域请自己写出.,注意:我们讨论的是正态总体均值和方差的假设检验,或样本容量较大,可用正态近似的情形.,下面我们对本讲内容作简单小结.,提出 假设,根据统计调查的目的, 提出 原假设H0 和备选假设H1,作出 决策,抽取 样本,检验 假设,对差异进行定量的分析, 确定其性质(是随机误差 还是系统误差. 为给出两 者界限,找一检验统计量T, 在H0成立下其分布已知.),拒绝还是不能 拒绝H0,显著性 水平,P(T W)=-犯第一 类错误的概率, W为拒绝域,总 结,在大样本的条件下,若能求得检验统计量的 极限分布,依据它去决定临界值C.,F 检验 用 F分布,一般说来,按照检验所用的统计量的分布, 分为,U 检验 用正态分布,t 检验 用 t 分布,按照对立假设的提法,分为,单侧检验,它的拒绝域取在左侧或右侧 .,双侧检验,它的拒绝域取在两侧;,若想了解“检验的p值”这部分内容,请 看教案“第31讲续”.,