1、统计学导论,周国富 主讲,6-2,第六章 假设检验与方差分析,第一节 假设检验的基本原理 第二节 总体均值的假设检验 第三节 总体比例的假设检验 第四节 单因子方差分析 第五节 双因子方差分析【不要求】 第六节 Excel在假设检验与方差分析 中的应用【不要求】,6-3,第一节 假设检验的基本原理,一、什么是假设检验 二、原假设与备择假设 三、检验统计量 四、显著性水平、P-值与临界值 五、双侧检验和单侧检验 六、假设检验的两类错误 七、关于假设检验结论的理解,6-4,一、什么是假设检验,【例6-1】假定咖啡的分袋包装生产线的装袋重量服从正态分布N(,2)。生产线按每袋净重150克的技术标准控
2、制操作。现从生产线抽取简单随机样本n=100袋,测得其平均重量为 =149.8克,样本标准差s=0.872克。问该生产线的装袋净重的期望值是否为150克(即问生产线是否处于控制状态)?,6-5,所谓假设检验,就是事先对总体的参数(或总体的分布形式)做出一个假设(称为原假设) ,然后利用抽取的样本信息来判断这个假设是否合理,即判断总体的真实情况与原假设是否存在显著的系统性差异。 假设检验又被称为显著性检验。,6-6,一个完整的假设检验过程包括以下几个步骤: (1)提出假设(包括原假设和备择假设); (2)构造适当的检验统计量,并根据样本计 算检验统计量的具体数值; (3)规定显著性水平,建立检验
3、规则; (4)做出判断。,6-7,二、原假设与备择假设,原假设:一般用H0表示,通常是设定总体参数等于某值,或服从某个分布函数等; 备择假设:是与原假设互相排斥的假设,原假设与备择假设不可能同时成立。 所谓假设检验问题,实质上就是要判断H0是否正确,若拒绝原假设H0 ,则意味着接受备择假设H1 。,6-8,二、原假设与备择假设(续),如在例6-1中,我们可以提出两个假设: 原假设是袋装咖啡的平均重量与所要控制的标准没有显著差异,记为 ; 备择假设是袋装咖啡的平均重量与所要控制的标准有显著差异,记为 。,6-9,三、检验统计量,所谓检验统计量,就是根据所抽取的样本构造的用于检验原假设是否成立的随
4、机变量。 检验统计量中应当含有所要检验的总体参数,以便在“总体参数等于某数值”的假定下研究样本统计量的观测结果。 检验统计量还应该在“H0成立”的前提下有已知的分布,从而便于计算出现某种特定的观测结果的概率。,6-10,【例6-2】 构造例6-1的检验统计量,并计算相应的样本观测值。,(6.1),依据:正态分布再生定理,6-11,式(6.3)中的 t 就是本例所要构造的检验统计量。,依据:样本方差的抽样分布和t分布的定义,6-12,由于t分布在自由度30情形下可用标准正态分布来近似,而本例中n=100,自由度n1远大于30,故式(6.3)近似服从标准正态分布。,根据样本数据计算可得,6-13,
5、四、显著性水平、P-值与临界值,在检验统计量的样本观测值计算出来之后,应如何利用它对原假设是否成立作出判断呢? 这时,需要利用概率论中的“小概率事件原理”:小概率事件在单独一次试验中几乎不可能发生,可以不予考虑。 具体讲,在假设检验中,我们做出判断时所依据的逻辑是:如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转而接受备择假设。,6-14,那么,小概率的标准是多大? 这要根据实际问题而定。在假设检验中,称这一标准为显著性水平,并用来表示。 在应用中,通常取 =0.01,或 =0.05。 在具体运用显著性水平对假设检验问题做出判断时,
6、又有两种做法: 一是P-值规则; 二是临界值规则。,6-15,(一)P-值规则 所谓P-值,是指检验统计量超过具体样本观测值而取更极端的值的概率。 也即:在检验统计量的密度曲线下,由检验统计量具体的样本观测值所截取的尾部的面积。 如果P-值小于所给定的显著性水平 ,则意味着小概率事件发生了,应该否定原假设; 如果P-值大于所给定的显著性水平 ,则意味着小概率事件没有发生,也就是没有充分的证据否定原假设。,6-16,【例6-3】假定 =0.05,根据例6-2的结果,计算该问题的P-值,并做出判断。,解:查标准正态概率表,当z=2.29时,截取的右尾部面积为10.9890=0.011。由对称性可知
7、,当z= 2.29时,截取的左尾面积为0.011。由于0.011 /2=0.025,也即P-值小于给定的显著性水平,所以可以判断=150的假定是错误的。也就是说,根据观测的样本,有理由表明总体的与150克的差异是显著存在的。,6-17,假设检验中,还有另外一种做出结论的方法: 首先根据所提出的显著性水平标准 (它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值(如z/2、t/2、F等),称作临界值; 然后直接用检验统计量的观测值与临界值作比较:观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假设;观测值落在临界值所划定的尾部之外的范围(称之为接受域)内,则认为拒绝原假设的证据不
8、足。 这种做出检验结论的方法,称为临界值规则。,(二)临界值规则,6-18,显然,P-值规则和临界值规则是等价的。在做检验的时候,只用其中一个规则即可。 但是,P-值规则较之临界值规则具有更明显的优点。这主要是: 第一,它更加简捷; 第二,在P-值规则的检验结论中,对于犯第一类错误(见教材P132)的概率的表述更加精确。 因此,在各种专用统计软件中,一般都直接给出P-值。,6-19,【例6-4】假定 =0.05,根据例6-2的结果,用临界值规则做出判断。,解:查表可得,临界值z/2 =z0.025= 1.96。,由于z= 2.29 1.96,即,检验统计量的观测值落在临界值所划定的左尾部(即落
9、在拒绝域),因而拒绝150克的原假设。,上面的检验结果意味着,由样本数据得到的观测值的差异提醒我们:装袋生产线的生产过程已经偏离了控制状态,正在向装袋重量低于技术标准的状态倾斜。,6-20,五、双侧检验和单侧检验,图6-1 双侧、单侧检验的拒绝域分配,6-21,表6-1 拒绝域的单、双侧与备择假设 之间的对应关系,那么,在什么情况下采用单侧检验或双侧检验?,这取决于备择假设的性质:,6-22,进一步要问,该如何设立备择假设?,备择假设的不同表述(从而,拒绝域的不同安排方法)的适用场合可归纳如下:(1)如果在0之外,没有特别的理由作出到底是0的判断,应采用双尾检验。如果事先已确知,在0被拒绝后剩
10、下的只有0)一种可能性,应采用左单尾(或右单尾)检验。,6-23,(2)如果在0被拒绝后,不论出现0,我们都会采取 相同的行动,那么应采用双尾检验。如果在=0被拒绝后,我们对0这两种情况会采取不同的行动,那么应采用单尾检验。(3)备择假设一般在直观上被样本数据所支持。参阅吴喜之:统计学:从数据到结论P93。,6-24,六、假设检验的两类错误,由于样本具有随机性,因此根据样本对总体进行显著性检验有可能出现两种错误:,显著性检验中的第一类错误是指:原假设事实上正确,可是检验统计量的观测值却落入拒绝域,因而否定了本来正确的假设。这是弃真的错误。发生第一类错误的概率在双侧检验时是两个尾部的拒绝域面积之
11、和;在单侧检验时是单侧拒绝域的面积。,6-25,六、假设检验的两类错误(续),显著性检验中的第二类错误是指:原假设事实上不正确,而检验统计量的观测值却落入了接受域,因而没有否定本来不正确的原假设,这是取伪的错误。发生第二类错误的概率是把来自1 (1 0)的总体的样本值代入检验统计量计算公式,所得结果落入接受域的概率。,6-26,a)双尾检验(=0.1),b)单尾检验(=0.05),图 犯第一类错误的概率,例如,在原假设H0:=150正确时犯第一类错误的概率:,6-27,在原假设H0:=150不正确,真实情况是= 149.7时,犯第二类错误的概率(双尾检验,=0.1) :,图 犯第二类错误的概率
12、,6-28,例如,在例6-1中,如果检验者站在卖方的立场上,他较为关心的是不要犯第一类错误,即不要发生产品本来合格却被错误地拒收这样的事情,这时要较小。,反之,如果检验者站在买者的立场上,他关心的是不要把本来不合格的产品误当作合格品收下,也就是说,最好不要犯第二类错误,因此,要较小。,6-29,图 n固定时和的大小关系(以单尾检验为例),6-30,6-31,七、关于假设检验结论的理解,李子奈计量经济学(第三版)P46认为,假设检验的基本思想是概率性质的反证法。 这说明,假设检验只能回答:我们能够拿出何种程度(用显著性水平衡量)的证据来否定原假设。 并且相对而言,当原假设被拒绝时,我们能够以较大
13、的把握肯定备择假设的成立;而当原假设未被拒绝时,我们并不能认为原假设确实成立,而只能说没有找到充足的证据否定原假设。,跳过,6-32,假设检验的基本思想是概率性质的反证法。也就是说,为了检验原假设H0是否正确,先假定这个假设是正确的,看由此能推出什么结果。如果导致一个不合理的结果,则表明“假设H0为正确”是错误的,即原假设H0不正确,因此要拒绝原假设H0。如果没有导致一个不合理现象的出现,则不能认为原假设H0不正确,因此不能拒绝原假设H0 。,返回,假设检验的基本思想,概率性质的反证法的根据是小概率事件原理。,6-33,第二节 总体均值的假设检验,一、单个总体均值的检验(重点) 二、双总体均值
14、是否相等的检验(重点),6-34,单个总体均值的显著性检验可以有双尾、左单尾、右单尾三种不同的情况。 下面就总体分布的不同情况(是否服从正态分布)、总体方差是否已知、以及样本大小的不同情况分别介绍检验统计量和检验规则。,一、单个总体均值的检验,6-35,一、总体为正态分布,总体方差已知,如果规定显著性水平为,在双尾、左单尾、右单尾三种不同情形下,拒绝域分别为:,设来自正态总体的样本为(X1,X2,Xn),则对于假设H0:=0,在H0成立的前提下,有检验统计量,(6.4),依据:正态分布再生定理,6-36,二、总体分布未知,总体方差已知,大样本,如果规定显著性水平为,在双尾、左单尾、右单尾三种不
15、同情形下,拒绝域分别为:,设来自总体的样本为(X1,X2,Xn),则对于假设H0:=0,在H0成立的前提下,如果样本足够大(n30),那么近似地有检验统计量,(6.5),依据:中心极限定理,6-37,三、总体为正态分布,总体方差未知,如果规定显著性水平为,在双尾、左单尾、右单尾三种不同情形下,拒绝域分别为:,设来自正态总体的样本为(X1,X2,Xn),则对于假设H0:=0,在H0成立的前提下,有检验统计量,(6.6),若自由度(n1) 30,则该t 统计量近似服从标准正态分布。,依据:正态分布再生定理和样本方差的抽样分布,6-38,四、总体分布未知,总体方差未知,大样本,如果规定显著性水平为,
16、在双尾、左单尾、右单尾三种不同情形下,拒绝域分别为:,设来自总体的样本为(X1,X2,Xn),则对于假设H0:=0,在H0成立的前提下,如果总体偏斜适度,且样本足够大,那么近似地有检验统计量,(6.7),依据:中心极限定理,6-39,总体均值的检验 (检验统计量),总体 是否已知?,6-40,6-41,6-42,下面,再看几个例题:,6-43,2 已知时总体均值的检验 (正态总体,例题分析),【例】某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为0=0.081mm,总体标准差为= 0.025 。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭
17、圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(0.05),双侧检验,6-44,2 已知时总体均值的检验 (正态总体,例题分析),提出假设:H0: = 0.081H1: 0.081 给定 = 0.05,则 临界值z/2=1.96,计算检验统计量:,作出决策:,在 = 0.05的水平上拒绝H0,,也即有证据表明,新机床加工的零件的椭圆度与以前有显著差异。,解:,6-45,2 已知时总体均值的检验 (正态,小样本,课堂练习),【例】根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N(1020,1002)。现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1
18、080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?(0.05),单侧检验,6-46,2 已知时总体均值的检验 (正态,小样本,课堂练习),提出假设:H0: 1020H1: 1020 给定 = 0.05,则 临界值z=1.645,计算检验统计量:,在 = 0.05的水平上拒绝H0,,也即有证据表明,这批灯泡的使用寿命有显著提高。,作出决策:,解:,6-47,2 未知时总体均值的检验 (正态总体,小样本,例题分析),【例】某机器制造出的肥皂厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3cm,标准差为0.3cm。若肥皂的厚度服从正态分
19、布,试以0.05的显著性水平检验机器性能良好的假设。,双侧检验,6-48,2 未知时总体均值的检验 (正态总体,小样本,例题分析),提出假设:H0: = 5H1: 5 因n=10,=0.05, 临界值t/2(n-1)=2.262,计算检验统计量:,在 = 0.05的水平上拒绝H0,,也即该机器的性能不好。,作出决策:,解:,6-49,2 未知时总体均值的检验 (正态总体,小样本,课堂练习),【例】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下不小于40000公里,对一个由20个轮胎组成的随机样本作了试验,测得平均值为41000公里,标准差为5000公里。已知轮
20、胎寿命的公里数服从正态分布,我们能否根据这些数据作出结论,该制造商的产品同他所说的标准相符?( = 0.05),单侧检验!,6-50,2 未知时总体均值的检验 (正态总体,小样本,课堂练习),提出假设:H0: 40000H1: 40000 因n=20, = 0.05 , 临界值t(n-1)=-1.7291,计算检验统计量:,在 = 0.05的水平上不拒绝H0,,也即不能认为制造商的产品同他所说的标准不相符。,作出决策:,解:,6-51,二、双总体均值是否相等的检验,在许多情况下,人们需要比较两个不同总体的参数,看他们是否存在显著的差异。如同一品种的水稻在不同地区的产量(均值)是否显著地有差异;
21、对某一总统候选人的支持率(比例)在不同性别的人群中是否显著地有差异,等等。,下面,先介绍不同情形下双总体均值是否相等的检验统计量。,6-52,(一)两个正态总体,方差相等(但未知),6-53,(一)两个正态总体,方差相等(续),6-54,(一)两个正态总体,方差相等(续),为检验两总体均值是否相等,提出原假设H0:1=2。 可以证明,在原假设H0:1=2成立的条件下,以下检验统计量服从自由度为n1+n2-2的t-分布:,当n1+n2-230时,上述检验统计量近似服从标准正态分布N(0,1)。,(6.8),6-55,【例6-6】(教材P136 )某工厂为了比较两种装配方法的效率,分别组织了两组员
22、工,每组9人,一组采用新的装配方法,另外一组采用旧的装配方法。假设两组员工装配设备的时间均服从正态分布,两总体的方差相等但未知。现有18个员工的设备装配时间见表6-2,根据这些数据,是否有理由认为新的装配方法更节约时间?(显著性水平0.05),表6-2 两组员工设备的装配时间 单位:小时,6-56,该题属于两个正态总体、方差相等(但未知)的情况。因此,可利用式(6.8)计算检验统计量。,解:,6-57,由于t统计量的样本观测值2.33971.7459,因此应拒绝原假设,即认为新的装配方法更节约时间。,6-58,(二)两个正态总体,方差不相等(也未知),这时,在原假设H0:1=2成立的条件下,有
23、如下检验统计量:,(6.9),特别地,当自由度f30时,上述检验统计量近似服从标准正态分布N(0,1) 。,6-59,(三)两个非正态总体,样本量足够大,假设有两个任意分布的总体,均值分别为1和2。,关于两总体均值的比较,这种情形最常见。考试重点。,6-60,那么,只要n1和n2都足够大,在原假设H0: 12成立的条件下,以下检验统计量近似服从标准正态分布。,(6.11),(三)两个非正态总体,样本量足够大(续),事实上,当n1和n2都足够大时,上述第(二)种情形和现在的第(三)种情形的检验统计量是一样的。,6-61,6-62,解:,在原假设H0成立的条件下,计算检验统计量的样本观测值:,=
24、2.666,6-63,由于Z= 2.666 Z0.05 = 1.645,故检验统计量的样本观测值落在拒绝域,样本资料提供了显著的证据表明,高收入水平的居民申请贷款数额高于低收入水平的居民是一种规律而并非偶然。,6-64,第三节 总体比例的假设检验,一、单个总体比例的假设检验 二、两个总体的比例是否相等的检验,6-65,一、单个总体比例的假设检验,6-66,(6.12),6-67,【例6-7】一项调查结果声称,某市小学生每月零花钱达到200元的比例为40% 。某科研机构为了检验这个调查是否可靠,随机抽选了100名小学生,发现有47人每月零花钱达到200元。试问:调查结果能否证实早先调查所得结论(
25、比例为40%)?(=0.05),6-68,解:,于是,在原假设成立的假定下,有,由于n=100,样本容量充分大,样本比例P近似服从正态分布,故可以利用正态公式进行近似计算。,(注意:教材P137的表述有点混乱!),6-69,6-70,二、两个总体的比例是否相等的检验,假定对随机变量X1的n1次观测中“成功”次数为a1,对随机变量X2的n2次观测中“成功”次数为a2,样本比例分别记作P1=a1/n1和P2= a2/n2。,6-71,并且,当n1和n2都充分大时,下面的检验统计量近似服从标准正态分布:,在原假设成立的条件下,有的无偏估计量:,(6.13),6-72,例(补充)从成年居民有限总体中简
26、单随机不放回地抽取228人,经调查登记知其中男性100人,女性128人。就企业的促销活动(如折扣销售,抽奖销售,买几赠几,等等)是否会激发本人购买欲望这一问题请他(她)们发表意见。男性中有40%的人、女性中有43%的人回答说促销活动能激起自己的购买欲望。试问,促销活动对不同性别的人购买欲望的影响是否有差别?(=0.1),6-73,解:,在原假设H0成立的假定下,计算检验统计量的样本值:,= (1000.40+1280.43)/(100+128),= 0.42,6-74,6-75,第四节 单因子方差分析,一、问题的提出 二、方差分析的检验统计量 三、关于方差分析的两点说明,6-76,一、问题的提
27、出,在现实生活中,我们常常需要研究某两个变量之间的关系。 如:某养鸡场想检验各种饲料配方对小鸡增重的影响是否不相同; 又如:某大学想观察不同的学历对教师收入的影响是否不相同。 我们来看一个例子:,6-77,【例6-8】 已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定经过检验表明,不同饲料配方下的小鸡增重方差相等)。为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。所得到的增重数据如表6-3。,6-78,表6-3 四种不同饲料配方下小鸡的增重情况,6-79,在上述例子中,不同
28、的饲料配方可以看作饲养小鸡随机试验的不同条件,因此,四组不同(不同行)的数据可以分别看作四个不同总体(即随机变量Y1,Y2,Y4)各自的样本。,6-80,于是,我们的统计分析任务可以有两种提法: 1. 增重与饲料是否有关,即这两个变量是统计相依还是统计独立。 2. 不同饲料喂养的小鸡平均增重是否相等。 实际上,这两种提法是等价的,回答了问题2便也就回答了问题1。因为如果试验条件的差别没有使均值产生差异,那么说明该试验条件就不是变量的影响因素,即说明该试验条件与变量独立。,6-81,此任务属于4个总体均值的比较。,6-82,一般地,对于类似于本例的问题,把随机变量分组的数目记作m,我们可以建立下
29、列假设:,6-83,对于这里的问题(多个总体均值的比较),如果仍采用两总体均值是否相等的假设检验方法,那么需要在多个总体中两两作均值的比较,而且其结果仍然无法做出综合结论,最终仍无法回答所提出的检验任务。 为此,在对两个以上的总体均值进行是否相等的检验时,需要一种新的方法方差分析。,6-84,这种方法是二十世纪二十年代英国统计学家费希尔(R .A .Fisher)提出的。方差分析最早应用于生物和农业试验方面,以后在许多科学研究中得到了应用。 方差分析的目的是检验因变量y与自变量x是否独立,而实现这个目的的手段是通过方差的比较。,6-85,二、方差分析的检验统计量,6-86,6-87,(6.20
30、),式中,MSR为组间方差,MSE为组内方差。,6-88,显然,如果H0成立,即不同总体的均值相同时,组间变差平方和SSR(从而组间方差MSR)应较小,相应地因为总变差平方和SST是定值,所以组内变差平方和SSE(从而组内方差MSE)应较大,于是,按上式计算的F值应较小;反之,如果按上式计算的F值较大,当大过一定界限时,应认为样本提供了拒绝H0的较强证据。,6-89,6-90,【例6-9】利用表6-3中的数据进行单因子方差分析(显著水平为=0.05)。,表6-3 四种不同饲料配方下小鸡的增重情况,6-91,解答:,(1)提出假设,(2)计算离差平方和,SSR,= 3627988.3333620
31、876.191 = 7112.142,6-92,SSE,= 3667800-3627988.333 =39811.667,(3)计算检验统计量的样本值,F,6-93,(4)确定检验规则,作出检验结论,将上述一系列有关的计算结果列成表格形式,称为方差分析表,见表6-4。,表6-4 方差分析表,6-94,6-95,从本市高考考生中简单随机抽取50人,登记个人的考试成绩、性别、父母文化程度(按父母中较高者,文化程度记作:A大专以上,B高中,C初中,D小学以下)。数据如下:,(500,女,A) (498,男,A) (540,男,A) (530,女,A) (450,女,A) (400,女,A) (560
32、,男,A) (460,男,A) (510,男,A) (520,女,A) (524,男,A) (450,男,B) (490,女,B) (430,男,B) (520,男,B) (540,女,B) (410,男,B) (390,男,B) (580,女,B) (320,男,B) (430,男,B) (400,女,B) (550,女,B) (370,女,B) (380,男,B) (470,男,B) (570,女,C) (320,女,C) (350,女,C) (420,男,C) (450,男,C) (480,女,C) (530,女,C) (540,男,C) (390,男,C) (410,女,C) (310
33、,女,C) (300,男,C) (540,女,D) (560,女,D) (290,女,D) (310,男,D) (300,男,D) (340,男,D) (490,男,D) (280,男,D) (310,女,D) (320,女,D) (405,女,D) (410,男,D),例(补充),6-96,(1)试检验学生的性别是否显著地影响考试成绩(显著水平标准0.05); (2)试检验家长的文化程度是否显著地影响学生的考试成绩(显著水平标准0.05),要求:,6-97,解答:,(1)不同性别学生的考试成绩如下:,6-98,(i)提出假设:,(ii)计算变差平方和:,6-99,(iii)计算检验统计量的样
34、本值:,当H0成立时,有,6-100,(iv)确定检验规则:,()作出检验结论:,(2)自己完成!,6-101,四、关于方差分析的两点说明,1. 方差分析中变量的类型 方差分析中的因变量是数量型变量。 方差分析中的自变量可以是品质型变量,也可以是数量型变量。 当自变量是数量型变量的时候,需要对其作统计分组设计,也就是将它按品质型变量来处理。,6-102,2. 总体的的正态性和同方差,严格讲,方差分析只适用于多个正态总体yi(i=1,2,m)均值的比较,且要求它们具有相同的方差。 不过,在实际应用中,即使对于正态性和同方差性都存在很大背离的数据,方差分析仍不失为一种提供有用的近似信息的技术。,6-103,本章小结,6-104,