1、第 6 章 假设检验,6.1 假设检验的基本问题 6.2 一个总体参数的检验6.3 两个总体参数的检验,假设检验在统计方法中的地位,学习目标,假设检验的基本思想和原理 假设检验的步骤一个总体参数的检验两个总体参数的检验P值的计算与应用用Excel进行检验,6.1 假设检验的基本问题,一、假设的陈述二、两类错误与显著性水平三、统计量与拒绝域四、利用P值进行决策,假设的陈述,什么是假设?(hypothesis), 对总体参数的具体数值所作的陈述总体参数包括总体均值、比率、方差等分析之前必须陈述,我认为这种新药的疗效比原有的药物更有效!,什么是假设检验? (hypothesis test),先对总体
2、的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程有参数检验和非参数检验逻辑上运用反证法,统计上依据小概率原理,假设检验的基本思想,. 因此我们拒绝假设 = 50,样本均值,m,= 50,抽样分布,H0,假设检验的过程,原假设与备择假设,原假设(null hypothesis),研究者想收集证据予以反对的假设又称“0假设”总是有符号 , 或4.表示为 H0H0 : = 某一数值 指定为符号 =, 或 例如, H0 : 10cm,研究者想收集证据予以支持的假设也称“研究假设”总是有符号 , 或 表示为 H1H1 : 某一数值,或 某一数值例如, H1 : 10cm,或 10
3、cm,备择假设(alternative hypothesis),【例】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和被择假设,提出假设(例题分析),解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为 H0 : 10cm H1 : 10cm,【例】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克。从消费者的利益出发,有关研究人员要通过抽检其中的一批产
4、品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设,提出假设(例题分析),解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述 。建立的原假设和备择假设为 H0 : 500 H1 : ”或“”,称为右侧检验,双侧检验与单侧检验,双侧检验与单侧检验 (假设的形式),两类错误与显著性水平,假设检验中的两类错误,1.第类错误(弃真错误)原假设为真时拒绝原假设第类错误的概率记为被称为显著性水平2.第类错误(取伪错误)原假设为假时未拒绝原假设第类错误的概率记为(Beta),H0: 无罪,假设检验中的两类错误(决策结果),假设检验就好像一场审判过程,统计检验过程,
5、 错误和 错误的关系,你不能同时减少两类错误!,和 的关系就像翘翘板,小 就大, 大 就小,影响 错误的因素,1.总体参数的真值随着假设的总体参数的减少而增大2.显著性水平 当 减少时增大3.总体标准差 当 增大时增大4.样本容量 n当 n 减少时增大,显著性水平 (significant level),1.是一个概率值2.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.表示为 (alpha)常用的 值有0.01, 0.05, 0.104.由研究者事先确定,假设检验中的小概率原理, 什么小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们
6、就有理由拒绝原假设3.小概率由研究者事先确定,检验统计量与拒绝域,根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量对样本估计量的标准化结果原假设H0为真点估计量的抽样分布,检验统计量(test statistic),标准化的检验统计量,显著性水平和拒绝域(双侧检验 ),抽样分布,显著性水平和拒绝域(双侧检验 ),显著性水平和拒绝域(双侧检验 ),显著性水平和拒绝域(双侧检验 ),显著性水平和拒绝域(单侧检验 ),显著性水平和拒绝域(左侧检验 ),显著性水平和拒绝域(左侧检验 ),显著性水平和拒绝域(右侧检验 ),显著性水平和拒绝域(右侧检验 ),决策规则,给定显著性
7、水平,查表得出相应的临界值z或z/2, t或t/2将检验统计量的值与 水平的临界值进行比较作出决策双侧检验:I统计量I 临界值,拒绝H0左侧检验:统计量 临界值,拒绝H0,利用 P 值 进行决策,什么是P 值?(P-value),在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率双侧检验为分布中两侧面积的总和反映实际观测到的数据与原假设H0之间不一致的程度被称为观察到的(或实测的)显著性水平决策规则:若p值, 拒绝 H0,双侧检验的P 值,左侧检验的P 值,右侧检验的P 值,假设检验步骤的总结,陈述原假设和备择假设从所研究的总体中抽出一个随机样本确定一个适当的检验统计量,并利用样
8、本数据算出其具体数值确定一个适当的显著性水平,并计算出其临界值,指定拒绝域将统计量的值与临界值进行比较,作出决策统计量的值落在拒绝域,拒绝H0,否则不拒绝H0也可以直接利用P值作出决策,6.2 一个总体参数的检验,一、总体均值的检验二、总体比率的检验三、总体方差的检验,一个总体参数的检验,总体均值的检验,总体均值的检验(作出判断),样本容量n,总体均值的检验(大样本),总体均值的检验 (大样本),1.假定条件正态总体或非正态总体大样本(n30)使用z检验统计量 2 已知: 2 未知:,总体均值的检验( 2 已知)(例题分析),【例】一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差
9、为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随机抽取了40罐进行检验,测得每罐平均容量为255.8ml。取显著性水平=0.05 ,检验该天生产的饮料容量是否符合标准要求?,双侧检验,总体均值的检验( 2 已知)(例题分析),H0 : = 255H1 : 255 = 0.05n = 40临界值(c):,检验统计量:,决策:,结论:,不拒绝H0,样本提供的证据表明:该天生产的饮料符合标准要求,总体均值的检验(z检验) (P 值的计算与应用),第1步:进入Excel表格界面,直接点击“f(x)”(粘贴 函数)第2步:在函数分类中点击“统计”,并在函数名的 菜单下选择“NORMSD
10、IST”,然后确定第3步:将 z 的绝对值1.01录入,得到的函数值为 0.843752345 P值=2(1-0.843752345)=0.312495 P值远远大于,故不拒绝H0,总体均值的检验( 2 未知)(例题分析),【例】一种机床加工的零件尺寸绝对平均误差为1.35mm。生产厂家现采用一种新的机床进行加工以期进一步降低误差。为检验新机床加工的零件平均误差与旧机床相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。利用这些样本数据,检验新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低? (=0.01),左侧检验,总体均值的检验( 2 未知)(例题分析),H0 : 1.3
11、5H1 : 1.35 = 0.01n = 50临界值(c):,检验统计量:,拒绝H0,新机床加工的零件尺寸的平均误差与旧机床相比有显著降低,决策:,结论:,总体均值的检验(z检验) (P 值的计算与应用),第1步:进入Excel表格界面,直接点击“f(x)”(粘贴 函数)第2步:在函数分类中点击“统计”,并在函数名的 菜单下选择“ZTEST”,然后确定第3步:在所出现的对话框Array框中,输入原始数据所在区 域 ;在X后输入参数的某一假定值(这里为1.35);在 Sigma后输入已知的总体标准差(若未总体标准差未 知则可忽略不填,系统将自动使用样本标准差代替) 第4步:用1减去得到的函数值0
12、.995421023 即为P值 P值=1-0.995421023=0.004579 P值 5200 = 0.05n = 36临界值(c):,检验统计量:,拒绝H0 (P = 0.000088 = 0.05),改良后的新品种产量有显著提高,决策:,结论:,总体均值的检验(z检验) (P 值的图示),总体均值的检验 (大样本检验方法的总结),总体均值的检验(小样本),总体均值的检验 (小样本),1.假定条件总体服从正态分布小样本(n =0.05,故不拒绝H0,总体比率的检验,适用的数据类型,总体比率检验,假定条件总体服从二项分布可用正态分布来近似(大样本)检验的 z 统计量, 0为假设的总体比率,
13、总体比率的检验 (检验方法的总结),总体比率的检验 (例题分析),【例】一种以休闲和娱乐为主题的杂志,声称其读者群中有80%为女性。为验证这一说法是否属实,某研究部门抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。分别取显著性水平 =0.05和=0.01 ,检验该杂志读者群中女性的比率是否为80%?它们的值各是多少?,双侧检验,总体比率的检验 (例题分析),H0 : = 80%H1 : 80% = 0.05n = 200临界值(c):,检验统计量:,拒绝H0 (P = 0.013328 = 0.01),该杂志的说法属实,决策:,结论:,总体方差的检验( 2 检验),总体方
14、差的检验 ( 2检验),检验一个总体的方差或标准差假设总体近似服从正态分布使用 2分布检验统计量,总体方差的检验 (检验方法的总结),总体方差的检验(例题分析),【例】啤酒生产企业采用自动生产线灌装啤酒,每瓶的装填量为640ml,但由于受某些不可控因素的影响,每瓶的装填量会有差异。此时,不仅每瓶的平均装填量很重要,装填量的方差同样很重要。如果方差很大,会出现装填量太多或太少的情况,这样要么生产企业不划算,要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过和不应低于4ml。企业质检部门抽取了10瓶啤酒进行检验,得到的样本标准差为s=3.8ml。试以0.10的显著性水平检验装填量的标准差
15、是否符合要求?,总体方差的检验(例题分析),H0 : 2 = 42H1 : 2 42 = 0.10df = 10 - 1 = 9临界值(s):,统计量:,不拒绝H0,装填量的标准差否符合要求,决策:,结论:,6.3 两个总体参数的检验,一、两个总体均值之差的检验二、两个总体比率之差的检验三、两个总体方差比的检验,两个总体参数的检验,两个总体参数的检验,z 检验(大样本),t 检验(小样本),t 检验(小样本),z 检验,F 检验,独立样本,配对样本,均值,比率,方差,两个总体均值之差的检验(独立大样本),两个总体均值之差的检验 (独立大样本),1.假定条件两个样本是独立的随机样本正态总体或非正
16、态总体大样本(n130和 n230)检验统计量 12 , 22 已知: 12 , 22 未知:,两个总体均值之差的检验 (大样本检验方法的总结),两个总体均值之差的检验 (例题分析),【例】某公司对男女职员的平均小时工资进行了调查,独立抽取了具有同类工作经验的男女职员的两个随机样本,并记录下两个样本的均值、方差等资料如右表。在显著性水平为0.05的条件下,能否认为男性职员与女性职员的平均小时工资存在显著差异?,两个总体均值之差的检验 (例题分析),H0 : 1- 2 = 0H1 : 1- 2 0 = 0.05n1 = 44,n2 = 32临界值(c):,检验统计量:,决策:,结论:,拒绝H0,
17、该公司男女职员的平均小时工资之间存在显著差异,两个总体均值之差的检验(独立小样本),两个总体均值之差的检验 ( 12, 22 已知),假定条件两个独立的小样本两个总体都是正态分布 12, 22已知检验统计量,两个总体均值之差的检验 (12,22 未知但12=22),假定条件两个独立的小样本两个总体都是正态分布12、 22未知但相等,即12=22检验统计量,其中:,自由度:,两个总体均值之差的检验 (12, 22 未知且不相等1222),假定条件两个总体都是正态分布12, 22未知且不相等,即1222样本容量相等,即n1=n2=n检验统计量,自由度:,两个总体均值之差的检验 (12, 22 未知
18、且不相等1222),假定条件两个总体都是正态分布12,22未知且不相等,即1222样本容量不相等,即n1n2检验统计量,自由度:,两个总体均值之差的检验 (例题分析),【例】甲、乙两台机床同时加工某种同类型的零件,已知两台机床加工的零件直径(单位:cm)分别服从正态分布,并且有12=22 。为比较两台机床的加工精度有无显著差异,分别独立抽取了甲机床加工的8个零件和乙机床加工的7个零件,通过测量得到如下数据 。在=0.05的显著性水平下,样本数据是否提供证据支持 “两台机床加工的零件直径不一致”的看法?,两个总体均值之差的检验 (例题分析),H0 :1- 2 = 0H1 :1- 2 0 = 0.
19、05n1 = 8,n2 = 7临界值(c):,检验统计量:,决策:,结论:,不拒绝H0,没有理由认为甲、乙两台机床加工的零件直径有显著差异,两个总体均值之差的检验 (用Excel进行检验),第1步:将原始数据输入到Excel工作表格中 第2步:选择“工具”下拉菜单并选择“数据分析”选项 第3步:在“数据分析”对话框中选择 “t-检验:双样本等方差 假设”第4步:当对话框出现后 在“变量1的区域”方框中输入第1个样本的数据区域 在“变量2的区域”方框中输入第2个样本的数据区域 在“假设平均差”方框中输入假定的总体均值之差 在“”方框中输入给定的显著性水平(本例为0.05) 在“输出选项”选择计算
20、结果的输出位置,然后“确定”, 用Excel进行检验,两个总体均值之差的估计(例题分析),【例】为检验两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12个工人,每个工人组装一件产品所需的时间(分钟)下如表。假定两种方法组装产品的时间服从正态分布,但方差未知且不相等。取显著性水平0.05,能否认为方法1组装产品的平均数量明显地高于方法2?,两个总体均值之差的检验 (用Excel进行检验),第1步:将原始数据输入到Excel工作表格中 第2步:选择“工具”下拉菜单并选择“数据分析”选项 第3步:在“数据分析”对话框中选择 “t-检验:双样本异方差 假设” 第4步:当对话框出现后
21、 在“变量1的区域”方框中输入第1个样本的数据区域 在“变量2的区域”方框中输入第2个样本的数据区域 在“假设平均差”方框中输入假定的总体均值之差 在“”方框中输入给定的显著性水平(本例为0.05) 在“输出选项”选择计算结果的输出位置,然后“确定”, 用Excel进行检验,两个总体均值之差的检验(匹配样本),两个总体均值之差的检验(匹配样本),假定条件两个总体配对差值构成的总体服从正态分布配对差是由差值总体中随机抽取的 数据配对或匹配(重复测量 (前/后)检验统计量,样本差值均值,样本差值标准差,匹配样本 (数据形式),两个总体均值之差的检验(匹配样本检验方法的总结),两个总体均值之差的检验
22、 (例题分析),【例】某饮料公司开发研制出一新产品,为比较消费者对新老产品口感的满意程度,该公司随机抽选一组消费者(8人),每个消费者先品尝一种饮料,然后再品尝另一种饮料,两种饮料的品尝顺序是随机的,而后每个消费者要对两种饮料分别进行评分(0分10分),评分结果如下表。取显著性水平 =0.05,该公司是否有证据认为消费者对两种饮料的评分存在显著差异?,两个总体均值之差的检验 (用Excel进行检验),第1步:选择“工具”下拉菜单,并选择“数据分析”选项第3步:在分析工具中选择“t检验:平均值的成对二样本分析”第4步:当出现对话框后 在“变量1的区域”方框内键入数据区域 在“变量2的区域”方框内
23、键入数据区域 在“假设平均差”方框内键入假设的差值(这里为0) 在“”框内键入给定的显著性水平, 用Excel进行检验,两个总体比率之差的检验,1.假定条件两个总体都服从二项分布可以用正态分布来近似检验统计量检验H0:1-2=0检验H0:1-2=d0,两个总体比率之差的检验,两个总体比率之差的检验(检验方法的总结),两个总体比率之差的检验 (例题分析),【例】一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法是否存在差异,分别抽取了200名男学生和200名女学生进行调查,其中的一个问题是:“你是否赞成采取上网收费的措施?”其中男学生表示赞成的比率为27%,女学生表示赞
24、成的比率为35%。调查者认为,男学生中表示赞成的比率显著低于女学生。取显著性水平=0.01,样本提供的证据是否支持调查者的看法?,两个总体比率之差的检验 (例题分析),H0 :1- 2 0H1 :1- 2 0 = 0.05n1=200 , n2=200临界值(c):,检验统计量:,决策:,结论:,拒绝H0(P = 0.041837 = 0.05),样本提供的证据支持调查者的看法,两个总体比率之差的检验 (例题分析),【例】有两种方法生产同一种产品,方法1的生产成本较高而次品率较低,方法2的生产成本较低而次品率则较高。管理人员在选择生产方法时,决定对两种方法的次品率进行比较,如方法1比方法2的次
25、品率低8%以上,则决定采用方法1,否则就采用方法2。管理人员从方法1生产的产品中随机抽取300个,发现有33个次品,从方法2生产的产品中也随机抽取300个,发现有84个次品。用显著性水平=0.01进行检验,说明管理人员应决定采用哪种方法进行生产?,两个总体比率之差的检验 (例题分析),H0 : 1- 28%H1 : 1- 28% = 0.01n1=300 , n2=300临界值(c):,检验统计量:,决策:,结论:,拒绝H0(P = 1.22E-15 = 0.05),方法1的次品率显著低于方法2达8%,应采用方法1进行生产,两个总体方差比的检验,两个总体方差比的检验(F 检验),假定条件两个总
26、体都服从正态分布,且方差相等两个独立的随机样本检验统计量,两个总体方差比的 F 检验(临界值),两个总体方差比的检验(检验方法的总结),两个总体方差比的检验 (例题分析),【例】一家房地产开发公司准备购进一批灯泡,公司打算在两个供货商之间选择一家购买。这两家供货商生产的灯泡平均使用寿命差别不大,价格也很相近,考虑的主要因素就是灯泡使用寿命的方差大小。如果方差相同,就选择距离较近的一家供货商进货。为此,公司管理人员对两家供货商提供的样品进行了检测,得到的数据如右表。检验两家供货商灯泡使用寿命的方差是否有显著差异 (=0.05),两个总体方差比的检验 (用Excel进行检验),第1步:选择“工具”下拉菜单,并选择“数据分析”选项第3步:在分析工具中选择“F检验双样本方差”第4步:当出现对话框后 在“变量1的区域”方框内键入数据区域 在“变量2的区域”方框内键入数据区域 在“”框内键入给定的显著性水平 选择输出区域 选择“确定”, 用Excel进行检验,本章小结,假设检验的基本问题 一个总体参数的检验两个总体参数的检验用Excel进行检验利用p 值进行检验,结 束,THANKS,:,