1、第5部分:样本容量与风险,目的:,目标:,1.说明需要确定合理样本数量的输入量(风险、 风险、标准差 s、精确度d)。2.使用输入量确定比较两个总体所需的合理样本数量。,本章主要目的是为连续数据类项目确定合理的样本容量。,第5部分: 样本容量与风险,总体和样本的区别,总体 - 所有相关项目。举例 - 1998年5月在Decatur生产的16立方英尺冰箱。样本 - 代表总体的数据子集。 举例 - 1998年5月在Decatur生产的120台16立方英尺冰箱。 举例:,此矩阵图代表25个X的总体。 划圈的X代表总体中的6个X样本。,为什么仅使用样本而非整个总体?减少时间和成本估计难于捕获的总体(合
2、理的样本数量可以提供总体的精确估计) 何时应使用样本?确定工序底线控制工序的变化 如何确定样本的容量?采用样本容量表选择样本数量提供一个特定长度的置信区间。,选择样本容量需要在置信度与成本之间平衡。,样本.为何使用?,Some possible solutions:1.仅检验一个部件。如果同时检验两个部件并得到不同的结果,那么你将不知道哪一结果真实。2.检验三个样本,如果先检验的两个结果不一致,增加第三次检验作为参考。3.通常采用30 个部件进行工序能力的研究,主要目的是估测标准差 。4.当使用计算机模拟时,使用的样本数量超过1,000,000。这些观测成本较低,因此很容易采集到大量数据。我们
3、应采用多大的样本容量?,没有哪种经验性的规则能够放之四海而皆准,而要根据具体情况确定样本容量。特定情况是:固有变差 (s)要求的精确度(d)要求的置信度 (如95%)成本 (时间和资金),本章将介绍确定样本容量的方法,对样本容量的一点想法, 风险当H0为真时拒绝Ho - 有时称为厂商风险。风险当H0为伪时没能拒绝Ho - 有时称为消费者风险。,真值,决定,Ho, =,Ha, 不=,Ho, =,Ha, 不 =,1类错误,2类错误,正确决定,正确决定,1 = 功效发现差异- 的机率,和风险,使用样本容量表需要了解什么?,随着样本容量的增加,实际的总体参数估算值精确度会提高,样本平均值的分布,少量样
4、本 (低n, 高x-bar),多个样本 (高n, 低x-bar),较大的样本容量将减少估算值的误差,的定义,小,的值较大可以提供确定差异的最大能力,大 ,样本平均值之间的距离,在下列情况下,很容易看出差异: 大 小,1.5,1.4,1.3,1.2,1.1,1.0,0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1,1.0,0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1,0.0,发现差异的机率,灵敏系数,样本容量(n)增加,发现差异的机率也提高,样本容量(n)对检验机率的影响,发现差异的机率 随差异()的增加而增大 随标准差(的减小而增大,1.5,1.
5、4,1.3,1.2,1.1,1.0,0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1,1.0,0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1,0.0,发现差异的机率,灵敏系数,检验灵敏度(/)对检验机率的影响,基本样本容量表仅适用于连续数据,Copyright 1995 Six Sigma Academy, Inc.,通常使用,用于计算n的方程式请参见附录。,要使用图表,我们必须知道, s, ,和,例:您的任务是改善冰箱把手的塑料盖直径。 历史数据的平均值 (X)是 2”。 目标直径是1.92”。 这一过程的0.2。 您认为,将温度从250oF升至
6、310oF可使工序回到目标平均值。采用5%的和10%的时,需要多少样本才可发现变化? = /s =n =,使用图表举例,1.一个话务员接完一个电话订购的平均时间是5.6分钟,这个过程的历史标准差是0.8分钟。你的任务是找到一种方法,将订购完成时间降低到4.0分钟。假定 风险为5%、 风险为10%,需要有多少样本才能恰当地估算是否发生了变化。2.假设是1.6,n要求是何值??3.使用问题1中的初值,要求将呼叫通话时间降低0.32分钟以达到5.28分钟的平均值,这种情况下需要多少样本?,要发现较小的变化,需要更多的样本,样本容量练习,单样本置信区间x是样本平均值n是样本容量t(n-1, /2)来自
7、t-表,自由度为n-1, 每个尾为/2s是样本标准差,双样本置信区间x1是第一组样本的平均值x2 是第二组样本的平均值 n1 是第一组样本的平均值n2 是第二组样本的平均值t(n1 + n2 - 2, /2) 来自t-表,自由度为n1 + n2 - 2,每尾为/2sp 是合并的标准差,增加样本容量可减小置信区间,置信区间与样本容量 (n)的平方根成反比,样本容量对置信区间的影响,您的小组在第一部分已经获取导弹发射器的基线值,这个基线值的获得不应有虚假成分。以此结果为基础,可以清楚地知道你的现状和目标之间的差距(规范要求导弹发射距离为55 +/- 6英尺)。在分析阶段,我们正在寻找潜在的关键少数
8、“ Xs” 。现在,我们开始控制过程以便集中搜寻。对于这个练习,我们仅使用黄色导弹。过程:1.以小组形式决定,希望通过导弹发射器上的哪一个变量X的变化来改进Z值。(注意:不允许改变橡皮圈的方向或扭转橡皮圈!)2. 确定适当的样本容量(样本数容表,第5部分)。3.使导弹发射器产生一个变化,并在初始设置和新设置下发射合理数量的导弹。4.在Minitab中记录 “ Y”结果。将数据制图,运行基本统计。5.在Minitab中,运行 方差齐性” 检验,确定标准差是否发生变化,运行双样本t-检验确定均值是否发生变化。6.变化是否具有实际重要性?7.计算原距离与新距离之间差值的双样本置信区间,并计算变化后新
9、距离平均值的单样本置信区间。,课堂练习:控制导弹发射器,小组 _基准值: n = _ 平均值 = _ 标准差 = _1.您改变了哪个X变量? _ 设置是什么? 旧 _ 新 _2.样本容量确定。d = _ s = _ d/s = _a = _ b = _ n = _3.收集数据4.改变前: n = _ 平均值 = _ s = _改变后: n = _ 平均值 = _ s = _ 5.波动性的变化是否具有统计显著性?6.平均值的变化是否具有统计显著性?7.这些变化是否具有现实重要性?_8.平均值变化的置信区间是什么? _9.新设置下平均距离的置信区间是什么? _,课堂练习: 控制导弹发射器,1.是需
10、要检验的各平均值之间的差异大小。2检验灵敏度为/ (用于连续数据样本容量表中)3. Alpha(a)是不存在差异时而声称存在差异的机率。4. Beta(b)是未发现重要差异的机率。5. 发现差异的机率随以下方面而增加: 增加样本容量 增加平均值间的差异 减小标准变差5. 增加样本容量可减小置信区间的长度。,关键概念: 第5部分 样本容量,附录,比值较高时,较易看出差异。如果工序变差越大,越难确定差异是偶然发生,还是确实存在差异,因此,需要更多的样本才能弄清真相。每次抽样时,都有可能得出错误的结论。,检验灵敏度 = d/,基本的关系,注意:表中假设:两组数据之间的比较,固定方差、随机抽样、方差相
11、同,数据服从正态分布。,Copyright 1995 Six Sigma Academy, Inc.,实际上不存在差异,而被认为存在差异,这种风险称为风险。实际上存在差异,而被认为不存在差异,这种风险称为风险。您希望发现的差异大小称为。注意: 这些准则从本质上说是统计意义上的。样本容量选择的其它准则包括成本、时间和可用的资源。这些因素对确定样本容量具有实际的影响,因此,根据统计原理确定样本容量之后,还要对这些因素加以考虑,然后,才能估计权衡的充分性。,样本容量的关键的决定因素,n = 2 (za/2 + zb)2 / (d/s)2aa/2za/2.20.101.282.10.051.645.0
12、5.0251.960.01.0052.576bzb.200.842.101.282.051.645.012.326举例:a = .05, a/2 = .025, z a/2 = 1.960b = .2, zb = .842d/s = .5n = 2 (1.960 + .842)2 / .52 = 84,样本容量方程式,您的任务是致力于改进冰箱把手的塑料帽直径,直径 是2“,而目标直径 是1.92“ ,该过程标准差s = 0.2。你认为将温度从250F增加到310F可以将过程置回到目标平均值上。用5% 的 和10%的 检测其变化,需要多少样本?确定 = 观测的 - 目标 = 2” - 1.92”
13、 = 0.08”确定检验灵敏度 ( / ) / = 0.08” / 0.2” / = .4确定总样本数量 (n)根据以下信息,查看样本容量表: = 5% = 10% / = 0.4n = 131,5.13页答案,1.话务员完成一次电话订单的平均时间为5.6分钟,这个过程的历史标准差为0.8分钟。你的任务是找到一种方法,将订购完成时间降低到4.0分钟。假设 风险为5%、 风险为10%,需要多少样本才能适当地估计所产生的变化? = 5.6 分钟 - 4.0 分钟 = 1.6 分钟 / = 1.6 分钟 / 0.8 分钟 = 2n = 52.假设s 是1.6,n要求是何值? = 1.6 分钟 (见上)= 1.6分钟 / 1.6分钟 = 1n = 213.使用以上的响应变量,要求将呼叫通话时间降低0.32分钟以达到5.28分钟的平均值,这种情况下需要多少样本? = 5.6分钟 - 5.28分钟 = 0.32分钟= 0.32分钟 / 0.8分钟 = 0.4n = 131,5.14页答案,