1、数据及统计基础 数据介绍,Student Guide,六西格马突破步骤,定义,测量,分析,改进,控制,步骤 1 - 选择输出特性- 定义过程输入/输出变量 步骤 2 - 确定绩效标准 步骤 3 - 定义测量系统 步骤 4 - 建立过程能力 步骤 5 - 定义绩效目标 步骤 6 - 定义差异来源 步骤 7 - 查找潜在因素 步骤 8 - 发掘变量之间相互关系 步骤 9 - 建立操作公差范围 步骤 10 - 重新验证测量系统 步骤 11 - 重新计算过程能力 步骤12 - 实施过程控制,数据基础: 需要考虑的问题,什么是数据?什么是不同类型的数据?为什么连续性的数据更好?什么是数据采集计划?怎样是
2、一个合理的分组?,数据,对某物的一个单独事实或对事实的收集称之为数据,事物的信息,l,计数型数据(不连续的数据),-,类别,-,是, 否,-,通过, 不通过,-,合格 / 不合格,-,好的 / 有缺陷的,-,计算机设备故障,缺陷的次数,l,计量型 (连续性)数据,-,连续性数据,小数的位数反映出数与数之间的绝对距离,时间,财务费用,长度,宽度,数据的类型,离散型数据和连续性数据,不合格,合格,电路,温度,温度计,连续性数据样例,离散型数据样例,卡尺,离散型数据和连续性数据,对于某一过程为获得相同的理解水平离散型数据 提供有限的信息连续性数据 提供丰富的信息,这是什么?,假设: 我每班生产300
3、0-4000件零件,一天3班我通过目视检查零件合格/不合格 问题: 我是否可以只认为这是离散型数据吗? 也许不是: 我可以计算每班的缺陷百分比,这样每周就可获得15个“连续性”的读数 如果你有类似的数据,请同你的黑腰带一起谈论此类数据的局限性/注意事项。,或者这种情况?,我可将我的产品分成10类,1代表最好,10代表报废 问题: 我可以采用此法吗? 是的, 但必须值得注意的是你只有10个分类 指导: 至少有10中类别. 每一种类别之间的“距离”应该是尽可能是一致的。,或者这种情况?,对发货是否及时进行测量 我可以采用对每一批进行离散型测量:是否及时或不及时? 但是我也可以,在许多情况下,采用计
4、数性数据:测量其提前/延迟的小时数/天数。,数据 & 统计,重要性:数据, 自身, 并不 提供信息.你必须对数据进行 处理 来提供信息.我们采用 统计 对数据进行处理.,不连续性 (计数),连续性 (计量),连续性 (计量),不连续性 (计数),输出,输入,Chi-square 卡方,变差分析,T-检验,判别式分析 逻辑性回归分析,相关性分析 简单回归分析,统计技术,统计技术适用于不同数据类别的组合。,这些统计工具通常用于过程改善。你们会即将了解这些工具。,比例测试,好, 但哪里才能得到我们的数据呢?,若完成真实的项目,我们需要真实的数据真实的数据可能是散乱的,糟糕的,并难于寻找其中一个基本的
5、工具是明确什么是你所需要的,并设计出简单明了的计划或表格进行收集相关数据,数据采集计划所需回答的问题,你想知道过程的什么方面? 你如何计划你所需要知道的? 什么样类型的工具会产生你所期望的情形? 什么类型的数据需要收集工具? 在生产过程中造成变差可能的原因有哪些? (Xs) 在生产过程存在循环吗? 谁负责收集数据?,数据采集计划所需回答的问题(继续),你将用多长时间来获得你所需要的数据? 你将怎样对测量系统进行评价? 操作定义是否足够详细? 你将怎样展现数据? 数据是否可以得到? 如果不行,你将会怎样制定你的数据采集表? 数据采集将发生在何处? 你的数据采集计划是怎样的?,数据采样计划模型,回
6、 答 关键 问题,计划,执行数据 采集 计划,合理的分组,一个合理的分组是将相似类别的事物进行逻辑性的筛选,例如:工序,天数,班次,小时,操作工,单位,零件,原材料批,等。一个确定的合理化分组必须是用于制定的工序或项目一旦合理化分组在数据采集计划中建立,研究的周期就很容易确定。采用合理化分组可以帮助我们确定在研究过程中所出现变差的原因。,更多的关于合理化分组,合理分组之所以被这样定义是因为它们仅包括普通原因所产生的变差。(正态随机变差) 合理化分组代表短期数据。一般来讲,合理化分组的类型包括:操作工变更, 工装变更, 材料变更, 启动循环, 午饭前后, 等. 如果收集的数据超过上述条件,其中就
7、可能会包含一些隐藏的或不确定的应被归于特殊原因的因素 另外,合理化分组仅适用于正常的生产方式,而不需人为的添加写特殊因素,例如:试生产,数据基础: 需解答的问题,什么是数据?什么是不同类型的数据?为什么连续性的数据会更好?什么是数据采集计划?什么是合理的分组?,数据基础: 问题总结,数据是相关主题的单个事实或事实的集合体数据有两种:计数型和计量型计量型数据之所以比计数型数据好是因为其所提供的信息要更丰富。一个数据采样计划是采集同项目有关的,必要的数据大纲合理分组是对某一过程的相同类别负荷逻辑的挑选。,数据基础: 课程总结,一个周全、严密的数据采集计划能够确保记录正确的数据并观测到所有变差的原因
8、当可靠的数据用于分析,统计的意义将会被得到验证。对于数据采集人员,数据收集计划必须浅显易懂数据采集练习是必须的,数据基础: 输出,根据你项目中所涉及的问题拟订一个周全的数据采集计划。小组的所有成员必须对为什么,何处,何时和怎样采集数据有一致的理解可靠数据的采集是对项目进展的推动对数据的处理可以提供所需的相关信息,数理统计基础 统计基础,六西格马突破步骤,定义,测量,分析,改进,控制,步骤 1 - 选择输出特性- 定义过程输入/输出变量 步骤 2 - 确定绩效标准 步骤 3 - 定义测量系统 步骤 4 - 建立过程能力 步骤 5 - 定义绩效目标 步骤 6 - 定义差异来源 步骤 7 - 查找潜
9、在因素 步骤 8 - 发掘变量之间相互关系 步骤 9 - 建立操作公差范围 步骤 10 - 重新验证测量系统 步骤 11 - 重新计算过程能力 步骤12 - 实施过程控制,你想知道什么?,信息来源:,单词 (A to Z) 图示 谈话 数据 (0-9),分类,度量,离散型,连续型,名词,序数,间隔,比率,“数据不提供信息你必须拷问数据,让它提供信息给你。拷问的工具就是统计。” Dr. Mikel Harry.,数据基础: 所需解答的问题,什么是统计?什么是居中趋势的测量?任何测量变差? 为什么我们须关注稳定性?什么是分布,什么是正态分布?为什么“曲线下方的区域”是重要的?Z-bench和 Cp
10、k有何区别?样本同母体之间的关系是怎样的?,统计,统计是对数据的组织,分析和解释 每步的码数 每加仑英里数 统计使成百上千的的单个数据便得有意义。,统计 测绘数据的益处,统计是工具. 象其它工具一样,它们同样可以被误用,导致令人误解的,歪曲的,或不正确的结论。仅能够计算是不够的,我们必须对数据作出正确的解释。统计中一项重要的分析工具就是不断描绘数据。,变异性, 中心度, 和稳定性,变异 某一过程的差异有多大?众所周知,每一过程都会有一定的移动,但不是每一个移动都会得到完全相同的结果。 通常我们采用标准变差对过程的差异进行衡量。这是我们的重点。其它关于差异的参数有: 极差 (最大之与最小值之差)
11、 偏差 平方和,变异性的测量 - 公式,极差: 在某一数据集合中最大值同最小值之间的数字化的距离样本方差 (s2 ; s2 ): 每一单个数据同均值的差的平方和的平均值标准偏差 (s ; s): 方差的平方根。通常表示数据的分散程度。它越小,数据分散程度越小,加工精度越好。,计算机可以胜任所有艰难的工作,变异性练习,你可将上周每天的生产分为3组(3班)导师会要求采用极差测量方式来计算每一组的差异。然后计算该组数的整体差异,再次采用极差的方式。为什么整组数的极差值会大于任何一组数的极差值?再计算该组数的标准偏差,变差的组成部分,普通原因: 任何过程中都有“活跃的因素” 这正是我们在3组/班每组内
12、所看到的 为减少此类的变差,我们通常需要对过程或技术进行变更 特殊原因: 该变差是由于某一“确定”的输入,如:每班采用不同的标准值,材料供应商发生变更,工装变更等 这正是我们在组与组之间所看到的 为减少此类变差,我们通常需要改善和加强对过程的控制,变异性, 中心度, 和稳定性,居中 中心趋势的测量 过程处于何处?“平均数”位于何处?通常对中心趋势的测量为均值(m)(发音为mu),经常被称为X 这是传统的算术平均法,全部相加再平均。其它中心趋势的测量值: 中数: 表示数据的分布中心位置 众数: 在一组数发生频率最高的值,测量中心度 - 练习,计算下列每组数的均数,中数和众数。并记录在指定位置,变
13、异性, 中心度, 和稳定性,稳定性(在改善之前其过程必须是稳定的) 过程长期的表现如何? 稳定性是代表恒定的平均数并可预测未来变异,如果过程是稳定的,其变差将会围绕一定的平均值来回摆动。 过程可能好可能坏,但是你可以对其发展趋势进行预测并对 取得进步进行测量。只有稳定的过程才能被测量。 某一过程过程能力每天都有差异,你又如何确定其能力呢?,有关稳定性的问题,这两个过程大概的均值是多少? 如果该数据来源于某一周,那在下周这两个过程的均值会如何?,统计 一般练习,机器A,B,C生产同样的产品(极差图受控),每个产品输出差异的目标值为100mm。 哪些设备显现出变异? 每台设备中值在何处? 哪些设备
14、具有可预测性? 哪些设备具有特殊原因的变异? 对于今天的工令你将采用哪台设备进行生产? 大体哪台设备最容易稳定?,统计 - 改进过程流程,依据下列步骤采用数据对过程进行改善。首先进行步骤1(稳定性),步骤二通常为(差异),需在步骤3(中心定置)之前完成。1) 确定过程是否稳定。如果不稳定,确定并剔除导致不稳定的因素。2) 评估所有变异性的级别. 根据计数规范要求是否可接收?如果不能接收,确定变异性的来源并消除或减少其对过程的减少。3) 确定过程中值所在的位置。 若没有达到目标,确定影响中值的相关因素并优化设置以达到目标值。,变异是敌人,今天早上你所在教室的温度为50华氏度,你是否感觉舒适? 那
15、么,现在我将温度提高之90华氏度,你现在又感觉如何? 你有什么问题吗?今天,室平均温度已为70华氏度,客户对变异的敏感度要高于中值,如果设置相关工程目标分别为1.000”及1.002”; 那么每边的间隙为.001”。 (.002” 总共),转轴,技术规范 轴套 1.002” -.000”/+.005”轴 1.000” -.005”/+.000”,轴套内径 - 轴外径 = 间隙1.002” - 1.000” = .002” (total),Exactly to Nominal = OK 4,轴套,间隙,轴与轴套的实例,如果你采用全公差,那么你可能会有.995”的轴, 及1.007” 的轴套,对于
16、每边的间隙为.006” (总共为.012” )Take Away: 变异是敌人,其加大了间隙使其发出异响并过早磨损。(但在公差之内就是合格的吗?),转轴,轴套内径 - 轴外径 = 间隙1.007” - .995” = .012” (总共),在公差范围之内,但是预期间隙的6倍,轴套,间隙,实例继续,分布,我们可以对相同的变差,多次、通过产品、不同的机器等,以点绘数据描述或归纳任何过程特性 这些数据的积累可被视为一种数据的分配并通过点图,柱状图,或正态分布来显现。,:. . . : . .: : :.: : . :. : .:.:.:.:.: : .-+-+-+-+-+-GPM 49.00 49.
17、50 50.00 50.50 51.00,点图 & 柱状图,5,2,.,0,5,1,.,5,5,1,.,0,5,0,.,5,5,0,.,0,4,9,.,5,4,9,.,0,4,8,.,5,4,8,.,0,正态分布,正态分布假设使有限数据采集近似于无限数据采集。,正态分布,世上大部分的过程都属于正态分布 大部分的数据多集中在中心线附近 离中心线或中值越远,相关的数据点也会越少。 确定一个完整的正态分布,你只需要两条信息: 你需要知道该分布的中心位于何处。我们通常用中值来表示 你需要知道该分布的宽度。宽度即为变差,这些点同中心的距离。我们通常用标准偏差来反映。,正态分布 - 属性,正态分布的两种属
18、性: (1): 我们已经阐述过通过中值和标准偏差对正态分布进行完整描述。 (2): 曲线下面的区域通常用于估计某一事件发生的可能的累积概率。,我们会着重于理解第一项。稍后介绍 第二项。,正态分布 特性 1,当我们知道某一过程中值或中心时,很显然就可以对正态分布的中心进行定位。 但我们如何知道标准偏差让我们完成正态曲线的绘制? +/- 1 标准偏差包含所有事件的 68.26% +/- 2标准偏差包含所有事件的95.44% +/- 3标准偏差包含所有事件的99.73%,正态曲线特性,4,3,2,1,0,-,1,-,2,-,3,-,4,40%,30%,20%,10%,0%,样件数据可能性,标准偏差距
19、离中心值的数值,99.73%,95%,68%,Point of Inflection,备注: 尽管该曲线看上去终止于+/- 3 西格马,但实际上是在延续的。,正态曲线 - 练习 1,18,16,14,12,10,8,6,4,2,40%,30%,20%,10%,0%,什么是中值? 什么是标准偏差?,英寸,0s,1s,2s,3s,-1s,-2s,-3s,距离中值的 标准偏差数,正态曲线 - 练习 2,4,3,2,1,0,-1,-2,-3,-4,40%,30%,20%,10%,0%,什么是中值? 什么是标准偏差?,正态曲线 - 练习 3,16,13,10,7,4,1,-2,-5,-8,40%,30%
20、,20%,10%,0%,中值是什么? 标准偏差是什么?,正态曲线 - 练习 4,16,14.5,13,11.5,10,8.5,7,5.5,4,40%,30%,20%,10%,0%,中值为多少? 标准偏差为多少?,正态曲线 - 练习 5,40%,30%,20%,10%,0%,设中值为20且标准偏差为5 请填空,怎样知道数据是正态的?,测试给定数据是否为“正态”的测试方法通常称之为正态可能性点图。若分布接近与正态,该图会呈现为一条直线。 观察下列正态可能性绘图和柱状图 该直线是否代表一组正态分布的数据? 直方图是否象正态或钟形曲线?,正态可能性绘图 (继续),你对下列柱状图及正态可能性绘图的看法如
21、何?,Z 刻度 = 单位 是标准偏差,10,8,6,4,13,14,12,-1,-2,-3,3,2,1,0,USL,Z = X - m,Z 转化将一组正态分布转化为标准正态分布,即中值为0,标准偏差为1.0,Z = 13 - 102,= 1.5,Z 转化,16,10,假设某一过程 Mu = 10Std Dev = 2,问题 1: 如果我的公差 为13,距离中值的英 尺数为多少?3 问题2:如果标准偏差 为2,公差离中值有几 个标准偏差?1.5,X 刻度 = 单位 是英尺,Z scale = 单位 是标准偏差,8,6,4,14,12,-1,-2,-3,3,2,1,0,Z = X- m,Z 转化
22、- 练习,16,10,X scale = 单位 是英尺,X Z ? 1 10 ? 6 ? ? -3 ? 1.5 ? 5.5 -2.25 13 ? 15.5 ? ? 4 ? -4,第一个问题, 中值和标准偏差是什么?,正态分布 特性 2,再回顾一下正态分布的两种特性: 1): 我们已经阐述过通过中值和标准偏差对正态分布进行完整描述。 (2): 曲线下面的区域通常用于估计某一事件发生的可能的累积概率,我们现在讨论 第二项,概率,通常用概率一词描述样本同母本之间的关系。概率是纽带将样本对母本的预测联系起来。 对一个独立的变量,用概率表现为0,1间的实数来确定某一特定输出的可能性同所有可能输出的比较。
23、对于 (6) 面骰子: P (roll=6) = 1/6 = 0.1666 对于一枚硬币: P (flip=head) = 1/2 = 0.500 所有现有因素的概率之和应为1,正态曲线概率,4,3,2,1,0,-,1,-,2,-,3,-,4,40%,30%,20%,10%,0%,Probability of sample value,距离中值的标准偏差数,99.73%,95%,68%,重要概念: 在标准正态曲线下的面积为 1.000,例如: 68% 的点是落在正负一个标准偏差之间的。,Z 刻度 = 单位 标准偏差,8,6,4,14,12,-1,-2,-3,3,2,1,0,概率 - 练习,16
24、,10,X 刻度 = 单位 英尺,根据上页的信息,回答下列问题:,Z scale = 单位 标准偏差,8,6,4,14,12,-1,-2,-3,3,2,1,0,概率 练习方法,16,10,X scale = 单位 英尺,68%,16%,16%,对于 X = 12, Z = +1 右侧曲线下方的面积为 16%,左侧为16+68 = 84% 或者 对于1个 其所占的 面积为68%的一半, 将此34%同中值的左 半部50%相加,即为 84%,Z 表,老师将会示范如何使用Z表介绍如何查找曲线下任何一点的面积Excel 和 Minitab 做此项工作十分迅捷,Z-表练习,请查出在曲线下方,下列各Z值左侧
25、及右侧的面积。 1.1, 2.4, 3.2, 0.45, -2.2, -1.75对于给定过程中值为20并标准偏差为4,请查出下列各X值左右两侧在曲线下方面积。 22, 26, 20, 18, 14,标准化Z转换:,缺陷为 上限的 右侧,47.5,Z 转换 - 应用,假设轴外径的正态分布为中值为45,标准偏差为1。客户所要求的上限为(47.5). 那么该工序的DPMO 为多少?,从Z表可以查出,该轴小于47.5的概率为99.37%, 还而言之缺陷率为0.63%,DPMO = .0063 x 1,000,000 = 6,300,已知分布状况和规范,即可对过程能力进行预测!,10,8,6,4,13,
26、14,12,-1,-2,-3,3,2,1,0,USL,Z = 13 - 102,= 1.5,Z 转化 DPMO 计算,16,10,假设某一过程的 m = 10 及 Std Dev = 2,问题: 如果公差为13, 生产的缺陷率为多少? (曲线下方红色区域) 回答: 采用 Z表 或 Minitab 得 Z =1.5,缺陷概率 为6.68%,10,8,6,4,14,12,-1,-2,-3,3,2,1,0,Z = 8 - 102,= -1,Z 转化 DPMO 对公差下限的计算,16,10,同一过程 m = 10 及 Std Dev = 2,问题: 如果下限为8, 该生产的缺陷率为 多少?(曲线下方
27、绿色区域) 回答:采用Z表或 Minitab 的Z=-1,缺陷概率 为 15.87%,LSL = 8,10,8,6,4,13,14,12,-1,-2,-3,3,2,1,0,USL,Z 转化 DPMO 计算 Z bench,16,10,问题: 如果上限为13并 且下限为8,该过程的 缺陷率为多少? (曲线下方红色和绿色 的区域) 回答:采用Z表和 Minitab得Z=1.5 & Z=-1 将两边的缺陷概率相加,超出上限的 缺陷概率 为 6.68%,LSL,低于下限的概率为15.87%,10,8,6,4,14,12,-1,-2,-3,3,2,1,0,Z Transformation Z Bench
28、 Calculation for Combined Defects,16,10,问题: P. USL = 6.68 % P. LSL = 15.87% P. Total = 22.55% 如果将所有的缺陷 置于一侧,对应缺 陷的起始位置距离 中值有几个标准 偏差? 回答: 采用 Z 表 或 Minitab 得 p=.2255,缺陷概率 共计 22.55%. 从Z表或 Minitab 查得 Z = .75,11.5,0.75,10,8,6,4,14,12,-1,-2,-3,3,2,1,0,16,10,缺陷的总 概率 为 22.55% 从Z表和 Minitab 查得 Z = .75,11.5,0.
29、75,缺陷的总概率为22.55% (位于曲线右侧下方),Zbench 为 0.75, 你可以在 中心线同所研究的区域之间 即+0.75 标准偏差处画置界限,Z 转化 Z Bench 计算用于组合的缺陷,10,8,6,4,13,14,12,-1,-2,-3,3,2,1,0,USL,Z Bench 同 Cpk & Ppk比较,16,10,LSL,Z bench 考虑所有 的缺陷,Cpk 和 Ppk 仅考虑 距离公差限最近的 缺陷部分,“母体参数”,“样本统计”,m =平均值,s = standard deviation,Sample,s = 标准偏差,母体 同 样本的比较,母体: 指在某一统计分析
30、中研究对象的全体样本: 从总体中随机抽取出来并且要对它进行详细研究分析的一部分个体。,样本统计近似于母体参数,Million marbles,100 marbles,Sample,母本与样本的比较,母本: 是研究对象的全体. 由于其数量,对它的测量是困难而昂贵的。样本: 是母本的一个小的子集 是随机抽取以充分代表母本 一旦过程发生某一变更,新的样本可以很容易取得,并用于确定改进是否有效 备注: 通常情况下,母本参数(s = 母本标准偏差)及(m = 母本中值) 会被样本统计中的( s = 样本标准偏差)和 (X bar = 样本中值)所替代,样本是对母本观测的窗口,数据基础: 统计课程总结,理
31、解数据分布的中值和标准偏差中值被广泛地用于过程改善,因为:中值反应了所有数值的影响标准偏差最佳量化了过程变异性理解正态分布及如何用曲线下方的面积来解释缺陷的百分率,数据基础: 统计课程总结,根据所获得的数据,理解过程的典型顺序 首先稳定过程; 其次消除不正常的变差; 第三步减少正常的变差; 第四步将过程置于中心.,基础数据基础: 所需回答的问题,什么是统计?什么是中心度的测量?任何对变差进行测量?为什么需要关注过程的稳定性? 什么是分布,正态分布?为什么“位于曲线下方的面积”很重要?Z-bench和 Cpk的区别?样本同母体之间的纽带是什么?,基础问题: 统计问题汇总,统计是对数据的组织,分析
32、和解释对数据中心趋势的测量包括中值,中位数和重数对计量型数据的测量包括极差,变异及标准偏差如果过程不稳定,就不可能从中获得相关信息。因为我们得不到准确的中值及标准偏差,也就无法确定该过程的基线。,数据基础: 问题总结 (续页.),分布是对数据的累积,通常视为一种测绘,以反映该过程的变异性及稳定性。正态分布表现为数据具有不变的中值并有可预测的变异。它为一种钟形的曲线 给定正态分布和公差限,曲线下方的面积用于对缺陷百分率的预测。它同样可以提供计算公式,例如:Zbench或Cpk Zbench 考虑上下限两侧的缺陷,但Cpk和Ppk只是针对两侧中较差的一侧。,Basic Data: 问题 (续页),结果发生的概率或可能性是样本数据对母本特性的预测的纽带。换而言之,样本的中值和标准偏差通常用于预测母本的中值和标准偏差。,