1、,作者:项目支持部日期: 2012/02/20,第二章 基础统计,2,第一节 统计的基本概念,3,统计学的概念在日常生活中经常接触,且每天都在使用- 为预测棒球比赛的胜负,调查各个Team的过去胜率- 用收集的气象资料预测天气统计学为了对不确实的未来的预测提供必要的情报收集,分类,分析资料及以此为基础提示结论的学问,统计学,4,观察的偏差,当重复测量时,经常产生不同的结果,这就是偏 差,通常原因的偏差测量中的差异是被期望的并可以预测的特殊原因的偏差(随机)测量中的差异是不可预测的,偏差:观察值与实际值之间的差异,5,偏差,所有的茄子产于一块地并同一天采摘 问题: 你期望存在偏差吗?什么类型的偏
2、差?,6,观察的偏差(续),我们期望观察出偏差,当没有时将引起注意 如果所有的区域的产品的销售量完全相同,我们将怀疑数据的真实性.,偏差使我们的工作更有挑战性, 我们通常不相信来源于单个数据的结果,通常收集多个数据并注意收集的方法以减少偏差,偏差是自然存在的,被期望的并是统计的基础,7,数据类型,连续变量用长度或时间等作为测量尺度。 离散变量是分类的信息如“合格”或“不合格”。,例如: 零件编号. 逻辑 连续1 合格 2.0312 合格 2.0343 不合格 2.0764 合格 2.0225 不合格 2.001,8,连续变量参数如:尺寸,重量或时间来描述产品或过程特性,这个测量尺度可以被细细分
3、成有意义的小数,你能举出三个设备吗?可用来收集连续变量的.,相比仅仅知道零件的好或坏连续变量能告诉更多的 信息,连续变量,9,离散变量不可能再细分成有意义的小数,离散变量是事情发生或不发生的次数或测量发生的频率. 离散变量也是可分类的数据,如;销售区域,生产线,操作班组和工厂,单板有缺陷的焊点,无辜或有罪,离散变量,合格/不合格,区域,10,离散变量,离散变量的例子: 单板的合格 合格/不合格 发票的正确性 正确/不正确 按时付款 按时/迟交,为了有效的分析,离散变量要求更多的数据点,11,在下列的例子边,画圈选择A=“离散”或V=“连续变量”,1. 销售的准确性 2. 数据输入的准确性 3.
4、 销售区域 4. 用“通过”/“不通过”量具测直径 5. 焊膏厚度 6. 直供协议 7. 网板厚度 8. 供应商产品的缺陷数 9. 计划部下达合同的变更次数,A V A VA VA VA VA VA VA VA V,练习,12,总体(母集团)和样本,成为关心对象的所有个体的集合称为总体, 在总体中作为调查对象采纳的一部分称为样本。,总体,样本,总体的特性 : 个数(N) 平均 分散 2 标准偏差 ,样本的特性 : 统计量(n) 平均 x 分散 S2 标准偏差 S,如果能够准确计算总体的个数时没有问题,但如果难以计算时以样本计算的统计量为基础进行推定.,13,平均值 - 总体或样本的平均值。 -
5、 总体的平均值用 表示 - 样本的平均值用 X 均方差 - 与平均值间距的平方的平均值 . (表示数据的离散程度.)- 总体的方差用 表示-样本的方差用s2 表示标准的方差是方差的平方根。(表示数据的离散程度.)- 总体标准偏差由 表示 - 样本标准偏差由s 表示,14,极差- 在一个子组中最高值与最低值的差值 极差= X高 - X低.极差用 R 表示中位数-反应中间50%的数值,一系列数据由低到高排列后所得到的中间数。众数 - 在一个数据集中最频繁出现的值。,15,平均值,下列是茄子的重量,1.0 1.2 1.5 2.5 3.0 4.2 6.1 1.1 1.5 2.0 3.0 4.0 4.2
6、 6.2 0.9 1.4 2.1 3.1 4.5 4.4 6.0 1.2 1.6 2.5 3.2 4.4 4.5 1.0 1.5 2.4 3.3 4.5 6.0,茄子的平均重量是多少?,16,平均值,所有重量累计,=,平均值,茄子 个数,17,5 7 21 25 5 5 1 0 5 3 1 0 5 2 1 0 5 8 1 0,除了平均值 ,我们还要知道其它信息吗?数据的离散程度怎 样?,例如: 五位数的中心值 是5,X 5 5 5 5 R 0 6 20 25,R = 极差 = X高 - X低,平均值相同!,这是子组,极差,18,除了中心值和极差 ,我们还要知道其它更多信息吗? 极差是足够具体吗
7、?,59 61 63 63 64 5962 66 65 65 64 6065 62 64 68 70 6563 64 68 66 65 6667 64 66 58 65 6571 63 69 63 66 7064 67 64 66 62 6464 64 61 64 63 6564 68 66 67 69 7168 66 65 63 64 6468 67 65 64 65 6470 65 68 65 66 6966 66 65 63 68 6662 67 65 66 67 6660 67 63 60 64 73,90个女工的平均身高,把 数据标 在下面,57 60 65 70 75,x,x,直方
8、图,19,直方图,20,离散程度的测量,用来判定一个数据 集合 离散程度或宽度的恒量尺度,极差= 最大值- 最小值 均方差=与平均值差的平方的平均值 标准偏差=方差的平方根,提供与平均值 的标准的距离的测量。,均方差为什么有用?,21,标准偏差-恒量数据的离散程度 总体的标准偏差用“”表示,样本的标准偏差用S表示,=,(,X,i,-,),2,i,=,1,N,N,总体的标准偏差,方差-与中心值 间距的平均值,S =,样本的标准偏差,统计术语和定义,让我们练习 . . .,22,例子,课堂例子 :计算均方差和标准偏差(2,6,4),计算平均值,均方差和标准偏差,x,=,x,n,i,i=1,n,平均
9、值 均方差 标准偏差,均方差 (s2) = 8 / (3 - 1) = 4标准偏差(s) = 平方根(4) = 2,i xi (xi-4) (xi-4)21 2 -2 42 6 2 43 4 0 0总和 12 0 8,23,课堂练习:计算均方差 标准偏差 (1,3,5,4,7) 用下列表格做指导 首先计算平 均 值,计算中心值 均方差 标准偏差,x,=,x,n,i,1,n,平均值 均方差 标准偏差,均方差 (s2) =标准偏 差 (s ) =,练习,24,还有其它的统计概念吗?,当然有 !,中位数 & 众数:,59 61 63 63 64 5962 66 65 65 64 6065 62 64
10、 68 70 6563 64 68 66 65 6667 64 66 58 65 6571 63 69 63 66 7064 67 64 66 62 6464 64 61 64 63 6564 68 66 67 69 7168 66 65 63 64 6468 67 65 64 65 6470 65 68 65 66 6966 66 65 63 68 6662 67 65 66 67 6660 67 63 60 64 73,90位女士的身高:,中位数 - 反应中间(50%)处的数值, 一系列数据由低到高排列所得的中间数。 什么是中位数? 众数 - 在一个数集中最频繁出现的数。什么是众数?,25
11、,平均值,中位数和众数是所有居中趋势的测量,居中趋势,值 聚集在某个中心值附近,26,何时应 用,27,到目前为止我们知道:,偏差. 数据的类型 中心值 中位数 众数 极差 标准偏 差 均方差,28,第二节 概率分布,概率分布是将分布的形状演变成数据模型成为品质管理及 6 Sigma 开展的基本。,29,1)正态分布,大多数(但不是所有)数据是正态分布或钟形曲线,正态分布告诉我们数据的离散情况,30,正态分布(Normal distribution),正态分布在统计应用领域最重要的分布并成为 6 Sigma 开展的基本.正态分布也可如下表示,XN( ),2, ,变量,正态分布,平均,标准偏差,
12、即正态分布由平均和标准偏差来定义,31,正态分布的形态是?,以平均为轴对称 (Symmetric)原点在一个位置 (Unimodal) 钟形(Bell-shaped),32,正态分布的标准偏差(),规范上限(USL) 规范下限(LSL)分布的中心值 (U) 分布的标准偏差( ),33,Sigma是?,第一个弯曲点(倾斜从减少到增加的位置, Deflection Point) 与平均间的距离以平均为中心占据 68%的面积,34,正态分布的函数式, 正态分布的密度函数,- X +,:3.142 e:2.7183 :分布的平均 :分布的标准偏差,f(X) =,XN( ),2, ,35,正态曲线(No
13、rmal curve)形态,1,2,1 = 1,1,2,1,2,1,2,2,1,因和而异的正态分布形状 ,1 2 , 1 = 2,1 = 2 , 1 2,1 2 , 1 2,应熟悉教材后部分的正态分布表的读法,36,标准正态分布,平均(中心)为0,标准偏差为1的正态分布,X - 利用 Z = 将正态分布式进行座标转换,N(0,12),37,回到先前的例子:,身高直方图和和正态曲线,X = 65.1 s = 2.8 R = 15,38,正态分布例 1, 对某一制品的拉长长度进行品质管理,平均为40,标准偏差为2. 即 N(40,22). 购买此制品时顾客要求拉长长度在35以上.此工程生产的制品满
14、足顾客要求的概率为多少?,39,解,40,2,35,已知这个时,面积是多少?,N(40,22).,Minitab 中求面积的部分,40,正态分布例 2, 假设某一工艺的品质特性遵守标准正态分布(平均=0, 标准偏差=1) 不良率为 1% 时, z 值(Sigma level) 是多少?, 已知累计概率时求Z值,在 minitab的 normal 分布中使用inverse cumulative probability.,41,关于正态分布的附加说明,影响制造工程的平均值或分散的要因区分为1)偶然要因和2)异常要因.偶然要因指的是如现场的温度变化等不可管理的要因,异常要因指设备的异常,作业者的失误
15、等要因.没有异常要因介入,只有偶然要因作用时取出的数据必然遵守正态分布.在教育中大家也能感觉到利用连续概率分布函数的统计分析中最先观察的是是否正态.就是说正态分布是非常重要的.今后要学习的 t-分布, F-分丰, 2-分布等是人为制造的概率密度函数.但正态分布是说明自然现象的自然的分布.,42,(2) 二项分布(Binomial distribution),Data形态为不良品(Defective) Data 时使用,掷硬币时出现正面与反面的概率是相互独立的概率分布,二项分布需要满足下列条件 贝鲁诺实验: 实验的结果只存在两种可能性例) 良品,不良品. 2) 在同一条件下进行实验 3) 各个实
16、验是相互独立的,即,前结果不影响后结果 4) 对每个实验结果的概率是相同的.,43,二项分布的例, 某一制造工程一天生 产1000个 Diode平均不良率为1%。检查者在每个小时随机地抽取50个样品选出不良品。此时发现一个以下不良品的概率是多少?, 发现一个以下不良品的概率是发现一个不良品的概率加上一个也发现不了的概率首先求一个不良也发现不了的概率,44,对二项分布的理解,二项分布的概率密度函数P(X=x)=nCxpx(1-p)n-x nCx = ( ) =,n,x,二项分布在品质管理经常使用,适用于在相当大的母集团中抽取标本, 在这里p意味着母集团的不良率(Defective rate) 这
17、里 x 是抽取任意 n个标本时不良个数.,下一页说明的二项分布的平均,分散, 标准偏差是C阶段管理图的基础。,45,二项分布的形态,0,1,2,3,4,P(X),x,0.1,0.2,0.3,n=4, p=1/2时二项分布,n=9, p=1/3时 二项分布,5,6,7,8,9,二项分布的形状 1) n即使少 p=0.5时概率分布总是对称的 2) p不是0.5,但 n变大时接近对称,二项分布的期望值,标准偏差,分散 期望值 : = E(X) = np 分 散 : 2 = Var(X) = np(1-p) = npq 标准偏差: = np(1-p) = npq,46,(3) 帕松分布(Poisson
18、 distribution),定义单位时间或单位空间发生特定事件的发生次数时使用 -钢板,织物等连续体平均有 m个缺陷时,随机抽取一定单位检查缺陷时,出现 x个缺陷时出现的概率遵守帕松分布 -单位时间到银行的顾客数,某一地区一天的交通事故数,帕松分布的密度函数,帕松分布的特性-二项分布中 p5时, 转换为正态分布,47,帕松分布的例题, 半导体装置 unit当wire-bonding 缺陷可表示为帕松分布。此时缺陷率为4时,随机抽取一个单位检查时缺陷(defect)为2个以下的概率是?如二项分布求累计概率, minitab中选择帕松分布后求解。即,缺陷为2个,1个,0个的概率相加即可。,48,
19、帕松分布的理解,1. 帕松分布在品质管理表示单位面积,单位个数,单位时间当的缺陷数.间接部门的例:一天发生的交通事故件数等也可表示为此分布2. 特别是在 6 Sigma 追求的是:比不良(defective)更注重缺陷 (defect),所以必须记住此分布3. 此分布的平均和标准偏差在今后C阶段的管理图成为对 defect的 control chart理论根据,49,帕松分布和 RTY间的关系,帕松分布观察帕松分布的概念, 可发现与Unit内分布缺陷( Defect)是同一概念.即可如下展开事件的平均发生次数 m成为 dpu.RTY是最终工程没有缺陷的概率,即帕松分布中 x=0的概率即代入帕松
20、分布式时成立下列式. RTY = e-dpu dpu = -ln(RTY),50,中心极限定理 (Central Limit Theorem),平均为 ,分散为 2的无限母集团中随机抽取大小为 n的标本时如果 n充分大时与母集团的分布形状无关,样本平均近似地遵守N(, 2/n). 即的分布近似地遵守N(0,1),母集团遵守正态分布时标本的平均当然遵守正态分布,但此时标本平均的分散 减少到除以标本大小(n),如果母集团不是正态分布,而遵守任意的分布时只要 标本的大小充分大小标本的平均分布遵守正态分布.但,此时标本平均的分散 减少至除以标本大小(n).,51,中心极限定律 为什么会出现正态分布?,
21、平均值颁; 每一个平均值来源于N个测量值,个体分布,52,例1 “总销售量“是许多许多经销商销售的 总和,一个销售商可能不是正态分布,但总的销售量大至是正态分布的。,例2 许多产品的堆积高度大致是正态分布,即使 单个产品高度不是正态分布。,注意:不是所有数据服从正态分布, 后面将讨论如何检验正态性,及数据 非正态如何办?,中心极限定律- 为什么总是有正态分布?,53,到目前为止我们知道:,正态分布的定义、公式、概率计算 二项分布的定义、公式、概率计算 泊松分布的定义、公式、概率计算 中心极限定理的运用,54,正态检验为什么有用? 许多统计检验(中心值 和均方差的检验)都假定数据是正态分布的,正态检验用来判定该假定是否有效。何时用正态检验? 两种情形下用正态检验: 当你首分析原始数据 时用正态检验,如直方图。盒子图一起使用。 当你分析数据并要计算基本统计值 如Z值 或假定正态性的统计检验如T-检验和ANOVA时。,正态性为什么重要?,55,=0.41,=0.81,为什么?,过程A,过程B,过程 C, =标准偏差,哪一个过程最佳?,