1、Minitab 操作简明讲义,制作:胡敏峰,2011/1/11,2,大纲,统计学的由来 概率论基础知识 常用的连续分布和离散分布 描述性统计及图形 统计基础 假设检验 比率检验、非参数检验、探索性数据分析 相关分析和回归分析 变异源分析 测量系统分析 统计过程控制 试验设计 六西格玛设计,3,统计学的由来,人类社会的质量活动可以追溯到远古时代,远在奴隶社会,由于赋税、徭役、征兵等需要,国家就要掌握人口、土地等数字。 公元前3050年,埃及建造金字塔,为征集建筑费,就有对全国人口与财产的调查。 罗马皇帝凯撒奥古斯都曾下过一道命令,要全世界向他纳税,于是每个人都向就近的收税人登记。 中国在夏禹时代
2、就开始有人口统计的数字。 春秋时期管子一书中曾记载:不明于计数,而欲举大事,犹无舟楫而欲经水险。 但是作为一门科学,统计学的出现要比统计工作和统计资料晚得多,2011/1/11,4,统计学的由来,18世纪,德国哥廷根大学教授阿亨瓦尔在其著作近代欧洲各国国势学纲要的绪论中首次提出“统计学”这一名词;把统计学定义为国家显著事项的结晶体。 简单来说,统计学是研究如何收集、整理、分析和解释数据资料的一门科学,特点是: 1.研究数量方面的学问。(统计学的语言是数字,没有数字,就谈不上统计) 2.研究的是客观现象总体的数量特征(数量有个体和总体之分,统计学研究总体,但是必须从样本的调查入手,遵循从样本到整
3、体的认识逻辑) 3.主要研究不确定性现象。 4.是一门方法论的科学,2011/1/11,5,统计学的由来,统计学分类大致有以下两种 理论统计学(Mathematical Statistics)与应用统计学 描述统计学与推论统计学,2011/1/11,6,六西格玛名称的具体由来-摩托罗拉,当年摩托罗拉在进行大幅度的质量改进运动时,有一位叫比尔史密斯(Bill Smith)的工程师在研究制造缺陷和可靠度之间的关系时发现一个惊人的结论:需要在产品设计半个公差限范围内包含六倍标准差(6),才能从源头上确保产品不会发生缺陷! 这个观点最终被整个公司所理解和采纳,并且将这场质量改进运动命名为六西格玛,而史
4、密斯本人也因此被尊称为“六西格玛之父”,2011/1/11,7,六西格玛统计原理释义,6代表的是理想化的高质量水平,在考虑了平均值可能含有的1.5个的偏移后,半个公差限内可以包含6个,这时,每百万次机会中出现缺陷的个数只有3.4(相当于正态分布超过4.5个 外的单侧概率),2011/1/11,8,六西格玛改进模式-DMAIC,D (Design)-界定阶段 确认顾客的关键需求并识别需要改进的产品或流程,决定要进行测量、分析、改进和控制的关键质量特性(CTQ),将改进项目界定在合理的范围内。 M (Measurement)-测量阶段 通过对现有过程的测量和评估,制定期望达到的目标及业绩衡量标准,
5、识别影响过程输出Y的输入X,并验证测量系统的有效性。 A (Analysis)-分析阶段 通过数据分析确定影响输出Y的关键X,即确定过程的关键影响因素。 I (Improvement)-改进阶段 寻找最优改进方案,优化过程输出Y并消除或减小关键X的影响,使过程的缺陷或变异降至最低。 C (Control)-控制阶段 将改进成果进行固化,通过修订文件等方法是成功经验制度化。通过有效的监测方法,维持过程改进的成果并寻求进一步提高改进效果的持续改进方法,2011/1/11,9,六西格玛各阶段工具的组成,界定阶段常用工具 SIPOC图、立项说明书、KANO模型分析、QFD(质量功能展开)、COPQ(劣
6、质成本分析)等 测量阶段常用工具 流程图、MSA(测量系统分析)、过程能力分析、数据调查表、直方图、箱线图、散布图、时间序列图等 分析阶段常用工具 包括帕累托(Pareto)图、因果图、假设检验、ANOVA(方差分析)、相关与回归分析、FMEA(失效模式及效应分析)、列联表卡方分析、多变异分析、可靠性分析、时间序列分析等 改善阶段常用工具 包括脑力激荡法、TRIZ(创新方法与理论)、DOE(试验设计)、防差错措施等 控制阶段常用工具 包括SPC(统计过程控制)、SOP(标准作业程序)、控制计划与项目报告等,2011/1/11,10,概率论基础知识,在同一组条件下,对某事物或现象所进行的观察或实
7、验叫随机试验(experiment),把观察或试验的结果叫随机事件(event)。 例如,抛掷一枚质地均匀的骰子就是一次试验,骰子落地,可能出现1点、2点、6点,或为奇数点或为偶数点,点数大于5,等等,这些就是一个个事件。这些事件在一次试验中可能出现也可能不出现,我们称之为随机事件。 如果随机试验的每种结果可以用一个数字作为其代表,则我们称此变量为随机变量(random variable) 随机变量究竟在一次试验中会出现哪个值,在试验前是完全不能确定的。通常的随机变量都具有这种性质和特点:事先可以肯定取值范围,但不能肯定具体的取值是多少。,2011/1/11,11,随机变量,随机变量的取值有两
8、种不同的类型 1. 离散性(discrete)随机变量 例如:某铸件上的缺陷点数,手机外壳透明显示框内包含的气泡数、布匹上的疵点、车床一天内发生的故障次数、京津高速公路上的事故数等等 2. 连续性(continuous)随机变量 例如:某品牌手机电池的寿命(单位:小时),PCB板上的焊锡膏涂层厚度、硝酸铵化肥反应罐每天的产量,2011/1/11,12,随机变量,简单的随机变量图形制作,2011/1/11,13,随机变量,随机变量统计学概念 概率分布是个函数,要想抓住一个函数的状况是很不容易的。 比如在市场上买了一堆河虾,你可以说:“这些河虾平均每斤50头,个头虽然不大,但还算整齐”。 这里至少
9、提供了两方面的信息:平均值如何,分散程度如何。 从统计学角度讲这就是“平均值”(一般用E(X)表示)和“方差”(一般用V(X)表示)两个基本概念。,2011/1/11,14,平均值,从物理意义上讲,平均值相当于物体的质心的位置,2011/1/11,15,方差,方差 V(X)=2=E(X-) 2 附图中均值是相同的,都是0;它们的差别是分散程度不同,图形较”瘦”的表示分散程度较小,角“胖”的表示分散程度较大。 从公式来看,不论X取值比大还是小,V(X)都是正数,X取值偏离越远,V(X)越大。 因此,方差代表的量就是随机变量 分散的程度。,方差的物理意义:代表该 密度图形绕质心的转动惯量。,201
10、1/1/11,16,标准差,但是方差有个先天性缺点: 均值的量纲与原随机变量X的量纲X是一致的;但是方差的量纲是X量纲的平方,即为X2 所以引入标准差(Standard deviation)概念,常用希腊字母(读音为“西格玛”或“sigma”)表示 由此可知=,2011/1/11,17,标准差,正态分布的密度曲线是钟形的 最中间是对称中心的均值位置; 曲线两端是下凸的(凹的),中心段部分是上凸的,在凹和凸的交界处有个转折点,称为拐点; 拐点到中心线的距离就是标准差。 标准差越大,数据越分散; 标准差越小,数据越集中。,2011/1/11,18,偏度和峰度,偏度(skewness)是对随机变量分
11、布不对称性的度量,用s表示。,峰度(kurtosis)是度量随机分布中间部分的陡峭程度及两端尾部的厚重程度,也可以简单的当作分布平坦性的度量,用k表示。,2011/1/11,19,累积分布函数,当分布密度p(x)给定后,为了能顺利计算出落入任意一个区间的概率,我们需要引入累积分布函数概念。 我们用F(x)代表累积分布函数(cumulative distribution function,简记为cdf)或简称为分布函数。对于任意指定的x值,F(x)代表随机变量落入其左方的概率,含义如阴影部分所示,如下性质: 1.当x趋于负无穷时,F(x)趋于0;当x趋于正无穷时,F(x)趋于1. 2.x逐渐增长
12、时,F(x)也会逐渐增长,至少不会减小。,2011/1/11,20,随机变量的分位数,常听说“长江三峡大坝可以抵御百年一遇的洪水”。“百年一遇”是什么意思? 有人说:“这很简单,将100年的水位记录下来,最大的水位就是百年一遇的水位”。 但是这就有个理论上的矛盾,如果有连续两个“百年水位记录”,它们这两组数的最大值不一样,那又该定哪个?如果有连续十个“百年水位记录”,它们这十组数据都各自有自己的“百年一遇”值(即各自的最大值),那么又从哪里能得到“千年一遇”值呢? 且看下面正确答案,2011/1/11,21,随机变量的分位数,如果得到年最高水位X的分布函数,取一个这样的数:随机变量X的取值比它
13、大的概率正好是1/100时,则此数被称为“百年一遇”。 更一般的说:随机变量X的取值比它大的概率正好是1/T时,则此数被称为“T年一遇”值。 对于随机变量X,如果数值xp可以满足: PXxp=p,则称xp为随机变量X的p分位数 例如: PXx0.1=0.1,x0.1就是随机变量X的0.1分位数。 所以我们可以得知: “百年一遇”值就是年最高水位分布的0.99分位数,即x0.99; 此数也被称为右侧0.01分位数。 同理:“千年一遇”值就是年最高水位分布的0.999分位数,即x0.999计算方法:计算概率分布(选择相应分布)逆累积概率 输入常量p,即可得到随机变量X的p分位数。,2011/1/1
14、1,22,随机变量的中位数,如果p取值为0.5(此数特别重要!),x0.5被称为中位数,常用m表示。其含义是随机变量X取值中,有一半比m小,另一半比m大。 如果分布基本对称,中位数应该与均值相等;如果如下图所示,中位数肯定比均值要小些。中学物理告诉我们物体重心的概念:一根电线杆,悬线可以确定重心位置,如果用锯沿着重心点切开,左右两半的重量相等。,2011/1/11,23,随机变量的四分位数及四分位数间距,如果p取为0.25或0.75,这样的数被称为四分位数(quantile): x0.25被称为下四分位数(lower quantile, LQ)或第一四分位数(first quantile, Q
15、1) x0.75被称为上四分位数(upper quantile, UQ)或第三四分位数(third quantile,Q3) 如图,LQ与UQ所界定的范围内将包含约一半的数据,常用来表示数据的主体部分; 两个四分位数之间的距离是描述随机变量离散状况非常重要的参数,被称为四分位间距(inter quantile range, IQR) :IQR=UQ-LQ,2011/1/11,24,常用连续分布,1.正态分布(Normal distribution) 2.均匀分布(Uniform distribution) 3.指数分布(Exponential distribution) 4.对数正态分布(Lo
16、gnormal distribution) 5.威布尔分布(Weibull distribution) 6.三角形分布(Triangular distribution) 7.Beta分布(Beta distribution) 8. Cauchy分布(Cauchy distribution) 9.Gamma分布(Gamma distribution) 10.Laplace分布(Laplace distribution) 11.Logistic分布(Logistic distribution) 12.对数Logistic分布(Loglogistic distribution) 13.最大极值分布(
17、Largest extreme distribution) 14.最小极值分布(Smallest extreme distribution) 15.T分布 16.F分布 17.卡方分布(Chi-Square),2011/1/11,25,连续分布-正态分布,质量管理中最常遇到的连续分布是正态分布 数学理论上可以证明,如果某项指标受到很多项随机因素的干扰,而每项干扰都很小的话,则所有干扰影响的综合结果将导致此项指标的分布为正态分布。,2011/1/11,26,连续分布-正态分布,一般正态分布的概率密度函数为:它是由德国数学家高斯于1809年正式给出的表达式,所以又称为高斯(Gauss)分布。,20
18、11/1/11,27,连续分布-正态分布,正态分布有和2两个参数,一般用符号N(,2)表示。 2是正态分布的方差, 0是正态分布的标准差,它代表数据的分散状况。 取值的不同,反映的是位置的不同。,均值不等但方差相同,均值相等但方差不等,2011/1/11,28,连续分布-正态分布,我们把=0,=1的特殊正态分布称为标准正态分布(Standard normal distribution),记为N(0,1)。,范围 对称区域内(%) 对称区域外(ppm) 1 68.27 317 300 2 95.45 45 500 3 99.73 2 700 4 99.993 7 53 5 99.999 943
19、0.57 6 99.999 999 8 0.002,标准正态分布密度曲线图,2011/1/11,29,连续分布-正态分布,对于一般正态分布概率计算依赖以下公式即ZN(0,1). 我们称Z为X所对应的“Z”值 (即标准化正态值),2011/1/11,30,连续分布-均匀分布,如果连续性随机变量X落入区间(a,b)间的概率为常数,也就是说X落入此区间的任一点的概率都相等,则称X在区间(a,b)上服从均匀分布,记为XU(a,b),其函数和密度图形见下,均匀分布U(a,b)的均值、方差分别表示为:,2011/1/11,31,连续分布-指数分布,指数分布在研究寿命分布方面有特别重要的意义。其概率密度函数
20、为:,或,例如,已知某电视机瞬时失效率为=0.0001/天(瞬时失效率的量纲是时间倒数)。 备注:公式中b被称为“尺度参数”, 数学上可以证明:如果瞬时失效率 永远不变而保持常数时,则此元 器件寿命一定是指数分布。若记其 平均寿命为,则b=1/ (注:Minitab中对于指数分布通常 使用尺度参数b),其寿命分布图如右:,2011/1/11,32,连续分布-其他连续分布,对数正态分布,Weibull分布,Cauchy分布,Gamma分布,2011/1/11,33,连续分布-其他连续分布,Laplace分布,Logistic分布,对数Logistic分布,最大/小极值分布,2011/1/11,3
21、4,连续分布-其他连续分布Beta分布,a1且b1,a1且b1,a1且b1,a1,2011/1/11,35,常用离散分布,1. 0-1分布(0-1 distribution) 2. 二项分布(binomial distribution) 3. 泊松分布(poisson distribution) 4. 超几何分布(hypergeometric distribution) 5. 负二项分布(negative binomial distribution) 6. 几何分布(geometric distribution) 7. 整数均匀分布(integer distribution) 8. 任意离散分
22、布(discrete distribution),2011/1/11,36,离散分布- 0-1分布,有一种试验,每次试验只有两种可能的结果,而且出现两种结果的概率都保持不变。 例如:正面与反面,合格与不合格,通过与不通过,命中与不命中等等,我们统称为“成功”与“失败”。 验收产品时,我们将“成功”(出现不合格)出现的概率记为p,失败出现的概率为1-p,则称此随机变量服从0-1分布,也称为两点分布,记为B(1,p),0-1分布的分布律,2011/1/11,37,离散分布- 二项分布,假设我们独立的进行了n次试验(“独立”就是说上次试验的结果不影响下次试验的结果),每次试验结果只有“成功”及“失败
23、”两种结果,而且每次试验获得成功的概率都是固定常数p,记成功的总次数为随机变量X,则称X的分布为二项分布(记为XB(n,p))。,二项分布的期望和方差:,2011/1/11,38,离散分布- 二项分布,Minitab案例分析: 工厂产品分一等品和二等品,根据历史记录得知产品二等品率为20%,那么抽取20件产品中大约会抽到几件二等品?如果记二等品件数为随机变量X,它的分布律是怎样的呢?,2011/1/11,39,离散分布- 二项分布,2011/1/11,40,离散分布- 二项分布,2011/1/11,41,离散分布- 二项分布,二项分布重要特性: 1. 连续生产过程中不合格品数精确分布计算; 2
24、.当抽样样本数量小于有限总体的个体总数的10%时,可以作为超几何分布的近似分布; 3.二项分布计算中,最重要的是它的正态近似;当二项分布中的参数n足够大(比如超过100),参数p不是太大或太小(0.1p0.9),则二项分布B(n,p)近似与正态分布N(np,np(1-p),2011/1/11,42,离散分布- 二项分布,一个城市出生10 000名婴儿,假定生男生女概率相等,市长对每个男婴赠送一个足球,对每个女婴赠送一个芭比娃娃,问市长需要准备多少足球和芭比娃娃才能保证万无一失? (提示:结合二项分布的正态近似性质),2011/1/11,43,离散分布- Poisson分布,生活中,常有一些不可
25、预测的随机事件发生: 2006年福州遭到4次台风袭击; 一匹染了蓝色的布上有5个黑色的斑点; 一片镀了防腐蚀膜的机翼上出现了3个瑕疵? 等等等等, 究竟这些事件是否有什么规律可循?,理论研究结果表明,在一定条件下,这些稀有事件出现的概率都为Poisson分布(泊松分布),2011/1/11,44,离散分布- Poisson分布,Bortkewitsch在1898年提交了一份报告,记录了1875-1894的20年间普鲁士骑兵团被马踢伤致死的士兵人数,发现与Poisson分布非常吻合; 英国物理学家卢瑟福观测记录了放射性物质在7.5秒内放射出的粒子数目,与Poisson分布非常吻合; 第二次世界大
26、战中,德国用V-2导弹袭击伦敦,将伦敦分为576区,发现每个区的真实弹着点数与Poisson分布非常吻合; 在芯片的生产中,记录每片芯片上的瑕疵点数,则瑕疵点数应该就是Poisson分布。,2011/1/11,45,离散分布- Poisson分布,Poisson分布记X为不合格点数,则其分布律为:,记为XP(),其分布的期望与方差为:,期望值一定与原观测值有相同量纲; 方差的量纲一定是原观测值平方; 期望值与方差相等,所有分布中有且仅有Poisson分布 量纲与量纲平方相同,此量纲一定是无量纲的常数(点数,件数,次数等),任何带有实际物理量纲(如长度,重量等)绝对不可能是Poisson分布。,
27、注意,2011/1/11,46,离散分布- Poisson分布,Poisson分布与二项分布有非常深刻的本质上的联系: 在二项分布中,当n较大(超过100)时,如果p值很小(p0.05,且np30),则二项分布B(n,p)可以近似看成Poisson分布P(np),比如,一条高速公路上,每天车流量为n=10 000,发生车祸的概率是p=0.0003,这时,np=3,也就是说,每日在 此高速公路上将平均发生3次车祸。如果 略去n和p的具体数值,只是笼统的说“每 日在此高速公路上将平均发生3次车祸”, 这也就是Poisson分布P(3)。对于这种实际 问题,用两种分布模型去处理,结果几乎 是一样的,
28、Poisson分布与二项分布计算结果比较,2011/1/11,47,离散分布- Poisson分布,Poisson分布应用广泛,例如: 中午时分,快餐店中每分钟顾客到来的人数; 一定时间内接错电话的次数; 一定时间内,操作系统发生的故障数; 一个铸件上的缺陷数; 一平方米玻璃上的气泡数; 一件产品擦伤留下的痕迹数; 一页书上面的错字数,等等。Poisson分布还具有均值的“可分性”。 如果1000平米一匹的化纤布平均瑕疵点数是25,瑕疵点数分布为P(25),4平米可以缝制一套工作服,每套工作服的下次点数的分布应该是P(0.1),2011/1/11,48,离散分布- 其它离散分布,几何分布:当试
29、验结果只有“成功”和“失败”两种结果,而且每次获得成功的概率都是p(0p1),但试验结果一直要到首次出现“成功”为止,记所需的试验次数为X的分布。(几何分布重要特性:无后效性。例如:老虎机前中大奖跟你已经投了多少币没有关系,在另一台机器上碰碰运气跟在这台上“死等”效果是一样的),2011/1/11,49,离散分布- 其它离散分布,超几何分布:总体有N个个体,其中M个个体具有特征A,在其中随机抽出n(nN)个个体(无放回抽样),恰好取得x个具有特征A的元素(如果将样本放回,则是二项分布;当n 0.1N则近似于二项分布 ) 负二项分布:当试验结果只有“成功”和“失败”两种结果,而且每次获得成功的概
30、率都是p(0p1),但试验结果一直要到首次出现r次“成功”为止,记所需的试验次数为X的分布。(r=1时,负二项分布就变成几何分布了) 整数分布:在M到N的整数范围内,以等概率取值的分布。,2011/1/11,50,随机变量参数表(Minitab使用),2011/1/11,51,描述性统计及图形-总体与样本,我们所关心的对象的全体称为总体; 从总体中所抽取的这部分个体组成的集合称为样本; 样本中的个体有时也称为样品; 样品的数量称为样本量。当总体指定时,总体均值一定是个固定的常数,我们称之为参数; 样本均值X随着抽样的进行,每次抽样后得到的结果可能是不同的,它是个随机变量,我们称为统计量。 可以
31、用样本均值来估计总体均值,但是两者只能用估量符号,绝对不能写等号。,2011/1/11,52,描述性统计及图形-总体与样本,随机样本三个基本条件: 1.代表性。所抽取的样本一定要能代表所要研究的总体。 2.随机性。总体中每个个体都有相同的机会进入样本。 3.独立性。从总体中抽取的每个个体对其他个体的抽取无任何影响。,2011/1/11,53,描述性统计及图形-总体与样本,假设有产品分别装在100个零件箱中,每箱20个,共2000个。如果想从中取200个零件组成样本进行测试研究,有哪几种抽样方法? 1.简单随机抽样法:将2000个产品编号后混合均匀,抽签或抓阄; 2.系统抽样法:将2000个产品
32、编号后混合均匀,抓阄或抽签办法决定起始编号,然后再等距离抽样; 3.分层抽样法:将箱作为“层”,对100箱,每箱随机抽取2个; 4.整群抽样法:先从100箱随机抽取10箱,对这10进行全检。,2011/1/11,54,描述性统计及图形-指标,位置状况指标 样本平均值(常简称样本均值,sample mean) 样本中位数(Sample median) 众数(Sample mode) 第一四分位数(Sample 1st quartile, Q1或LQ) 第三四分位数( Sample 3rd quartile, Q3或UQ ) 离散程度指标 方差(Variance) 标准差(Standard dev
33、iation) 极差(Range) 四分位间距(Interquartile Range, IQR) 分布状态指标 偏度(Skewness) 峰度(Kurtosis),2011/1/11,55,描述性统计及图形-案例,运用Minitab相关命令进行描述性统计计算,包括位置状况、离散程度和分布形状等 附表为一小学学生身高随机抽样结果,2011/1/11,56,描述性统计及图形-案例,结果如下,2011/1/11,57,描述性统计及图形-统计图形,直方图(Histogram) 步骤:图形直方图简单,指定“图形变量”为“等待时间”,箱线图(Boxplot) 步骤:图形箱线图一个Y含组,指定“图形变量”
34、为“使用寿命”,2011/1/11,58,描述性统计及图形-统计图形,时间序列图(Time series plot) 步骤:图形时间序列图简单“序列”指定为“库存量”时间/尺度“标记列”为“月份”,3D散点图(3D Scatterplot) 步骤:图形3D散点图简单指定X,Y,Z变量“数据视图”的“数据显示”勾选“投影线”,2011/1/11,59,描述性统计及图形-统计图形,饼图(Pie chart) 步骤:图形饼图“用整理好的表格画图”,指定“类别变量”为“种类”,“汇总变量”为“金额”,饼图选项排列扇形区大小递减,标签扇形区标签百分比,多图形按变量按变量,组在相同图形中为“工厂”,2011/1/11,60,统计基础,统计分析,其实不过是参数估计和假设检验两方面的内容。 六西格玛管理中用到的大约80%以上都是关于假设检验的。,2011/1/11,61,2011/1/11,62,2011/1/11,63,2011/1/11,64,2011/1/11,65,2011/1/11,66,2011/1/11,67,