1、MINITAB软件进阶应用培训,主讲:邓成华 梁万进 2011-10-13,开启六西格玛之门,主界面介绍,菜单栏,工具栏,会话窗口,数据窗口,项目管理窗口(最小化),主界面介绍,项目管理器:管理工作表、输出、图标和相关文档,会话窗口: 查看统计输出结果和输入命令符,图表: 查看和编辑图表,数据: 查看和编辑工作表,返回上一对话框,主界面介绍,工作表: 列MINITAB的工作表可容纳4000多列的数据,每一列按数字识别,当然,你也可以自行为每列进行命名(最多31个字符,包含空格) MINITAB支持以下数据类型的数据: D=data/time(日期时间型数据) T=Text(文本型数据) 如果没
2、有任何字符显示,则表明该列数据为数值型数据 MINITAB以每列数据的第一个数据的数据类型来识别该列数据的数据类型,数据录入方向: 图标向下,录入完一个数据后,按回车键,光标就会落到该列的下一个位置; 图标向右,录入完一个数据后,按回车键,光标就会落到该行右侧的一个位置;,图形分析,图形在数据分析中起着很重要的作用,它能帮你检查数据的分布形式、数据和数据之间的潜在关系、检查有没有特殊数据等。 案例某工程师预调查两个不同供应商提供原材料的信息,包括产品的承受压力,重量和高度的信息。,图形分析,打开项目文件 选择 文件-打开项目 选择Minitab.MPJ 选择Descriptive.MTW,Pa
3、rts Supplier Pressure Height Length 1 1 64 66.00 140 2 1 58 72.00 145 3 1 62 73.50 160 4 1 66 73.00 190 5 1 64 69.00 155 6 1 74 73.00 165 7 1 84 72.00 150 8 1 68 74.00 190 9 1 62 72.00 195 10 1 76 71.00 138 ,图形化分析,图形化汇总 选择 统计-基本统计量-图形化汇总 完成下图所示的对话框,图形化分析,直方图:用一条正态拟合曲线来拟合数据,显示数据的分布形式及判断数据是否服从正态分布。 箱线
4、图:描述性的显示数据的集中趋势,离散程度,有没有异常数据和置信区间的信息。 置信区间:提供一区间用来评估数据的母体参数信息。 四分位数:用四分之一位数、中数位、四分之三位数来考察样本数据的离散程度。 标准差:是离散程度指标 方差:发差是没有单位的,方差能直接相加,而标标准差不能直接相加。 偏度:如果不是正态分布,有差异的偏度,偏度如果大于0则右偏, 峰度:偏离钟形曲线的度量。,描述性统计,可以通过MINITAB软件在会话窗口显示任意列数据的描述性统计参数信息,如果数据存在分组,同样也可以按分组变量查看不同属性下的数据参数信息。 常见的描述性统计参数 N:样本量 数值型数据 均值:样本数据的平均
5、值,考察样本数据的集中趋势 标准差:样本数据的波动大小,考察数据的离散程度 方差:标准差的平方 Q1:四分之一位数,表示样本中有25%的数小于该数Q1=(N+1)/4 Q2:中位数,表示样本数据中有一半的数据小于该数Q2=(N+1)/2 Q3:四分之三位数,表示样本数据中有75%的数小于该数Q3=3(N+1)/4 众数:出现频率最高的数据就是众数 极差:样本中最大数据与最小数据之差 平均值标准误:度量样本均值多达程度上估计总体的均值 MINITAB操作 选择 统计-基本统计量-显示描述性统计,描述性统计,描述性统计: Length 均值标 变量 N N* 均值 准误 标准差 最小值 下四分位数
6、 中位数 上四分位数 Length 92 0 145.21 2.47 23.72 95.00 125.00 145.00 156.50变量 最大值 Length 215.00,箱线图,箱线图又称箱体图,帮助我们检查数据的分布,数据是否存在异常,和计算数据的描述性参数。 箱线图可以快速了解一组数据的展开和中心趋势,相对均值和标准差而言,箱线图不受极端值的影响,能够比较好的度量数据的中心趋势和分散程度。 从箱体高度了解数据分布是趋中还是离散。从中位数线了解数据分布的对称性。从星号可以筛选异常数据 MINITAB中操作选择 图形-箱线图 一个Y简单:只包含一个变量且没有分类变量。 一个Y含组:只有一
7、个变量,但有分类变量,可以按分类变量把Y分成两个以上的属性(如:查看不同班次间部件长度) 多个Y含组:有多个变量,且有分类变量,按分类变量把Y分成两个以上的属性(如:查看不同班次间部件长度、宽度、重量) 在后面的点图、直方图、散点图等也有类似的功能。,箱线图,解释结果: 1、在供应商一的length中有一个异常数据; 2、供应商一提供的原料length波动大于供应商二的; 3、供应商一的length大于供应商二的length,区间图,MINITAB操作 选择 图形-区间图,单值图,MINITAB操作 选择 图形-单值图,线条图,MINITAB操作 选择 图形-线条图,直方图,常常用于了解数据的
8、分布情况,是一组数据的图形表示,这种数据的方法使我们较容易的看到数据的分散程度和中心趋势,并与要求的分布进行比较。 如果直方图上画有规格,那么直方图可用来比较过程与要求,要达到这一目标,应确认直方图最有合适的比例。 直方图最好能与其他图,如链图或控制图等结合使用,因为直方图不是按时序画出来的。 根据数据的来源不同,应对数据分层,分别绘制直方图。 MINITAB操作 选择 图形-直方图-简单 包含拟合:在直方图上加上一条拟合线; 包括轮廓和组:只显示不同直方图的边界线; 包含拟合和组:只显示不同直方图的拟合线;,直方图,解释结果: 可以从直方图的外观查看其分布情况。还可以查看不同区间上数据出现的
9、频率以及数据是否具有双峰、平顶等现象出现。,点图,MINITAB操作 选择 图形-点图,茎叶图,茎叶图显示: Height 茎叶图 Height Supplier = 1 N = 57 叶单位 = 0.104 66 00008 67 000012 68 000020 69 0000000525 70 00000 (7) 71 000000525 72 0000000017 73 0000000558 74 000003 75 000茎叶图 Height Supplier = 2 N = 35 叶单位 = 0.102 61 077 62 0000711 63 000013 64 00 (5) 6
10、5 0000517 66 000013 67 00010 68 0000004 69 0001 70 0,MINITAB操作 选择 图形-茎叶图,概率图,MINITAB操作 选择 图形-概率图,经验累积分布函数,MINITAB操作 选择 图形-经验累积分布函数,概率分布图,MINITAB操作 选择 图形-概率分布图-查看概率,从图形上可以看出,在标准正态分布的双侧检验下, a=0.05所对应的分位数是+/-1.96(z值),散点图,散点图是用来考察两变量之间的关系的图形。在散点图上,可以看出相关程度,散点图是进行相关分析或回归分析的基础。 散点图只能考察两个变量之间的相关关系。 若定量分析相关
11、性强弱,需要进行相关性的分析。 若分析多个变量之间两两之间的关系,可以通过矩阵图。 MINITAB操作 选择 图形-散点图 简单:利用所有样本数据考察变量之间的关系。 含组:按某个分组变量对变量分成几个组 包含回归:在散点图上加一条拟合线。 包含回归和组:按分组信息在散点图上添加拟合线。 包含连接线:把所有的数据点用连接线连接起来。 包含连接线和组:按分组变量把不同组的数据点用连接线连接起来。,散点图,矩阵图,MINITAB操作 选择 图形-矩阵图,边际图,MINITAB操作 选择 图形-边际图,时间序列图,时间序列图是实现观察值随着时间的变化而不断变化的图形,在自然和社会领域,客观现象发展变
12、化的差异及规律性可以通过时间变量反映时,往往需要借助时间序列来展现。 案例:某公司选择两家广告公司为其宣传,收集了12个月份的销售额数据。工作表Time series plot.mtw MINITAB操作 选择 图形-时间序列图 简单:一个变量随时间的变化趋势 含组:一个变量(含分组变量)随时间变化的趋势 多个:两个或以上变量随时间变化呈现变化 多个,含组:多个变量(含分组变量)随时间变化趋势,时间序列图,结果解释; 从下图可以看出,OMEGA公司增长起点比较高,但相对增长缓慢。ALPHA公司起点低,但增长比较迅猛。,假设检验,假设检验是先对总体参数提出一个假设,然后利用样本信息判断这一假设是
13、否成立。 例如:某新产品的研究中,研究人员需要判断新产品质量是否比原来的要好;项目改善结束后需要分析项目实施前后流程是否有显著的变化。 原假设:通常是研究者收集证据予以反对的假设,也称为零假设,用H0表示; 备择假设:通常是研究者收集证据予以支持的假设,也称为研究假设,用H1表示; 假设检验的目的:是收集证据来拒绝原假设。是根据样本信息做出决策,也就是做出是否拒绝原假设而倾向于备择假设的决策。 假设检验中犯弃真错误的概率被称为显著性水平,记为a,著名英国统计学家FISHER在他的研究中把小概率的标准定为0.05,这也是一个通则。这也意味着事先确定了拒绝域,检验统计量的值只要落入拒绝域,就拒绝原
14、假设。 利用P值进行决策。P值告诉我们:原假设为真的概率,拒绝原假设犯错误的的概率。 Pa拒绝原假设H0,Pa,不拒绝原假设H0,单样本Z检验,案例:某公司从事机床部件生产,从流程中抽样36件,得到这些部件的长度资料,已知部件长度标准差为8.2mm.试在置信水平95%的要求下。是否确定这一批部件的平均值是否为42mm.分析: 标准差已知为8.2,所以选择单样本Z检验(如果n30,且标准差未知用单样本T检验) 原假设:H0:U=42mm 备择假设:H1:U 42mm 置信水平95%,即a=0.05数据: One Sample Z-test.MTW正态性检验:在进行单样本Z检验前,需检验样本数据是
15、否服从正态分布。,单样本Z检验 (正态性检验),选择 统计-基本统计量-正态性检验 正态性检验也是假设检验的一种, H0:数据来源于正态分布的总体 H1:数据不来源于正态分布的总体,从图中可以看出,P值=0.88,大于显著性水平0.05,所以不拒绝原假设HO,即认为样本数据来自服从正态分布的总体,正态性检验有三种方法: 1、统计-基本统计量-正态性检验 2、统计-基本统计量-图形化汇总 3、图形-概率图,单样本Z检验,选择 统计-基本统计量-单样本Z检验,解释结果: 要判断是否拒绝原假设,通常有三种判断方法: 1、检查P值与a的大小 2、检查Z值和a对应分位数的大小 3、检查检验均值是否在95
16、%置信区间内在该例中: 1、P0.05所以不能拒绝原假设。 2、Z=-1.83落在置信区间内,故不能拒绝原假设。 3、检验均值mu=42落在置信区间,故不能拒绝原假设。结论:认为部件的平均长度为42mm,单样本T检验,案例:已知某品牌硬盘的平均速度是0.545微秒,这是一关键质量参数,为了提高硬盘速度,提高市场占有率,该公司的研发人员对参数进行调整,收集了参数改善后的硬盘平均转速数据,问:该工艺参数调整是否有效?(数据:one sample T-test.mtw) 分析:总体标准差未知,样本量n=10,所以选择单样本T检验。 H0:U=0.545H1:U0.545,单样本T检验,选择 统计-基
17、本统计量-单样本T检验,解释结果: 1、P0.05所以拒绝原假设,接受H1。 2、Z=-2.28落在置信区间外,故拒绝原假设。 3、检验均值mu=0.545落在置信区间外,故原假设。 即在当前设计下,硬盘平均转速小于0.545微妙,工艺参数调整后,硬盘的平均转速显著提高。,双样本T检验,案例:一计算机生产商在选择塑胶原料的供应商,该工程师正在分析从两家不同供应商处收集的20个 样本硬度数据,希望能评估出这两家供应商提供的塑胶是否有显著差异。数据:Two sample T-test.MTW工作表中。选择双样本T检验,要求样本数据来自正态分布的总体。 H0:数据来源于正态分布的总体 H1:数据不来
18、源于正态分布的总体选择双样本T检验,也要考虑方差是否相等。 H0:A/ b=1 H1: A/ b 1双样本T检验用来判定两个总体的均值是否相等。 H0:umA-umB=0 H1: umA-umB 0,双样本T检验 (正态性检验),选择 统计-图形-概率图-多个,解释结果: 1、P10.05所以不能拒绝原假设 。 2、 P20.05所以不能拒绝原假设 。 所以这两列数据服从正态分布。,双样本T检验 (等方差检验),解释结果: 1、P0.05所以不能拒绝原假设 。 2、使用置信区间来比较方差,置信区间包含1,不能拒绝原假设 所以这两列数据方差相等,选择 基本统计量-双方差,双样本T检验,解释结果:
19、 1、供应商A的塑胶硬度均值比供应商B的大 2、供应商A的塑胶硬度变异比供应商B的大 3、P0.05,所以拒绝原假设。 4、使用置信区间分析,区间没有包含0,则两个总体之间的均值存在显著差异,所以拒绝原假设。 即两个供应商的塑胶强度有显著的差异,选择 基本统计量-双样本T,回归分析,案例:某工程师欲考察某特种钢的韧性与冶炼时间之间的关系,收集了16组数据,见表Regression.MTW.请用相关分析方法找出这两变量之间的关系。回归方程拟合出来以后,我们进行统计分析以解决以下问题: 给出显著性检验,从总体上判定回归方程是否有效。 给出回归方程总效果好坏的度量标准。 当回归方程效果显著时,进行各
20、个回归系数的显著性检验,判定回归方程中哪些自变量是显著的,哪些自变量是不显著的,以优化模型。 进行残差分析,检验残差是否满足我们的假定,检验回归模型是否拟合的足够好,是否能进一步改进回归方程以优化我们的模型。,回归分析,解释结果: 1、P0.05,判定回归方程是显著的,有效的。 2、回归方程R-Sq(调整)=99.6%,大于70%,说明拟合方程是比较理想的。 3、回归方程中自变量Time P0.05是显著的 4、残差图分析:概率图判定是正态分布,拟合值与直方图判断残差是否为0,回归模型拟合满足要求。 5、根据回归方程预测拟合,选择 统计-回归-回归,多元线性回归,案例:某手机厂研究如何提高线路
21、板焊接流程的拉拔问题,根据过去的经验,拉拔力可能与烘烤温度、烘烤时间和涂抹的焊膏量有关,先从流程中收集了20批数据,试建立拉拔力与各个因素的回归模型。 使用逐步回归方法 使用最佳子集回归方法,多元线性(逐步)回归,选择 统计-回归-逐步 逐步回归: 拉拔力 与 温度, 时间, 焊膏量 入选用 Alpha: 0.15 删除用 Alpha: 0.15响应为 3 个自变量上的 拉拔力,N = 20步骤 1 2 常量 39.28 10.04焊膏量 4.95 4.44 T 值 10.18 13.86 P 值 0.000 0.000温度 0.247 T 值 5.34 P 值 0.000S 1.80 1.1
22、3 R-Sq 85.20 94.47 R-Sq(调整) 84.37 93.81 Mallows Cp 28.5 2.6,解释结果: 1、在分析的时候输入的是三个变量,单现在输出的只有焊膏量和温度。即表明,时间这个变量对拉拔力来说是不显著的。 2、从这两步的回归中找出最佳的组合方式。 3、MOLLOW CP值表明模型在估计真实回归系数和预测未来响应时比较精确且无偏倚。,多元线性(最佳子集)回归,选择 统计-回归-最佳子集 最佳子集回归: 拉拔力 与 温度, 时间, 焊膏量 响应为 拉拔力焊R-Sq(调 Mallows 温 时 膏 变量 R-Sq 整) Cp S 度 间 量1 85.2 84.4
23、28.5 1.8016 X1 31.9 28.1 188.5 3.8633 X2 94.5 93.8 2.6 1.1336 X X2 86.4 84.8 26.8 1.7762 X X3 94.7 93.7 4.0 1.1462 X X X,解释结果: 1、参考可决系数R平方,这两者越大且越接近越好。 2、残差误差S越小越好 3、MOLLOW CP值要求与方程项数一致 通过上述指标来选取自变量,温度和焊膏量,柏拉图,案例:一家 GPS导航仪生产商记录在过去三个季度中发货收到客户投诉的情况。 数据Pareto.MTW,解释结果: 1、包装指示变色、表面划痕、功能缺陷三项占了所有客户投诉的76.5
24、%; 2、按照不同区域分别提供了四个柏拉图,在华东地区表面划痕是最大问题,但是在中西部地区,却完全没有关于这类问题的投诉。,因果图,因果图最主要的作用是帮助描述和归类导致问题发生的各种可能原因。 MINITAB操作 选择 统计-质量工具-因果图 案例:Fishbone.mtw,因果图,多变异图,案例:考虑精密车间成产微型轴杆长度波动过大问题,从车间随机抽取3名操作工人,让他们使用同一根钢条做原料,使用固定4台机床,按随机顺序各自分别加工3根轴杆,然后分别测量其长度,共收集36个样本数据。我们要分析轴杆长度变异的原因,是车床引起的还是工人之间很大变异?还是同一工人同一车床生产不同轴杆间变异为主?
25、 数据:Multi-Vari Chart.MTW通常我们把变异源归结为以下三个方面: 随机误差:任何实际工作,都要选取一个可以不追求或无法细致追究的变异,我们把这部分变异归结为随机误差。 组间差:经常要考虑人员之间的差异、部件间、原料、批次、设备、方法、环境之间的差异。 时间差异:需要考虑到时间因素所形成的变异。MINITAB操作 选择 统计-质量工具-多变异图,多变异图,解释结果: 1、三名工人之间有显著差异,当然,每个工人在使用不同的车床生产的螺钉之间也有差别,但相对工人之间的差别就小很多了。 2、说明螺钉直径间的差异主要是由工人间差异造成的。 3、可以调换录入因子的顺序,来更换坐标轴,可
26、以得到另外一张多变异图。,主效应图,主效应图其功能是把多个属性混合在一起的数据拆分开来,查看在不同水平上是否有显著变化,是我们队数据分层分析时常选的工具。 案例:某洗发水厂遇到一个难题,他们的洗发水灌瓶机有一台出现问题。有两个漏斗和六个灌装头,应该给每个瓶子灌入220+/-10毫升的洗发水客户已经抱怨有些瓶子里洗发水没有满。工厂经理也抱怨出货前检查发现有些瓶子里洗发水太多。现场主管也抱怨有些会过溢灌装。发生了什么,该如何解决。 数据:Shampoo.mtw Shampoo-灌装的洗发水容量 Filler-漏斗 Head-灌装头 Study hour-分析时间 shift-班次 分析思路:根据收
27、集的数据分析,当前流程是否处于稳定状态?输出服从一个什么样的分布呢? 根据头脑风暴,把原因锁在漏斗、分析(采样)时间,灌装头和班次上,接下来,就要按分层法的思路找出这些问题的原因。 MINITAB操作:选择 统计-方差分析-主效应图,主效应图,解释结果: 1、简单的因子是FILLER和SHIFT(水平数少) 2、最显著的因子是Filler(斜率的绝对值越大越表明该因子越显著) 3、接下来把最显著的因子进行分层(拆分工作表Filler =1、 Filler =2),主效应图 ( Filler =1工作表),解释结果: 1、两个SHIFT没有显著差异 2、STUDY HOUR对灌装量比较随机,也可
28、以认为没有显著的影响 3、在罐装头Head里,第三号灌装头的量明显小于其它灌装头灌装的容量 此时,我们推测,是不是由第一个灌装器里第三号灌装头引起的呢?为了验证这一假设,我们需要把FILLER=1中的Head=3的数据删除,如果确实是由Head=3造成的,那么删除相关数据之后,流程应该是稳定的,输出应服从正态分布,且灌装量也大都在220+/-5毫升内。,主效应图 (子集化工作表Filler =1工作表),解释结果: 1、系统会生成一张新的工作表,按CTRL+ALT+D整理工作区界面,Head=3的数据全部从工作表中删除。 2、用直方图检查数据输出是服从正态分布的。 3、证明第一个灌装器里第三号
29、灌装头问题解决后,问题迎刃而解。,M-测量系统分析: 连续型案例: gageaiag.Mtw 背景:3名测定者对10部品反复2次TEST,测量值随OP的变动,测量值随部品的变动,对于部品10,OP有较大分歧;,所有点落在管理界限内 良好,大部分点落在管理界限外 主变动原因:部品变动 良好,M-测量系统分析: 离散型案例(名目型):gage名目.Mtw 背景:3名测定者对30部品反复2次TEST,检查者1需要再教育; 检查者3需要追加训练; (反复性),两数据不能相差较大, 否则说明检查者一致的判定与标准有一定差异,个人与标准的一致性 (再现性?),M-测量系统分析: 离散型案例(顺序型):散文
30、.Mtw 背景:3名测定者对30部品反复2次TEST,张四 需要再教育; 张一、张五需要追加训练; (反复性),两数据不能相差较大, 否则说明检查者一致的判定 与标准有一定差异,M-正态性测定: (测定工序能力的前提) 案例: 背景:3名测定者对10部品反复2次TEST,P-value 0.05 正态分布(P越大越好) 本例:P 0.022 ,数据不服从正态分布。 原因:1、Data分层混杂;2、群间变动大;,M-工序能力分析(连续型):案例:Camshaft.MTW 工程能力统计:, 求解Zst(输入历史均值):,历史均值:表示强行将它拉到中心位置 不考虑偏移 Zst (Bench), 求解
31、Zlt(无历史均值):,无历史均值: 考虑偏移 Zlt (Bench),* Zshift Zlt (Bench) Zlt (Bench) 12.131.820.31,工序能力分析:案例:Camshaft.MTW另:capability sixpack工具,M-工序能力分析(离散型):案例:bpcapa.MTW(1):二项分布的Zst,缺陷率: 不良率是否 受样本大小 影响?,平均(预想)PPM226427 Zlt0.75 ZstZlt1.52.25,M-工序能力分析(离散型):案例:bpcapa.MTW(2):Poisson分布的Zst,C 管理图:,(1) Xbar-R (n10), 正常的xbar-R图, 管理界限再计算(不考虑异常点)Xbar-R图,(2) Xbar-S 管理图(n=10),(3) P 管理图(离散,样本大小不一定),(3) P 管理图(离散,样本大小不一定),如图可见,6月散步大,7、8月明显减少;,(3) nP 管理图(离散,样本大小一定),(5) C 管理图(离散,不良数),(5) U 管理图(离散,不良数,组大小不定),