1、试验设计Design of Experiment基础篇,QL Yang,8/21/2013,1,什么是试验设计(DOE)?,试验设计,2,? 思考题,现在有27个外形完全一样的珠子,其中有26个是质量完全相同的玻璃珠,另外还混了一个质量较轻的塑料珠子。如果手头上有一架天平,最少几次一定能辨别出哪个是塑料珠子?,课堂内容,试验设计,3,因子,响应,水平,随机化区组化,量测重复再性,正态分布,正态性检查,方差分析,线性回归,置信度&置信区间,主效应&交互效应,正交表,假设,最小二乘法,统计学灵魂,最小二乘法,4,“最小二乘法之于数理统计学犹如微积分之于数学”。S.M.StiglerAmerican
2、statistician,最小二乘法,5,什么是最小二乘,设有n个观测值,设y是使观测值平方和最小(即: 0),微分,两边约去2再展开,得解,.y是观测值的算术平均数 y,最小二乘法原理,最小二乘法,6,最小二乘法是以误差的平方和(离方差)最小为准则,根据观测数据估计模型中未知参数的一种基本参数估计方法。,y=ax+b,回归系数,最小二乘法,7,0,+,+,+,+,+,+,X,Y,Vi,最小二乘法原理,二元一次线性回归,最小二乘法,8,因为实验中X可控性远远大于Y误差很小,,所以:,X,Vi平方和,由于:离均差之和为零,绝对值就不便于学处理,离方差为最小值,在估算中实际使用平方和,最小二乘法原
3、理,二元一次线性回归,最小二乘法原理,最小二乘法,9,二元一次线性回归公式,什么是试验?,试验设计,10,Y=f(x),那些自变量X显著的影响着Y?这些自变量X取什么值时将会使Y达到最佳值?,试验是一个或一系列有目的地改变流程或系统的输入变量以观察识别输出应变量随之改变的实验Douglas C. Montgomery,什么是因子(x)和相应(y)?,试验设计,11,资源,过程,产品,你有哪些输入变量呢 ?,通过试验,进行优化设计,通过试验,控制其不良的影响程度,为什么要进行试验设计?,试验设计,12,试验设计有多少种类型呢?,试验设计,13,过程参数设计优化选择最佳的参数组合使产品对杂音最不敏
4、感;应用直交表进行原因检测和平均值的处理;应用直交表使变异最小;最低成本,田口试验是我国运用最多的方法,那么多种类,怎么用啊?,试验设计,14,试验设计方法对照表,试验设计,15,上个路径图吧。,试验设计,16,楼上的晕+_+,试验设计,17,4M1E (人、机、料、法、环),其他Others 如RACI,Brainstorming头脑风暴,Minitab分析软件,GRR量测系统重复再现性分析,Tolerance stuck-up累积公差分析,试验设计,因子实验,18,单因子两水平多因子,全因子设计部分因子设计,试验设计,单因子实验,单因子实验,19,陈述实际问题和实验目的,选择“Y”响应变量
5、,陈述因子和水平,选择DOE,实施实验及收集数据,分析实验结果,结论和计划,通过DOE 想达到什么目的?,Y是什么?计量型?计数型?如产出率, 作业时间, 清洁度等,如温度(100,150),重量(20,30,40kg),全因子实验, 田口设计, 2K因子实验或响应曲面设计等,收集实验结果的数据,运用Minitab进行实验数据分析,制定改善方案,必要时重复实验,步骤,响应(Response):(实验输出的结果) Y因子(Factor):(可控因子,非可控因子) X噪音(Noise):不可控制的因子/因素。水平(Level):实验中对因子的不同设定值。编码(Code):因子的高水平设定为“+1”
6、,低水平设定为“-1”,中心水平设定为“0”,基本术语,单因子实验,Pg 20,基本术语,单因子实验,Pg 21,随机化(Randomization):以一种随机的次序做试验. (消除噪音变量或随机误差的影响)区组化(Blocking):也叫做模块化,将噪音的干扰最小化的方法。模型(Model):Y= f( X1, X2, X3, Xk) + Error,单因子实验,单因子实验,22,陈述实际问题和实验目的,餐厅经理发现餐厅供应的面包大多数都被公司职员丢弃的。通过职员满意度调查,得知面包口味的满意度很差。餐厅经理决定组成一个以自己为最终责任人、包括面包师、后厨主厨、厨房设备维护员、工会代表等在
7、内的团队。找到使面包口味差的原因,从而解决这个问题。,单因子实验,单因子实验,23,陈述实际问题和实验目的,调查显示大多数职员觉得面包有时干的噎人,有时湿的粘手。因此必须找到使大多数职员觉得口感好的面包的湿度和影响面包湿度的工艺参数。13%-15% 是大多数职员喜欢的面包湿度。,选择“Y”响应变量,单因子实验,单因子实验,24,陈述实际问题和实验目的,通过团队的头脑风暴和咨询专家,得出烤箱温度设定是影响面包湿度的主要过程参数。团队决定选择三个面包烘烤温度值82C、 93 C、 104 C进行试验。,选择“Y”响应变量,陈述因子和水平,最终试验设计方案,单因子实验,单因子实验,25,单因子实验,
8、单因子实验,26,陈述实际问题和实验目的,选择“Y”响应变量,陈述因子和水平,选择DOE,实施实验及收集数据,测量系统重复再线性,测量系统分析,27,测量原则中的“10的准则:检验装置测量精度应比尺寸公差好10倍校准基准精度应比检验装置好10倍,量具可重复性和可再现性(%R&R)的接受原则:%R&R30% 错误: 计量器系统需要提高。确认问题并加以纠正 NEEDS IMPROVEMENT,测量系统重复再线性,测量系统分析,28,GRR步骤,基准量具10个样品从1到10编号,标示方式不让测量员看到3名测量员分别对10个样品随机循环测量3次,互不看他人测量数据分析数据,计算%R&R总结陈述,单因子
9、实验,单因子实验,29,陈述实际问题和实验目的,选择“Y”响应变量,陈述因子和水平,选择DOE,实施实验及收集数据,分析实验结果,Y=f(x),期望区间,一次实验仅仅是开始,离事实的真相还相当远,单因子实验,单因子实验,30,陈述实际问题和实验目的,选择“Y”响应变量,陈述因子和水平,选择DOE,实施实验及收集数据,分析实验结果,结论和计划,结论:图形表明温度增加导致湿度增加。响应在0水平处(170C)垂直方向分散最小,高水平处分散厉害。响应至高水平处接近期望值,但无法完全达到期望值。需要查找,调整试验设计,继续试验。,呃噢,咱们好像漏了什么步骤?,单因子实验,31,单因子实验,Z(-4,+4
10、)概率值和Pi的拟合. 如.50=Z(0),实验数据正态性检查,正态性检查,32,正态分布:,正态性检查,33,正态分布是概率论中最重要的一种分布,也是自然界最常见的一种分布。该分布由两个参数平均值和方差决定。,神马玩意?,概率密度函数,累积分布函数,86%,95%,99%,概率密度&累积分布,正态性检查,34,0.905+0.0475=0.952,神马区别?,概率密度函数,累积分布函数,正态分布重要参数,正态性检查,35,期望值:定律:各数据与平均数之差(离均差)的和为零,方差:定律:各数与平均数之差(离差)的平方(离方差)为最小值,干吗非得整出个平方出来?,拟合优度 (c卡方检查),正态性
11、检查,36,步骤:,条件: 所有期望频数1, 最多20% 的期望频数 .或.临界值时拒绝原假设。,置信区间&置信度,正态性检查,37,置信区间:是指服从某一分布的变量的真实值以一定的概率落在以抽样测量值为依据估算出的区域。置信度:就是前面提到的“一定概率”。,司机小李的体重落入区间(60kg,65kg)的概率是80%.置信区间是什么?置信度是多少?,拟合优度 (c),正态性检查,38,卡方检查,卡方统计量的计算公式(c2值):,实测频数,期望频数,分组数i = 1,2, k,我可不是频率(o)哦,元芳,你怎么看?一个公式引发的思考.,拟合优度 (c),正态性检查,39,卡方检查,计算落入第i
12、分组的概率:,样本标准差,拟合优度 (c),正态性检查,40,卡方检查,期望频数计算公式:,总样品量,E(fi) = npi, 条件: (Efi)1,最多20% 的(Efi)值5.,组间距离 (XMax-XMin)/(n+1)组数(k)n,=-.497/1.497-.710/3.710-.068/4.068+.026/1.974+1.578/0.422=6.197,查临界值表 . df = 0.1026 选定的值,不拒绝原假设Ho,数据服从正态分布.,AD检查,正态性检查,42,操作方法,AD检查,正态性检查,43,正态概率图,总结陈述:在选定的值为0.05的情况下,3组数据P值均0.05,接
13、受原假设,数据服从数据服从正态分布.,正态分布,正态性检查,44,在座各位的身高是否服从正态分布?如果不考虑性别如果考虑性别,练习,ANOVA,单因子实验,45,方差分析 (F分布检测),组间变差组内变差总变差,ANOVA,组间=3个水平之间,组内=各个水平内部,ANOVA,单因子实验,46,条件或假设独立的样本正态分布且;相同的标准差(有时被表述为方差相等)Ho: 1=2=k, Ha: 不是所有的均值都相等, 这是右侧检测决定值 (多选0.05)构建ANOVA表计算F统计量(F值)在F表中查临界值, 用K-1作为分子自由度, k(n-1)为分母自由度查表确定是否拒绝原假设陈述问题的结论,步骤
14、,ANOVA表,单因子实验,47,+,=,=,=,=,=F临界值拒绝Ho.表明温度对湿度确实有影响,两水平双因子实验,全因子设计,49,陈述实际问题和实验目的,选择“Y”响应变量,陈述因子和水平,选择DOE,实施实验及收集数据,分析实验结果,结论和计划,通过DOE 想达到什么目的?,Y是什么?计量型?计数型?如产出率, 作业时间, 清洁度等,如温度(100,150),重量(20,30,40kg),全因子实验, 田口设计, 2K因子实验或响应曲面设计等,收集实验结果的数据,运用Minitab进行实验数据分析,制定改善方案,必要时重复实验,步骤,无 磷/钾,基本术语,多因子设计,50,主效应,主效
15、应 & 交互作用,基本术语,部分因子设计,Pg 51,正交表是正交实验设计的基本工具是根据均衡分散的思想,运用到组合数学和概率学知识造的一种表格方法。各种试验设计都应用了正交表安排试验.,Ln(tq),正交表代号,正交表行数代表实验次数,正交表列数因素数,因素的水平数代表表中数码数,正交表,两水平双因子实验,全因子设计,52,2 随机分组化设计,单因子3水平DOE,2水平2因子DOE,正交表,两水平双因子实验,全因子设计,53,2实验数据采集,两水平双因子实验,全因子设计,54,2主效应&交互效应分析,X1主效应=(14.3+17)/2-(5+9)/2=8.65,X2主效应=(5+14.3)/
16、2-(9+17)/2=-3.53,X1*X2(交互)主效应=(9+14.3)/2-(5+17)/2=0.65,主效应=高水平(+)下n次试验结果平均 低水平(-)下n次试验结平均,两水平双因子实验,全因子设计,55,2主效应&交互效应分析,总结陈述:X1、X2对响应影响显著,X1X2交互对响应存在较弱影响。,两水平双因子实验,全因子设计,56,ANOVA方差分析,假设符合条件Ho: 1=2=k, Ha: 不是所有的均值都相等, 这是右侧检测决定值 (多选0.05)构建ANOVA表计算F统计量(F值)在F表中查临界值F, 用K-1作为分子自由度, k(n-1)为分母自由度查表确定是否(F值临界值
17、; PF临界值5.32, P值(X1)=1.162*10F临界值5.32, P值(X2)=0.0010.05不拒绝原假设Ho, X1*X2交互对响应影响不显著。,F Fcrit? & Pvalue ?,YES:显著,NO:不显著,F统计量F临界值的概率,线性回归,多因子实验设计,59,EXCEL,= b+bX+bX,线性回归,多因子实验设计,60,EXCEL 回归系数表,线性回归方程式:Y = -47.125 + 0.4325X - 0.1675X,= b + bX + bX,Pvalue ?,YES:显著,NO:不显著,t统计量临界值F; Significant F临界值t/; P 值)拒绝
18、原假设认为该回归系数对响应的影响显著。否则接受Ho,bn对响应的影响不显著,拟合优度检查:看调整复测定系数R, 大于80%拟合效果显著,Pg 63,问题不清目的不明头脑风暴不足试验结果不查嫌DOE 太贵嫌DOE 时间太长对 DOE策略了解不够对 DOE工具掌握不够初期信心不足缺乏管理层支持要即时看到结果缺乏适当指导/支持,有效进行试验的障碍,内容回顾,试验设计,64,因子,响应,水平,随机化区组化,量测重复再性,正态分布,正态性检查,方差分析,线性回归,置信度&置信区间,主效应&交互效应,正交表,假设,家庭作业,单因子实验,65,成立2个跨功能小组,分别设计实施1个多因子DOE。注意需要包含正态性验证、方差分析、线性回归。命题作业:彩箱到美国后磨损严重。自选题X2命题考试,基础篇(完),66,