1、均匀试验设计,多重线性回归方程的建立,样本估计而得的多重线性回归方程bj为自变量Xj 的偏回归系数(partial regression coefficient),是j的估计值,表示当方程中其他自变量保持常量时,自变量Xj变化一个计量单位,反应变量Y的平均值变化的单位数。,第一节 均匀设计的数据分析基础回归分析模型,多重回归模型,多重回归模型,多重回归的SAS过程 REG(或GLM)过程的基本语法:PROC REG corr;MODEL yx1 X2 XK/P R STB CLM CLI NOINT;RUN; P-计算个体预测值. R-计算残差及个体预测值的标准误. STB-输出标准化回归系数
2、. CLM-输出各均值点的置信区间. CLI-输出各个体预测值的置信区间. NOINT-指明回归不带截距项,多重回归的SAS过程,已知某国每年的进口总额为Y,国内总产值为X1,存储量为X2,总消费量为X3分析进口总额为Y与其它三个自变量间的关系。 表1 外贸数据,SAS程序 data fitness; input x1 x2 x3 y ; CARDS;149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4
3、202.1 2.1 146.0 22.7 212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3 ; proc reg data=fitness OUTEST=RIDGE1;model y= x1 x2 x3 ; Run;,多重回归的SAS过程,The REG ProcedureModel: MODEL1Dependent Variable: yAnalysis of VarianceSum of MeanSource DF Squares Square F Value Pr FMode
4、l 3 204.77848 68.25949 286.01 |t|Intercept 1 -10.13740 1.21480 -8.34 .0001x1 1 -0.05194 0.07034 -0.74 0.4842x2 1 0.58666 0.09459 6.20 0.0004x3 1 0.28768 0.10234 2.81 0.0261,多重回归的SAS过程,data fitness; input x1 x2 x3 y ; datalines;149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0 175.5 3.1 1
5、26.9 19.1180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4202.1 2.1 146.0 22.7 212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3 ;,proc reg data=fitness outest=est; model y= x1 x2 x3/ p r clm cli stb; proc print data=est; run;,The REG ProcedureModel: MODEL1Dependent Variable:
6、 yAnalysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 3 204.77848 68.25949 286.01 |t| EstimateIntercept 1 -10.13740 1.21480 -8.34 .0001 0x1 1 -0.05194 0.07034 -0.74 0.4842 -0.34312x2 1 0.58666 0.09459 6.20 0.0004 0.21294x3 1 0.28768 0.10234 2.81 0.0261 1.30645,第六节多重回归的SAS过程,Uni
7、form Design and its Application,均勻設計及其應用,11,在科学实验过程中,人们熟悉的那些传统的试验设计方法,已不能充分满足快节奏高效率的要求。新时期呼唤新思维新方法。 中国科学家巧妙的将“数论方法”和“统计试验设计”相结合,发明了一种全新的试验设计方法,这就是均匀设计法。 均匀设计法诞生於年。由中国著名数学家方开泰教授和王元院士合作共同发明。,前言,12,13,华罗庚,王元,14,均匀设计是一种试验设计 方法。它可以用较少的试验次数,安排多因素、多水平的析因试 验,是在均匀性的度量下最好的析因试验设计方法。均匀设计也是仿真试验设计和稳健设计的重要方法。,15,-
8、 1 -,均匀设计方法,16,使用方法,我们通过制药工业中的一个实例, 来看均匀设计表的使用方法。,例1.1 :阿魏酸的制备,17,这就是说以阿魏酸的产量作为目标 Y。,阿魏酸是某些药品的主要成分,在制备过程中,我们想增加其产量。,全面交叉试验要N=73=343次,太多了。 建议使用均匀设计。 有现成的均匀设计表,提供使用。参见:,18,经过分析研究,挑选出因素和试验区域,为 原料配比:1.0-3.4 吡啶总量:10-28 反应时间:0.5-3.5 确定了每个因素相应的水平数为7。如何安排试验呢?,“方开泰,均匀设计与均匀设计表,科学出版社(1994).”,之附表 1,网络地址:http:/w
9、ww.math.hkbu.edu.hk/UniformDesing,也可以浏览如下网页,第1步: 将试验因素的水平列成下表:,表 1.1.1:,19,第2步: 选择相应的均匀设计表.,每个均匀设计表有一个记号,它有如下的含义:,Un(qs),均匀设计,试验次数,水平数,因素的最大数,20,例如:,表 1.1.2:,表 1.1.3:,21,每个表还有一个使用表,将建议我们如何选择适当的列。其中偏差为均匀性的度量值,数值小的设计表示均匀性好。例如 U7 (74)的使用表为,表 1.1.4:,表1.1.2:,22,第3步: 应用选择的 UD-表, 做出试验安排。,1. 将 x1, x2和 x3放入列
10、1,和3.,x1 x2 x3,2用x1的个水平替代第一列的1到 7.,1.0 1.4 1.8 2.2 2.6 3.0 3.4,3. 对第二列,第三列做同样 的替代.,13 1.5 19 3.0 25 1.0 10 2.5 16 0.5 22 2.0 28 3.5,4. 完成该设计对应的试验,得到个结果,将其放入最后一列.,表 1.1.5:,23,第 4步: 用回归模型匹配数据,首先,考虑线性回归模型:,这个结果与人们的经验不符。,使用回归分析中变量筛选的方法,比如向后法,得到推荐的模型为:,24,然后,我们尝试用二次回归模型来匹配这些数据:,使用向前的变量选择法,我们发现适宜的模型:,25,表
11、 1.1.6: 方差分析(ANOVA) 表,状态是正常的,所以模型(1.1.4)是可接受的。,图1.1.1:,26,模型,中的三项,在 5%的水平下都是显著的。,图 1.1.2a 匹配图,图 1.1.2b 正态 Q-Q 图,图 1.1.2c偏回归图,27,第5步: 优化 - 寻找最佳的因素水平组合,表1.1.5的设计是73=343个全面试验的部分实施, 其中最好的试验点是值为Y= 48.2%的 #7。它不一定是全局最好的。人们想找到满足下式的x1*和 x3* :,这里求取max的区域为:,28,x1x3的回归系数是正的,x3的回归系数也是正的, x1* = 3.4.,在x3* = 2.7575
12、达到最大值 。,图 1.1.3等值线图, (x1*,x3*),在x1* = 3.4和 x3* = 2.7575处估计响应的最大值是 51.85% 。它比个试验点的最好值48.2%还大。,29,讨论:,因素 x2 没有给响应Y予显著的贡献,我们可以选 x2为 其中点 x2 = 19 ml.,求出的x1* = 3.4 在边界上, 我们需要扩大 x1的试验上限。,在x1 = 3.4和 x3 = 2.7575的邻域,追加一些试验是必要的。,30,在第步,一些优化算法是很有用的。,混合型水平的均匀设计,试验中各因素若有不同水平数,比如,其水平数分别为q1,qk。,31,这时应使用相应的均匀设计表。见,“
13、方开泰,均匀设计与均匀设计表,科学出版(1994).”,之附表2,每个混合水平表有一个记号,含义为:,Un(q1 qk ),均匀设计,试验次数,各定量因素 之水平数,定量因素 的最大数,32,下表是一个混合水平均匀设计表:,33,它的试验数为 12。可以安排水平数为、的因素各一个。,U12(624),此表也是混合水平均匀设计表。,34,它的试验数为 12。可以安排二个6水平因素和一个4水平因素的设计。,- 2 -,混合因素试验,35,使用方法,考虑4个因素:平均施肥量X,分为12个水平(70,74,78,82,86,90,94,98,102,106,110,114)。种子播种前浸种时间T,分为
14、6个水平(1,2,3,4,5,6)。土壤类型B,分4种B1,B2,B3,B4。种子品种A,分3个A1,A2,A3。 对某农作物产量的影响, 前两个为定量因素,后两个为定性因素。,36,例2 .1:在农业试验中,如何安排试验,引出了下面的内容。,混合型因素混合型水平的均匀设计,一般情况下试验中既有定量型连续变化因素,又有定性型状态变化因素。 假设有k个定量因素X1,Xk; 这k个因素可化为k个连续变量, 其水平数分别为q1,qk。 又有t个定性因素G1,Gt, 这t个定性因素分别有d1,dt个状态。,37,人们使用“拟水平法”,或用优化方法计算,求出相应的均匀设计表。,这种混合因素混合水平表有如
15、下的记号和含义:,Un(q1 qk d1 dt ),均匀设计,试验次数,各定性因素 之水平数,定性因素 的最大数,各定量因素 之水平数,定量因素 的最大数,38,U12(12643 2 ),1 2 3 4 5 6 7 1 1 1 1 2 3 1 2 2 2 2 2 3 2 2 1 3 3 3 3 2 1 1 2 4 4 4 4 3 1 2 1 5 5 5 1 1 2 2 2 6 6 6 2 3 2 1 1 7 7 1 3 1 1 1 1 8 8 2 4 3 3 2 1 9 9 3 1 1 3 2 2 10 10 4 2 2 2 1 2 11 11 5 3 1 1 1 1 12 12 6 4 2
16、 3 2 2,39,例:,次试验。 可以安排个 水平数为12和 6的定量因素, 以及总数为 的一个水平 为4、两个水 平为3和两个 水平为2的定 性因素的设计。,U12(12643 ),40,表2.1.1,我们选均匀设计表2.1.1安排此试验,第一列安排平均施肥量X,分为12个水平 第二列安排种子播种前浸种时间T,分为6个水平 第三列安排土壤类型B,分4种B1,B2,B3,B4。 第四列安排种子品种A,分3个A1,A2,A3。,试验的安排及结果如表2.1.2,41,为了进行分析,我们引进5个伪变量。它们的记号和取值如下:,42,它们和 、 一起进行回归分析。,B因素的,A因素的,回归方程如下:
17、,+,=,43,不显著。需进一步考虑高阶回归项。 若我们考虑除主效应外,再多考虑一个2次效应和一个交互效应。这时回归方程化为,44,解得,回归系数的最小二乘估计及其和值为:,+,=,45,解得,非常显著,46,回归系数的最小二乘估计及其和值为:,47,方程为:,其中,1.含变量x 的两项与其它是分离的(即可加的),最大值点在 x=100.127 。,2.含变量z41 z42 的两项与其它是分离的,最大值点在 z41=0 z42=0,即品种3为好。,3.含变量 z31 z32 z33 的四项与其它是分离的,最大值点可能在z31=1 z32=0 z33=0 类型为1,=6 或 z31=0 z32=
18、1 z33=0 类型为2,=6 比较后知道为后者。,所以得到最佳状态组合为 施肥量X=100.127, 浸种时间T=6, 土壤类型B取2, 种子品种A取3, 此时最大值估计为,48,一、表的选择,因素及水平的安排,若试验中有k个定量因素和t个定性因素时,我们从混合型均匀设计表中选出带有s=k+t列的Un(q1qkd1dt)表。 这里要求nk+d+1,其中d=(d1+dt -t). 为了给误差留下自由度,其中的n最好不取等号。 表中前k列对应k个连续变量, 表中后t列可安排定性因素。 安排n个试验,得到n个结果y1,y2,yn。,49,下面综述应注意的事项:,为了分析,首先要将定性因素之状态,依
19、照伪变量法, 将第i个因素分别化成(di-1)个相对独立的n维伪变量Zi1,Zi2,,Zi(di-1)。 将这总共d=(d1+dt-t)个伪变量与相应的k个连续变量X1,Xk一起进行建模分析。 为了保证主效应不蜕化,要对混合型均匀设计表进行挑选。,50,二、试验结果的回归建模分析,如果不理想,则,51,首先考察它们的一阶回归模型:,再考虑一些交互效应,和一些连续变量的高次效应。显然最多可考虑的附加效应数为m个,这里 mn-(k+d-2),值得指出的是,由于Zij *Zij=Zij ,因此无需考虑伪变量的高阶效应,只考虑连续变量的高次效应即可. 又因为Zij1*Zij2=0,j1j2时,因此也无
20、需考虑同一状态因素内的伪变量间的交互效应。 只有i1i2时,才有可能使Zi1j1*Zi2j20,即不同状态因素间的交互效应可能要考虑.。 此外,不要忘记考虑连续变量与伪变量的交互效应。 至于 三个以上的状态因素间 的交互效应项Zi1j1*Zi2j2*Zi3j30的可能性就更少了。,52,- 3 -,混料配方试验,53,使用方法,许多产品都是混合多种成分在一起形成的。,面粉,水,糖,蔬菜汁,椰子汁,盐,发酵粉,乳酸,钙,咖啡粉,香料,色素,咖啡面包,怎样确定各种成分的比例呢?,经验,试验,混料试验,混料配方均匀设计,54,有 s 个因素: X1, , Xs 满足 Xi 0, i = 1, , s
21、 和 X1 + + Xs = 1.,试验区域为单纯形 Ts = (x1, , xs): xi 0, i = 1, , s , x1 + + xs = 1. ,单纯形格子点设计 (Scheffe, 1958),.,单纯形重心设计(Scheffe, 1963),.,轴设计(Cornell, 1975),人们提出了许多混料设计方法,如,55,例如, 成分数 s = 3,单纯形格子点设计,单纯形重心设计,d,轴设计,这些设计的全面评价请参考: Cornell, J. A. (1990). Experiments with Mixtures: Designs, Models and the Analys
22、is of Mixture Data. Wiley, New York.,56,混料均匀设计,上述设计的弱点:许多点在Ts 的边界上;给用户设计的选择不多。,混料均匀设计是要寻找在Ts上均匀散布的试验点。问题: 怎样设计这些试验点呢?,变换方法,57,给定s-1维单位立方体C s-1上的均匀设计,且用 Ck = (ck1, ,ck,s-1), k = 1, ,n 表示。则进行下列必要的 变换:,(3.1.1),xk = (xk1, ,xks), k = 1, ,n 是 Ts.上的均匀设计。,58,变换方法,例3.1 构造T3 上带有11 个(配方)试验点的均匀设计。假设我们选用 U11(112
23、) 和相关的 Ck, k = 1, ,11:,59,变换公式 (4.1) 现在成为:(3.1.2),用这个变换公式, 正方形0,12上的均匀设计 Ck = (ck1, ck2), k = 1, ,11 导出T3上的均匀设计 Xk = (xk1, xk2, xk3), k = 1, ,11 如下:,60,区域 T3 是一个边长为 的等边三角形,用 V2 表示。,1,1,1,T3,x1,x2,x3,T3,可以证明:V2 上的任何点 (z1, z2) 到V2的三条边之距离 d1, d2和d3,满足 d1+d2+d3 = 1.,d1,d2,d3,因此, V2 上任何点 (z1, z2) 都对应一个T3 上的点 (x1, x2, x3), 如果我们像这样在V2上建立一个新坐标系统的话。,x1,x2,x3,61,给定点(x1, x2, x3),计算点(z1, z2)的公式是:,图 3.1.2a,c1,c2,图 3.1 .2b,62,THANK YOU,