1、第二节 回归旋转设计,二次回归正交设计具有试验规模小、计算简便和避免了回归系数间的相关性等优点。然而,它与一般回归分析一样, 试验点在因子空间的位置不同(各因素所取水平不同),对应的各个预测值的方差也就不相同,致使设计在各个方向上不能提供等精度的估计,因此不能对不同试验点预测值之间进行直接比较,不易寻找最优区域。为克服这一缺点,本节介绍回归旋转设计(regression-rotable design)。,一、旋转性、旋转设计与旋转性条件,(一)旋转性 设有回归方程 可用预测值方差来评价其“精确度(precision)”,即可见, 与试验点 在空间的位置有关,且D(bj)与cov(bi,bj)和
2、有关,从而与结构矩阵有关。,设用一次回归正交设计所求得的回归方程为,一次回归正交设计的系数矩阵A和相关矩阵C为,于是,一次回归正交设计所得回归系数的方差和协方差为:,所得一次回归方程预测值的方差为:,(4-27)式表明,位于同一球面上的点的预测值 的方差是相等的。这个性质称为旋转性(rotability)。当利用具有旋转性的回归方程进行预测时,对于同一球面上的点可直接比较其预测值的好坏,从而容易找出预测值相对较优的区域。,误差方差,是m维编码空间内的一个球面,球心在原点,半径为,凡与试验中心点距离相等的球面上各点回归方程预测值 的方差相等的回归设计称为旋转设计(rotatable design
3、)。显然,一次回归正交设计具有旋转性。一般二次回归正交组合设计不具旋转性。,(二)旋转设计,回归旋转设计,一方面基本保留回归正交设计的优点:试验次数较少,计算简便,且部分地消除了回归系数间的相关性;另一方面能使二次回归设计具有旋转性。,通过回归的旋转设计使所得回归方程具有了旋转性,这样既有助于克服多元线性回归及二次回归正交组合设计中回归预测值 的方差依赖于试验点在因子空间的位置这个缺点,又可以简单地用的大小表示回归预测值误差的大小,小(试验点距离中心近)误差小,大(距离中心远)误差大。,(三)旋转性条件,下面我们从3个自变量的二次回归方程着手来说明这个问题。,对于m=3,二次回归数据结构式是,
4、共有 个待估计参数。,结构矩阵,对应的信息矩阵 A,由此可见,在三元二次回归中,信息矩阵(系数矩阵)A中元素的一般形式是:其中指数a1,a2,a3分别可取,等非负整数,但是这些指数的和不能超过,即,例如,当a1=a2=a3=0时,(4-28)就是矩阵A的第行第列上的元素N。仔细地观察,还可把系数矩阵的元素分为两类:一类元素,它的所有指数a1,a2,a3都是偶数或零;另一类元素,它的所有指数a1,a2,a3中至少有一个奇数。,在一般的m元d次回归中,共有 项,对应的信息矩阵A是 阶对称方阵,A的元素的一般形式是: 其中指数a1,a2,am分别可取,2d等非负整数,且满足0 a1+a2+am 2d
5、。A的元素亦可类似地分为两类。在旋转设计中,对这两类元素的值的要求,归纳成著名的G. E. P. Box旋转定理。,定理(旋转性条件),m元d次回归设计满足旋转性的充要条件是其对应的信息矩阵的元素其中指数a1,a2,am是如上所述的非负整数,为试验次数,a= a1+a2+am ,a为待定参数,它的下标a一定是偶数,特别是0。,二、一次回归旋转设计,对于 结构矩阵X和信息矩阵A,根据(4-29)式,计算得,矩阵A中其它元素为0。故,三元一次回归旋转设计信息矩阵A为:,当2=1时,表明,一次回归正交设计,也就是2=1时的一次回归旋转设计。,三、二次回归旋转设计,(一) 二次回归旋转设计条件 当m=
6、3,d=2信息矩阵见前,其中,所以三元二次回归旋转设计的信息矩阵的元素有如下特点(三元二次回归旋转性条件):,A的其它元素皆为,于是,0 1 2 3 12 13 23 11 22 33 2、4待定。,一般,m元二次回归旋转设计的信息矩阵的元素有如下特点(m元二次回归旋转性条件):,这时,二次旋转设计信息矩阵有如下形式(其中空白处为零):,经计算,有:,其中 。由此可见,要使|A|0,即矩阵A为非退化的,必须要有:(4-31)式称为m元二次旋转设计的非退化条件(non-degenerative conditions)。,1、非退化性的实现,可以证明只要N个试验点至少分布在两个半径不等的球面上就可
7、以满足非退化条件(4-31)。最简单的情况是把N个试验点分布在两个或三个球面上。,2、旋转性的实现,在组合设计中,N个试验点 分布在个球面上: mc个点分布在半径为 的球面上;m=2m个点分布在半径为 的球面上;m0个点集中在半径 的球面上。因而组合设计总是满足非退化条件(4-31)的。通过调整星号臂的值可以使组合设计满足旋转性条件(4-30)。,在组合设计中,而偶次方元素 都不为零,为了满足旋转性条件(4-30),即满足 就行了。,在mc=2m(全因子实施)的情况下,要使 成立,即,对于mc=2m-1和mc=2m-2(全面试验的1/2或1/4实施),由(4-32)式或(4-33)式算出的常用
8、的和2值列于表4-21。,(二) 二次回归旋转组合设计中m0的选择,二次回归旋转组合设计具有同一球面预测值 的方差相等的优点,但b0与bjj,bii与bjj间存在相关性。 通过适当地选取m0,能使二次旋转组合设计具有更好的统计性质。,1、使二次回归旋转组合设计具有正交性,(1)使二次回归旋转组合设计具有几乎正交性 所谓几乎正交性(near orthogonalty)是除b0与bjj相关外,其他回归系数之间不存在相关,此处,就是要解决bii与bjj之间的相关问题。由保证cov(bii,bjj)来确定N,进而确定m0。 表4-22提供了进行二次回归几乎正交旋转组合设计的各种参数。,例如对m=3的情
9、况,可选m0=9来进行二次回归几乎正交旋转组合设计。三因素二次回归几乎正交旋转组合设计结构矩阵如表4-23所示。,(2) 使几乎正交成为完全正交,使几乎正交成为完全正交,即解决b0与bjj相关的问题。对平方项列的元素施行中心化变换,即令 便可消除b0与bjj之间的相关,进而获得二次回归正交旋转组合设计结构矩阵。,例如,对于m=3,d=2,因为 所以三因素二次回归正交旋转组合设计结构矩阵如表4-24所示。,2、使二次回归旋转组合设计具有通用性,二次回归旋转组合设计,具有同一球面上各试验点的预测值 的方差相等的优点,但它还存在不同半径球面上各试验点的预测值 的方差不等的缺点。为了解决这一问题,提出
10、了回归设计的通用性(generality)问题。所谓通用性是指各试验点与中心的距离在01范围内,其预测值 的方差基本相等。具有通用性的设计称为通用设计(common design),亦称等精度设计(equal precision design)。同时具有旋转性与通用性的组合设计称为通用旋转组合设计(common rotation design)。,表4-25提供了进行二次回归通用旋转组合设计的各种参数。此处的m0比二次回归几乎正交旋转组合设计m0的小。表4-26是三因素二次回归通用旋转组合设计结构矩阵。,在二次回归通用旋转组合设计中,常数项b0与平方项回归系数bjj,平方项回归系数bii与bj
11、j(ij)间还存在着相关,所以说通用旋转组合设计是损失了部分正交性而达到了单位球内基本一致精度的要求。,综上所述,m元二次回归旋转组合设计包括:二次回归几乎正交旋转组合设计,二次回归正交旋转组合设计和二次回归通用旋转组合设计。组合设计保证了非退化性,的选择保证了旋转性,m0的选择保证了通用性或几乎正交性,将平方项 列的元素中心化保证了几乎正交成为完全正交。,简而言之,旋转组合设计使预测值 有等距等方差的性质;正交旋转组合设计消除了各项回归系数间的相关性;通用旋转组合设计以损失部分正交性为代价保证了预测值 在单位球内基本等方差。,四、二次回归旋转组合设计的统计分析,二次回归旋转组合设计的统计分析
12、方法,因该设计是具有正交性、几乎正交性还是通用性而有所不同。下面先介绍分析的基本步骤与有关计算公式,而后通过实例介绍各种分析方法。,(一) 基本公式与步骤,1、 因素水平编码m个因素:Z1、Z2、Zm;Z2j、Z1j分别为Zj的上、下水平(j=1, 2, , m);Z0j=(Z2j+Z1j)/2; 可利用方法 I 或方法 II 编码。,2、列出试验实施方案,编码因素的试验方案即试验设计包含N=mc+m+m0 个试验点。将编码因素试验方案的编码水平换成相应的实际水平即得试验实施方案。试验结果记为y(=1,2, ,N)。,3、 计算回归系数,二次回归正交旋转组合设计回归系数的计算同二次回归正交组合
13、设计;二次回归通用与几乎正交旋转组合设计回归系数的计算如下:,对于二次回归组合设计,(XX)-1可表示为,对于二次回归通用(G0,E0)与几乎正交(G0,E0)旋转组合设计则有:,其中 即 其中,K、E、F、G、e-1、mc-1的值可查表4-27。横线上方数值用于通用旋转组合设计,横线下方数值用于几乎正交旋转组合设计。,4、回归方程显著性检验,对于正交旋转组合设计,对于通用、几乎正交旋转组合设计,失拟性检验,5、回归系数显著性检验,二次回归正交旋转组合设计的各偏回归系数的显著性检验与二次回归正交组合设计的方法相同,即:各偏回归系数的显著性检验也可用 t 检验(见本节【例44】)。,对于通用、几
14、乎正交旋转组合设计,回归方程中各偏回归系数的显著性检验可用 t 检验(或 F 检验)。此时,因各偏回归系数(包括常数项b0)的方差分别为:,或者,当FLf不显著时当FLf显著时,【例43】,研究锌肥(Zn,硫酸锌)、氮肥(N,硝酸铵)、磷肥(P,三料磷)对玉米产量的影响。采用二次回归几乎正交旋转组合设计建立因素与产量指标间的二次回归方程。根据专业要求,Zn、N、P三种肥料的上、下水平分别取:4.0、1.0;55.0、14.0;17.5、4.5。,(1)因素水平编码,因为影响产量指标的因素有3个,即m=3,采用二次回归几乎正交旋转组合设计,查表4-22,得=1.682,2=2.828 。利用方法
15、对因素水平编码,见表4-28。,(2)列出试验实施方案,由表4-22查得,mc=8,2m=6,m0=9,N=mc+2m+m0=23 。试验设计与实施方案见表4-29,结构矩阵与试验结果计算见表4-30。,(3)求出常数项b0及各偏回归系数,先求出B0,Bj,Bij,Bjj (i,j=1,2,3),见表430最后一行, 以及T=Bjj=32352.588。查表4-27(横线下方)得,于是,得回归方程为,(4)回归方程及回归系数的显著性检验, 回归方程显著性检验,方差分析见表4-31。, 回归系数显著性检验 t检验,因为 所以,将不显著的一次项x1、x3,乘积项x1x2剔除得:,将上述方程中编码变
16、量 xj 用实际变量 Zj (xj=(Zj-Z0j)/j)表示,则用Excel计算,【例44】,对【例43】采用二次回归正交旋转组合设计建立因素与产量指标间的二次回归方程。,此时,因素水平编码、试验实施方案与【例43】相同。关于试验结果的分析,只需将表4-30中平方项列的元素中心化为: 其余计算与二次回归正交设计相同,结构矩阵与试验结果计算见表4-32。,回归方程,回归方程的显著性检验,将剔除x1、x3、x1x2、x3 的回归方程还原得,将方程用实际变量Zj表示,则为 EXCEL计算,【例45】,鸡肉乳酸发酵试验,研究盐浓度、糖浓度、发酵温度和发酵时间对鸡肉乳酸发酵产酸的影响,采用二次回归通用
17、旋转组合设计,寻求最优发酵条件。,本例,m=4,查表4-25得mc=16,m0=7,N=mc+2m+m0=31,试验因素及水平编码见表4-33(材料选自西南农大)。试验设计和试验结果见表4-34。结构矩阵及结果计算见表4-35。,计算b0及各偏回归系数,查表4-27(横线上方)得,由4-34式可得,回归方程,回归方程的显著性检验,一次项xj、互作项xixj和平方项xj2的偏回归平方和可分别由Qj=bj2/e-1,Qij=bij2/mc-1和Qjj=bjj2/F计算。例如回归方程、偏回归系数显著性检验的方差分析见表4-36。,因为各bij与b0、bj 、bjj均无关,故可直接将F1的互作项从方程
18、中去掉而得到含酸量与各因素间的最优回归方程,得到用实际变量Zj表示的回归方程(略),注意, 二次回归通用旋转组合设计的b0与bii,bii与bjj间相关,可将不显著的一次项和互作项从方程中去掉,但不能将不显著的平方项从方程中去掉。如果将不显著的平方项从方程中去掉, b0与其余的平方项系数bii将受到影响。 EXCEL计算,五、二次回归组合设计的对数编码尺度,在二次回归正交或旋转组合设计中,星号臂的值有时为1或接近1,这样虽然在二次回归组合设计中每个因素取5个水平(,1,0,-1, -),实际只有3个水平,或几乎变成3个水平。例如,在二次回归正交组合设计中,当因素数m为2 或3,且m0=1时,值
19、分别为1 与1.2154;当m=1,m0=2时,1.07809。,另外,有些试验在试验因素水平低时,要求水平间隔密些,小些;在试验因素水平高时,要求水平间隔稀些,大些。亦即希望水平间距大小不同。某些微量元素、生长激素的试验,对因素水平的设置上就有这种要求。为了解决上述问题,在试验设计中可选用其它编码尺度,使编码值xj保持不变的情况下,将试验水平间距拉开一些。,普通尺度与对数尺度的区别 普通尺度:xj Zj将Z2j 编码,,- -1 0 1 x,z,对数尺度(以e为底):xj Zj,将Z2j 编码为e,即 , ;,现将Z j 编码为 , ,有,- -1 0 1 x,z,几种对数编码尺度,从表4-
20、37、表4-38上看出,底数值越大,各个水平的间距就越大。实际应用中,例如初次对某一农药进行试验,很难确定适当的浓度范围,故希望低浓度高浓度都有,且希望低浓度的水平间隔小,高浓度也有个别水平,这时可使用以常用对数尺度来编码,即10x与Z之实际水平相对应,这样有利于找出大致的适用浓度。对于微量元素肥料试验,维生素、微量元素饲料添加剂试验,则常采用自然对数尺度来编码,即ex与Z之实际水平相对应。,【例46】,5种微量元素肥料试验。这5种微量元素是Zn,B,Fe,Mn,Cu,除B采用硼酸钠外,其它肥料均为硫酸盐。由于Zn,Fe,Mn三种肥料每单位面积施用272单位,就产生毒害;而B,Cu两种肥料为每
21、单位面积施用100单位,也产生毒害,研究的重点放在低施肥范围内,故既希望在272、100处进行试验,看其毒害情况,更希望在低水平处多作些试验,探讨微量元素肥料效应。,我们选用自然对数编码尺度,即ex与Z之实际水平相对应。试验设计采用5因素的1/2部分实施的通用旋转组合设计。其设计参数为:=2,N=mc+m+m0=24+25+6=32,已知5个编码值为2,1,0,-1,-2;得e2,e1,e0,e-1,e-2为7.389,2.718,1,0.368,0.135。可用这5个数来求编码值的实际施肥水平。,对于Zn,Fe,Mn上水平已知为272,最大编码值为7.389,于是将272编码为7.389,编
22、码值为1的实际水平即为变化间隔。所以,对于B,Cu,将上水平100编码为7.389,编码值为1的实际水平即为变化间隔。所以,一般,将Z2j编码为e,即Z2j/j=e,所以j=Z2j/e;现将Zj编码为exj,有j=Zj/exj,所以 因为xj=lnZj-lnj,即xj 由lnZj 来表达,所以我们把这种编码尺度叫做以e为底的对数编码尺度,即自然对数编码尺度。,如,又如 本例的因素水平编码表见表4-39。,将各因素水平编码后即可根据设计要求制订具体的试验实施方案。本例,五因素二次回归通用旋转组合设计结构矩阵与结果计算如表4-40所示(将x1,x2,x3,x4,x5分别安排在L16(215)表的1、2、4、8、15列上)。,查表4-27(横线上方)得常数项b0及各偏回归系数由(4-34)式计算,即,回归方程,回归方程及回归系数的显著性检验同前,这里从略。,