1、第十章 回归分析回归分析方法是数理统计中的常用方法之一,是处理多个变量之间相关关系的一种数学方法.第一节 回归分析的概述在客观世界中变量之间的关系有两类,一类是确定性关系,例如欧姆定律中电压 U 与电阻 R、电流 I 之间的关系为 U=IR,如果已知这三个变量中的任意两个,则另一个就可精确地求出.另一类是非确定性关系即所谓相关关系.例如,正常人的血压与年龄有一定的关系,一般来讲年龄大的人血压相对地高一些,但是年龄大小与血压高低之间的关系不能用一个确定的函数关系表达出来.又如施肥量与农作物产量之间的关系,树的高度与径粗之间的关系也是这样.另一方面,即便是具有确定关系的变量,由于试验误差的影响,其
2、表现形式也具有某种程度的不确定性.具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统计规律的一种数学方法.它主要解决以下几方面问题.(1)从一组观察数据出发,确定这些变量之间的回归方程.(2)对回归方程进行假设检验.(3) 利用回归方程进行预测和控制.回归方程最简单的也是最完善的一种情况,就是线性回归方程.许多实际问题,当自变量局限于一定范围时,可以满意地取这种模型作为真实模型的近似,其误差从实用的观点看无关紧要.因此,本章重点讨论有关线性回归的问题.现在有许多数学软件如 Matlab,SAS等都有非常有效的线性回归方面的计
3、算程序,使用者只要把数据按程序要求输入到计算机,就可很快得到所要的各种计算结果和相应的图形,用起来十分方便.我们先考虑两个变量的情形.设随机变量 y 与 x 之间存在着某种相关关系.这里 x 是可以控制或可精确观察的变量,如在施肥量与产量的关系中,施肥量是能控制的,可以随意指定几个值 x1,x2,xn,故可将它看成普通变量,称为自变量,而产量 y 是随机变量,无法预先作出产量是多少的准确判断,称为因变量.本章只讨论这种情况.由 x 可以在一定程度上决定 y,但由 x 的值不能准确地确定 y 的值.为了研究它们的这种关系,我们对(x ,y)进行一系列观测,得到一个容量为 n 的样本(x 取一组不
4、完全相同的值) :(x1,y1),(x2,y2),(xn,yn),其中 yi是 x=xi处对随机变量 y 观察的结果.每对(x i,yi)在直角坐标系中对应一个点,把它们都标在平面直角坐标系中,称所得到的图为散点图.如图 10-1.图 10-1由图 10-1a 可看出散点大致地围绕一条直线散布,而图 10-1b 中的散点大致围绕一条抛物线散布,这就是变量间统计规律性的一种表现.如果图中的点像图 10-1a 中那样呈直线状,则表明 y 与 x 之间有线性相关关系,我们可建立数学模型y=a+bx+ (10.1)来描述它们之间的关系.因为 x 不能严格地确定 y,故带有一误差项 ,假设 N(0, 2
5、),相当于对 y 作这样的正态假设,对于 x 的每一个值有 yN(a+bx, 2),其中未知数 a,b, 2 不依赖于 x,(10.1)式称为一元线性回归模型(Univariable linear regression model).在(10.1)式中,a,b, 2 是待估计参数.估计它们的最基本方法是最小二乘法,这将在下节讨论.记和是用最小二乘法获得的估计,则对于给定的 x,方程(10.2)yabx称为 y 关于 x 的线性回归方程或回归方程,其图形称为回归直线.(10.2) 式是否真正描述了变量 y 与 x 客观存在的关系,还需进一步检验.实际问题中,随机变量 y 有时与多个普通变量 x1
6、,x2,xp(p1)有关,可类似地建立数学模型y=b0+b1x1+bpxp+ , N(0, 2), (10.3)其中 b0,b1,bp, 2 都是与 x1,x2,xp无关的未知参数.(10.3)式称为多元线性回归模型,和前面一个自变量的情形一样,进行 n 次独立观测,得样本:(x 11,x12,x1p,y1),(x n1,xn2,xnp,yn)有了这些数据之后,我们可用最小二乘法获得未知参数的最小二乘估计,记为 0,1,p,得多元线性回归方程= (10.4)y01pbb同理,(10.4)式是否真正描述了变量 y 与 x1,x2,xp客观存在的关系,还需进一步检验.第二节 参数估计1.一元线性回
7、归最小二乘法是估计未知参数的一种重要方法,现用它来求一元线性回归模型(10.1)式中a 和 b 的估计.最小二乘法的基本思想是:对一组观察值(x 1,y1),(x2,y2),(xn,yn),使误差 i=yi-(a+bxi)的平方和Q(a, b) = (10.5)211nniiiiab达到最小的 和 作为 a 和 b 的估计,称其为最小二乘估计(Least squares estimates).直观地说,平面上直线很多,选取哪一条最佳呢?很自然的一个想法是,当点(x i,yi),i=1,2,n,与某条直线的偏差平方和比它们与任何其他直线的偏差平方和都要小时,这条直线便能最佳地反映这些点的分布状况
8、,并且可以证明,在某些假设下,和是所有线性无偏估计中最好的.根据微分学的极值原理,可将 Q(a,b)分别对 a,b 求偏导数,并令它们等于零,得到方程组: (10.6)120,.niiiiiiQyabxab即(10.7)112,.nniiiiiaxybx(10.7)式称为正规方程组.由于 xi不全相同,正规方程组的参数行列式0.212 21112 ()ninnniiiiiixxx故(10.7)式有惟一解(10.8)1(),2.niiiiixybayx于是,所求的线性回归方程为(10.9).b若将 代入上式,则线性回归方程亦可表为ayx(10.10)().yx(10.10)式表明,对于样本观察值
9、( x1,y1),(x2,y2),(xn,yn),回归直线通过散点图的几何中心 ().回归直线是一条过点( ),斜率为 的直线.,xy b上述确定回归直线所依据的原则是使所有观测数据的偏差平方和达到最小值.按照这个原理确定回归直线的方法称为最小二乘法.“二乘”是指 Q 是二乘方(平方)的和.如果 y是正态变量,也可用极大似然估计法得出相同的结果.为了计算上的方便,引入下述记号:(10.11)2221112221111(),() .nnnxiiiinnnyi iii nxyiiiiiiSxxyySxxxy这样,a,b 的估计可写成:(10.12)11,.xynniiSaxb例 10.1 某企业生
10、产一种毛毯,110 月份的产量 x 与生产费用支出 y 的统计资料如表10-1.求 y 关于 x 的线性回归方程.表 10-1月份 1 2 3 4 5 6 7 8 9 10x(千条 ) 12.0 8.0 11.5 13.0 15.0 14.0 8.5 10.5 11.5 13.3y(万元 ) 11.6 8.5 11.4 12.2 13.0 13.2 8.9 10.5 11.3 12.0解 为求线性回归方程,将有关计算结果列表如表 10-2 所示表 10-2产量 x 费用支出 y x2 xy y212.0 11.6 114 139.2 134.568.0 8.5 64 68 72.2511.5
11、11.4 132.25 131.1 129.9613.0 12.2 169 158.6 148.8415.0 13.0 225 195 16914.0 13.2 196 184.8 174.248.5 8.9 72.25 75.65 79.2110.5 10.5 110.25 110.25 110.2511.5 11.3 132.25 129.95 127.6913.3 12.0 176.89 159.6 144 117.3 112.6 1421.89 1352.15 1290Sxx=1421.89- (117.3)2=45.961,10Sxy=1352.15- 117.3112.6=31.3
12、52,= =0.6821, = -0.6821 =3.2585,bxya12.6017.30故回归方程: =3.2585+0.6821x.2.多元线性回归多元线性回归(Multiple linear regression)分析原理与一元线性回归分析相同,但在计算上要复杂些.若(x 11,x12,x1p,y1),(xn1,xn2,xnp,yn)为一样本,根据最小二乘法原理,多元线性回归中未知参数 b0,b1,bp应满足Q= 2011()iipiibbx达到最小.对 Q 分别关于 b0,b1,bp求偏导数,并令它们等于零,得01012()0,12,.niipiiiiijijyxbxpb 即(10.
13、13)0121112 11 2012111,.nnnniipiiniii ipinnnnnipipippiipxbybxxyxbb (10.13)式称为正规方程组,引入矩阵X= Y= B=121212,pnnpx 12,ny01,pb于是(10.13)式可写成XXB =XY. (10.13)(10.13)式为正规方程组的矩阵形式.若(XX) -1 存在,则(10.14)011()pbB.方程 为 p 元线性回归方程.01ybxb例 10.2 见表 10-3,某一种特定的合金铸品,x 和 z 表示合金中所含的 A 及 B 两种元素的百分数,现 x 及 z 各选 4 种,共有 44=16 种不同组
14、合,y 表示各种不同成分的铸品数,根据表中资料求二元线性回归方程.表 10-3所含 Ax 5 5 5 5 10 10 10 10 15 15 15 15 20 20 20 20所含 Bz 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4铸品数 y 28 30 48 74 29 50 57 42 20 24 31 47 9 18 22 31解 由(10.13)式,根据表中数据,得正规方程组 0126560,231458.bb解 之得:b 0=34.75, b1=-1.78,b2=9.于是所求回归方程为:y=34.75-1.78x+9z.第三节 假设检验用最小二乘法求出的回归直线并不
15、需要 y 与 x 一定具有线性相关关系.从上述求回归直线的过程看,对任何一组试验数据(x i,yi)(i=1,2,n)都可用最小二乘法形式地求出一条 y 关于 x 的回归直线 .若 y 与 x 间不存在某种线性相关关系,那么这种直线是没有意义的,这就需要对 y 与 x 的线性回归方程进行假设检验,即检验 x 的变化对变量 y 的影响是否显著.这个问题可利用线性相关的显著性检验来解决.因为当且仅当 b0 时,变量 y 与 x 之间存在线性相关关系.因此我们需要检验假设:H0:b=0;H1:b0 (10.15)若拒绝 H0,则认为 y 与 x 之间存在线性关系,所求得的线性回归方程有意义;若接受
16、H0,则认为 y 与 x 的关系不能用一元线性回归模型来表示,所求得的线性回归方程无意义.关于上述假设的检验,我们介绍 3 种常用的检验法.1.方差分析法(F 检验法)当 x 取值 x1,x2,xn时,得 y 的一组观测值 y1,y2,yn,Q 总 =Syy= 1()nii称为 y1,y2,yn的总偏差平方和 (Total sum of squares),它的大小反映了观测值 y1,y2,yn的分散程度.对 Q 总 进行分析:Q 总 = 2211()()()nni iii iyyy= 2211()()nni ii i=Q 剩 +Q 回 , (10.16)其中Q 剩 = ,21()niiyQ 回
17、 =22 211 1()()()().nn ni i ii i iyabxbx Q 剩 称为剩余平方和(Residual sum of squares),它反映了观测值 yi偏离回归直线的程度,这种偏离是由试验误差及其他未加控制的因素引起的.可证明 是 2 的无偏估计.2Qn剩Q 回 为回归平方和(Regression sum of squares),它反映了回归值 (i=1,2,n)的分散程y度,它的分散性是因 x 的变化而引起的.并通过 x 对 y 的线性影响反映出来 .因此 1,2,n 的分散性来源于 x1,x2,xn的分散性 .通过对 Q 剩 、Q 回 的分析,y 1,y2,yn的分散
18、程度 Q 总 的两种影响可以从数量上区分开来.因而 Q 回 与 Q 剩 的比值反映了这种线性相关关系与随机因素对 y 的影响的大小;比值越大,线性相关性越强.可证明统计量F= F(1,n-2) (10.17)012H剩剩剩给定显著性水平 ,若 FF ,则拒绝假设 H0,即认为在显著性水平 下,y 对 x 的线性相关关系是显著的.反之,则认为 y 对 x 没有线性相关关系,即所求线性回归方程无实际意义.检验时,可使用方差分析表 10-4.表 10-4方差来源 平方和 自由度 均方 F 比回归剩余Q 回Q 剩1n-2Q 回 /1Q 剩 /(n-2)F= (2)Qn剩总计 Q 总 n-1其中: (1
19、0.18).,)(212xyni xi Sby剩剩剩例 10.3 在显著性水平 =0.05,检验例 10.1 中的回归效果是否显著?解 由例 10.1 知Sxx=45.961, Sxy=31.352,Syy=22.124, Q 回 =Sxy2/Sxx=21.3866,Q 剩 =Q 总 -Q 回 =22.124-21.3866=0.7374,F= =232.0102F0.05(1,8)=5.32.n剩剩故拒绝 H0,即两变量的线性相关关系是显著的 .2.相关系数法(t 检验法)为了检验线性回归直线是否显著,还可用 x 与 y 之间的相关系数来检验.相关系数的定义是:r= . (10.19)xyS
20、由于Q 回 /Q 总 = =r2(r1), ,xySxySb则r= . xyb显然 r 和 的符号是一致的,它的值反映了 x 和 y 的内在联系.b提出检验假设: H0: r=0; H1: r0. (10.20)可以证明,当 H0 为真时,t= t(n-2). (10.21)21r故 H0 的拒绝域为tt /2(n-2) (10.22)由上例的数据可算出r= =0.9832,xySt= =15.2319t0.025(8)=2.3060.21nr故拒绝 H0,即两变量的线性相关性显著 .在一元线性回归预测中,相关系数检验,F 检验法等价,在实际中只需作其中一种检验即可.与一元线性回归显著性检验原
21、理相同,为考察多元线性回归这一假定是否符合实际观察结果,还需进行以下假设检验:H0: b1=b2=bp=0; H1: bi不全为零.可以证明统计量F= F(p,n-p-1).0UQn剩其中 U=YX(XX )-1XY- n , Q=YY-YX(XX) -1XY.2y给定水平 ,若 FF ,则拒绝 H0.即认为回归效果是显著的.第四节 预测与控制1.预测由于 x 与 y 并非确定性关系,因此对于任意给定的 x=x0,无法精确知道相应的 y0 值,但可由回归方程计算出一个回归值 = +x0,可以以一定的置信度预测对应的 y 的观察值的yb取值范围,也即对 y0 作区间估计,即对于给定的置信度 1-
22、 ,求出 y0 的置信区间(称为预测区间(Prediction interval)) ,这就是所谓的预测问题 .对于给定的置信度 1- ,可证明 y0 的 1- 预测区间为 (10.24)220()1().xytnS 给定样本观察值,作出曲线 (10.25)22 201 202 ()1()(),.xxyxtnSt这两条曲线形成包含回归直线=+x 的带形域,如图 10-2 所示,这一带形域在 x= 处最窄,说明越靠近,预测就越精确.而当 x0 远离时,置信区域逐渐加宽,此时精度逐渐下降.在实际的回归问题中,若样本容量 n 很大,在附近的 x 可得到较短的预测区间,又可简化计算1,20()1xnS
23、 ,2()t2z图 10-2故 y0 的置信度为 1- 的预测区间近似地等于 (10.26)22,.yz特别地,取 1- =0.95,y0 的置信度为 0.95 的预测区间为01.96,.取 1- =0.997,y0 的置信度为 0.997 的预测区间为02.7,.y图 10-3可以预料,在全部可能出现的 y 值中,大约有 99.7%的观测点落在直线 L1:y= -a2.97 + x 与直线 L2:y= +2.97 + x 所夹的带形区域内 .如图 10-3 所示.bab可见,预测区间意义与置信区间的意义相似,只是后者对未知参数而言,前者是对随机变量而言.例 10.4 给定 =0.05,x0=
24、13.5,问例 10.1 中生产费用将会在什么范围.解 当 x0=13.5,y0 的预测值为:=3.2585+0.682113.5=12.46740给定 =0.05,t0.025(8)=2.306,=0.3036,21()0.7348niiy=1.0808,2 20()(1.5)96xnS故=2.3060.30361.0808=0.7567.220()1()xt即 y0 将以 95%的概率落在(12.4674 0.7567)区间,即预报生产费用在(11.7107,13.2241) 万元之间.2.控制控制实际上是预测的反问题,即要求观察值 y 在一定范围内 y10 时,控制区间为(x 1,x2)
25、;当 2 .A2z第五节 非线性回归的线性化处理前面讨论了线性回归问题,对线性情形我们有了一整套的理论与方法.在实际中常会遇见更为复杂的非线性回归问题,此时一般是采用变量代换法将非线性模型线性化,再按照线性回归方法进行处理.举例如下:模型 y=a+bsint+ , N(0, 2), (10.29)其中 a,b, 2 为与 t 无关的未知参数,只要令 x=sint,即可将(10.29) 化为(10.1).模型 y=a+bt+ct2+ , N(0, 2), (10.30)其中 a,b,c, 2 为与 t 无关的未知参数.令 x1=t,x2=t2,得y=a+bx1+cx2+ , N(0, 2), (
26、10.31)它为多元线性回归的情形.模型 =a+b/x+ , N(0, 2),令 y= , x= ,则有 y=a+bx+ , N(0, 2),1化为(10.1)式.模型 y=a+blnx+ , N(0, 2),令 x=lnx,则有 y=a+bx+ , N(0, 2),又可化为(10.1)式.另外,还有下述模型 Q(y)=a+bx+, N(0,2),其中 Q 为已知函数,且设 Q(y)存在单值的反函数,a,b, 2 为与 x 无关的未知参数.这时,令z=Q(y),得z=a+bx+ , N(0, 2).在求得 z 的回归方程和预测区间后,再按 z=Q(y)的逆变换,变回原变量 y.我们就分别称它们
27、为关于 y 的回归方程和预测区间.此时 y 的回归方程的图形是曲线,故又称为曲线回归方程.例 10.5 某钢厂出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断扩大.通过试验,得到了使用次数 x 和钢包增大的容积 y 之间的 17 组数据如表 10-5,求使用次数 x 与增大容积 y 的回归方程.表 10-5x y x y2 6.42 11 10.593 8.20 12 10.604 9.58 13 10.805 9.50 14 10.606 9.70 15 10.907 10.00 16 10.768 9.93 18 11.009 9.99 19 11.2010 10.49解 散点
28、图如图 10-5.看起来 y 与 x 呈倒指数关系 lny=a+b + ,记 y=lny, ,求出 x,y 的值(表1x1x10-6).表 10-6x y x y0.5000 1.8594 0.0909 2.35990.3333 2.1041 0.0833 2.36090.2500 2.2597 0.0769 2.37950.2000 2.2513 0.0714 2.36090.1667 2.2721 0.0667 2.38880.1429 2.3026 0.0625 2.37580.1250 2.2956 0.0556 2.39790.1111 2.3016 0.0526 2.41590.1
29、000 2.3504作(x,y) 的散点图,如图 10-6.图 10-5 图 10-6可见各点基本上在一直线上,故可设y= a+bx+ , (0, 2),经计算,得=0.1464, =2.2963,xy=0.5902,21()nii=89.9311,21()niiy=5.4627.1nix=-1.1183, =2.4600.ba于是 x对于 y的线性回归方程为y=-1.1183x+2.4600,换回原变量得.1.83.7046xe现对 x与 y的线性相关关系的显著性用 F 检验法进行检验,得F(1,15)=379.3115F 0.01(1,15)=8.68.检验结论表明,此线性回归方程的效果是
30、显著的.小 结本章介绍了在实际中应用非常广泛的数理统计方法之一回归分析,并对线性回归作了参数估计、相关性检验、预测与控制及非线性回归的线性化处理.1. 一元线性回归模型 y=a+bx+ 的最小二乘估计为.,xySbab其中 , , Sxx= ,1nix1niy21niSxy= , Syy= .1nixy21niy2. 变量 y 与 x 的线性相关性假设检验有:(1) 方差分析法(F 检验法)H0: b=0; H1: b0.F= F (1,n-2).02Qn剩剩剩其中Q 回 =Sxy2/Sxx, Q 剩 =Q 总 -Q 回 =Syy-Sxy2/Sxx.给定显著性水平 ,若 FF ,则拒绝 H0,
31、即认为 y 对 x 具有线性相关关系.(2) 相关系数法(t 检验法)H0: r=0; H1: r0.其中r= , t= .xyS022()ntr剩若 t 则拒绝 H0.即认为两变量的线性相关性显著.2()n3. 给定 x=x0 时, y 的置信水平为 1- 的预测区间.2200()1()xabxtnS 重要术语及主题线性回归,最小二乘估计,预测与控制,非线性回归.习 题 十1.在硝酸钠(NaNO 3)的溶解度试验中,测得在不同温度 x()下,溶解于 100 份水中的硝酸钠份数 y 的数据如下,试求 y 关于 x 的线性回归方程.xi 0 4 10 15 21 29 36 51 68yi 66
32、.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.12.测量了 9 对父子的身高,所得数据如下(单位:英寸).父亲身高 xi 60 62 64 66 67 68 70 72 74儿子身高 yi 63.6 65.2 66 66.9 67.1 67.4 68.3 70.1 70求(1) 儿子身高 y 关于父亲身高 x 的回归方程.(2) 取 =0.05,检验儿子的身高 y 与父亲身高 x 之间的线性相关关系是否显著.(3) 若父亲身高 70 英寸,求其儿子的身高的置信度为 95%的预测区间.3.随机抽取了 10 个家庭,调查了他们的家庭月收入 x(单位:百元)和
33、月支出 y(单位:百元),记录于下表:x 20 15 20 25 16 20 18 19 22 16y 18 14 17 20 14 19 17 18 20 13求:(1) 在直角坐标系下作 x 与 y 的散点图,判断 y 与 x 是否存在线性关系.(2) 求 y 与 x 的一元线性回归方程.(3) 对所得的回归方程作显著性检验.( =0.025)4.设 y 为树干的体积,x 1 为离地面一定高度的树干直径,x 2 为树干高度,一共测量了 31 棵树,数据列于下表,作出 y 对 x1,x2 的二元线性回归方程,以便能用简单分法从 x1 和 x2 估计一棵树的体积,进而估计一片森林的木材储量.x
34、1(直径 ) x2(高) y(体积) x1(直径 ) x2(高) y(体积)8.3 70 10.3 12.9 85 33.88.6 65 10.3 13.3 86 27.48.8 63 10.2 13.7 71 25.710.5 72 10.4 13.8 64 24.910.7 81 16.8 14.0 78 34.510.8 83 18.8 14.2 80 31.711.0 66 19.7 15.5 74 36.311.0 75 15.6 16.0 72 38.311.1 80 18.2 16.3 77 42.611.2 75 22.6 17.3 81 55.411.3 79 19.9 17
35、.5 82 55.711.4 76 24.2 17.9 80 58.311.4 76 21.0 18.0 80 51.511.7 69 21.4 18.0 80 51.012.0 75 21.3 20.6 87 77.012.9 74 19.15.一家从事市场研究的公司,希望能预测每日出版的报纸在各种不同居民区内的周末发行量,两个独立变量,即总零售额和人口密度被选作自变量.由 n=25 个居民区组成的随机样本所给出的结果列表如下,求日报周末发行量 y 关于总零售额 x1 和人口密度 x2 的线性回归方程.居民区 日报周末发行量 yi(104 份) 总零售额 xi1(105 元) 人口密度 xi
36、2(0.001m2)1 3.0 21.7 47.82 3.3 24.1 51.33 4.7 37.4 76.84 3.9 29.4 66.25 3.2 22.6 51.96 4.1 32.0 65.37 3.6 26.4 57.48 4.3 31.6 66.89 4.7 35.5 76.410 3.5 25.1 53.011 4.0 30.8 66.912 3.5 25.8 55.913 4.0 30.3 66.514 3.0 22.2 45.315 4.5 35.7 73.616 4.1 30.9 65.117 4.8 35.5 75.218 3.4 24.2 54.619 4.3 33.4
37、 68.720 4.0 30.0 64.821 4.6 35.1 74.722 3.9 29.4 62.723 4.3 32.5 67.624 3.1 24.0 51.325 4.4 33.9 70.86.一种合金在某种添加剂的不同浓度之下,各做 3 次试验,得数据如下:浓度 x 10.0 15.0 20.0 25.0 30.0抗压强度 y 25.2 29.8 31.2 31.7 29.427.3 31.1 32.6 30.1 30.828.7 27.8 29.7 32.3 32.8(1) 作散点图.(2) 以模型 y=b0+b1x1+b2x2+ , N(0, 2)拟合数据,其中 b0,b1,b2, 2 与 x 无关,求回归方程 = + x+ x2.01