1、在现实生活中,变量与变量之间经常存在一定的关系,一般来说,可分为两大类,一类是确定性的关系,这种关系通常用函数来表示;另一类是非确定性关系,变量之间的这种非确定性关系通常称为相关关系。回归分析就是数理统计中研究相关关系的一种数学方法,它就是通过大量的试验或观测,发现变量之间关系的统计规律,它在工农业生产和科学研究各个领域中均有广泛应用。回归分析一般分为线性回归分析与非线性回归分析。本次课程着重介绍线性回归分析,它是两类回归分析中较为简单的一类,也是应用得较多的一类。,四、线性回归模型,为了研究方便,我们考虑一个变量受其它变量影响时,把这变量称为因变量,记为Y,其它变量称为自变量,记为X,这时相
2、关关系可记作Y=f(x)+ 其中f(x)为当X=x时,因变量Y的均值,即f(x)=E(Y|X=x) 称f(x)为Y对X的回归函数,为Y与f(x)的偏差,它是一个随机变量,假定E()=0。,回归函数可以是一元函数,也可以是多元函数,即 Y=f(x1,x2,xm)+ 其中,f(x1,x2,xm)= E(Y|X1=x1,X2=x2,Xm=xm)为m元回归函数,统称为多元回归函数。,问题 (水泥凝固时放出热量问题),表1,一般地,多元线性回归模型可表示为,建立线性回归模型 其中, 是未知参数,为了估计这些参数,将表1的值代入模型得,其中,x1,x2,xm是自变量,b0 , b1,b2,bm为回归系数且
3、未知,统称为回归参数,一旦回归参数确定,则多元线性回归模型就完全确定,一般假定随机误差,为了得到回归参数的估计值,就要对变量进行观测,假设对变量的n(nm)次独立观测数据为(yi,xi1,xi2,xim),i=1n, 则这些观测数据应满足上式,即有,则多元线性回归的数学模型式可以写成矩阵形式,若记,为了获得参数的估计,我们采用最小二乘法,即选择,使,达到最小。将Q()对求导数并令其为零,得,回归系数的最小二乘估计,模型参数估计,此方程称为正规方程,其中 X 为n(m+1) 阶矩阵,一般假定rank(X)=m+1,由线性代数理论可知,L=XTX为满秩矩阵,它的秩rank(L)=m+1,则正规方程
4、有唯一解,记作,即,记 ,则,在实际工作中,常称为经验线性回归方程。,多元线性回归模型的检验与预测,从上面的参数估计过程可以看出,对于一批观察数据,不论它们是否具有线性关系,总可以利用最小二乘法 建立起多元线性回归方程,但是Y与x1,x2,xm 是否确实存在相关关系呢?回归方程的效果如何呢?这就要进行“整个回归效果是否显著”的检验。,当 时, 没有关系, 回归模型没有意义,于是我们要检验 是否成立。,若H0成立,则x1,x2,xm对y没有影响;反之,若H0不成立,则x1,x2,xm对y有影响,此时y与x1,x2,xm的线性关系显著,也称为整个回归效果显著。,但要注意,即使整个回归效果是显著的,
5、y也可能只与某几个xi关系密切(相应的bi显著不为零),而与另几个xi关系不密切(相应的bi为零),这就是说,多元线性回归除了首先要检验“整个回归是否显著”外,还要逐个检验每一个bi是否为零,以便分辨出哪些xi对y并无显著影响,最后,还要对各个bi作出区间估计。,1回归方程的显著性检验,(1)回归显著性检验(F检验),若H0为真,(回归平方和),(残差平方和),(复相关系数),(2)单个回归系数为零的检验(t检验),若H0i为真,为 中第i个对角线元素。,2回归系数的置信区间,对bi的区间估计,由于 因而bi的 置信区间为其中,3预测,a)点预测,求出回归方程,对于给定自变量的值 ,用来预测,
6、称 为 的点预测。,y0的95%预测区间近似为 其中,b)区间预测,1多项式回归分析模型,多元线性回归分析模型的推广,多项式回归模型的一般形式为:,令,则模型就变成为多元线性回归模型:,多项式回归还有许多推广的形式: 上述模型的共同特点是未知参数都是以线性形式出现, 所以都可以采用恒等变换化为多元线性回归模型。,广义线性回归模型的一般形式为:其中: 是一个不含未知数参数的一元函数,且有反函数:的不含未知参数的多元函数。,2广义线性回归模型,广义线性回归模型的回归系数的确定:,达到最小。,此时也就是令,即广义线性回归模型化为多元线性回归模型。,则,用最小二乘法求出 的估计 使得,建立线性回归模型
7、的步骤,2.估计参数,1.建立理论模型,3.进行检验,c) 复相关系数,d)回归系数显著性检验(t检验),e) 总体回归方程的显著性检验(F检验),4进行预测,Matlab求解,1)求回归系数的点估计和区间估计、并检验回归模型: b, bint,r,rint,stats=regress(Y,X,alpha),1Matlab命令,回归系数的区间估计,2)画出残差及其置信区间: rcoplot(r,rint),其中b,X,Y分别为:,水泥凝固时放出热量问题 在Matlab编辑器中输入以下程序:,2实际问题的求解, x1=7 1 11 11 7 11 3 1 2 21 1 11 10; x2=26
8、29 56 31 52 55 71 31 54 47 40 66 68; x3=6 15 8 8 6 9 17 22 18 4 23 9 8; x4=60 52 20 47 33 22 6 44 22 26 34 12 12; y=78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4; x=ones(13,1) x1 x2 x3 x4; b,bint,r,rint,stats = regress(y,x,0.05) ;,disp (回归系数估计值) b disp(回归系数估计值的置信区间) bint dis
9、p(残差平方和) r*r disp(相关系数的平方) stats(1) disp(F统计量) stats(2) disp(与统计量F对应的概率p) stas(3) 执行后输出,回归系数估计值b = 62.40541.55110.51020.1019-0.1441 回归系数估计值的置信区间 bint = -99.1786 223.9893-0.1663 3.2685-1.1589 2.1792-1.6385 1.8423-1.7791 1.4910 残差平方和 ans = 47.8636 相关系数的平方ans = 0.9824F统计量ans = 111.4792,从计算结果可知,回归方程,查表得
10、: 易见统计量,进一步可得 所以回归效果是高度显著的。,表2,解 (1)由表2给出的数据画出散点图: x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164; y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102; plot(x,y,*),由图1可以看出,数据点大致落在一条直线附近,这说明变量与之间的关系大致可以看做是直线关系。,图1 散点图,(2)输入数据进行回归分析及检验: x=143 145 146 147 149 150 153 154 155 156 157
11、158 159 160 162 164; X=ones(16,1) x; Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102; b,bint,r,rint,stats=regress(Y,X,0.05) ; b,bint,stats,输出结果: b =-16.07300.7194 bint =-33.7071 1.56120.6047 0.8340 stats = 0.9282 180.9531 0.0000 1.7437,即 ; ; 的置信区间为-33.7071,1.5612, 的置信区间为0.6047,0.8340;,可知回归方程 成立。
12、,(3)残差分析,作残差图: rcoplot(r,rint)从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差区间均包含零点,说明回归方程能较好的符合原始数据,而第二个数据可视为异常点。,(4)预测及作图 z=b(1)+b(2)*x;plot(x,Y,*,x,z,r)得各数据点及回归方程的图形如图2,可以看出,只有第二个数据点离回归直线距离较远。,图2,当身高为167cm x=167; z=b(1)+b(2)*x z =104.0668 可以预测腿长为104.0688cm,“最优”回归的选择,所谓“最优”回归方程有两方面的含义:一方面回归方程中要将有显著作用的自变量毫无遗漏的包含进来,另一方面希望自变量的个数尽可能的少,一般选择“最优”回归有如下几种不同的方法。,(2)“只出不进”法,(3)“只进不出”法,(4)“有进有出”法逐步回归法,(1)全部比较法,