1、1线性回归专题一元线性回归在客观世界中普遍存在着变量之间的关系。变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系是指变量之间的关系可以用函数关系来表达。另一种非确定性的关系即所谓相关关系。例如人的身高与体重之间存在着关系,一般来说,人高一些,体重要重一些,但同样高度的人,体重往往不相同。人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同。气象中的温度与湿度之间的关系也是这样,这是因为我们涉及的变量(如体重、血压、湿度)是随机变量,上面所说的变量关系是非确定性的。回归分析是研究相关关系的一种数学工具。它能帮助我们从一个变量取得的值去估计另一变量所取的值。(一)一元线性回
2、归 设随机变量 与 之间存在着某种相关关系。这里, 是可以yxx控制或可以精确观察的变量,如年龄、试验时的温度、施加的压力、电压与时间等。换句话说我们可以随意指定 个值 。因此我们干脆不把 看成随机变量,而把它nnx,21 x当作普通的变量。本章中我们只讨论这种情况。由于 是随机变量,对于 的每一个确定值, 有它的分布。若 的数学期望存在,y yy则其取值随 的取值而定,即 的数学期望是 的函数,记为 或 。 称为xyxx|)(x关于 的回归。由于 的大小在一定程度上反映在 处随机变量 的观察值的大小,)(x因此如果能设法通过一组样本来估计 ,那么,在一定条件下我们就能解决如下的问题:)(x在
3、给定置信度下,估计出当 取一定值时,随机变量 的取值情况,即所谓预测问题;以y及在给定置信度下,控制自变量 的取值范围,使 在给定的范围内取值,即所谓控制问题。我们对于 的、取定的一组不完全相同的值 ,作独立试验得到 对观察x nx,21 n结果,),(),(,21nyxy其中 是 处对随机变量 观察的结果。这 对观察结果就是一个容量为 的样本。iixnn我们首先要解决的问题是如何利用样本来估计 关于 的回归 。为此,首先需要推测yx)(的形式。在一些问题中,我们可以由专业知识知道 的形式。否则,我们可将每)(x对观察值 在直角坐标系中描述出它的相应的点,这种图称为散点图。散点图可以帮),iy
4、助我们初略地看出 的形式。(x2例 1 为研究某一化学反应过程中,温度 对产品得率 的影响,测得数据)(0Cx(%)y如下。温度 )(0Cx100 110 120 130 140 150 160 170 180 190得率 %y45 51 54 61 66 70 74 78 85 89这里自变量 是普通变量, 是随机变量。画出散点图如图 9-2 所示。由图大致看出y具有线性函数 的形式。)(xbxa图 9-2设 关于 的回归为 。利用样本来估计 的问题称为求 关于 的回归问题。特yx)(x)(xyx别,若 为线性函数: ,此时估计 的问题称为求一元线性回归问题。)( ba本节我们只讨论这个问题
5、。我们假定对于 (在某个区间内)的每一个值有x,),(2baNy其中 及 都是不依赖于 的未知参数。对 作这样的正态假设,相当于假设,2 y, (3.2)xy),0(2其中未知参数 及 都不依赖于 。 (3.2)式称为一元线性回归模型。ba,2x如果由样本得到(3.2)式中 的估计 ,则对于给定的 ,我们取 做ba,xxbay为3的估计。方程bxa)(y称为 关于 的线性回归方程或回归方程,其图形称为回归直线。思考:回归模型与回归方程有何异同?(二) 的估计 取 的 个不全相同的值 作独立试验,得到样本ba,xnnx,21。由(3.2)式,得),()(,21nyxy, ,各 相互独立。 (3.
6、3)iii),0(2Ni i于是 , 。且由 的独立性,知),(2iibxaNyn1ny,21的的联合密度为n,21 i iibxayL1 22)(exp(3.4)ni iin122)(2现用极大似然估计法来估计未知参数 , 。对于任意一组观察值 , (3.4)式abny,21就是样本的似然函数。显然,要 取最大值,只要(3.4)式右端方括弧中的平方和部分为L最小,即只需函数(3.5)ni iibxaybaQ12)(),(取最小值。注意:如果 不是正态变量,则直接用(3.5)式估计未知参数 , ,使得 的观察值 与y abyi偏差的平方和 为最小。这种方法叫最小二乘法。它是求经验公式的一个常i
7、bxa),(baQ用方法。若 是正态变量,则最小二乘法与极大似然估计法给出相同的结果。取 分别关于 , 的偏导数,并令它们等于零:(3.6)0)(21ni iii iixbaybQa4得方程组(3.7)niinini ii yxbax1121(3.7)式称为正规方程组。为了和多元线性回归结合,设样本为 nyx121则正规方程组也可以表示为: niinini ii yxbax11211若用矩阵表示,则那么121nxX 121nxx banyY21niniix1211niiiyxYX1正规方程组可表示为 YX由于 不全相同,正规方程组的系数行列式ix niinininiii xxx12211212
8、 0)(即50)(1212112121 niininininii xxx故(3.7)式有唯一的一组解。解得 的极大似然估计为ab,(3.8)xbynya xyxyynbii niiiiinii iiii 1 )(1122121于是,所求的线性回归方程为(3.9)xby若将 代入上式,则线性回归方程变为a(3.10))(xy(3.10)表明,对于样本观测值 ,回归直线通过散点图的几),(),(,21nyxyx何中心 。),(yx今后我们将视方便而使用(3.9)或(3.10) 。为了计算上的方便,我们引入下述记号: 211212)( nininiix xxS211212)( nininiiy yy
9、 niiniiniiixy yxxxS 111)(这样, 的估计可写成ba,(3.12)bxnyaSinixy16(三) 的估计 , 称为 处的残差,平方和2xbayiiyixni iiniiieQ1212)()(称为残差平方和。残差平方和服从分布:(3.14))2(2ne于是 ,即 ,2QEe 2nQEe即知 (3.15)2ne是 的无偏估计。2为了便于计算 ,我们将 作如下的分解:2eQ1212 221112()()()()()neiiiinii nni ii i ini ii i iyxyxQybxybyxbxSbS由(3.12)式 ,得 的一个分解式xeQ(我们经常使用)yyeSbQ另
10、外一个分解式是(我们不常使用,因为公式中含有 这个随机变量) 。xye2 b(四)线性假设的显著性检验 在以上的讨论中,我们假定 关于 的回归 具有yx)(形式 ,在处理实际问题时, 是否为 的线性函数,首先要根据有关专业知识bxa)(x7和实践来判断,其次就要根据实际观察得到的数据运用假设检验的方法来判断。这就是说,求得的线性回归方程是否具有使用价值,一般来说,需要经过假设检验才能确定。若线性假设(3.1)符合实际,则 不应为零,因为若 ,则 就不依赖于 了。因此我们需b0byx要检验假设(3.17)0:10Hb我们使用 检验法来进行检验。我们有t),(2xSN又由(3.14) , (3.1
11、5)知 )2()2(2nQne且 与 独立。故有be )2()2(22ntnSbbxx即(3.20))2(2ntSbx思考:与上式有何异同?2(0,1)xbNS提示:若 ,则 , 即 ,且),(2X2(,)XNn2(0,1)XN)1(2ntsX提示完毕。思考完毕。当 为真时 ,此时0Hb8)2(2ntSbtx且 ,即得 的拒绝域为0)(bE0H, (此处 为显著性水平。 ))2(22ntStxx回顾:三种重要分布为:(一)设 是来自总体 的样本,则称统计量nX,21 )1,0(N22服从自由度为 的 分布,记为 。2)(2n(二)设 , ,并且 与 独立,则称随机变量)1,0(NX)(2YXY
12、nt服从自由度为 的 分布,记为 。t)(nt(三)设 ,且 与 独立,则称随机变量),(212VUUV2nF服从自由度为 的 分布,记为 。),(1F),(21nF回顾完毕。请证明:服从自由度为 的 分布的随机变量 的平方 服从 分布。ntX2),1(n证明:在此题中,设 , ,且 与 独立,则根据 分布的定义有)1,0(NY)(2nZYZtntZX9另外,根据 分布的定义,有 ,且根据题意, 与 相互独立,又根据2)1(2Y2YZ分布的定义,有F,而 ,即),1(2nZY 22XnZZ),1(2nF证明完毕。推论:根据上述命题,有 2222(1,)xxbt FnS所以22()(1,)tnn
13、即 的显著性水平为 的拒绝域为 。0H)2,1(nF推论完毕。当假设 被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著。0:b回归效果不显著的原因可能有如下几种:影响 取值的,除了 外,还有其它不可忽略的因素。01yx与 的关系不是线性的,而是存在着其它的关系。2x与 不存在关系。03y因此,当拒绝 时,需要进一步地分析原因,分别处理。0H(五)系数 的置信区间 当回归效果显著时,我们常需要对系数 作区间估计。事b b实上,可由(3.20)式得到 的置信度为 的置信区间为1(3.23)xSnt22)((六)预测 回归方程的一个重要应用是,对于给定的点 ,可以以一定的置信0x度预测对应
14、的单个观察值 或其均值 的取值范围,即所谓预测区间。0y0()Ey1. 均值 的预测区间0()E10设 是在 处对随机变量 的观察结果,它满足0y0xy, (3.24)ba),(2N容易知道, (3.25)00()Eyx我们可以取 处的回归值 作为 的预测值。x0ab0()Ey命题:(3.26)2000 )(1, xSnbaNy证明:因为 ,所以00x00)()(bxaEyE又因为 (注意: 与 相互独立) ,所以)(0yyb0220220()()()11xxDbxyDnSn因为 服从正态分布, 也服从正态分布,而 是它们的线性组合,所以 也服从正态ab0y0y分布,其均值和方差分别如上所述。
15、即 00(),(yNEDy即200 )1,xnS证明完毕。根据上述命题,容易得到均值 的置信度为 的置信区间为0()Ey1112 20 00 02 2()()11 ,x xyZyZnSnS 当 未知时,用 来代替,此时有22 20 00 02 2() ()11 (),()x xytnytnSS 2. 单个值 的预测区间0因为 是将要做的一次独立实验的结果,故 相互独立。而根据),(yx nyy,210121121122112212()()()()()()()()niiiiinniiiiiinniiiii ii inniiii ii ii iniiiiibxyxyxyxyxyxxy21120()
16、()niiniiiii xxy知 是 的线性组合。bny,21因为 ,bxanii 1所以 是 的线性组合。00byny,2112故 与 相互独立。于是得0y 200 )(1,xSnN或(3.27)1,)(120Sxny备注:这是因为 。20()Dy另一方面由(3.14) , (3.15)式)()2(2nn且 相互独立,故有20,y )2()(1)2()(1 2020 ntSxnynSxy于是对于给定的置信度 ,有11)2()(120ntSxnyP若记 。于是21)2()(120ntSxnyP2 20 00 02 2() ()1() ()1x xyt ytnnS 区间13(3.29) xSnn
17、ty2020 )(1)(称为单个观测值 的置信度为 的预测区间。0备注:由此可见预测区间的意义与置信区间的意义相似,只是预测区间是对随机变量而言,置信区间是对未知参数而言。由(3.29)式知对于给定的样本观察值及置信度 而言,当 愈靠近 ,预测区10x间的宽度就愈窄,预测就愈精密。记 xSnntx2020 )(1)()(则上述预测区间可写成或)(0y)(00xy对于给定的样本观察值,作出曲线和)()(1x)(2xy这两条曲线形成包含回归直线 的带域,这一带域在 处最窄。bax多元线性回归在实际问题中,随机变量 往往与多个普通变量 ( )有关。对于自ypx,21 1变量 的一组确定的值, 有它的
18、分布。若 的数学期望存在,则它是px,21 y的函数,记为 或 ,它就是 关于 的回归。我们x, pxy,21),(21px x感兴趣的是 是 的线性函数的情况。在这里,仅讨论下述多元),(21px 线性回归模型:, (4.1)pbby10 ),0(2N其中 都是与 无关的未知参数。2,p px,21设,),(112yxp,214 ),(21npnyx是一个样本。由模型知 , 。且由),(2210 ipiii xbxbN ni,1的独立性,知 的联合密度为ny,21 ny, i ipiii xbxbL1 22102 )(exp我们用极大似然估计法来估计参数 ,对于任意一组观察值 ,上p,10
19、ny,21式就是样本的似然函数。显然,要 取最大值,只要使上式右端大括弧中的平方和部分为L最小,即只需函数 ni ipiii xbxbyQ1 2210 )(取最小值。取 分别关于 的偏导数,并令它们等于零,得p,10(4.4) 0)(2)( 02)(12101210 1112100ni ipiiipni ijpiiiji iiiini ipiii xbxbybQxbxbyb 化简上式得(4.5) niipnipniipniipnip niiniippniinini iiii yxbxbxxb yxbxb112122110 111221101 (4.5)式称为正规方程组。为了求解正规方程组的方便
20、。我们将(4.5)式写成矩阵的形式。为此,引入矩阵:15, ,npnpxxX 212112 nyY21pbB 10由于 npnpnppp xxxX 21211232111nipniipnipniipnini ii xx121111211 niipniiinppp yxyyxxYX11213211 于是(4.5)式即可写成 YXB )5.4(这就是正规方程组的矩阵形式。在 两边左乘 的逆矩阵 (设 存)5.4(X1)(1X在)得到 的解)5.4((4.6)YXbBp110)(这就是我们需要求的 的极大似然估计。pb,210我们取 pxby1016作为 的估计。方程ppxbbx 1021),((4.7)pby10称为 元线性回归方程。p