1、,第十章线性回归分析,变量之间的关系有两种:确定型的函数关系不确定型的函数关系,这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。 但它们之间存在明显的相互关系(称为相关关系),又是不确定的。 回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。,例:人均收入 X 与人均食品消费支出 Y 的散点图的关系如图。,1.一元线性回归是研究一个自变量与一个因变量的统计关系。,一. 一元线性回归,人均收入X,人均食品支出 Y,这两个变量之间的不确定关系,可以用下式表示:,式中,人均食品消费支出Y 是被解释变量,
2、人均收入 X 是解释变量,1, 2是待估计参数;u 是随机干扰项, 且与 X 无关, 它反映了 Y 被 X 解释的不确定性。,如果随机干扰项 u 的均值为 0, 对上式求条件均值,有,反映出从“平均”角度看,是确定性关系。,例:地区的多孩率与人均国民收入的散点图如下:,人均收入X,多孩率 Y,这两个变量之间的不确定关系,大致可以用下式表示:,设 Z =Ln X ,可将上式线性关系为:,线性回归的任务:就是用恰当的方法,估计出参数 1, 2 ,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参数估计问题。,如果把X,Y的样本观测值代到线性回归方程中,就得到,i =1,2,
3、 ,n, n为样本容量.,从重复抽样的角度看, Xi,Yi也可以视为随机变量。,2. 高斯基本假设,对于线性回归模型,i =1,2, ,n, n为样本容量.,高斯基本假设如下: ui 为随机变量 ( 本假设成立, 因为我们研究就是不确定关系). E(ui) =0, 随机干扰项的期望值等于零(本假设成立, 如果其均值不是零, 可以把它并入到 1 中).Var(ui) =2u , 随机干扰项的方差等于常数(本假设有可能不成立, 以后讨论不成立时如何处理).E(uiuj)=0 (ij) 随机干扰项协方差等于零(本假设,有可能不成立, 以后讨论不成立时如何处理). (5) ui 服从 N(0, 2u
4、)分布; (6) E(Xiuj)=0, 对Xi 的性质有两种解释:a. Xi 视为随机变量, 但与uj无关, 所以(6)成立.b. Xi 视为确定型变量, 所以(6)也成立.,3. 普通最小二乘法 (OLS),设线性回归模型,其中,为1, 2 的估计值, 则 Y 的计算值, 可以,用下式表达:,所要求出待估参数 , 要使 Y 与其计算值之间的“误差平方和”最小. 即: 使得,最小. 为此, 分别求Q 对 的偏导, 并令其为零:,由上两式, 就可求出待估参数 的值.,4. 所求参数的计算公式,的另一个表达式为:,5. 几何解释,残差向量 e =Y = (Y-Y) - (-Y) = y- 向量 y
5、, , e 三者之间关系如图所示,普通最小二乘法要使残差平方和 e2i 最小, 也就是要使 e 的长度尽可能小, 等价于在几何上 e x . 或者说, 的长度应当是 y 在 x 上的投影长度.,二. 多元线性回归,本节要研究一个被解释变量 (因变量) , 多个解释变量(自变量)的线性模型, 即,1. 基本假设,u 为随机变量向量 ;E(u) =0;cov(u) =E(u uT) = 2u In (包含了两个其本假设:一是不存在序列相关,即 ij 时, cov(ui, uj)=E(uiuj)=0;二是具有同方差性(齐次方差性), 即Var(ui) =2u ).,(4) u N(0, 2u In
6、) (5) E(XTu) =0 , 或者, X 为确定矩阵,(6) 秩 ( X ) = k, ( kn),2. 普通最小二乘法估计式,在模型中, 代入样本观测值之后, 可得,用矩阵方式表达为Y = X + u,其中, Y =(Y1, Y2, , Yn)T u = (u1, u2, , un)T = ( 1, 2, , k)T,若估计出, 则有,所以,于是有,两边左乘XT, 得,由几何解释XT e , 故有XTe = 0, 所以可以求出:,这就是普通最小二乘法估计系数公式.,3. 估计系数 的性质,高斯- 马尔柯夫定理: 在模型的基本假设下, 所估计的参数值 是最优的.,即, 满足最小方差性,
7、线性的、无偏的, 且有,4. 的方差及分布,表示矩阵 的对角线元素, 简记 cjj .,(注: 为向量),所以,可以证明:,(1)(2),5. 干扰项方差的无偏估计,得到回归系数后, 就可以得到 Y 的计算值如下:,从而有残差值ei,向量e 由 ei 组成 ,称为残差平方和,记为Q.,且,为 的无偏估计量。,R2 称为判定系数, 它反映了回归效果的好坏. 其定义可以从线性回归的几何解释中引出.,多元回归的几何解释的图形与一元回归的几何解释图形完全相同, 只是横坐标 x 不再表示一个变量, 而是表示 k-1 个变量.,6. 判定系数R2,判定系数R2的定义为:,e,y,x,式中, , 其经济解释
8、为,已解释变差占总变差的百分比.,判定系数R2的另一种表达:,7. 回归效果的F检验,检验回归效果的F统计量的定义式为:,服从F(k-1, n-k)分布.,F越大越好. 当计算出的统计值 f f(k-1, n-k), 就表示回归,效果是好的, 在 水平下, 已解释方差(Y的变化中已经解释的部分)明显大于未解释方差(Y的变化中尚未解释的部分).,8. F与 R2的关系,F 统计量与R2的统计量的关系, 可以从下式的推演中看到:,推演中用到勾股定理: 。,9. 校正的判定系数(Adjusted R2),统计量R2中不含有自由度。所谓校正的判定系数,就是指“考虑了自由度的判定系数R2adj”。其定义
9、如下:,这样,R2adj剔除了自由度的影响。,10. 回归系数的 T 检验,假设Ho: j=0; 备择假设H1: j 0 (即 Ho 不成立).,用统计量:,服从t (n-k), 可以完成上述假设检验.,当 时, H1成立, 即 j 显著异于0.,( n 5 时, 若取 =0.05, 则当t 2 时, 有H1 成立, 即j显著异于0 )针对回归系数的 t 统计量的显著性检验, 决定了相应的变量能否作为解释变量进入回归方程.,注意:,11. 回归系数的置信区间,得到区间 为 水平上的置信区间.,例: =0.05, 则,给定一置信水平 , 用统计量,即,12. 偏相关系数的另一种几何解释,定义:
10、偏相关系数是在其他变量不变的情况下, 任意两个变量之间的相关系数.,例如: 已知,偏相关系数,表示排除X3, , Xk影响,后的Y和X2之间的相关关系, 其计算过程如下:,(1) 求中心化数据y 对中心化数据x3, , xk的OLS估计值:,要求出上式结果, 需经两个步骤:,a. 用中心化数据 y 对中心化数据x3, , xk 回归, 求出回归系数,b. 依托已经求出的回归系数 和由样本得到的中心化数据, 计算 .,(2) 令 (从 yi 中剔除 x3, , xk 的影响) .,(3) 求 x2 对x3, , xk的最小二乘估计值:,要求出上式结果, 同样需经两个步骤: 先用x2 对x3, ,
11、 xk,回归, 求出回归系数 , 然后求出 .,(4)令 (从 中剔除 x3, , xk 的影响).,(5) 求得偏相关系数如下:,偏相关系数的几何解释: 在下图中, 偏相关系数是图中 角的余弦:,偏相关系数的几何解释,注意: 图中, , 已知从图中左边的虚线, 平移到右边的虚线.,13. 复相关系数的另一种几何解释 复相关系数 R 是图中y与其投影向量的夹角 的余弦.或者说, 判定系数是该余弦的平方.,x2,复相关系数的另一种几何解释,14. 标准回归系数,在上述回归方程中, 自变量的单位对回归系数的数量级有很大影响, 例如: 元、百元、千元、万元等。为了从回归系数的大小中, 简单比较相应的
12、自变量对因变量的作用大小, 就应当剔除自变量单位的影响。一般的处理方法是把所有的变量“标准化”。 所谓标准化就是指对变量Y, X2, ,Xk进行如下处理:,式中,于是, 原始方程:,就转化为标准方程:,注: 在SPSS中, 所谓标准回归系数, 就是指这一方程的回归系数.,三、逐步回归,回归系数的 F 检验,检验回归系数 j 是否显著性异于 0 , 除了 T 检验外, 还有针对回归系数 (而不是针对总体回归效果)的F检验.,假设Ho: j = 0; 备择假设H1: j 0 (即 Ho 不成立).,可以证明, 服从 2(1) 分布, 且与 (也服 从 2 (n-k)分布)相互独立.,若再记: ,
13、则有,Fj = (n-k)Vj / Q 服从F ( 1, n-k) 分布.,把 Fj 的显著性概率 p 与置信度水平 比较, 就可以判断一个变量 xj 是否应当成为自变量:,P 0.05 , 接受Ho , j与 0 没有显著性差异, xj不应成自变量.,P 0.05 , 拒绝Ho , j与 0 有显著性差异, xj 应成自变量.,2. 偏解释变差 (偏回归平方和),在一个回归方程中, 当把 xj 从自变量的队伍中删除以后, 我们可以得到一组新的回归系数的估计值:,从而得到 Y 的新的计算值:,注意: 下标不包含 j .,如果用小写的 y , x 表示中心化的数据, 就有,这时| *|2是新的(
14、在自变量中不含xj的)已解释变差( 新的回归平方和 ).,可以肯定地说, 在自变量中删除一个变量之后, 已解释变差只可能变小(在被删除的解释变量多少有一点解释作用的情况下, 已解释变差变小), 或者已解释变差不变(在被删除的解释变量没有一点解释作用的情况下, 已解释变差不变), 即| |2 | *|2.,于是, | |2 - | *|2 就是 xj 对已解释变差 (回归平方和) 的贡献, 因此, 称 | |2 - | *|2 为 xj的偏解释变差(偏回归平方和).,可以证明, , 也就是说, Vj就是 xj 的偏解释变差(偏回归平方和).,从残差 (或未解释变差的)角度来考虑: 在自变量中删除
15、一个变量之后, 未解释变差只可能变大 ( 或者不变 ). 若记, |e*|2是从自变量中删除变量 xj 之后的未解释变差,那么就有 |e|2 |e*|2.,可以证明, |e*|2 - |e|2 =Vj . 而,也就是说, 在删除变量 xj 之后的未解释变差的增加量, 刚好等于已解释变差的减少量, 刚好等于 xj 的偏解,释变差 ( 偏回归平方和 ).,以上数量关系的几何解释如下:,y,偏解释变差的几何解释,从图中, 显示 x2 是从自变量中删除的变量, 是中心化数据 y 对所有自变量 (x2, , xk )回归的已解释变差(回归平方和),由勾股定理, 得| |2 - | *|2 = |e(2)
16、 |2 。 |e(2) |2 就是已解释变差的减少部分, 也就是变量 x2 的偏解释变差V2.,从未解释变差 (残差平方和)角度考虑, 图中 |e|2是中心化数据 y 对所有自变量 (x2, , xk )回归的未解释变差(残差平方和), |e*|2是中心化数据 y 对自变量x3, , xk (剔除了x2 )回归的未解释变差 (残差平方和).由勾股定理, 得|e*|2 - |e|2 = |e(2) |2. |e(2) |2就是未解释变差的增加部分, 也就是变量 x2 的偏解释变差V2 .,由此看到, 关于自变量 xj 的系数 j 的 F 检验, 其统计量Fj可以理解为 xj 的偏回归方差(偏解释
17、变量/自由度= |e( j ) |2 /1= Vj /1)与未解释方差(未解释变差/ 自由度= |e|2 / n-k)之比, 也就是,与统计量 Fj = (n-k)Vj / Q 完全相同.,2、逐步回归法,逐步回归法的基本思想:在考虑 Y 对已知的一群变量( X2, ,Xk )回归时, 从变量X2, ,Xk中, 逐步选出对已解释变差的贡献 (也就是偏解释变差) 最大的变量,进入回归方程. 而对已解释变差的贡献大小的判别依据, 就是包含了偏解释变差的 F 统计量Fj. 统计量Fj 的值 fj 最大的 xj , 先进入方程; 最后一个进入方程的自变量 xj , 也应当满足: 统计量的值 fj 的显
18、著性概率 p 小于等于选定的显著性水平 (即, 要求其系数 j 显著异于 0).逐步回归法也可以按照反过来的顺序进行. 先把 Y 对所有的自变量 X2, ,Xk 回归, 然后逐步把 fj 最小的 xj 剔除出方程. 所有剔除出方程的 xj , 在剔除时, 其统计量的值 fj 的显著性概率 p 大于选定的显著性水平 (即, 要求其系数j 与 0 没有显著性差异).,注意: 逐步添加法或逐步剔除法, 都应当强调“逐步” . 不能一次按照各个变量的统计量的值 fj 的显著性概率 p 是否小于等于选定的显著性水平 , 来决定是否作为 Y 的自变量. 因为每添加或剔除一个变量, 都会引起所有回归系数的变
19、化和统计量的值 fj 的变化. 一次处理会造成误判, 只有逐步处理, 才是恰当的.,逐步回归的第三种方法: 一边进, 一边出.“进”与“出”的判别准则通常是不同的. “进”的变量的fj 的显著性概率 p 所对照的显著性水平 1 通常取得大一些, 以便能够有更多的 fj 的外侧概率(显著性概率)小于1 ,也就是使更多的系数 j 显著异于 0 , 从而更多的变量进入方程. 而“出”的变量的 fj 的显著性概率 p 所对照的显著性水平2 , 通常取得小一些, 以便能够有较少的 fj 的显著性概率 p 小于2 , 从而有更少的变量被剔除出方程.,6. Durbin-Watson 统计量D-W 统计量衡量残差的一阶序列相关性,计算方法如下:,作为一个规则,如果DW值小于2,证明存在正序列相关。在例1的结果中,DW值很小,表明残差中存在序列相关。关于Durbin-Watson统计量和残差序列相关更详细的内容参见“序列相关理论”。对于序列相关还有更好的检验方法。在 “序列相关的检验”中,我们讨论Q统计量和 LM检验,这些都是比DW统计量更为一般的序列相关检验方法。,