1、1浅谈加权最小二乘法及其残差图兼答孙小素副教授何晓群 刘文卿ABSTRACTThe paper introduces some problems in relation to weighted least square regression ,and answers a question about weighted residual plots. 关键词:异方差;加权最小二乘法;残差图;SPSS一、引言好几年没有翻统计研究了。最近,有一同行朋友打电话告诉我统计研究2005年第 11 期上刊登了一篇有关我与刘文卿合作编著的应用回归分析 (2001.6.中国人民大学出版社)教材的文章。赶紧找到这
2、期的统计研究 ,看到其中孙小素副教授的文章加权最小二乘法残差图问题探讨与何晓群教授商榷一文,以下简称孙文 。认真拜读后感触良多。首先衷心感谢孙小素副教授阅读了我们应用回归分析拙作的部分章节,同时感谢统计研究给我们提供这样一个好的机会,使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。孙文谈到应用回归分析教材中有关加权最小二乘法残差图的问题。摆出了与加权最小二乘法相关的三类残差图,指出第三类残差图的局限性。直接的问题是三类残差图的作用,而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。二、对加权最小二乘法的认识1. 加权最小二乘估计方法拙作应用回归分析中对加权最小二乘法
3、有详尽的讲述,这里仅做简要介绍。多元线性回归方程普通最小二乘法的离差平方和为:(1)ni ipiip xxyQ1 21010 )(),( 普通最小二乘估计就是寻找参数 的估计值 使式(1)的离p,1 p,10差平方和 达极小。式(1)中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项 等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无i偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项 的方差i大的项,在式(1)平方和中的取值就偏大,在平方和中的作用就大,因而普通最小二2i乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的
4、拟合程度就差。由式(1)求出的 仍然是 的无偏估计,但不再是最p,10 p,10小方差线性无偏估计。2加权最小二乘估计的方法是在平方和中加入一个适当的权数 ,以调整各项在平方iw和中的作用,加权最小二乘的离差平方和为:(2)ni ipiipw xxywQ1 21010 )( ),( 加权最小二乘估计就是寻找参数 的估计值 使式(2)的离差p,0 ww,0平方和 达极小。所得加权最小二乘经验回归方程记做(3)pwwxxy10理论上最优的权数 为误差项方差 的倒数,即i 2i(4)ii误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中
5、的作用。由(2)式求出的加权最小二乘估计就是参数 的最小方差线性无偏估计。pww,10 p,10一个需要解决的问题是误差项的方差 是未知的,因此无法真正按照式(4)选取权2i数。在实际问题中误差项方差 通常与自变量的水平有关,可以利用这种关系确定权数。2i例如 与第 j 个自变量取值的平方成比例时 ,即 =k 时,这时取权数为2i2iijx (5)1ijixw更一般的情况是误差项方差 与某个自变量 取值的幂函数 成比例,即 =k2ij mijx2i,其中 m 是待定的未知参数。此时权数为ijx(6)mijix1这时确定权数 的问题转化为确定 幂参数 m 的问题,可以借助 SPSS 软件解决。
6、应iw用回归书中和孙文中都讲了这个方法,本文不再重述。需要注意的是,在实际问题中比例关系 =k 只是近似的,式(6)确定的权数 只是式(4)最优权数的近似值,2imijx iw因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。 2. 变量变换的加权最小二乘法孙文中谈到:加权最小二乘法的实质是要对原始数据实施变换,获得新的解释变量和被解释变量,变换的方法是:( 表示变换后的被解释变量) (7)2mjxy,h=0,1,2, ,p ( 是对应于原始变量 的新解释变量) (8)2jh hx hx对变换后的变量( )重新进行普通最小二成估计(注意,此处的回归xy,10模型不包含常数项,增加了数
7、据变换后派生出的一个新解释变量 ) ,即可得到加20mjx权最小二乘法的经验回归方程:(9)pwwwxxy 10以上是孙文中对加权最小二乘法的解释,其中公式(7) 、 (8) 、 (9)分别对应3孙文中的公式(3) 、 (4) 、 (5) 。3. 两种方法的异同相同之处。显然,式(3)与式(9)两个回归方程是等价的,把式(3)同时乘以后就转化为式(9) 。2mjxw不同之处。首先,式(3)的回归方程 使用起来比pwwwxxy10较方便,因为利用该回归方程进行预测和控制时,无须按式(8)变换自变量的新值,直接将自变量的新值代入式(3)即可。对这一点孙小素副教授也是认同的。其实,所有方法的优劣评价
8、根本就在于他是否方便于建模最终的应用。其次,虽然两种加权回归方法所得的回归方程是等价的,但是对回归效果的拟合优度和检验是不同的,式(3)的加权最小二乘的总离差平方和、回归离差平方和、残差平方和的计算公式和关系为:(10) ni niiwwiniwi eyy112212)()(其中 是 用 加权的算术平均数。wy由于式(9)的变换加权最小二乘回归方程不含常数项,所以不满足离差平方和分解式,而是对直接的平方和满足分解式,总平方和、回归平方和、残差平方和的计算公式和关系为:(11)niniwni ey112212等价于 (12iiiii)对不含常数项的普通最小二乘回归,SPSS 软件就是用上述公式计
9、算平方和并进而计算判定系数 和做 F 检验的。然而,这种做法的合理性是有欠缺的,因为总平方和2R不能如实反映因变量的变差,仅是为了满足平方和分解式而这样做,有削足适履的niy1嫌疑。另外一种做法是以 作为总离差平方和,把 作为回niy12)( ni niwiey1122)(归离差平方和,而不使用 作为回归离差平方和,Excel 软件不含常数项(即iiw指定常数项为零)的普通最小二乘回归就是采用的这个方法。对孙文所引用的应用回归分析例题,有关的计算结果见表 1(a)(d) 。从表中可以清楚看出用变换加权最小二乘法计算离差平方和存在明显的问题,判定系数 和2R检验统计量 F 严重 失真。对同样的数
10、据做变换加权最小二乘估计,市面上流行的不同软件的拟合优度检验却差别很大,SPSS 软件计算出的 F=442.2, =0.968;Excel 软件计算出2R的 F=74.26, =0.837。对其他数值就不逐一对比了。2R表1(a) 普通最小二乘方差分析表(SPSS)来源 平方和 自由度 均方 F 显著性 R2回归 18440108 1 18440108 300.7 7.53E-17 0.912残差 1778202 29 61317 总计 20218311 30 表1 (b) 加权最小二乘方差分析表 (SPSS )4来源 平方和 自由度 均方 F 显著性 R2回归 6.655 1 6.655 4
11、23.7 7.51E-19 0.936残差 0.455 29 0.0157 总计 7.110 30 表1(c ) 变换加权最小二乘方差分析表(SPSS)来源 平方和 自由度 均方 F 显著性 R2回归 13.891 2 6.945 442.2 1.88E-22 0.968残差 0.455 29 0.0157 总计 14.346 31 表1(d) 变换加权最小二乘方差分析表(Excel)来源 平方和 自由度 均方 F 显著性 R2回归 2.332 2 1.166 74.26 6.39E-12 0.837残差 0.4554 29 0.0157总计 2.788 31 针对上述问题,变换加权最小二乘法
12、实际上常用于式(5)成立的情况,即 m=2,此时变换后的自变量 1,回归参数 就相当于回归常数项了,对变换后的数据就可以用jxj含有常数项的普通最小二乘估计方法,各种统计软件对变换加权最小二乘法回归的拟合优度检验的输出结果就都一致了。遗憾的是,即使是在这种特殊情况下也仍然与直接用加权最小二乘估计方法不一致,这只需仔细比较两种情况的总离差平方和公式 和niiy12)(的差异即可。niwiy12)(这种通过变换变量求解加权最小二乘估计方法的作用是什么呢?引用文献1第 180 页的一段文字给予解释:“许多回归软件包允许用户有选择地使用具体的权数进行加权最小二乘分析。如果不能选择,通过对观察值的具体变
13、换,使用不加权的最小二乘法,仍能得到加权最小二乘估计量。 ”可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的一种计算手段而存在的,如果你使用的软件仅具有普通最小二乘功能,就只能用变换变量的方法求解加权最小二乘的参数估计。 应用回归分析教材是结合 SPSS 软件编写的,而 SPSS 软件允许用户直接使用权数进行加权最小二乘分析,不必通过变换变量的方法求解加权最小二乘估计,因此我们在教材中没有给出这种通过变换变量求解加权最小二乘估计的方法。纵上所述,在拥有像 SPSS 这种能够直接计算加权最小二乘估计的软件时,就不必使用变换变量求解加权最小二乘估计的方法了。即使使用的是变换变量求解加权
14、最小二乘估计的方法,也应该把式(9)变换回式(3)的形式,用来直接表示出原始变量之间的关系。因此孙文把式(9)称为加权最小二乘法的经验回归方程就显然不合适了。我们也没有见到其他的文献用这个称法。三、三类残差图的作用以残差为纵坐标轴以自变量(或回归值 )为横坐标轴画的散点图就是残差图。 孙文y中的三类残差图如下:1. 普通残差图。指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差5所做的残差图,也就是孙文中所称的第一类残差图。ie2. 加权普通残差图。其残差是用原始数据做加权最小二乘估计所得的普通残差(在 孙文 中记做 ) ,也就是孙文中所称的加权派生残差图,或第三类残差图。wwe3.
15、加权变换残差图。其残差是用变换数据做加权最小二乘估计所得的普通残差(在 孙文 中记做 ) ,也就是孙文中所称的加权残差图,或第二类残差图。e的计算方法有两种,第一种方法是用式(9)的变换加权最小二乘法得到,第二种方法w是把加权普通残差 乘以 得到,即 。we2mjx2mjwwxee拙作应用回归分析一书中重点讲述的是普通残差图的作用,可以从直观上判断回归模型是否存在异方差性,还可以进一步用普通残差的绝对值与自变量计算等级相关系数,做相关性检验来判断是否存在异方差性。在教材正文中对加权残差图只是给出了软件绘制的方法和图形,并没有对图形结果做任何文字说明和评价。由于考虑有些初学者可能会产生误解,我们
16、在教材第 121 页“本章小结与评注”中对加权残差图做了简要解释,引述如下:“从残差图来看,普通最小二乘估计只能照顾到残差大的项,而小残差项往往有整体的正偏或负偏。加权最小二乘估计的残差图,对大残差和小残差拟合的都好,大残差和小残差都没有整体的正偏或负偏。 ” 以上这段文字指出了加权残差图的作用,如果在普通残差图中小残差有整体的正偏或负偏,而在加权普通残差图中得到明显的改善,这就说明加权最小二乘估计是显著有效的。两种残差图在应用回归分析和孙文中都已给出,本文就不重复绘制图形了,而是把三种残差的具体数值列在表 2 中,说明加权普通残差的作用。表 2 三种残差的数值序号 iyixiwieiwi1
17、264 8777 1.2161E-06 169 211 0.233 2 105 9210 1.1314E-06 -27 14 0.015 3 90 9954 1.0069E-06 -105 -66 -0.066 4 131 10508 9.2837E-07 -111 -74 -0.071 5 122 10979 8.6927E-07 -159 -124 -0.116 6 107 11912 7.6917E-07 -253 -221 -0.194 7 406 12747 6.9485E-07 -25 4 0.004 8 503 13499 6.3760E-07 8 35 0.028 9 431
18、14269 5.8669E-07 -129 -105 -0.080 10 588 15522 5.1710E-07 -78 -58 -0.042 11 898 16730 4.6212E-07 130 146 0.099 12 950 17663 4.2599E-07 103 116 0.076 13 779 18575 3.9501E-07 -146 -135 -0.085 14 819 19635 3.6346E-07 -195 -188 -0.114 15 1222 21163 3.2481E-07 78 80 0.046 16 1702 22880 2.8895E-07 413 409
19、 0.220 17 1578 24127 2.6684E-07 183 176 0.091 18 1654 25604 2.4408E-07 134 122 0.060 19 1400 26500 2.3181E-07 -195 -211 -0.102 20 1829 27670 2.1726E-07 134 115 0.054 21 2200 28300 2.1005E-07 452 431 0.197 22 2017 27430 2.2012E-07 343 324 0.152 23 2105 29560 1.9676E-07 250 225 0.100 24 1600 28150 2.1
20、173E-07 -135 -156 -0.072 25 2250 32100 1.7388E-07 180 147 0.061 26 2420 32500 1.7068E-07 317 281 0.116 27 2570 35250 1.5110E-07 234 190 0.074 628 1720 33500 1.6309E-07 -468 -507 -0.205 29 1900 36000 1.4640E-07 -500 -546 -0.209 30 2100 36200 1.4519E-07 -317 -364 -0.139 31 2300 38200 1.3394E-07 -286 -
21、340 -0.124 这个例子共有 31 对数据,把数据分为 3 组,第 110 对数据为第 1 组,是小方差组;1121 对数据为第 2 组,是中等方差组;2231 对数据为第 3 组,是大方差组。从表中看到,第 1 组 10 个普通残差 中有 8 个是负值,说明普通残差图中小残差有整ie体的负偏。而 10 个加权残差 中只有 6 个是负值,说明加权残差对小残差整体负偏的情iw况已经有了明显改进。10 个普通残差中绝对值最大的是 = -253,加权回归后改善为 = 6ewe6-221。图形是对数值的直观展示,从两张残差图上也是可以看出相同现象的。第 3 组 10 个普通残差 和加权残差 的正
22、负性相同,正负值各有 5 个,说明普通最ieiwe小二乘和加权最小二乘对大残差项拟合的都好。仔细观察这组的两种残差还是能发现区别的,10 个普通残差中绝对值最大的是 = -500,加权回归后成为 = -546。不是像小残29 we29差组那样得到改善,而是误差变得更大。其道理也很简单,加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,有得必有失,也是有局限性的。孙文中认为加权残差图存在一定的局限性,具体表现在:“第一,这类残差图不能用来检验模型是否存在异方差问题。第二,这类残差图也不能用来说明模型中的异方差问题是否得到妥善处理。 ”关于第一点,准确地说是不必用加权残差图检验模型是否存在异方
23、差问题,并非不能用,这是因为检验模型是否存在异方差问题的工作已经由普通残差图完成。实际上用加权普通残差图检验异方差的效果是优于普通残差图的,这是因为存在异方差时普通残差对误差的估计是失真的,而加权残差则能够更真实地反映误差项的大小。关于第二点,如果从加权残差图中看到小残差项已经没有整体的正偏或负偏,则说明加权最小二乘估计已经消除了异方差的影响。孙文中提出的加权变换残差图(第二类残差图)是有其长处的,可以比加权普通残差图(第三类残差图)更直观地看出加权最小二乘估计是否真正解决了异方差问题,这只要看看残差图中散点在左右两端分布得是否平齐即可。还可以由加权变换残差 用等级iwe相关系数法做检验,判断
24、异方差是否真正得以消除,这个作用是加权普通残差 不具备的。这两个作用在孙文中已经详细介绍。顺便指出孙文以加权变换残差 为纵轴,分i别以两个变换后的自变量 和 为横轴绘制出两张残差图是不必要的,实75.0x25.01x际上这两张残差图是等价的,从图形上看只是左右颠倒。加权变换残差 的数值是对原始数据的残差做了变换,其数值大小只具有相对意义。iwe加权普通残差 是原始数据的残差,其数值大小具有绝对意义,它综合了普通残差和加权i变换残差的部分功能,当然同时也丧失了部分功能。孙文中讲述了用变换加权最小二乘法计算加权变换残差 的方法。实际上,在用iweSPSS 软件计算出权数 和加权普通残差 后,只须根
25、据关系 就可以计算i iwei出加权变换残差 ,而不必用变换加权最小二乘方法。iwe拙作应用回归分析在正文中对加权变换残差图完全没有提及,不过“本章小结与评注”中的一句话“如果把误差项加权,那么加权的误差项 是等方差的” ,可以看i作是对加权变换残差 的诠释。iw拙作应用回归分析关于加权普通残差图的内容是这样讲述的:“为了画残差图,需要计算出加权最小二乘估计的残差 ,这需要重新做回归。iwe7第一步,在 Weight Estimation 对话框的 Options 选项中,保存最优权作为新的变量。第二步,进入线性回归对话框,点选左下角的 WLS,线性回归对话框会增加一行Weight 变量框,把
26、在第一步保存的最优权变量选入。第三步,点选线性回归对话框的 Save 选项,保存残差变量,运行。第四步,以自变量 x 为横轴,以加权最小二乘估计的残差 为纵轴画残差图”iwe这段内容的直接作用是介绍加权普通残差图的绘制方法,其间接作用是介绍 SPSS 软件加权最小二乘估计功能的使用方法,也就是“第二步”的内容。在 SPSS 软件中,加权最小二乘回归具有普通最小二乘回归的很多功能,包括共线性诊断、异常值判定、自相关分析、区间预测等等,这些功能都是以“第二步”的内容为基础的,计算残差只是众多功能之一而已。用图形来评价结果往往只是一种粗糙的辅助手段。正像我们在拙作应用回归分析第 121 页“本章小结
27、与评注”上强调指出:“关于异方差性的诊断,方法很多,至于哪种检验方法最好,目前还没有一致的看法。残差图方法直观但较粗糙。等级相关系数检验要比残差图检验方法更为可取。 ”四、对异方差问题的深入思考拙作应用回归分析教材定位于统计学专业的本科生或非统计学专业的硕士生,作为 3 学分 54 学时的课程教材,限制篇幅和深度,教材中对一些问题不可能全面展开叙述,在此对异方差的一些问题再做进一步探讨。当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计会得到与普通最小二乘估计截然不同的回归方程,或者一定有大幅度的改进。对本例的数据,普通最小
28、二乘的经验回归方程是,加权最小二乘的经验回归方程是 ,两者xy0847.16 xyw0879.1相差不大。比较加权普通残差图与普通残差图的差异就可以如实反映这种改进幅度。看来需要强调指出的是这个改进幅度不是指 是否变为等方差了,而是指回归方iiwe程也就是回归系数估计值的差异幅度,在这一问题上加权普通残差图是优于加权变换残差图的。实际上,可以构造出这样的数据,回归模型存在很强的异方差,加权回归后变为等方差了,但是普通最小二乘与加权最小二乘所得的回归方程却完全iwiwe一样。加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中,通常变量
29、取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的项,而普通最小二乘恰好能满足这个要求。动态数据的指数平滑法把近期数据加上大的权数,强调近期数据的贡献就是这样的统计思想。加权最小二乘估计的理论权数是式(4) ,但是实际使用的只能是近似的,通常取为某个自变量 平方的倒数,即 。对本例的数据,取 ,加权最小二乘回归jx21jxw21xw方程为 ,判定系数 =0.933。而取最优权数 所得加权yw08.5722R5.1最小二乘回归方程为 , =0.936,两者非常接近。所以当手头没y79.有 SPSS 软件时,直接取 是一个可行的方法,这时对加权最小二乘回归的效果要2jx用残差图等方
30、法验证。如前所述,当用变换变量方法做加权最小二乘估计时,选取的一个好处是回归模型中仍然含有常数项,这时不同软件对回归拟合优度检验的21jx8结果就一致了。异方差问题是社会经济现象建立回归模型时的普遍问题,加权最小二乘估计是解决异方差的一个常用方法,另外一个方法是当模型存在异方差性时,人们往往还考虑对因变量作变换,使得对变换过后的数据误差方差能够近似相等,即方差比较稳定,所以通常称这种变换为方差稳定化变换,常见的变量变换有如下几种。(1)如果 与 存在一定的比例关系,使用 ;2i)(iyEy(2)如果 与 存在一定的比例关系,使用 ;)log(3)如果 与 存在一定的比例关系 ,使用i)(i 1
31、方差稳定变换在改变误差项方差的同时,也会改变误差项的分布,改变回归函数的形式。因而当误差项服从正态分布,因变量与自变量之间遵从线性回归函数,只是误差项存在异方差时,应该采用加权最小二乘估计,以消除异方差的影响。当误差项不仅存在异方差,而且误差项不服从正态分布,因变量与自变量之间也不遵从线性回归函数关系时,应该采用方差稳定变换。变换变量的加权最小二乘估计方法可以看作方差稳定变换的一个特例,是同时变换自变量与因变量的方法,对因变量的变换是线性的,因此只改变误差项的方差,而不改变分布。从统计思想看,方差稳定变换是真正消除了异方差。加权最小二乘并不是去真正消除异方差,而只是通过加权的方法消除异方差对回
32、归估计的不良影响,虽然存在异方差但是也能够构造良好的估计量,这体现了统计方法的灵活多样性。如果认为统计方法只能适用于等方差的情况,遇到异方差时一定要先把数据变换为等方差才能处理,这种认识就显狭隘和片面了。异方差、自相关、共线性是计量经济学建立经济回归模型常遇到的问题,拙作应用回归分析中重点讲的是共线性问题,用一章的内容讲述共线性的危害及识别方法,再用一章的内容讲述用 SPSS 软件做岭回归解决共线性问题的详细方法,而淡化了对异方差和自相关的讲述。自相关虽然是很重要的内容,但是对此问题的深入探讨属于时间序列分析的内容,作为回归分析教材只是做简要介绍。如前所述,即使回归模型存在很强的异方差,但是加
33、权最小二乘所得的回归方程可能只是对普通最小二乘的微小调整,并且这种调整还不一定是研究者所需要的,所以我们认为异方差对回归模型的危害远不如共线性严重。这样就把异方差、自相关和异常值这三个问题合并为教材的一章内容,仅对重要的方法做简要介绍,一些没能在正文中讲述的问题则在“本章小结与评注”中做简要的说明或提示。这种认识是否正确,处理方式是否妥当,还请孙小素副教授和广大同行不吝指正。参考文献1 美约翰内特著.张勇.王国明等译.应用线性回归模型.北京:中国统计出版社.1990.2 张寿.于清文.计量经济学.上海:上海交通大学出版社.1984.作者简介何晓群,男,中国人民大学统计学院教师,中国人民大学应用统计科学研究中心研究人员,中国人民大学六西格玛质量管理研究中心主任。刘文卿,男,中国人民大学统计学院教师,中国人民大学六西格玛质量管理研究中心副主任。