1、回归模型的残差分析山东 胡大波判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果。下面具体分析残差分析的途径及具体例子。一、残差分析的两种方法1、差分析的基本方法是由回归方程作出残差图,通过观测残差图,以分析和发现观测数据中可能出现的错误以及所选用的回归模型是否恰当;在残差图中,残差点比较均匀地落在水平区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型的拟合精度越高,回归方程的预报精度越高。2、可以进一步通过相关指数 来衡量回归模型的拟合效果,一niiiiiyR122)(般规律是 越大,残差平方和就越小,从而回归模型的拟合效果越好。
2、2R二、典例分析:例 1、某运动员训练次数与运动成绩之间的数据关系如下:次数/x 30 33 35 37 39 44 46 50成绩/y 30 34 37 39 42 46 48 51试预测该运动员训练 47 次以及 55 次的成绩。解答:(1)作出该运动员训练次数 x 与成绩 y 之间的散点图,如图 1 所示,由散点图可知,它们之间具有线性相关关系。(2)列表计算:次数 ix成绩 iy2ix2iyixy30 30 900 900 90033 34 1089 1156 112235 37 1225 1369 129537 39 1369 1521 144339 42 1521 1764 163
3、844 46 1936 2116 202446 48 2116 2304 220850 51 2500 2601 2550由上表可求得 , , ,875.40,2.39yx1265ix13782iy,所以18081iiyx812)(iiiiixy .045812iiix,所以回归直线方程为32.xy .3.045.y(3)计算相关系数将上述数据代入 得 ,查表可知818122)(i iiiiyxyr 92704.r,而 ,故 y 与 x 之间存在显著的相关关系。70.5.0r05.r(4)残差分析:作残差图如图 2,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适。计算残
4、差的方差得 ,说明预报的精度较高。8413.02(5)计算相关指数 R计算相关指数 0.9855.说明该运动员的成绩的差异有 98.55是由训练次数引起的。2(6)做出预报由上述分析可知,我们可用回归方程 作为该运动员成绩的预报值。.032.415.xy将 x47 和 x55 分别代入该方程可得 y49 和 y57,故预测运动员训练 47 次和 55 次的成绩分别为 49 和 57.点评:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等) ;(3)由经验确定回
5、归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 ybxa ) ;(4)按一定规则估计回归方程中的参数(如最小二乘法) ;(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等) ,若存在异常,则检查数据是否有误,或模型是否合适等。例 2、某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽取 10 户进行调查,其结果如下:月人均收入 x/元 月人均生活费 y/元300 255390 324420 335520 360570 450700 520760 580800 600850 6301080 750试预测人均月收入为 1100
6、 元和人均月收入为 1200 元的两个家庭的月人均生活费。解答:作出散点分布图如图,由图可知,月人均生活费与人均收入之间具有线性相关关系。通过计算可知 , , ,4.80,639yx610312ix2540610iy,所以417510iiyx.910021iiixy,所以回归直线方程为751.8xy .751869.0xy计算相关系数得 ,而查表知 ,故月人均收入与月人均生活9360r 325.r费之间具有显著相关关系。作残差图如图,由图可知,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适。计算相关指数得 0.9863,说明城镇居民的月人均生活费的差异有 98.63是由月2R人均收入引起的。由以上分析可知,我们可以利用回归方程 来作为月生活费的预.751869.0xy报值。将 x1100 代入回归方程得 y784.59 元;将 x1200 代入回归方程得 y850.58 元。故预测月人均收入分别为 1100 元和 1200 元的两家庭的月人均生活费分别为 784.59 元和 850.58 元。