1、27. 回归分析回归分析是研究一个或多个变量(因变量)与另一些变量(自变量)之间关系的统计方法。主要思想是用最小二乘法原理拟合因变量与自变量间的最佳回归模型(得到确定的表达式关系) 。其作用是对因变量做解释、控制、或预测。回归与拟合的区别:拟合侧重于调整曲线的参数,使得与数据相符;而回归重在研究两个变量或多个变量之间的关系。它可以用拟合的手法来研究两个变量的关系,以及出现的误差。回归分析的步骤:(1)获取自变量和因变量的观测值;(2)绘制散点图,并对异常数据做修正;(3)写出带未知参数的回归方程;(4)确定回归方程中参数值;(5)假设检验,判断回归方程的拟合优度;(6)进行解释、控制、或预测。
2、(一)一元线性回归一、基本原理一元线性回归模型:Y=0+1X+其中 X 是自变量,Y 是因变量, 0,1 是待求的未知参数, 0 也称为截距; 是随机误差项,也称为残差,通常要求 满足: 的均值为 0; 的方差为 2; 协方差 COV(i, j)=0,当 ij 时。即对所有的 ij, i 与 j 互不相关。二、用最小二乘法原理,得到最佳拟合效果的 值:01,, 12()niiiiixy01yx三、假设检验1. 拟合优度检验计算 R2,反映了自变量所能解释的方差占总方差的百分比,值越大说明模型拟合效果越好。通常可以认为当 R2 大于 0.9 时,所得到的回归直线拟合得较好,而当 R2 小于 0.
3、5 时,所得到的回归直线很难说明变量之间的依赖关系。2. 回归方程参数的检验回归方程反应了因变量 Y 随自变量 X 变化而变化的规律,若1=0,则 Y 不随 X 变化,此时回归方程无意义。所以,要做如下假设检验:H0: 1=0, H1: 10;(1) F 检验若 1=0 为真,则回归平方和 RSS 与残差平方和 ESS/(N-2)都是2的无偏估计,因而采用 F 统计量:来检验原假设 1=0 是否为真。(2)T 检验对 H0: 1=0 的 T 检验与 F 检验是等价的(t 2=F) 。3. 用回归方程做预测得到回归方程 后,预测 X=x0 处的 Y 值 .01YX010yx的预测区间为:0y其中
4、 t/2 的自由度为 N-2. 二、实例例 1 有 30 名儿童棒球选手的数据:变量 Height 表示“击球高度 ”,Distance 表示“球飞出的距离” ,用回归分析研究球飞出的距离与击球高度的关系。1. 【分析】【回归】【线性】 ,打开“线性回归”窗口,将变量“Distance”选入【因变量】框, “Height”选入【自变量】框;注:【选择变量+规则 】:可以对某个变量,只对满足某条件的个案做回归分析;【WLS 权重 】:可选择加权变量进行加权最小二乘法的回归分析;2. 点【统计量】 ,打开“统计量”子窗口,勾选【回归系数】下的“估计” 、 “置信区间” ,勾选【残差】下的“Durb
5、in-Watson” ,勾选“模型拟合度” 、 “描述性” ;点【继续】 ;3. 【保存】可选项点【保存】 ,打开“保存”子窗口, 【预测值】给出用回归方程计算的预测值;勾选“未标准化” , 【残差】给出做残差分析模型诊断用的各种残差,勾选“标准化” ;将在原数据上增加两列 PRE_1和 ZRE_1 分别存储预测值和残差值;点【继续 】 ;点【确定】 ,得到描述性统计量均值 标准 偏差 N球飞出的距离 130.73 11.194 30击球高度 48.97 2.371 30相关性球飞出的距离 击球高度球飞出的距离 1.000 .613Pearson 相关性击球高度 .613 1.000球飞出的距
6、离 . .000Sig. (单侧)击球高度 .000 .球飞出的距离 30 30N击球高度 30 30给出了两个变量的相关性描述,相关系数为0.613. 输入移去的变量 a模型 输入的变量 移去的变量 方法1 击球高度 b . 输入a. 因变量: 球飞出的距离b. 已输入所有请求的变量。选入回归模型的变量以及剔除的变量,本例只有一个自变量。模型汇总 b模型 R R 方 调整 R 方 标准 估计的误差 Durbin-Watson1 .613a .376 .353 9.001 1.569a. 预测变量: (常量), 击球高度。b. 因变量: 球飞出的距离模型的R 2反映了自变量所能解释的方差占总方
7、差的百分比,值越大说明模型拟合效果越好,本例R 2=0.376,说明线性回归关系并不强,球飞出的距离可能还和其它因素如选手的年龄、经验有关。Durbin-Watson 检验值=1.569,说明残差基本上是独立的(靠近2说明误差基本上是独立的,小于2说明是正相关。Anovaa模型 平方和 df 均方 F Sig.回归 1365.508 1 1365.508 16.855 .000b残差 2268.358 28 81.0131总计 3633.867 29a. 因变量: 球飞出的距离b. 预测变量: (常量), 击球高度。回归模型的F检验,原假设 H0:回归系数=0;本例P值= .100 的概率)。
8、3 . 体重向后(准则: F-to-remove = .100 的概率)。a. 因变量: 耗氧量b. 已输入所有请求的变量。采用“向后法”筛选变量结果为:第2步剔除了变量“休息时每分钟心跳次数”、第3步剔除了变量“体重”;最终选入变量“跑步时每分钟心跳次数”、“年龄”、“跑15英里的时间”。模型汇总 d更改统计量模型 R R 方 调整 R 方 标准 估计的误差R 方更改 F 更改 df1 df2 Sig. F 更改Durbin-Watson1.904a.817 .780 2.497982 .817 22.288 5 25 .0002.904b.816 .788 2.451333 .000 .0
9、38 1 25 .8473.901c.811 .790 2.440634 -.005 .765 1 26 .390 1.960a. 预测变量: (常量), 跑步时每分钟心跳次数, 体重, 休息时每分钟心跳次数, 年龄, 跑15英里的时间。b. 预测变量: (常量), 跑步时每分钟心跳次数, 体重, 年龄, 跑15英里的时间。c. 预测变量: (常量), 跑步时每分钟心跳次数, 年龄, 跑15英里的时间。d. 因变量: 耗氧量整个回归模型的修正R 2=0.790,表明模型拟合程度较好,Durbin-Watson值=1.96接近2,表明残差的度量性很好。Anovaa模型 平方和 df 均方 F S
10、ig.回归 695.384 5 139.077 22.288 .000b残差 155.998 25 6.2401总计 851.382 30回归 695.147 4 173.787 28.921 .000c残差 156.235 26 6.0092总计 851.382 30回归 690.551 3 230.184 38.643 .000d残差 160.831 27 5.9573总计 851.382 30a. 因变量: 耗氧量b. 预测变量: (常量), 跑步时每分钟心跳次数, 体重, 休息时每分钟心跳次数, 年龄, 跑15英里的时间。c. 预测变量: (常量), 跑步时每分钟心跳次数, 体重, 年
11、龄, 跑15英里的时间。d. 预测变量: (常量), 跑步时每分钟心跳次数, 年龄, 跑15英里的时间。回归模型的F值较大, P值远小于0.05,故回归模型是有统计学意义的。系数 a非标准化系数 标准系数 相关性 共线性统计量模型B 标准 误差 试用版t Sig.零阶 偏 部分 容差 VIF1 (常量) 116.046 11.607 9.998 .000年龄 -.280 .103 -.274 -2.719 .012 -.305 -.478 -.233 .721 1.387体重 -.051 .058 -.079 -.875 .390 -.163 -.172 -.075 .896 1.117跑15
12、英里的时间 -2.743 .402 -.714 -6.819 .000 -.862 -.806 -.584 .668 1.497休息时每分钟心跳次数 -.012 .063 -.019 -.195 .847 -.346 -.039 -.017 .766 1.306跑步时每分钟心跳次数 -.128 .052 -.246 -2.444 .022 -.398 -.439 -.209 .723 1.383(常量) 115.662 11.226 10.303 .000年龄 -.276 .099 -.270 -2.783 .010 -.305 -.479 -.234 .748 1.338体重 -.049 .
13、056 -.077 -.875 .390 -.163 -.169 -.073 .908 1.102跑15英里的时间 -2.772 .365 -.722 -7.597 .000 -.862 -.830 -.638 .781 1.2802跑步时每分钟心跳次数 -.129 .051 -.249 -2.544 .017 -.398 -.446 -.214 .737 1.356(常量) 111.718 10.235 10.915 .000年龄 -.256 .096 -.251 -2.664 .013 -.305 -.456 -.223 .790 1.267跑15英里的时间 -2.825 .358 -.7
14、36 -7.886 .000 -.862 -.835 -.660 .804 1.2443跑步时每分钟心跳次数 -.131 .051 -.252 -2.588 .015 -.398 -.446 -.216 .738 1.355a. 因变量: 耗氧量根据回归系数的估计,可以得到多元线性回归方程:Oxygen=111.718-0.256*age-2.825*runtime-0.131*runpulse共线性诊断 a方差比例模型 维数 特征值 条件索引(常量) 年龄 体重 跑15英里的时间 休息时每分钟心跳次数 跑步时每分钟心跳次数1 5.950 1.000 .00 .00 .00 .00 .00 .
15、002 .020 17.067 .00 .11 .02 .01 .54 .003 .014 20.412 .00 .19 .35 .07 .02 .014 .010 24.954 .01 .07 .02 .81 .23 .005 .005 34.721 .03 .16 .51 .00 .21 .2616 .001 77.423 .96 .47 .10 .10 .01 .731 4.967 1.000 .00 .00 .00 .00 .002 .014 18.529 .00 .30 .29 .03 .013 .011 20.838 .01 .12 .04 .83 .004 .006 29.476
16、 .03 .11 .59 .06 .2125 .001 70.426 .96 .46 .09 .09 .791 3.978 1.000 .00 .00 .00 .002 .012 18.340 .00 .38 .50 .013 .009 20.800 .03 .19 .42 .1034 .001 60.601 .96 .42 .08 .90a. 因变量: 耗氧量已排除的变量 a共线性统计量模型 Beta In t Sig. 偏相关容差 VIF 最小容差2 休息时每分钟心跳次数 -.019b -.195 .847 -.039 .766 1.306 .668休息时每分钟心跳次数 -.009c -.
17、094 .926 -.018 .776 1.288 .6953体重 -.077c -.875 .390 -.169 .908 1.102 .737a. 因变量: 耗氧量b. 模型中的预测变量: (常量), 跑步时每分钟心跳次数, 体重, 年龄, 跑15英里的时间。c. 模型中的预测变量: (常量), 跑步时每分钟心跳次数, 年龄, 跑15英里的时间。残差统计量 a极小值 极大值 均值 标准 偏差 N预测值 36.19106 56.13515 47.37581 4.797745 31残差 -4.875195 4.899447 .000000 2.315388 31标准 预测值 -2.331 1.826 .000 1.000 31标准 残差 -1.998 2.007 .000 .949 31a. 因变量: 耗氧量从残差直方图和正态概率图判断,残差大致服从正态性。各散点基本随机分布在以0为中心的横带中,残差满足正态性,另外有个别离群点。