SPSS实验报告线性回归曲线估计.doc-道客多多

资源描述

1、数据分析实务与案例实验报告曲线估计学号： 2013111104000614 班级： 2013 应用统计姓名：日期： 2 0 1 4 12 7 数学与统计学学院1一、实验目的1. 准确理解曲线回归分析的方法原理。2. 了解如何将本质线性关系模型转化为线性关系模型进行回归分析。3. 熟练掌握曲线估计的 SPSS 操作。4. 掌握建立合适曲线模型的判断依据。5. 掌握如何利用曲线回归方程进行预测。6. 培养运用多曲线估计解决身边实际问题的能力。二、准备知识1. 非线性模型的基本内容变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。所谓本质线性关系是指变量关系形式上虽然呈非线性

2、关系，但可以通过变量转化为线性关系，并可最终进行线性回归分析，建立线性模型。本质非线性关系是指变量之间不仅形式上呈现非线性关系，而且也无法通过变量转化为线性关系，最终无法进行线性回归分析，建立线性模型。本实验针对本质线性模型进行。下面介绍本次实验涉及到的可线性化的非线性模型，所用的变换既有自变量的变换，也有因变量的变换。乘法模型：123yx其中，，，都是未知参数，是乘积随机误差。对上式两边取自然对数得到 123lnllnllnlyxx上式具有一般线性回归方程的形式，因而用多元线性回归的方法来处理。然而，必须强调指出的是，在求置信区间和做有关试验时，必须是，而不是 ,因此检验之前，要

3、先检验是否2ln(0,)nNI:2nNI:（ 0，） ln满足这个假设。三、实验内容已有很多学者验证了能源消费与经济增长的因果关系，证明了能源消费是2促进经济增长的原因之一。也有众多学者利用 C-D 生产函数验证了劳动和资本对经济增长的影响机理。所有这些研究都极少将劳动、资本、和能源建立在一个模型中来研究三个因素对经济增长的作用方向和作用大小。现从我国能源消费、全社会固定资产投资和就业人员的实际出发，假定生产技术水平在短期能不会发生较大变化，经济增长、全社会固定资产投资、就业人员、能源消费可以分别采用国内生产总值、全社会固定资产投资总量、就业总人数、能源消费总量进行衡量，并假定经济增长与能

4、源消费、资本和劳动力的关系均满足 C-D 生产函数。问题中的 C-D 生产函数为：YAKLE式中：Y 为 GDP，衡量总产出；K 为全社会固定资产投资，衡量资本投入量；L 为就业人数，衡量劳动投入量；E 为能源消费总量，衡量能源投入量； A,，，为未知参数。根据 C-D 函数的假定，一般情形，，均在 0 和 1 之间，但当，，中有负数时，说明这种投入量的增长，反而会引起GDP 的下降，当，，中出现大于 1 的值时，说明这种投入量的增加会引起 GDP 成倍增加，这在经济学现象中都是存在的。以我国 19852004 年的有关数据建立了 SPSS 数据集，参见“data16-2

5、.sav”。请以此数据集为基础估计生产函数中的未知参数。四、实验步骤及结果分析1. 确定非线性回归模型的类型有上述分析过程确定要建立的回归模型为： YAKLE式中，Y 为自变量，K,L,E 为解释变量，A 为常数项。2. 通过变换将非线性方程转化为线性方程将原回归模型两遍同时取对数： lnlnllnYL得： 123ycx式中，。13ln,l,ln,l,lnyYcAxKLE3选择【转换】【计算变量】，对所有数据取对数完成数据的处理，过程及结果如下图：3. 进行初步线性回归分析（选入所有变量）用最小二乘法建立回归方程由非线性模型转化为线性模型后，即可按照建立多元线性回归模型的步骤进行操作，求得

6、回归方程表达式。(1) 选择【分析】【回归】【线性】，弹出“线性回归”对话框。将lnY 选入“因变量”框，lnk 到 lnE 选入“自变量” 框。注意，可以通过点击“上一张”与“下一张”按钮切换，选择不同的自变量构建模型，每个模型中可以对不同的自变量采用不同的方法进行回归。 “方法”下拉框中有 5 个选项，此处先选择“进入” ，即所选变量全部强行进入回归模型。(2) 点击“统计量”按钮，选择输出各种常用判别统计量，本案例选择“估计” 、 “模型拟合度” 、 “描述性” 、 “共线性诊断 ”，以及残差中的“Durbin-Watson”检验和“个案诊断” 。4得到如下结果：5由模型汇总表，，

7、，拟合优度很强。20.91R20.98统计量 DW=0.763，该检验用于判断相邻残差序列的相关性，其判断标准如下：DW4-d L，认为残差序列间存在负的一阶自相关；dLDWdU 或 4-dUDW4-dL 时，无法确定残差序列是否存在自相关。本例中，k=4，n=21 （k 为解释变量的数目，包括常数项，n 是观察值的数目）时，5% 的上下界：dL=1.03，dU=1.67 。有，认为残差序列存在一lDWd阶自相关。由方差分析表，统计量 F=594.101，p 值小于 0.05，认为方程在 95%的置信水平下是显著的。但是，变量 lnK、lnL、常量 lnA 的 t 值均大于0.25(13

8、)2.10t2.110，所以这几个变量对方程的影响都很显著，而变量 lnE 的 t 值很小且 p 值明显大于 0.05 且回归系数为零，说明该变量对方程影响不显著，回归模型是无效的。4. 消除模型中变量的共线性（逐步回归）“共线性统计量”中，容忍度 Tolerance 越接近于 0，表示复共线性越强，越接近于 1，复共线性越弱。而方差膨胀因子 VIF 的值越接近于 1，解释变量6间的多重共线性越弱，如果 VIF 的值大于或等于 10，说明一个解释变量与其他解释变量之间有严重的多重共线性。本例中，变量 lnK 和 lnE 的 VIF 值都大于10，说明它们与其他解释变量之间有严重的多重共线性，不

9、符合经典假设，需要修正。通过以上结果分析，采用逐步回归的方法来消除变量之间的多重共线性。重复以上步骤从新建立回归方程，将【进入】替换为【逐步】如下图所示：得到如下结果：7从上表可以看出通过逐步回归剔除掉了变量 lnE,整个模型的拟合优度上升，调整 R 方从 0.989 上升至 0.990。方差膨胀因子 VIF 值均小于 10，多重共线性已消除。T 检验的概率明显小于 0.05 说明变量对模型的影响显著。而此时 DW值并未有明显改变，残差序列仍然存在一阶自相关。此时采用数据变换的方法来消除残差的自相关。5. 消除残差的自相关对于自相关的处理方法，其基本思想是通过一些数学转化，对数据进行处理，消除

10、数据的自相关性，在对参数进行估计。当误差序列的自相关系数已知，且时，采用差分法，即利用增量数据来代替原有的样本数据建立方程。当1误差序列的自相关系数未知时，先求处自相关系数，再通过反复迭代法消除来自相关。我们知道 DW 与之间的近似关系：:2(1)DW其中：因为 DW=0.764,代入上式很明显得出不为 1，所以此处不能用差分而采用迭代的方法消除自相关性。这里先求出 lny 的一元线性回归方程： ln4.5290.6ln.782lyKL8中的残差，i=1, ,n,将残差代入如下公式：ie1,12,2, ,111()()nininii ii iere其中11, 2,12nnninieee残

11、差序列代入上式求的一阶自相关系数 0.69r再令：*11,.,1iiiiiyrxrn用 EXCEL 完成数据的迭代得到新的数据，这里用 Y1 代表原先的 lnY，K1代表原先的 lnK，L1 代表原先的 lnL。并导入到 SPSS 中，重复以上步骤对新的数据进行回归分析。9得出结果的：数据经过一次迭代以后 DW 的值有明显增加，查表 k=3，n=20（k 为解释变量的数目，包括常数项，n 是观察值的数目）时，5%的上下界：dL=1.10，dU=1.54。有 duDW4-dU，认为残差序列间不存在一阶自相关。此时得到新的回归方程： 12.60.1.9201YKL6. 残差正态性检验点击“绘制”按

12、钮，将“ZRESID”选入 Y 轴， “ZPRED”选入 X 轴，绘制散点图，并在“标准化残差图”中选择“直方图” ，输出带有正态曲线的标准化残差的直方图。10点击“保存”按钮，在对话框中保存一些统计量的值，此案例在“预测值”框中选择“未标准化” ，在“残差”框中选择“未标准化” ，在“预测区间”框中选择“均值”和“单值” 。其他不变，点击【继续】【确定】。输出结果如下图：11上面操作已输出残差的直方图，还可以通过【分析】【描述统计】【P-P 图】和【分析】【描述统计】【Q-Q 图】输出正态分布的 P-P 图、Q-Q 图，若散点围绕图中所给斜线有规律的分布，则可以认为所检测变量服从正态分布。

13、12P-P 图Q-Q 图从以上图形可以初步认为该模型的残差服从正态分布。进一步进行 K-S 检验。选择【分析】【非参数检验】【旧对话框】【1-样本 K-S 检验】，弹出“单样本 Kolmogorov-Smirnov 检验”窗口，将未标准化残差选入变量框，13K-S 检验输出结果K-S 检验统计量为 0.676，检验概率 p 值为 0.751，大于 0.05，可以认为在95%的置信水平下，该模型的残差服从正态分布。7. 残差的其他检验(1) 异方差检验：根据回归分析输出的标准化残差的散点图，初步判断是否存在异方差，但此种判断方法较主观，且不容易判断。进一步用 Spearman 等级相关检验分析

14、是否存在异方差。首先对未标准化残差取绝对值，点击【转换】【计算变量】，弹出“计算变量”窗口， “目标变量”输入“abs” ， “数学表达式”输入“abs(RES_1)” ，选择【分析】【相关】【双变量】，将 abs、所有回归变量及未标准化预测值选入变量框中，【相关系数】栏选择“Spearman ”，点击确定。1415Spearman 相关系数表观察系数表的“abs”行，发现未标准化预测值与残差绝对值的相关性 p 值为 0.443 大于 0.05，说明该模型的残差不存在的异方差问题。16五、实验总结根据上述分析，采用逐步回归法得到最后确定的回归方程： 12.60.1.9201YKL其中 11lnlll,1,.iiiiyrKkLn代入上式得回归方程为：1 11lnl2.60.(ll)0.92(ln)ii ii iiyrkrl (i=1,2, ,21)将上式同时取以 e 为底数进行指数变换得到非线性模型中的本质线性关系的方程：2.1610.0.92,.,0.697i iirrrykler根据所建的回归方程可以看出社会固定资产投资（K ）和劳动力（L ）对GDP 增长的影响较明显，而能源的消费(E)对经济的增长没有明显影响。经济增长对能源消费无非线性影响。

展开阅读全文

SPSS实验报告 线性回归 曲线估计.doc

SPSS实验报告线性回归曲线估计.doc