收藏 分享(赏)

实验五 相关和回归分析.doc

上传人:hskm5268 文档编号:6883693 上传时间:2019-04-25 格式:DOC 页数:22 大小:858.50KB
下载 相关 举报
实验五  相关和回归分析.doc_第1页
第1页 / 共22页
实验五  相关和回归分析.doc_第2页
第2页 / 共22页
实验五  相关和回归分析.doc_第3页
第3页 / 共22页
实验五  相关和回归分析.doc_第4页
第4页 / 共22页
实验五  相关和回归分析.doc_第5页
第5页 / 共22页
点击查看更多>>
资源描述

1、 1 实验五 相关和回归分析相关分析是指对变量之间的相关关系进行描述与度量的一种分析方法,简单相关分析通常指对两变量间相关关系的研究,其目的是确定两个变量之间是否存在相关关系,并对其相关关系的强度进行度量,常用方法是考察两个变量的散点图和计算变量间的相关系数。多元线性回归分析研究多个变量的数量伴随关系,内容主要包括模型的假定与检验、参数的估计与检验、回归诊断与预测。很多非线性回归问题都可以转化为线性回归问题处理,如多项式回归、指数回归、对数回归、幂函数回归等。5.1 实验目的掌握使用 SAS 进行简单相关分析和多元线性回归分析及非线性回归分析的方法。5.2 实验内容一、用 INSIGHT 模块

2、作简单相关分析与一元线性回归分析二、用“分析家”作多元线性回归分析三、使用 REG 过程作回归分析四、一元非线性回归分析5.3 实验指导一、用 INSIGHT 模块作简单相关分析与一元线性回归分析【实验 5-1】比萨斜塔是一建筑奇迹,工程师关于塔的稳定性作了大量研究工作,塔的斜度的测量值随时间变化的关系提供了很多有用的信息,表 5-1 给出了 1975 年至 1987年的测量值(sy5_1.xls)。表中变量“斜度”表示塔上某一点的实际位置与假如塔为垂直时它所处位置之偏差再减去 2900mm。表 5-1 比萨斜塔的斜度年份 x 75 76 77 78 79 80 81 82 83 84 85

3、86 87斜度 y(1/10mm) 642 644 656 667 673 688 696 698 713 717 725 742 757试分析 y(斜度)关于年份 x 的相关关系,写出 y 关于 x 的线性回归方程,并利用所建回归方程预测 1988 年时比萨斜塔的斜度值。1. 数据的导入首先将上表在 Excel 中处理后导入成 SAS 数据集 Mylib.sy5_1,如图 5-1 所示,其中 x2 表示年份 y 表示斜度。2. 制作散点图制作斜度 y 与年份 x 的散点图,以便判断变量之间的相关性。步骤如下:(1) 在 INSIGHT 中打开数据集 Mylib.sy5_1。(2) 选择菜单“

4、Analyze(分析) ”“Scatter Plot (Y X)(散点图) ”。(3) 在打开的 “Scatter Plot (Y X)”对话框中选定 Y 变量:Y;选定 X 变量:x,如图 5-2 左所示。(4) 单击“OK”按钮,得到斜度 y 与年份 x 的散点图,如图 5-2 右所示。从散点图中可以看出,斜度 y 与年份 x 之间具有一定的线性关系。图5-2 斜度y与年份x的散点图3. 相关系数计算在 INSIGHT 中打开数据集 Mylib.sy5_1。(1) 选择菜单“Analyze(分析) ”“Multivariate (Y X)(多变量) ”。(2) 在打开的 “Multivar

5、iate (Y X)”对话框中选定 Y 变量:y;选定 X 变量:x,如图5-3 左所示。.图5-3 计算相关系数(3) 单击“OK”按钮,得到结果如图 5-3 右所示。结果显示斜度 y 与年份 x 的样本相关系数很大,为 0.994。(4) 为了检验总体变量 y 与 x 的相关系数是否为零,选择菜单:“Tables”“CORR 图5-1 数据集Mylib.sy5_13 p-values”,得到相关系数为零的原假设的 p 值,如图 5-4 所示。由于 p 值很小,应拒绝原假设,可以认为斜度 y 与年份 x 之间均存在着显著的正相关关系。4. 一元线性回归在 INSIGHT 中打开数据集 Myl

6、ib.sy5_1。(1) 选择菜单“Analyze”“Fit(Y X)(拟合) ”,打开“Fit(Y X)”对话框。(2) 在“Fit(Y X)”对话框中,选择变量 Y,单击“Y ”按钮,将 Y 设为响应变量;选择变量 x,单击“X”按钮,将 x 设为自变量,如图 5-5 左所示。(3) 单击 Output 按钮,在“Fit(Y X)”输出选项表中增加选中 Residual Normal 复选项,要求输出残差的正态 QQ 图,如图 5-5 右所示。图5-5 “Fit(Y X)”输出选项设置(4) 两次单击“OK”按钮,得到分析结果。显示的结果分为若干张表,其中第二张表给出回归方程: xY318

7、7.920.6方程表明回归直线截距的估计值为-61.1209 ,斜率的估计值为 9.3187,如图 5-6 左下。回归系数 9.3187 表示比萨斜塔的“斜度”年平均增加 9.3187。图5-6 回归方程与散点图第三张表是带有回归直线的散点图,给出了回归的图形表示,如图 5-6 右。图的下面是参数回归拟合表(图 5-7) 。图5-7 参数回归拟合表其中判定系数 R-Square(R 2)= 0.9880,指出 x 能够解释 Y 的 98.8%的信息。还有 1 98.8% = 1.2%的信息不能被解释,这些信息由其他变量和随机因素所解释。图5-4 相关系数的检验图5-8 拟合汇总表4 第四张拟合

8、汇总表(图 5-8)中 Mean of Response(响应变量的均值)693.6923 是变量Y 的样本平均值,Root MSE(均方残差平方根)4.181 是对各观测点在直线周围分散程度的一个度量值,为随机误差 的标准差(也是实测值 Y 的标准差) 的无偏估计。Adj R-Sq 是修正的判定系数。第五张方差分析表(图 5-9)包含对回归方程的显著检验,其中 F 统计量的值:12.90485.173MSEFF 检验的 p 值 0.05,因此不能拒绝残差来自正态总体的假定。5. 预测通过回归诊断得知模型: 3210948.0785.369.027814.3 xxxy 是合适的,可以用于预测。

9、1) 假定 02,03 年国内生产总值(x1) 、商品房屋销售额(x2) 、财政支出(x3)的数据已存入数据集 Mylib.sy5_2_new 中,如图所示。图5-26 数据集Mylib.sy5_2_new2) 重复上面逐步回归步骤,并在图 5-16 所示的“Linear Regression(线性回归) ”对话框中,单击“predictions”按钮,打开“Linear Regression:predictions”对话框。按图 5-27所示进行预测的 Input(输入) 、Output(输出)设置。11 图5-27 “Linear Regression:predictions”对话框3)

10、两次单击 “OK”,得到结果。在分析家的项目管理器中点击“predictions”可以看到预测结果,如图 5-28 所示。图5-28 预测结果三、使用 REG 过程作回归分析【实验 5-3】某种水泥在凝固时放出的热量 y(cal/g)与水泥中四种化学成分x1,x2,x3,x4 有关,现测得 13 组数据,如表 5-3(sy5_3.xls)所示。试从中选出主要的变量,建立 y 关于它们的线性回归方程。表 5-3 热量 y 与四种化学成分的实测数据x1 x2 x3 x4 y7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 5

11、2 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.412 1. 建立数据集输入以下代码建立数据集 sy5_3 并显示:data mylib.sy5_3;input x1 x2 x3 x4 y;cards;7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.

12、23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.3 10 68 8 12 109.4;Title 数据集 sy5_3;Proc print ;run;运行结果如图所示。2. 向后逐步剔出法进行回归执行以下代码:proc reg data = Mylib.sy5_3;var y x1 - x4;model y = x1 - x4/selection=backward;plot residual. * predicted.;run;输出结果如下:图5-29 数据集

13、sy5_313 图5-30 向后逐步剔除的第0步(全回归)图5-31 向后逐步剔除的第1步图5-32 向后逐步剔除法第2步图5-33 向后逐步剔除法结果汇总向后逐步剔除法的分析结果给出回归模型:14 Y = 52.57735 + 1.46831x1 + 0.66225x2残差对预测值的散点图显示如下:图5-34 残差散点图3. 结果分析采用向后逐步剔除法回归的第 0 步是做全回归,结果如图 5-30 所示,所有系数均未通过检验(P 值均大于 0.05) ,向后逐步剔除法第 1 步将变量 x3 剔除,结果如图 5-31 所示,其中 x2 和 x4 的系数仍不能通过检验,接下来第 2 步将变量 x

14、4 剔除,结果如图 5-32 所示,此时的回归方程及 x1 和 x2 的系数均能通过检验,残差对预测值的散点图(图 5-34)基本正常符合模型假定,所以方程 Y = 52.57735 + 1.46831x1 + 0.66225x2 为有效回归方程。四、一元非线性回归分析【实验 5-4】已知数据如表 5-4(sy5_4.xls)所示。试分别采用指数回归、对数回归、幂函数回归和倒幂函数回归 4 种非线性回归方法进行回归分析,并选择一个较好的回归方程。表 5-4 实验数据X 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4Y 109.95 4

15、0.45 20.09 24.53 11.02 7.39 4.95 2.72 1.82 1.49 0.82 0.3 0.2 0.221. 生成数据集运行下面程序生成并显示数据集 sy5_4,如图 5-35 所示。data sy5_4;input x y;cards;1.1 109.951.2 40.451.3 20.091.4 24.531.5 11.021.6 7.391.7 4.95图5-35 数据集sy5_415 1.8 2.721.9 1.822 1.492.1 0.822.2 0.32.3 0.22.4 0.22;run;title 数据集 sy5_4;proc print;run;2

16、. 对 x 和 y 作相关分析执行如下代码:/*画 x 和 y 的散点图*/goptions ftext=宋体;proc gplot data = sy5_4;plot y*x;title x 和 y 的散点图;symbol v=dot i=none cv=orange ;run;/*求 x 和 y 的相关系数*/proc corr data = sy5_4;var x y;run;运行上面程序,得到散点图(图 5-36 左)以及 x 与 y 的相关系数(图 5-36 右):图5-36 x与y的散点图与相关系数由图可见 x 和 y 有一定的非线性关系,根据散点分布的形状考虑用下面几种非线性回归

17、方法建立非线性回归方程,并从中选出较为合适的回归方程。3. 倒幂函数 回归xba1图5-37 u和v的散点图16 首先考虑倒幂函数拟合,执行如下代码:goptions ftext=宋体;data new1;set sy5_4;u = 1/x;v = y;run;/*画 u 和 v 的散点图*/title u 和 v 的散点图;proc gplot data = new1;plot v*u;symbol v=dot i=none cv=red ;run;运行结果得到散点图 5-37,由图可见,u 和 v 有着较弱的线性关系。做线性回归:proc reg data = new1;var v u;m

18、odel v = u;print cli;title 残差图;plot residual. * predicted.;run;运行结果如图 5-38 和图 5-39 所示。图5-38 倒幂函数回归结果倒幂函数回归结果(图 5-38):方差分析表中显示模型的作用是显著的(F 统计量的值为 24.95,p 值0.00030.05 = ) 。参数显著性检验表明,自变量的作用是显著的。回归方程为:v = -78.56560+156.53887u即: xy15387.60.78残差对预测值的散点图(图 5-39)表明,残差有一定趋势,不符合模型的假定,以上回归方程无效。17 图5-39 残差对预测值的散

19、点图4. 幂函数 回归baxy考虑幂函数拟合,执行如下代码:data new2;set sy5_4;u = log(x);v = log(y);run;/*画 u 和 v 的散点图*/title u 和 v 的散点图;proc gplot data = new2;plot v*u;symbol v=dot i=none cv=red ;run;title 残差图;proc reg data = new2;var v u;model v = u;print cli;plot residual. * predicted.;run;得到散点图如图 5-40 所示:幂函数回归的结果见图 5-41 左:

20、图5-40 u与v的散点图18 图5-41 幂函数回归结果与残差对预测值的散点图得回归方程:v = 5.51053 7.93588u即: 9358.72.4xy残差对预测值的散点图(如图 5-41 右)表明,残差有微弱趋势,不符合模型的假定,上面回归方程不佳。5. 指数函数 回归bxaey考虑指数函数拟合,执行如下代码:data new3;set sy5_4;u = x;v=log(y);run;/*画 u 和 v 的散点图*/title u 和 v 的散点图;proc gplot data = new3;plot v*u;symbol v=dot i=none cv=red ;run;tit

21、le 残差图;proc reg data = new3;var v u;model v = u;plot residual. * predicted.;run;图5-42 u与v的散点图19 得到散点图如图 5-42 所示:指数函数回归结果见图 5-43 左:图5-43 指数函数回归结果与残差对预测值的散点图得回归方程:v = 9.58399 4.73895u即: xey73895.4102从残差对预测值的散点图(如图 5-43 右)可以看出,残差基本符合模型的假定,上面回归方程有效。6. 对数 回归xbayln考虑对数函数拟合,执行如下代码:data new4;set sy5_4;u = l

22、og(x);v = y;run;/*画 u 和 v 的散点图*/title u 和 v 的散点图;proc gplot data = new4;plot v*u;symbol v=dot i=none cv=red ;run;title 残差图;proc reg data = new4;var v u;图5-44 u与v的散点图20 model v = u;plot residual. * predicted.;run;得到散点图如图 5-44 所示。对数函数回归结果见图 5-45 左。图5-45 对数函数回归结果得回归方程:v = 64.58847 91.11730u即:y = 64.588

23、47 91.11730lnx从残差对预测值的散点图(如图 5-45 右)可以看出,残差有二次趋势,不符合模型的假定,上面回归方程无效。7. 结论比较上述 4 个回归方程,第三种指数函数回归的 Root MSE(均方残差平方根)最小(0.25991) 、R-Square(判定系数 R2)最大(0.9844) ,效果最好。执行下述代码,得到模型 的拟合图形如图 5-46 所示。xey73895.410data new5;set new1;y1 = 14530.28*exp(-4.73895*x);run;title 回归图;proc gplot data = new5;plot y*x=1 y1*

24、x=2/overlay ;symbol v=dot i=none cv=red ;symbol2 i=sm color=blue;run;图5-46 指数函数拟合图形21 5.4 上机演练【练习 5-1】某年度 12 个地区的财政收入和国民生产总值量如表 5-5(lx5_1.xls)所示。试对财政收入和国民生产总值进行简单相关分析和回归分析。表 5-5 12 个地区财政收入和国民生产总值(单位:万元)地区 年财政收入 国民生产总值 地区 年财政收入 国民生产总值1 212.2 1020.1 7 348.3 2665.22 219.9 1195.5 8 434.9 3465.13 235.7 1

25、492.2 9 521.8 4653.34 266.5 1691.8 10 624.2 5727.75 293.7 1859.8 11 650.8 6235.46 315.0 2166.2 12 720.4 6925.2【练习 5-2】某学校 20 名一年级女大学生体重(公斤) 、胸围(厘米) 、肩宽(厘米)及肺活量(升)实测值如表 5-6( lx5_2.xls)所示。试对影响女大学生肺活量的有关因素作多元回归分析。表 5-6 20 名一年级女大学生肺活量及有关变量测量结果编号 体重 X1/公斤 胸围 X2/厘米 肩宽 X3/厘米 肺活量 Y/升1 51.3 73.6 36.4 2.92 48

26、.9 83.9 34.0 3.113 42.8 78.3 31.0 1.914 55.0 77.1 31.0 2.635 45.3 81.7 30.0 2.866 45.3 74.8 32.0 1.917 51.4 73.7 36.5 2.988 53.8 79.4 37.0 3.289 49.0 72.6 30.1 2.5210 53.9 79.5 37.1 3.2711 48.8 83.8 33.9 3.1012 52.6 88.4 38.0 3.2813 42.7 78.2 30.9 1.9214 52.5 88.3 38.1 3.2715 55.1 77.2 31.1 2.6416 4

27、5.2 81.6 30.2 2.8517 51.4 78.3 36.5 3.1618 48.7 72.5 30.0 2.5119 51.3 78.2 36.4 3.1520 45.2 74.7 32.1 1.9222 【练习 5-3】在光刻工艺过程中,要求找出国产光致抗蚀剂显影的腐蚀速率与显影时间的关系,实验中观测的数据经整理如表 5-7(lx5_3.xls)所示。表 5-7 腐蚀速率与显影时间的关系x 5 10 15 20 25 30 35 40 45 50y 94.40 54.90 30.80 26.10 20.28 19.96 14.99 14.30 14.70 13.90试分别采用指数回归、对数回归、幂函数回归和倒幂函数回归四种非线性回归方法分别给出回归方程,并选择一个较为合适的回归方程。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报