1、 残差分析实验报告篇一:回归分析实验报告实验报告实验课程: 信息分析 专班业: 信息管理与信息系统 级: 学生姓名: 指导教师:请 输 入 姓 名 完成时间: 2013 年 6月 28 日一实验目的多元线性回归简单地说是涉及多个自变量的回归分析,主要功能是处理两个变量之间的线性关系,建立线性数学模型并进行评价预测。本实验要求掌握附带残差分析的多元线性回归理论与方法。 二实验环境 实验室 308 教室 三实验步骤与内容1 打开应用统计学实验指导书,新建 excel 表2打开 SPSS,将数据输入。3调用 SPSS 主菜单的分析回归线性命令,打开线性回归对话框,指定因变量(工业 GDP 比重)和自
2、变量(工业劳动者比重、固定资产比重、定额资金流动比重) ,以及回归方式;逐步回归(图 1)图 1 线性对话框4.在统计栏中,选择估计以输出回归系数 B 的估计值、t 统计量等,选择 Duribin-watson 以进行 DW 检验;选择模型拟合度输出拟合优度统计量值,如 R 、F 统计量值等(图 2) 。图 2 统计量栏5在线性回归栏中选择直方图和正态概率图以绘制标准化残差的直方图和残差分析与正态概率比较图,以标准化预测值为纵坐标,标准化残差值为横坐标,绘制残差与Y 的预测值的散点图,检验误差变量的方差是否为常数(图3) 。图 3 绘制栏6.提交分析,并在输出窗口中查看结果,以及对结果进行分析
3、。系统在进行逐步分析的过程中产生了两个回归模型,模型 1 先将与因变量(销售收入)线性关系的自变量地区人口引入模型,建立他们之间的一元线性关系。而后逐步引入其他变量,表 1 中模型 2 表明将自变量人均收入引入,建立二元线性回归模型,可见地区人口和人均收入对销售收入的影响同等重要。从表 2 中给出了两个模型各自的 R 和调整后的 R ,第一个模型中的销售收入中有 99%的变动可以用地区人口的变动解释,第二个模型中地区人口和人均收入的变动可以解释销售收入中 99.9%的变动,显然第二个模型的拟合数据效果比较好一点。此外,还给出了第二个模型的 DW 简言之 2.701,按照a=0.05、n=15、
4、k=2,查表,得到 DW 检验临界值 dl 和 du分别为 0.95 和 1.54,因为 du=d=4du,不从在自相关。表 3 中给出了两个模型的 F 检验值,查表可知当a=0.05,自由度为(1,13)时,F 检验的临界值为 4.67,第一个模型的 F 值为 1432.139,远远大于临界值,拒绝原假设,备择假设为真,即至少有一个 bi 不等于 0,因此模型 1 有效。当 a=0.05,自由度为(2,12)时,F 检验的临界值为 3.88,第二个模型的 F 值为 5679.466,模型 2 也通过了有效性的检验。篇二:数据分析实验报告合肥学院数理系实 验 报 告实验名称:面向专业:信息与计
5、算科学实验班级:课程名称: 数据分析学生姓名:学 号:指导教师:实验成绩:2014-2015 学年第二学期数据分析实验报告日期:1、实验内容某保险公司打算对收入在 25 万元及其以下的家庭考察其收入与户主生命保险额之间的关系。为此该公司随机抽取了 12 个家庭进行了调查,结果如下: 家庭 保险额(百元)收入(万元) 14 1923129 1522 2515101216 问题:(1)以收入为自变量,保险额为因变量,用最小二乘法确定线性?; 回归方程,并就表上给出的各收入水平计算 y(2)对方程的拟合情况进行诊断;?的含义是什么? (3)本题中,回归系数?1(4)在收入为 20000 元的家庭中,
6、平均每个户主的保险额和某一个户主的生命保险额的估计值各是多少?(显著性水平取 0.05)2、实验目的(1)会对实际问题建立有效的回归模型,能对回归模型进行残差分析;(2)掌握 SAS 输出结果用于判别回归方程优良性的不同统计量,能对回归模型进行运用。3、实验方案分析该问题是一元线性回归问题,实际中通常要解决以下问题:(1)利用样本数据拟合回归方程,即通过最小二乘法进行参数估计;(2)对拟合的回归方程进行诊断;(3)当诊断结果发现方程拟合不充分或误差项不能满足经典假定时,需对观测进行或模型进行适当的处理,然后再利用处理后的数据对处理后的方程进行拟合,直到模型诊断符合要求为止;(4)利用诊断后的模
7、型进行预测或控制,这是回归分析的主要目的之一。当经过一次抽样获得了自变量 X 和因变量 Y 的一个容量为 n 的样本后,一元线性回归模型一般可表示为以下形式:yi=?0+?1xi+?i ( i?1,2,?,n )对该模型,通常作以下假定:(1)随机误差项均值为 0,即 E(?i)=0, (i?1,2,?,n) ;(2)对每个 i,随机误差项?iN(0,?2) ,且COV(?i,?j)=0,ij;(3)自变量是非随机的确定性变量;(4)自变量和误差项互不相关。4、操作过程若用 INCOME 代表收入,INSURE 代表保险额,根据本例中的问题 SAS 程序编辑如下:data insuranc;i
8、nput insurce income;cards;32 14 40 19 50 23 20 12 22 9 35 15 55 2245 25 28 15 22 10 24 12 30 16 . 20;proc gplot;plot insurce*income;run;proc reg graphics;model insurce=income;model insurce=income/noint r clm cli;plot student.*p.;run;1.利用 DATA 步创建 SAS 数据集 insuran;2.利用 GPLOT 绘图过程画收入和保险额的散点图,通过散点图来了解两变
9、量之间是线性的还是非线性的;3.调用线性回归过程,得到收入水平对保险额的线性回归模型(含截距项) ;4.拟合一个不带截距项的线性回归模型;5.绘制保险额与其标准化残差的残差图,进行残差分析。5、实验结果(1)两变量之间是线性的还是非线性的判断图 1 保险额与家庭收入之间的散点图由保险额与家庭收入之间的散点图(图 1)可以看出,两变量间具有明显的线性关系。(2)拟合一个带截距项的线性回归模型以收入为自变量,保险额为因变量,构建以下线性回归模型:INSURCE=?0?1INCOME+? (1)并且,用最小二乘法确定线性回归方程,得到如下结果。篇三:数据分析实验报告实验课程:数据分析专 业: 信息与
10、计算科学 班 级:学 号:姓 名:中北大学理学院实验一 SAS 系统的使用【实验目的】了解 SAS 系统,熟练掌握 SAS 数据集的建立及一些必要的 SAS 语句。【实验内容】1. 将 SCORE 数据集的内容复制到一个临时数据集test。SCORE 数据集Name Sex Alice f Tom m Jenny f Mike m Fred m Kate f Alex m Cook m Bennie f Hellen f Wincelet f Butt m Geoge m Tod m Chris f Janet f2将 SCORE 数据集中的记录按照Math Chinese English 9
11、0 85 91 95 87 84 93 90 83 80 85 80 84 85 89 97 83 82 92 90 91 75 78 76 82 79 84 85 74 84 90 82 87 77 81 79 86 85 82 89 84 84 89 84 87 86 65 87math 的高低拆分到 3 个不同的数据集:math大于等于 90 的到 good 数据集,math 在 80 到 89 之间的到 normal 数据集,math 在 80 以下的到 bad 数据集。3将 3 题中得到的 good,normal,bad 数据集合并。【实验所使用的仪器设备与软件平台】SAS 【实验方
12、法与步骤】 1:DATA SCORE;INPUT NAME $ Sex $ Math Chinese English; CARDS;Alice f 90 85 91 Tom m 95 87 84 Jenny f 93 90 83 Mike m 80 85 80 Fred m 84 85 89 Kate f 97 83 82 Alex m 92 90 91 Cook m 75 78 76 Bennie f 82 79 84 Hellen f 85 74 84 Wincelet f 90 82 87 Butt m 77 81 79 Geoge m 86 85 82 Tod m 89 84 84 C
13、hris f 89 84 87 Janet f 86 6587;Run;PROC PRINT DATA=SCORE; DATA test; SET SCORE;2:DATA good normal bad; SET SCORE; SELECT;when(math=90) output good;when(math=80math90) output normal; when(math80) output bad; end; Run;PROC PRINT DATA=good; PROC PRINT DATA=normal; PROC PRINT DATA=bad;3:DATA All;SET good normal bad; PROC PRINT DATA=All; Run;【实验结果】结果一:结果二:结果三: