1、利用spss进行一元线性回归,上机指导:王莉,Case1:降水&纬度,Case1数据说明: 53个台站的年降水量、年蒸发量、纬度和海拔数据 在本例中,把降水量P作为因变量,纬度作为自变量Case1目的: 分析降水量和纬度之间的数量关系Case1操作要点: 做散点图,查看两因素之间是否线性相关 如果线性相关,接着做线性回归分析,揭示其数量关系 对回归方程做显著性检验,打开spss的数据编辑器,编辑变量视图注意:因为我们的数据中“台站名”最多是5个汉字,所以字符串宽度最小为10才能全部显示。,step1:建立数据文件,编辑数据视图,将excel数据复制粘贴到spss中,step1:建立数据文件,从
2、菜单上依次点选:图形旧对话框散点/点状 定义简单分布,设置Y为年降水量,X为纬度由散点图发现,降水量与纬度之间线性相关,step2:做散点图,step2:做散点图,给散点图添加趋势线的方法: 双击输出结果中的散点图 在“图表编辑器”的菜单中依次点击“元素”“总计拟合线”,由此“属性”中加载了“拟合线” 拟合方法选择“线性”,置信区间可以选95%个体,应用,从菜单上依次点选:分析回归线性 设置:因变量为“年降水量”,自变量为“纬度” “方法”:选择默认的“进入”,即自变量一次全部进入的方法。 “统计量”: 勾选“模型拟合度”,在结果中会输出“模型汇总”表 勾选“估计”,则会输出“系数”表 “绘制
3、”:在这一项设置中也可以做散点图 “保存”: 注意:在保存中被选中的项目,都将在数据编辑窗口显示。 在本例中我们勾选95%的置信区间单值,未标准化残差 “选项”:只需要在选择方法为逐步回归后,才需要打开,step3:线性回归分析,【统计量】按钮,“回归系数”复选框组:定义回归系数的输出情况 勾选“估计”可输出回归系数B及其标准误差,t值和p值 勾选“误差条图的表征”则输出每个回归系数的95%可信区间 勾选“协方差矩阵”则会输出各个自变量的相关矩阵和方差、协方差矩阵。 “残差”复选框组: 用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、个案诊断。 “模型拟合度”
4、复选框: 模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:R,R2和调整的R2, 标准误及方差分析表。 “R方变化”复选框: 显示模型拟合过程中R2、F值和p值的改变情况。 “描述性”复选框: 提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。 “部分相关和偏相关性”复选框: 显示自变量间的相关、部分相关和偏相关系数。 “共线性诊断”复选框: 给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等。 以上各项在默认情况下只有“估计”和“模型拟合度”复选框被选中。,用于选择需要绘制的回归分析诊断或预测图。 可绘
5、制的有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等。许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析,保存按钮就是用来存储中间结果的。 可以存储的有:预测值系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量系列。下方的按钮可以让我们选择将这些新变量存储到一个新的SPSS数据文件或XML中。,【绘制】按钮,【保存】按钮,注意:选项按钮只需要在选择方法为逐步回归后,才需要打开 “步进方法标准”单选钮组:设置纳入和排除标准,可按P值或F值来设置。 “在等式中包含常量”复选框:用于决定是否在模型中包括常数项,
6、默认选中。 “缺失值”单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(按列表排除个案)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记录(按对排除个案);将缺失值用该变量的均数代替(使用均值替代)。,【选项】按钮,【输入/移去的变量】 此表是拟合过程中变量输入/移去模型的情况记录,由于我们只引入了一个自变量,所以只出现了一个模型1(在多元回归中就会依次出现多个回归模型),该模型中“纬度”为进入的变量,没有移出的变量,具体的输入/移去方法为“输入”。,step4:线性回归结果,【模型汇总】此表为所拟合模型的情况汇总,显示在模型1中: 相关系数R
7、=0.904 拟合优度R方=0.816 调整后的拟合优度=0.813 标准估计的误差=92.98256R方(拟合优度):是回归分析的决定系数,说明自变量和因变量形成的散点与回归曲线的接近程度,数值介于0和1之间,这个数值越大说明回归的越好,也就是散点越集中于回归线上。,step4:线性回归结果,【Anova】 (analysisofvariance方差分析) 此表是所用模型的检验结果,一个标准的方差分析表。 Sig.(significant )值是回归关系的显著性系数,sig.是F值的实际显著性概率即P值。当sig. 0.05,说明二者之间用当前模型进行回归没有统计学意义,应该换一个模型来进行
8、回归。 由表可见所用的回归模型F统计量值=226.725 ,P值为0.000,因此我们用的这个回归模型是有统计学意义的,可以继续看下面系数分别检验的结果。 由于这里我们所用的回归模型只有一个自变量,因此模型的检验就等价与系数的检验,在多元回归中这两者是不同的。,step4:线性回归结果,【系数】 此表给出了包括常数项在内的所有系数的检验结果,用的是t检验,同时还会给出标化/未标化系数。可见常数项和“纬度”都是有统计学意义的。 由此得到年降水量与纬度之间的一元回归方程为: Y=-82.188X+3395.584,step4:线性回归结果,Case2:气温&降雨量,Case2数据说明: 伦敦12个
9、月的平均气温、降雨量数据 在本例中,把降雨量作为因变量,平均气温作为自变量Case2目的: 分析平均气温和降雨量之间的数量关系Case2习题要求: 做散点图,查看两因素之间是否线性相关 如果线性相关,接着做线性回归分析,揭示其数量关系 对回归方程做显著性检验,写出结论,给这个例子的目的是,看大家是否真的理解做散点图的意义 当散点图都不呈现线性关系,那有多少同学接着就做了一元线性回归?根本就没有在脑子里思考一下它究竟是不是一元线性关系。 希望大家在以后的软件学习中,要问自己做每一步操作的意义何在,不要机械的不思考的动手 Case3:大家用case1的数据,分析一下年蒸发量与纬度的关系。,Case2:气温&降雨量,