收藏 分享(赏)

spss统计分析及应用教程-第6章 相关和回归分析.ppt

上传人:精品资料 文档编号:9994069 上传时间:2019-09-26 格式:PPT 页数:142 大小:3.10MB
下载 相关 举报
spss统计分析及应用教程-第6章 相关和回归分析.ppt_第1页
第1页 / 共142页
spss统计分析及应用教程-第6章 相关和回归分析.ppt_第2页
第2页 / 共142页
spss统计分析及应用教程-第6章 相关和回归分析.ppt_第3页
第3页 / 共142页
spss统计分析及应用教程-第6章 相关和回归分析.ppt_第4页
第4页 / 共142页
spss统计分析及应用教程-第6章 相关和回归分析.ppt_第5页
第5页 / 共142页
点击查看更多>>
资源描述

1、第6章 相关和回归分析,本章学习目标 理解相关和回归分析的基本思想、原理与两者之间关系; 明确相关和回归分析的实验目的、实验步骤和实验内容; 掌握实验结果的统计分析; 熟练使用散点图; 相关和回归分析应用在经济管理数据分析中的应用。,第6章 相关和回归分析,相关和回归分析是分析客观事物之间相关性的数量分析方法。客观事物之间的关系可分为函数关系和统计关系。函数关系指客观事物之间的一一对应关系,即当一组变量取一定值时,另一变量y可以依确定的函数取唯一确定的值。统计关系指客观事物之间的一种非一一对应关系,即当一组变量取一定值时,另一变量y无法依确定的函数取唯一确定的值。事物之间的函数关系比较容易分析

2、,而事物之间的统计关系不像函数关系那样直接。相关和回归分析正是以不同的方式处理事物间的统计关系。 。,实验一 相关分析,实验目的 了解相关分析的方法原理; 熟练掌握相关分析的SPSS操作命令; 熟练应用三个常用相关系数的计算方法及其数据测度要求; 运用相关分析解决管理学实际问题的能力。,实验一 单一样本t检验,准备知识 简单相关分析的概念,统计学中,相关分析是以分析变量间的线性关系为主,是研究它们之间线性相关密切程度一种统计方法。它是通过几个描述相关关系的统计量来确定相关的密切程度和线性相关的方向。这些统计量包括皮尔逊(Pearson)相关系数、斯皮尔曼(Spearman)和肯德尔(Kenda

3、ll)秩相关系数,一般用符号r来表示。,准备知识 简单相关分析的概念,相关系数具有一些特性:(1)它的取值极限在-1和+1之间,即-1r+1。(2)它具有对称性,即X与Y之间的相关系数和Y与X之间的相关系数相同。(3)它与原点和测度都无关,即如果定义和,其中,且c和d都是常数,则和之间的r无异于原始变量X与Y之间的r。(4)如果X和Y统计上独立的,则它们之间的相关系数r=0;但反过来,r=0不等于说X和Y是独立的。(5)它仅是线性关联的一个度量,不能用于描述非线性关系。,相关系数的计算方法 皮尔逊(Pearson)相关系数,通常,仅对刻度级(Scale)变量计算皮尔逊(Pearson)相关系数

4、,公式为: 其中 , 分别为 , (i=1,2,n)的算术平均值。,相关系数的计算方法 斯皮尔曼和肯德尔秩相关关系,用于反映两个序次或等级变量的相关程度。计算Spearman相关数据时,要求先对原始变量的数据排序,根据秩使用Spearman相关系数公式进行计算。公式可为: 式中, 、 分别是 , 的秩。 、 分别是变量 、 的平均值。至于肯德尔秩相关系数的计算公式,此处不再列出。,关于相关系数统计意义的检验,我们通常利用样本来研究总体的特性,由于抽样误差的存在,样本中两个变量之间的相关系数不为0,不能直接就断定总体中两个变量间的相关系数不是0,而必须进行检验。给出显著性水平,做出判断。对给定的

5、显著性水平,与检验统计量相对应的p值进行比较:当p值(SPSS中常用Sig值来表示)小于显著性水平,则拒绝原假设,认为相关系数不为零。如=0.05,P=0.01,则P,拒绝零假设,即两个变量相关系数r0,计算得到的相关系数是有意义,可以对它进行说明两个变量之间的相关程度:反之,当p值大于显著性水平,则不能拒绝原假设,认为相关系数为零,不能根据计算得到的相关系数来说明两者之间相关程度。,实验一 相关分析,实验内容 某大学一年级12名女生的胸围(cm)、肺活量(L)身高(m),数据见表6-1-1。试分析胸围与肺活量两个变量之间相关关系。,表6-1-1 胸围、肺活量与身高相关数据表,实验步骤,(1)

6、绘制散点图,以判断两个变量之间有无线性相关趋势,见图,(2)从菜单上依次选择“分析相关双变量(二元相关)”命令,打开对话框,如图6-1-2所示。选择“胸围”、“肺活量”到变量框;选择“相关系数-pearson”、“显著性检验-双侧检验”、“标记显著性相关”。单击“确定”按钮。,实验结果,胸围与肺活量相关性,实验分析,胸围与肺活量相关性,由结果表可以看出,变量间相关系数是用2*2方阵形式出现的。每一行和每一列的两个变量对应的单元格就是这两个变量相关分析结果,有三个数字,分别为Pearson 相关性、显著性(双侧)、N(样本量)。如表格中黑色单元格所示。胸围与肺活量的Pearson 相关系数为0.

7、549,显著性检验为0.064,样本量为12。如果单从相关系数可以看出两者是正相关的而且具有中等相关性。但是,显著性检验0.0640.05,接受原假设,所以Pearson 相关系数为0.549的值没有通过显著检验。根据这12个小样本来推断该大学一年级女生胸围与肺活量之间的没有线性相关性。,实验二 偏相关分析,实验目的 准确理解偏相关分析的方法原理和使用前提; 熟练掌握偏相关分析的SPSS操作; 了解偏相关分析在中介变量运用方法。,实验二 偏相关分析,准备知识 偏相关分析的概念,在多元相关分析中,由于其他变量的影响,Pearson相关系数只是从表面上反映两个变量相关性,相关系数不能真正反映两个变

8、量间的线性相关程度,甚至会给出相关的假想。因此,在有些场合中,简单的Pearson相关系数并不是测量相关关系的本质性统计量。当其他变量控制后,给定的任意两个变量之间的相关系数叫做偏相关系数。偏相关系数才是真正反映两个变量相关关系的统计量。,偏相关系数的计算公式,设有n 个变量 , , ,每两个变量间的简单相关关系,即皮尔逊(Pearson)相关系数所构成的相关系数对称矩阵为:其中, ,i,j=1,2,n。,偏相关系数的计算公式,如设 为此矩阵的行列式,既 ,则变量 与 之间的偏相关关系为:其中 分别为中元素 的代数余子式。,实验二 偏相关分析,实验内容 研究人员收集了26个旅游景点某年的商店投

9、资数据、游客增长率和风景区的经济增长率。问景区商业投资是否确实导致了风景区的经济增长率?,实验二 偏相关分析,实验步骤,(1)在SPSSl7.0中打开数据文件6-2.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口 。,旅游投资数据文件,(2)从菜单上依次选择“分析-相关-偏相关”命令,打开其对话框,如图所示。选择“商业投资”与“经济增长”作为相关分析变量,送入变量框中;选择“游客增长率”作为控制变量,用箭头送入右边的控制框中。,(3)点击“选项”按钮,见图,选择零阶相关系数(也就是两两简单相关系数,可以用与偏相关系数比较)。点击“继续”按钮回到主分析框。点击“确定”按

10、钮。,实验结果,描述性统计分析,偏相关分析,实验三 简单线性回归分析,实验目的 准确理解简单线性回归分析的方法原理; 熟练掌握简单线性回归分析的SPSS操作与分析; 了解相关性与回归分析之间关系; 培养运用简单线性回归分析解决实际问题的能力。,知识准备 线性回归分析问题,线性回归分析一般解决以下问题:第一,确定因变量与若干自变量之间的定量表达式,通常称为回归方程式,并确定它们联系的密切程度;第二,通过控制可控变量的数值,利用求出的回归方程式来预测或控制因变量的取值和精度;第三,进行自变量分析,找出影响因素最为显著的,以区别重要因素和次要因素。 回归分析主要研究变量之间的线性相关关系时,称为线性

11、回归分析,否则称为非线性回归分析。又按照自变量多少分为一元线性回归和多元线性回归。,知识准备 简单线性回归分析的理论模型,其理论假设为: 简单线性回归的主要任务是根据样本数据求出未知参数 和 的 估计值 和 ,从而得到估计的回归方程:,知识准备 SPSS线性回归分析的数据要求,线性回归过程中包括一元、多元线性回归、多元逐步回归。可以给出所求回归方程的回归系数估计值(即回归系数参数估计和区间估计)、协方差矩阵、复相关系数R、方差分析表、因变量的最佳预测值等,还可以输出变量值的散点图等图形。 线性回归过程对数据的要求是:自变量和因变量必须是具有刻度级测度的数值型变量;标志或分类变量,必须记录为二元

12、的哑变量(虚拟变量)或者其他类型的对立变量。 对于因变量的所有观察值(样本)应该认为是来自于相互独立的等方差的正态总体(i.i.d),并且因变量与各个自变量之间应具有一定的线性关系。,简单线性回归分析中的统计检验和残差分析 拟合优度检验,定线性回归直线拟合优度的检验统计为:式中, =SST,称为总平方和, =SSR,称为回归平方和,SSE=SST-SSR= ,称为残差平方和。 称为判定系数或拟合效度等。,简单线性回归分析中的统计检验和残差分析 F检验,回归方程显著性检验的统计量为F统计量:式中,p为自变量个数,n为样本观测个数。对于一元线性回归方程,p=1。同时注意到 ,即拟合优度越好,F值越

13、大,越有可能是显著的,方程成立可能性越大。说明R方是直观地体现出拟合效果,而F是统计量定量说明这个效果是否显著,一般两者配套使用。,简单线性回归分析中的统计检验和残差分析 DW检验,在回归模型的诊断中,有一个非常重要的回归模型假设需要诊断,那就是回归模型中的误差项的独立性。如果误差项不独立,那么对回归模型的任何估计与假设所作出的结论都是不可靠的。其参数称为DW。取值范围是0DW4,统计学意义如下:当残差与自变量互为独立时,DW2;当相邻两点的残差为正相关时,DW2;当相邻两点的残差为负相关时,DW2。,简单线性回归分析中的统计检验和残差分析 残差分析,所谓残差就是指回归方程计算得到的预测值与实

14、际值之间的误差:它是回归模型中的 估计值,有多个 形成的序列称为残差序列。可通过残差序列分析来证实模型假设。常以预测值为横轴,以误差 为纵轴(或学生化残差),绘制残差的散点图。如果散点图呈现明显的规律性,则认为存在自相关性,或者存在非线性、非常数方差的问题。利用残差图还可以判断模型的拟合效果。在残差图中,如果各点呈随机状,并绝大部分落在范围 (68%的点落在 内,96%的点落在 之中),说明模型对于数据的拟合效果较好。,知识准备 简单线性回归分析的基本步骤,回归分析之前,需要对样本资料是否满足要求进行判断。可以先使用相关分析法确定自变量与因变量之间的相关系数,或者运用散点图(Scatter)功

15、能,产生直观的散点图,观察自变量与因变量之间关系,以及奇异值等情况。如果图中发现有明显远离主体的观测值,则称之为异常点(Outlier),这些点很可能对正确评价两变量之间关系有较大影响。,知识准备 简单线性回归分析的基本步骤,分析因变量的正态性、方差齐性,确定是否可以进行线性回归分析。模型拟合完毕,通过残差分析结果来考察模型是否可靠。如果变量进行了变换,则应重新绘制散点图并观察数据分布。,知识准备 简单线性回归分析的基本步骤,利用检验统计量对回归预测模型进行显著性检验,得到拟合回归直线。,知识准备 简单线性回归分析的基本步骤,考察数据是否符合模型假设条件,主要包括以下两个方面。首先残差是否独立

16、?实际上就是考察因变量取值是否相互独立,采用Durbin-Watson,DW残差序列相关性进行分析,其取值范围为:0DW4。统计意义为:若DW2,表明相邻两点的残差项相互独立;若0DW2,表明相邻两点的残差项正相关;若2DW4,表明相邻两点的残差项负相关。其次,考察残差分布是否为正态?实际上就是考察因变量趋势是否服从正太分布,可以采用残差列表及相关指标法进行分析,直方图是图示法观察用的。,知识准备 简单线性回归分析的基本步骤,线性回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围,此时求得的预测值成为内插(Interpolation),而超出自变量取值范围所得到的预测值成为外延(Ex

17、trapolation)。若无充分理由说明现有自变量范围以外的两变量间仍然是线性关系,则应尽量避免不合理的外延。同时线性模型的预测效果不及非线性模型,所以一般不用线性模型来开展预测功能。,相关分析与回归分析关系 概念关系,相关分析与回归分析有密切的关系,它们都是研究变量之间线性关系的统计分析方法。但是两者又有区别。相关分析中的变量视为随机变量,仅研究变量之间是否存在线性关系;而回归分析中研究的变量分为因变量和自变量,因变量是随机变量,又成为被解释变量,自变量又称为解释变量,是可以加以控制的变量。,相关分析与回归分析关系,虽然因果分析研究一个变量对另一个(些)变量的依赖关系,但它并不一定意味着因

18、果关系。用Kendall和Stuart的话说:“一个统计关系式,不管多强也不管多么有启发性,却永远不能确定因果方面的联系:对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论”。,实验三 简单线性回归分析,实验内容 下表给出1960-1972年之间的美国制造业的每百名雇员的辞退率与失业率。试分析辞退率Y和失业率X的线性关系。,实验三 协方差分析,实验步骤,(1)进入线性回归分析的对话框。选择“分析-回归-线性”命令。弹出回归分析对话框。,回归分析对话框,(2)选择分析变量。将“辞退率”送入因变量分析框;将“失业率”送入自变量分析框。,(3)在方法M框中回归分析方法。,进入法(Enter

19、):所选择的自变量全部进入回归模型,该选项是默认方式。逐步回归法(Stepwise): 它是向前选择法与向后剔除法的结合。根据在选项O对话框中设定,首先根据方差结果选择符合要求的自变量且对因变量贡献最大的进入方程。然后根据向后剔除法,将模型中F值最小的且符合剔除要求的变量剔除出模型,重复进行,直到回归方程中的自变量均符合进入模型,模型外的自变量都不符合进入模型要求为止。,消去法(Remove): 建立回归方程时,根据设定的要求剔除部分自变量。后向剔除法(Backward):先建立全模型,根据在选项O对话框中设定,每次剔除一个最不符合要求的变量,直到回归模型中不再含有不符合要求的自变量为止。向前

20、选择法(Forward):从模型中无自变量开始,根据在选项O对话框中设定,每次将一个最符合的变量进入模型,直止所有符合要求的变量都进入模型为止。第一个进入模型的变量应该与因变量间的相关系数绝对值最大。如果指定的依据是F值,每次将方差分析的F值最大的进入模型。,(4)选择分析统计量。 单击统计量S按钮,弹出对话框,如图所示。,回归系数: 估计(E)选项:输出回归系数、的标准误、标准化回归系数beta、对回归系数进行检验的t值、t值的双侧检验的显著性水平sig。置信区间(Confidence intervals)选项:显示每个回归系数或协方差矩阵指定置信度的置信区间。协方差矩阵(Convarian

21、ce matrix)选项:输出非标准化回归系数的协方差矩阵、各变量的相关系数矩阵。,与模型拟合及其拟合效果有关的选择项 模型拟合度(Model fit)选项:输出复相关系数R、复相关系数R2及其修正值、估计值的标准误、ANOVA方差分析表、引入模型和从模型中剔除的变量。这是系统默认选择项。R方变化(R squared chang)选项:由于添加或删除自变量而产生的R2统计量的变化。如果较大,说明进入和从方程中剔除的变量有可能是一个较好的回归变量。,与模型拟合及其拟合效果有关的选择项 部分相关和偏相关性(Part and partial correlation)选项:输出部分相关系数(表明当一个

22、自变量进入回归方程后,R2增加了多少)、偏相关系数(表示排除了其他自变量对因变量的影响后,与因变量的相关程度)、零阶相关系数(变量之间的简单相关系数)。共线性诊断(Collinearity diagnostics)选项:共线性(或多重共线性)指一个自变量是其他自变量的线性函数。输出用来诊断各变量共线性问题的各种统计量和容限值。,有关残差(Residuals)分析的选择项 Durbin-Watson选项:输出Durbin-Watson统计量以及可能是奇异值的观察量诊断表。个案诊断(Case diagnostics)选项:输出观测量诊断表。离群值(Outliers and standard dev

23、iation)选项,设置奇异值的判据,默认值为3。所有观测量选项,输出所有观察量的残差值。离群值(Outliers and standard deviation)选项,设置奇异值的判据,默认值为3。所有观测量选项,输出所有观察量的残差值。,(5)选择分析(O)选项 ,如图所示。,步进方法标准:设置变量进入模型或从模型中剔除的判据。使用F的概率选项:以F检验的概率作为变量进入模型或从模型中剔除的判据。系统默认值为0.05。当一个变量的sig值0.05时,该变量进入回归方程;当一个变量的sig值0.10时,该变量从回归方程中删除。可以在其后的编辑框中输入自定义值,但是进入值要小于删除值。使用F值选

24、项:以F值作为变量进入模型或从模型中剔除的判据。系统默认进入F值3.84,F值2.71时从模型中删除该变量。,步进方法标准:设置变量进入模型或从模型中剔除的判据。使用F的概率选项:以F检验的概率作为变量进入模型或从模型中剔除的判据。系统默认值为0.05。当一个变量的sig值0.05时,该变量进入回归方程;当一个变量的sig值0.10时,该变量从回归方程中删除。可以在其后的编辑框中输入自定义值,但是进入值要小于删除值。使用F值选项:以F值作为变量进入模型或从模型中剔除的判据。系统默认进入F值3.84,F值2.71时从模型中删除该变量。,在等式中包含常量(Include constant in e

25、quation)选项:在回归方程中包含常数项,这是默认选择项。 本例选择SPSS系统默认。单击“继续”按钮,(6)选择绘制(T)选项 ,弹出绘制对话框 。图可以帮助检验数据的正态性、线性和方差相等的假设。还可以帮助识别离群值、异常观察值和有影响的观测量等非常正数据。,散点图。可以绘制以下各项中的任意两种:DEPENDNT(因变量)、*ZPRED(标准化预测值)、*ZRESID(标准化残差)、*DRESID(剔除残差)、*ADJPRED(调整的预测值)、*SRESID(学生化的残差)、*SDRESID(学生化的已删除残差)。针对标准化预测值绘制标准化残差,以检查线性关系和等方差性。,产生所有部分

26、图(P)选项:输出每一个自变量的残差相对于因变量残差的散点图。要生成部分图,方程中必须至少有两个自变量。标准化残差图选项:可以获取直方图,输出带有正态曲线的标准化残差的直方图;标准化残差的正态概率图(R),即P-P图,检查残差的正态性。,(7)单击保存(S)选项 弹出保存变量对话框,见图所示。预测值(Predicted Values)选项 回归模型对每个个案预测值。 未标准化(U):非标准化,模型为因变量预测的值。 标准化(R):每个预测值转换为其标准化形式。 调节(J):当某观测量从回归系数的计算中排除时,观测量的预测值。 均值预测值的S.E.:预测值的标准误,对于自变量具有相同值的观测量所

27、对应的因变量的均值的标准差的估计。,残差 未标准化(N):未标准化残差,因变量的实际值与模型预测值之间的差。 标准化(A):标准化残差,残差除以其标注差的估计。标准化残差也称为Pearson残差,它的均值为0,标准差为1。 学生化(S):学生化残差,残差除以其随观测量变化的标准差的估计,这取决于每个观测量的自变量值与自变量均值之间的距离。 删除(L):剔除残差,当某个观测量从回归系数的计算中排除时,该观测量的残差,是因变量的值和经调整的预测值之差。 学生化已删除(E):学生化剔除差,一个观测量的剔除残差除以其标准误。,距离 Mahalanobis距离(H):马哈拉诺比斯距离,简称为马氏距离,是

28、一个测量自变量观测值中有多少观测值与所有观测值均值不同的测度,把马氏距离数值大的观测值视为极端值。Cook距离(K):库克距离,如果一个特殊的观察值被排除在回归系数的计算之外时,库克距离用于测量所有观测量的残差将会有多大的变化。当将库克距离数值大的观测量排除在回归分析的计算时,会导致回归系数发生根本变化。杠杆值(G):用于度量某个点对回归拟合的影响。集中的杠杆值范围为从0(对拟合无影响)到(N-1)/N。,预测区间(Prediction Intervals)均值(M):均值预测区间的上下限。单值(I):因变量的单个观测量的预测区间。置信区间(C):预测区间的置信概率,在小框中输入199.99之

29、间的值。,预测区间(Prediction Intervals) 标准化DiFit(T):标准化的DiFit值。如果此值大于其临界值的绝对值,则可以认定此观测量为影响点。协方差比率(V):剔除一个影响点的协方差矩阵与全部观测量的协方差矩阵的比率。如果比率接近于1,则说明被排除的观测量不能显著改变协方差矩阵。,系数统计 将回归系数保存到数据集或数据文件。可以在同一会话中继续使用数据集,但不会将其另存为文件,除非在会话结束前,将其保存为文件。数据集名称必须符合变量名命名规则。将模型信息输出到XML文件 将参数估计值及其协方差导出到指定的XML格式的文件。 这里不保存任何值,然后单击“继续”命令返回,

30、实验结果,模型汇总,方差分析表,模型系数表,实验四 多元线性回归分析,实验目的 准确理解简单线性回归分析的方法原理; 熟练掌握简单线性回归分析的SPSS操作与分析; 了解相关性与回归分析之间关系; 培养运用简单线性回归分析解决实际问题的能力。,知识准备 多元线性回归分析基本原理,(1)多元线性回归模型是指含有多个自变量的线性回归模型,用于解释因变量与其它多个自变量之间的线性关系。 线性回归的一般数学模式是: 式中因变量Y的变化由两个部分来解释:一是由P个自变量x的变化引起的Y变化部分;二是由其他随机因素 引起的Y的变化部分。,知识准备 多元线性回归分析基本原理,(2)SPSS线性回归分析过程作

31、了n次观测,得到观测值为:其中, 分别为第i次观测时自变量 的取值; 为因变量Y的观测值。,知识准备 多元线性回归分析基本原理,(3)回归分析需要对模型中的未知参数 作出估计,分别称为回归常数和偏回归系数。偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起的因变量变化的比率。 对建立的回归方程进行回归系数显著性检验,即检验假设 。即第i个偏回归系数与0无显著差异。检验的显著性统计量为t统计量。,知识准备 多元线性回归分析基本原理,(4)多元线性回归方程显著性检验的零假设为: ,检验的统计量为F统计量,如果检验拒绝H。,则认为回归方程有效。与一元回归方程相同,在多元回归中也使用

32、判定系数 来解释回归模型中自变量的变异在因变量变异中所占的比率,此时反映的是Y的变异由自变量联合解释的比例,因此,称为 复判定系数(Multiple coefficient of determination)。,知识准备 多元线性回归分析基本原理,(4)多元线性回归方程显著性检验的零假设为: 同时,复判定系数的值随着进入回归方程的自变量个数P(或样本容量的大小)的增加而增大。因此,为了消除自变量个数以及样本量的大小对判定系数的影响,引入了经调整的判定系数(Adjusted R Square)。调整的判定系数的公式是:Adjusted 其中p为自变量的个数,n为观测量的数目。可以看出,自变量个数

33、大于1时,其值小于判定系数。自变量个数越多,与判定系数的差值越大。,多元线性回归分析基本步骤,实验三 简单线性回归分析,实验内容 本例使用6-4数据文件,建立一个以“初始工资”、“工作经验”、“受教育年限”等为自变量,“当前工资”为因变量的回归模型。,员工工资与工作经验,实验步骤,1.散点图 直观地观察自变量与因变量之间关系是否有线性特点。 (1)按“图形”“散点”“简单分布”顺序展开,如图所示的对话框。单击”定义”出现图6-4-2简单散点图对话框。,1.散点图 单击”定义”出现图简单散点图对话框。 (2)将变量“初始工资”、“当前工资”依次放入Y轴与X轴,单击“确定”按钮。 结果如下图:,生

34、成图形见图6-4-3 ,根据同样操作方法,以“当前工资”为Y轴,分别以其他几个自变量为X的散点图。,回归模型操作 (1) 按“分析”“回归”“线性”顺序展开,选择“当前工资”作为因变量进入因变量(D)框中。选择“初始工资”、“工作经验”、“工作时间”、“受教育年限”变量作为自变量进入自变量(I)框中。在方法(M)框中选择逐步回归法作为分析方式。见图线性回归主对话框。,回归模型操作 (2)单击统计量(S)按钮,打开如图6-4-5对话框。在回归系数一栏中选择估计(E)、模型拟合度(M)、共线性诊断(L);在残差一栏中选择Durbin-Watson(U)、个案诊断中的离群值(O)参数框中键入3,表示

35、设置观察量标准差大于等于3,为奇异值。单击“继续”按钮,返回主对话框。,回归模型操作 (3)单击保存按钮,打开图对话框。选择距离一栏中的Mahalanobis距离(H)、Cook距离(K)、杠杆值(G);选择影响统计量一栏中的标准化DfBeta(Z)、标准化DfFit(T)、协方差比率(V),用来确定影响点,单击继续按钮,返回主对话框。,回归模型操作 (4)为了从图形上检查模型的线性和方差齐性等,做散点图。单击绘制(T)按钮,打开绘图对话框,将变量ZPRED与ZRESID分别放入X 、Y框中;标准化残差图中选择直方图(H)、正态概率图(R)。单击“继续”按钮,返回主对话框。,回归模型操作 (5

36、)在主对话框中,单击选项(O)按钮,选择在等式中包含常量(I)。单击继续按钮,返回主对话框。(6)提交系统执行结果。,实验结果,回归方程,拟合过程模型汇总,方差分析,回归系数分析,已排除的变量,共线性诊断,案例奇异值诊断,残差统计量,残差分布直方图,观测量累计概率图,当前工资的预测值与其学生化残差散点图,实验五 曲线估计,实验目的 准确理解曲线回归的方法原理; 熟练掌握曲线估计的SPSS操作与分析; 掌握根据11种曲线模型,选择建立简单又适合的模型; 掌握利用曲线回归方程进行预测。,知识准备 非线性模型的基本内容,曲线估计问题,即曲线拟合问题。现实中,变量之间的关系往往不是简单的线性关系,而是

37、呈现某种曲线或非线性关系。此时,选择适当的曲线拟合可以更加准确地反映实际情况。 变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。所谓本质线性关系是指变量形式上虽表现为非线性关系,但可以通过变量转化方式变换为线性关系,并可最终进行线性回归分析,建立线性模型。本质非线性关系是指变量之间不仅形式上为非线性关系,而且也无法通过转化为线性关系。 PSS的曲线估计(Curve Estimation)就是用来解决这类问题的。它提供了包括线性回归在内的11种不同的曲线估计回归模型。,拟合模型,曲线估计的基本步骤,实验五 曲线估计,实验内容 某公司有一种新产品上市,选择8个地区做试销活动。收集了试销

38、广告投入与销量的数据(数据文件6-5),结果见表。问广告投入与销量之间的关系?,实验步骤,(1)绘制散点图。选择“图形-散点-简单分布-定义”命令,“销售”变量放入Y轴,“广告投入”放入X轴,按“确定”按钮得到散点图,见图所示。从图中看出二者的斜率有逐渐减缓的曲线趋势,因此,选用二次曲线模型、三次曲线模型和对数曲线模型。,(2)选择“分析-回归-曲线估计”命令,显示曲线估计对话框,如图所示。将“销售”放入因变量框(D),将“广告投入”放入变量框。如果自变量是时间变量或观测量序号ID,可以选择时间,这时曲线估计产生一个时间变量,观测量之间的时间长度视为均匀的。,(3)选择分析变量。 在等式中包含

39、常量(D):估计回归方程式中的常数项 根据模型绘图(O):对照自变量绘制因变量的值,每个模型产生一个单独的曲线。 模型:11种常用曲线。此处选中二次项、对数、立方等选项,线性选项是默认的。 显示ANOVA表格(Y):为每个选定的模式输出方差分析表。,(4)保存(A)。如图所示。 保存变量:对于每个选定的模型,可以保存预测值、残差和预测区间。此处三个都选中。预测个案:在数据集中,如果选择时间而不是变量作为自变量,则可以指定超出时间序列结尾的预测期。可以选择以下选项之一。从估计期到最后一个个案的预测(L):在估计期内的观测量的基础上预测文件中所有观测量的值。预测范围(T):根据估计期的观测量,预测

40、指定日期、时间或观测号范围内的值。此功能用于预测超出时间序列中最后一个观测量的值。,实验结果,线性模型,对数模型,二次曲线模型,三次曲线,不同图形的拟合结果,数据文件中的新变量保存情况,实验六 二项logistic回归分析,实验目的 准确理解二项logistic回归分析的方法原理; 熟练掌握二项logistic回归分析的SPSS操作; 明确了解二项logistic回归方程参数的意义及其解释; 能运用二项logistic回归分析解决实际问题。,知识准备 logistic回归介绍,一般的回归模型中,应变量为刻度变量,并且理论上要求其服从正态分布等LINE(线性、独立、正态、等方差)假定条件。log

41、istic回归与它们的主要区别在于:因变量的类型不同。通过一组解释变量或自变量,采用logistic回归,可以预测一个分类变量每一分类发生的概率。解释变量可以使刻度变量或分类变量或两者的混合。如果解释变量均为刻度数据,则可以采用判别分析等方法进行分析。通常情况下,logistic回归对预测变量的假定条件较少,所以logistic回归更为常用。,知识准备 logistic回归介绍,分类变量可以分为有序变量(序次级)和无序变量(名义级)。后者分为二项分类变量和无序多项分类变量两种情况。如候选人是否会当选(二项分类)?消费者对某个产品使用满意程度分为很满意、一般、不满意,结果变量满意程度为有序分类变

42、量;不同人群将会选择不同品牌(联想、苹果、戴尔等)的电脑,这里的结果变量电脑品牌为无序多项分类变量。,知识准备 二项logistic回归模型,令因变量Y服从二项分布,其二项分类的取值分别为0,1,Y=1的总体概率为(Y=1 ),则K个自变量分别为X1,X2,XK所对应的logistic回归模型为 :(6-6-1) 或(6-6-2),知识准备 二项logistic回归模型,公式(6-6-1)与公式(6-6-2)可以互相推导。公式(6-6-1)通常被称为logistic回归预测模型,将某一个个体的自变量Xj值(x1,x2,xk)代入公式(6-6-1),在求得回归系数估计值的情况下,可以得到该个体概

43、率(Y=1 )的预测值(或称估计值,),即(6-6-3)logistic回归模型实际上是对概率(Y=1 )进行了logit变换后的线性回归模型,所以通常也称logistic回归模型为logit模型。通过logit变换,使01范围取值的(Y=1 ),变成了-+范围取值的logit值。,知识准备 二项logistic回归方程参数的意义及其解释,在一般线性回归模型中,通过普通最小二乘法求解回归系数。在二项分类logistic回归模型中,通过最大似然估计法求解回归参数。为了理解二项分类logistic回归模型参数的意义,需要先理解优势(Odds)与优势比(Odds Rations)的概念。 一个事件的

44、优势被定义为它发生的可能性与不发生的可能性之比。例如,抛一枚硬币后,其正面向上的优势为0.5/0.5=1;从52张桥牌中抽出一张A的优势为(4/52)/(48/52)=1/12。这里不要把优势的含义与概率混淆,其概率值为4/52=1/13,两者的关系可以用简单的公式来表示。如果事件概率为(二项分类变量的非事件概率为1-)表示,优势用表示,则有优势(6-6-4),知识准备 二项logistic回归方程参数的意义及其解释,由公式(5-6-2)和公式(5-6-4)可得:(6-6-5) 根据公式(6-6-5),回归系数bj(j=1,2,K)表示在其他自变量固定不变的情况下,某一个自变量Xj改变一个单位

45、,或对数优势的平均改变量。在实际应用中,logistic回归不是直接用回归系数来解释,而是解释优势比。优势比被用来作为衡量效应大小的指标,度量某自变量对因变量优势影响程度的大小。某一个自变量Xj对应的优势比为(6-6-6),知识准备 二项logistic回归方程参数的意义及其解释,将公式(5-6-5)等号两边同时取以自然对数e为底的指数,有(6-6-7) 优势比的含义是在其他自变量固定不变的情况下,某一自变量Xj改变一个单位,因变量对应的优势比平均改变exp(bj)个单位。如X1从一个任意实数变为+1,则(6-6-8) 所以,当一个自变量的系数为正值,它意味着优势比将会增加,此值会大于1;当系

46、数为0时,此值等于1.如果系数为负值,它意味着优势比将会减少,此值将会小于1。,单因素方差分析基本步骤,对于较大样本的系数的检验,使用基于卡方分布的Wald统计量。Wald统计量也有弱点,当回归系数的绝对值开始变大时,其标准误的值将发生更大的改变,这样Wald统计量的值开始变得很小,将导致拒绝回归系数的零假设,即认为变量的回归系数为零。因此,当变量的系数很大时,就不要依据Wald统计量,应建立两个包含与不包含药检测的变量的模型,利用对数似然比的变化值进行建设检验,可以选择Backward LR方式作为变量的选择方法。,单一样本t检验基本原理和步骤,判别模型与样本之间的“想象度”是判别模型好坏的

47、方法之一。在SPSS的“Model summary”输出结果中,给出了Cox and Snell决定系数和Nagelkerke决定系数。Cox and Snell决定系数的缺点是最大值小于1,使得解释变得困难。Nagelkerke决定系数修改了Cox and Snell决定系数,使的取值在01。这里给出的决定系数不像一般回归模型,它不是真正意义上的决定系数,而是伪决定系数(Pseudo-R-Square),解释时只能作为模型拟合优度的参考。,单一样本t检验基本原理和步骤,经常用来检查模型判别能力的指标为C统计量,其取值范围从0.51。0.5表示模型对观测量的判别作用非常弱,1表示模型可以很好地

48、去识别观测量的类别。在SPSS的逻辑回归过程中,为了计算C统计量,必须要保存预测概率,再利用ROC功能进行计算。,实验六 二项logistic回归分析,实验内容 为了分析孕妇顺产有否(1=顺产,0=其他)的影响因素,研究者收集了1402名产妇的相关信息:年龄、身高、体重、职业(1=工人、农民等体力者,2=管理者与知识分子等脑力人员,3=商人,4=其他)和文化程度(0=文盲,1=小学,2=中学,3=大学)等指标。数据编号为6-6。,数据文件,实验步骤,(1)选择Logistic回归分析对话框。依次单击“分析-回归分析-二元Logistic回归”命令,打开“Logistic回归”对话框,如图所示。

49、,(2)选择变量。在变量列框中选择“顺产”变量后,单击进入按钮到因变量(D)框中;然后选择“年龄”“身高”“体重”“职业”“文化程度”变量,单击进入按钮,将它们移到协变量(C)框中。如图所示。,(3)方法(M)选择。在上图中单击方法(M)下拉菜单项,可以选择自变量进入模型的多种方法: 进入(Enter)选项:全部进入模型。 向前:条件(Forward: conditional)选项:将变量剔除出模型的依据是,条件参数估计的似然比统计量的概率值。 向前:LR(Forward:LR)选项:将变量剔除出模型的依据是,最大偏似然估计所得的似然比统计量的概率值。 向前:Wald(Forward: Wald)选项:将变量剔除出模型的依据是Wald统计量的概率值。 向后:条件(Backward: conditional)选项:将变量剔除出模型的依据是,条件参数估计的似然比统计量的概率值。 向后:LR(Backward:LR)选项:将变量剔除出模型的依据是,最大偏似然估计所得的似然比统计量的概率值。 向后:Wald(Backward: Wald)选项:将变量剔除出模型依据是Wald统计量的概率值。还可以将一个变量选入“选择变量”(B)框,根据该变量的值,通过右侧的“规则”按钮,设置一个选择条件,而只对部分数据进行分析。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报