1、实习15 相关分析与回归分析,学习目标,能用SPSS做简单相关分析 能用SPSS做简单回归分析,主要内容,15.1 相关分析简介 15.2 简单相关分析 15.3 偏相关分析 15.4 简单回归分析,15.1 相关分析简介,一些基本概念,直线相关:研究两个变量是否存在直线相关关系,以及关系的密切程度 正相关、负相关、完全相关 相关系数:表示相关的密切程度与相关方向的指标,取值范围:-1, 1。,SPSS中的相关分析过程,双变量相关分:变量之间的两两相关 偏相关分析:对其他变量控制后的两两相关 距离:同一变量内部观测值或不同变量间的相似性和不相似性,15.2 简单相关分析,1. 积差相关系数(P
2、earson相关系数)的计算,注:积差相关系数严格上仅适用于两变量呈线性相关时。,相关系数的检验方法,样本相关系数r 是总体相关系数 的估计值,需进行假设检验。H0:0,两变量间无直线相关关系H1:0,两变量间有直线相关关系在SPSS中,直接给出最终的P值。,积差相关系数的适用条件,积差相关系数适用于线性相关的情形,且各自均服从正态分布。 样本中存在的极端值对积差相关系数的计算影响极大,要慎重考虑和处理,必要时可以对其进行剔除,或者加以变量变换。 工具:散点图、直方图、K-S检验等。,散点图可以用来发现异常值!,分析实例,数据文件是corr.sav,分析实例,相关分析用于进行两个/多个变量间的
3、相关分析 SPSS分析过程 图形 散点图 简单散点图 分析 相关分析 双变量相关分析,分析实例,分析结论 进食量和体重增量的相关系数为0.940,P0.01,有统计学意义。,2. 秩相关系数,适用情况:不服从双变量正态分布、分布未知、等级资料。 Spearman等级相关用rs表示两变量的相关关系的密切程度及相关方向。 基本思想:将两变量分别从小到大编秩,对秩次进行前述的相关分析。,SPSS分析过程 分析 相关分析 相关分析 相关系数复选框:Spearman,结论 进食量和体重增量的Spearman相关系数为0.899,P0.01,有统计学意义。,Kendalls 等级相关系数,适用于两个变量均
4、为有序分类的情况!,15.3 偏相关分析,方法原理,控制其它变量影响的情况下,分析两个变量之间的关系。 偏相关系数:揭示两变量之间的真实联系。,分析实例,例15.2:分析汽车价格和每加仑汽油可行驶公里数的相关关系。教材中的auto.sav。 分析:汽车的自重可影响每加仑汽油可行驶公里数。,利用相关分析得到3个变量两两之间的相关关系:,分析实例,SPSS分析过程 分析 相关分析 偏相关分析 变量框:price、mpg 控制框:weight,结论 控制了汽车自重的影响后汽车价格和每加仑汽油可行驶公里数的相关系数r=-0.068,p=0.539,无统计学意义,即汽车价格和每加仑汽油可行驶公里数无相关
5、性,汽车自重为混杂因素。,15.4 简单回归分析,研究一个连续性变量(因变量)的取值随着其它变量(自变量)的数值变化而变化的趋势。 通过回归方程解释两变量之间的关系显得更为精确,可以计算出自变量改变一个单位时因变量平均改变的单位数量,这是相关分析无法做到的。 除了描述两变量的关系以外,通过回归方程还可以进行预测和控制,这在实际工作中尤为重要。,a:常数项或截距,即回归直线在y轴上的截距。 b:回归系数,即回归直线的斜率。 残差: y的估计值与实测值的差。,如何求解a、b?,最小二乘法:使各实测点距回归直线的纵向距离的平方和达到最小(y- )2。 系数b是总体回归系数的估计值,需进行假设检验。H
6、0:0 决定系数R2:相关系数的平方。表示应变量的变异中能够通过回归关系被自变量解释的比例。,如何求解a、b?,分析实例,例:上海医科大学儿科医院研究某种代乳粉的营养价值,大白鼠的进食量和体重增量间的关系,试求进食量对体重的线性回归方程。数据文件Corr.sav,分析实例,分析过程: 1. 散点图 2. 用最小二乘法拟合回归方程 3. 对回归系数作假设检验,计算决定系数,分析实例,SPSS分析过程 图形 散点图 简单散点图 分析 回归分析 线性回归分析,分析实例,分析实例,【应变量】选入回归分析的应变量。 【自变量】选入回归分析的自变量。 【块】 由“上一张”和“下一张”两个按钮组成,用于将下
7、面自变量框中选入的自变量分组。多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入。,分析实例,【“方法”下拉列表】选择自变量的选入方法,共五种,对自变量框中的所有变量均有效。 强行进入法 逐步法 强制剔除法 向后法 向前法,分析实例,【选择条件】 选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,则满足该条件的记录才会进入回归分析,功能同数据选择个案。 【个案标签】 选择某一变量,将其取值作为每条记录的标签。最典型的情况是使用记录ID号的变量。 【WLS权重】 可利用该按钮扩展当前对话框进行权重最小二乘法的回归分析。
8、,分析实例,【统计量】 回归系数复选框组:定义回归系数的输出情况,默认只选中Estimates。 Estimates:可输出回归系数B及其标准误,t值、p值、标化回归系数beta; 置信区间:输出每个回归系数的95%可信区间; 协方差矩阵:输出各个自变量的相关矩阵和方差、协方差矩阵。,分析实例,【统计量】 残差:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。 共线性诊断:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等。,分析实例,【统计量】 模型拟合度:显示模型拟合过程中进入、退出
9、的变量的列表,以及一些有关拟合优度的检验:R,R2和调整的R2, 标准误及方差分析表。 R方变化:显示模型拟合过程中R2 、F值和p值的改变情况。 描述性:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。 部分相关和偏相关性:显示自变量间的相关、部分相关和偏相关系数。,分析实例,【绘制】 用于选择需要绘制的回归分析诊断或预测图。可绘制标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等。 【保存】 用以保存中间结果。,分析实例,【选项】 步进方法标准:设置纳入和排除标准,可按P值或F值来设置。 在等式中包含常量:用于决定是否在模型中包括常
10、数项,默认选中。 缺失值:用于选择对缺失值的处理方式。,分析实例,拟合过程中变量进入/退出模型的情况记录,分析实例,所拟合模型的情况汇总,分析实例,模型的检验结果实际是标准的方差分析表 回归模型F值为60.197,P值0.01,拒绝H0:b=0,分析实例,模型系数的检验结果,分析实例,结论 回归方程 t=7.759 p0.01 体重与进食量之间存在直线回归关系,线性相关与回归的区别,相关用于说明变量之间的相关关系,回归则说明因变量随自变量变化而变化的数量关系。 方向一致:r和b的正负号一致 假设检验等价:tr=tb ,r和b的假设检验的结果相同。 用回归解释相关:决定系数R2,练习,THE END,