1、1相关分析和线性回归分析Correlate菜单和 Linear过程2005.12.21主要内容 简单相关分析 秩相关分析 简单回归分析相关 (correlation)与回归 (regression) 相关:是研究多个变量之间相互关系的统计方法。 英国遗传学和统计学家F.Galton(1822-1911)首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。回归: F.Galton和Karl Pearson发现儿子身高( Y,英寸)与父亲身高( X ,英寸)存在线性关系: ,也就是说,高个子父代的子一代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平, 而矮
2、个子父代的子一代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之为“回归”。 相关分析 是研究事物或现象之间是有无关系以及关系的方向和密切程度的分析方法。 回归分析 是研究事物或现象之间数量依存关系相关内容 相关分析统计学回顾 相关分析实例及 SPSS过程 秩相关分析 偏相关分析2相关分析统计学回顾 相关分析统计学回顾 直线相关:研究两个变量是否存在直线相关关系,以及关系的密切程度 正相关、负相关、与完全相关 相关系数:表示相关的密切程度与相关方向的指标。又称 Pearson相关系数。取值范围: -1, 1。相关系数的计算 lxx、 lxy、 lyy离均差积
3、和 故相关系数又被称为积差相关系数相关系数的假设检验 样本相关系数 r 是总体相关系数 的估计值,需进行假设检验。H0: 0H1: 02102=nrrsrtrr相关分析统计学回顾 应用条件:变量服从双变量正态分布 不满足条件时的对策: 变量转换 秩相关 = 0.8 = 0 = 0.6 = 0.8 Miles per Gallon50403020100EngineDisplacement(cu.inches)5004003002001000-1003相关分析实例及 SPSS过程例 15.1 上海医科大学儿科医院研究某种代乳粉的营养价值,大白鼠的进食量和体重增量间的关系,试分析两者有无直线相关关系
4、。 Corr.sav数据文件158158165体重增量820780820进食量相关分析实例及 SPSS过程 分析过程:1. 散点图2. 计算相关系数3. 对相关系数作假设检验相关分析实例及 SPSS过程 Bivariate过程用于进行两个 /多个变量间的参数 /非参数相关分析 SPSS分析过程Analyze Scatter SimpleAnalyze Correlate BivariateSPSS分析结果进食量1000900800700600体体体体190180170160150140130120110进食量 体重增量进食量 Pearson 积距相关系数 1 0.940 P 值(双侧) . 0
5、.000 样本数 10 10 体重增量 Pearson 积距相关系数 0.940 1 P 值(双侧) 0.000 . 样本数 10 10 Correlations1 .940*. .00010 10.940* 1.000 .10 10Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N进进体体体体体进进体体体体体Correlation is significant at the 0.01 level (2-tailed).*. 相关分析SPSS分析结论 进食量和体重增量的相关系数为 0.940,P钮】 可利
6、用该按钮扩展当前对话框进行权重最小二乘法的回归分析。界面说明 【 Statistics钮】 Regression Coefficients复选框组 :定义回归系数的输出情况,默认只选中 Estimates。 Estimates:可输出回归系数 B及其标准误, t值、 p值、标化回归系数 beta; Confidence intervals:输出每个回归系数的 95%可信区间; covariance matrix:输出各个自变量的相关矩阵和方差、协方差矩阵。界面说明 【 Statistics钮】 Residuals复选框组: 用于选择输出残差诊断的信息,可选的有 Durbin-Watson残差序
7、列相关性检验、超出规定的 n倍标准误的残差列表。 Collinearity diagnostics复选框: 给出一些用于共线性诊断的统计量,如特征根( Eigenvalues)、方差膨胀因子 (VIF)等。界面说明 Model fit复选框:显示模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:R, R2和调整的 R2, 标准误及方差分析表。 R squared change复选框:显示模型拟合过程中R2、 F值和 p值的改变情况。 Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。 Part and partial
8、 correlations复选框:显示自变量间的相关、部分相关和偏相关系数界面说明 【 Plot钮】 用于选择需要绘制的回归分析诊断或预测图。可绘制标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等。 【 Save钮】 用以保存中间结果。界面说明 【 Options钮】 Stepping Method Criteria单选钮组:设置纳入和排除标准,可按 P值或 F值来设置。 Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。 Missing Values单选钮组:用于选择对缺失值的处理方式,9SPSS分析结果 拟
9、合过程中变量进入 /退出模型的情况记录Variables Entered/Removedb进进体a. EnterModel1VariablesEnteredVariablesRemoved MethodAll requested variables entered.a. Dependent Variable: 体体体体b. SPSS分析结果 所拟合模型的情况简报模型 相关系数 R 决定系数 R2校正的决定系数 标准误1 0.940 0.883 0.868 7.87948Model Summary.940a.883 .868 7.87948Model1R R SquareAdjusted RSq
10、uareStd. Error ofthe EstimatePredictors: (Constant), 进进体a. SPSS分析结果 模型的检验结果 实际是标准的方差分析表 回归模型 F值为 60.197, P值 0.01ANOVAb3737.411 1 3737.411 60.197 .000a496.689 8 62.0864234.100 9RegressionResidualTotalModel1Sum of Squares df Mean Square F Sig.Predictors: (Constant), 进进体a. Dependent Variable: 体体体体b. SP
11、SS分析结果 模型系数的检验结果未标准化系数 标准化系数 模型 系数 b 系数标准误 系数 t值 P值 1 常数-17.357 22.264 -0.780 0.458 进食量0.222 0.029 0. 940 7.759 0.000 Coe fficie ntsa-17.357 22.264 -.780 .458.222 .029 .940 7.759 .000(Constant)进进体Model1B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.Dependent Variable: 体体体体a. 结论 回归方程 t=7.759 p0.01 体重与进食量之间存在直线回归关系xy 222.0357.17 +=一元线性回归线性相关与回归的区别 相关用于说明变量之间的相关关系,回归则说明因变量随自变量变化而变化的数量关系。 对资料要求不同相关:双变量正态分布回归:对自变量任意固定取值,因变量服从正态分布。10一元线性回归线性相关与回归的联系 方向一致: r和 b的正负号一致 假设检验等价: tr=tb , r和 b的假设检验的结果相同。 用回归解释相关:决定系数 R2The end