1、第十五章 相关分析相关分析用于测量了解变量之间的密切程度。如:教育事业的发展与科学技术的发展存在着一定的关系,学生的数学成绩与物理成绩存在着一定的关系,相关分析就是要分析这种密切程度。一、理论知识相关类型:1、直线相关:两变量呈线性共同增大,或一增一减。2、曲线相关:两变量存在相关趋势,但非线性。此时若进行直线相关,有可能出现无相关性的结论,曲线相关分析是一般都先将变量进行变量变换,以将趋势变换为直线分析,或者采用曲线回归方法来分析。相关的方向依照两种变量变动的方向分,有正相关、负相关和无相关(零相关) 。1、正相关:一种变量增加或减少,另一种变量也在增加或减少,两种变量变动的方向相同,谓之正
2、相关。 2、负相关:一种变量增加或减少,另一种变量也在减少或增加,两种变量变动的方向相反,谓之负相关。3、无相关:在两种变量之间,一种变量变动时,另一种变量毫无变动,即使变动也无一定的规律,如人的相貌与人的思想品德, 人的身体高矮与学习成绩的好坏等是无什么关系的,这两种变量的关系谓之无相关或零相关。相关分析基本步骤:、 绘制散点图、 计算相关系数、 进行相关系数检验计算相关程度的统计量以及针对的数据类型:1、Pearson 积差相关系数两个连续变量 间呈线性相关时,使用 Pearson 积差相关系数。要求两变量),(YX服从联合正态分布。 22)()(yxr注:该相关系数的局限性:要求变量服从
3、正态分布只能度量线性相关性,对于曲线相关等更为复杂的情形,积差相关系数的大小并不能代表相关性的强弱。如果 Pearson 系数很低,只能说明两变量之间没有线性关系,并不能说明两者之间没有相关关系。也就是说,该指标只能度量线性相关性,而不是相关性。 (线性相关性隐含着相关性,而相关性并不隐含着线性相关性)另外:样本中存在的极端值对积差相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。2、Spearman 秩相关系数定义:Spearman 相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求
4、,属于非参数统计方法,适用范围要广些。计算公式:Spearman 相关系数的计算公式完全套用 Pearson 相关系数计算公式,但公式中的和 用相应的秩次代替即可。即:xy )1(6)()( 222 ndSRr niiiiii注: , 为两变量各自对应的秩, 为对应的秩之差。iiSid适用范围:Spearman 相关系数更多用于测量两个有序分类变量之间的相关程度。对于服从Pearson 相关系数的数据亦可计算 Spearman 相关系数,但统计效能要低一些。若不满足积差相关分析的适用条件时,则使用 Spearman 秩相关系数来描述变量之间的关系。3、Kendalls tau-bKendall
5、s tau-b 等级相关系数:侧重于两个分类变量均为有序分类的情况。4、Contingency Coefficient/Phi and Cramers V侧重于测量两分类变量之间的相关系数。指标的绝对值越大,变量间的相关性越强5、:偏相关分析适用于在控制其他变量影响的情况下对两个变量进行相关分析,被分析的两个变量必须服从正态分布。比如说,一般情况下,体重和身高呈正相关,如果还要考虑胸围,则在胸围固定的情况下(如取胸围的平均值,假设所有个体的胸围都校正为相同的情况下)再求体重和升高的相关(偏相关) ,则偏相关呈负值。正确运用偏相关分析,可以解释变量间的真实关系,识别干扰变量并寻找隐含的相关性二、
6、菜单介绍相关分析通过 Correlate 菜单实现,Correlate 包含下述子菜单1、Bivariate 过程专门用于测量两个/多个变量的间的相关关系。包括 Pearson 相关(参数相关) ,Spearman 秩相关、Kendalltau-b 非参数相关。2、Partial 过程:专门用于进行偏相关分析。三、例题例题 1:见书 P272 Pearson 相关系数练习:死刑的威慑作用是一个广受争论的问题,该表是自 1950 年起的 10 年间,这个国家由于杀人而执行死刑的人数和杀人率之间的数据。这些数据对于死刑的威慑作用的评价有何补充的地方?次数 杀人率68 5.387 4.971 5.2
7、51 4.871 4.865 4.552 4.654 4.541 4.541 4.6例题 2:Spearman 相关系数某研究机构对某地区 10 家市场调查公司进行调查,据此了解有关市场调查公司的质量信心,一项对调查结果的分析给出有关专家对 10 家市场调查公司机构人员综合分析能力排序和公司发展潜力排序,有关数据如下,能否说明公司职工综合能力排序与公司发展潜力排序相关?公司 公司职工潜力排序 公司发展潜力排序1 4 62 6 83 8 54 3 15 1 26 2 37 5 78 10 99 7 410 9 10析:此处是两个有序分类变量,计算 Spearman 相关系数,Correlateb
8、ivariatespearman结果如下:Correlations1.000 .770*. .00910 10.770* 1.000.009 .10 10Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NSpearmans rho Correlation is significant at the 0.01 level (2-tailed).*. 从上表可知两变量的相关系数为 0.77,并且该相关系数通过了显著性检验,即认为公司竞争力与职工竞争力正相关。练习:1、 为了解大学校园附近的餐馆
9、的月营业收入(万元)与该校学生人数(千人)的关系,记录了如下数据:学生人数 2 6 8 8 12 16 20 20 22 26月营业收入 5.8 10.5 8.8 11.811.7 13.7 15.7 16.9 14.9 20.2完成下列要求:(1) 绘制散点图(2) 计算月营业收入和学生人数的 Pearson 相关系数和 Spearman 相关系数,说明两者之间的相关关系。2、 调查职工每年无故迟到的天数与职工从家里倒工作单位的距离(千米)之间的关系,选取 10 名职工组成一个样本,收集到数据如下:到单位距离 1 3 4 6 8 10 12 14 14 18无故迟到天数 8 5 8 7 6
10、3 5 2 4 2要求:(1) 绘制散点图(2) 计算两个变量的相关系数,说明两者之间的相关性。你能够得出什么结论?例题 3:偏相关分析见书 P275析:此处分析血糖浓度与生长激素之间有无关系,由于血糖浓度与胰岛素之间存在密切的关系,为了准确分析血糖浓度与生长激素之间的关系,此处需要对变量胰岛素进行控制,为便于对比,此处分别进行控制和不控制情况下两种相关分析对比的结果。、不控制胰岛素变量的分析结果。、控制胰岛素变量的分析结果。Correlations1.000 .638 -.840. .002 .0000 18 18.638 1.000 -.663.002 . .00118 0 18-.840
11、 -.663 1.000.000 .001 .18 18 01.000 .200. .4110 17.200 1.000.411 .17 0CorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)df(mmol/L)(ug/L)(mU/L)(mmol/L)(ug/L)Control Variables-none- a(mU/L)(mmol/L) (ug/L) (mU/L)Cells contain zero-order (Pearson) correlations.a. 从上表分析,当不控制胰岛素的时候,血糖浓度与生长素的密切程度为 0.638. 但是当控制胰岛素的时候,血糖浓度与生长素的密切程度为 0.2,而且也没有通过显著性检验。这说明血糖浓度与生长素的关系事实上是通过中间变量胰岛素的作用而建立起来的。从本例可知,多个变量进行相关分析时,应注意结合偏相关考虑问题,以免受到混杂因素的影响。