1、,SPSS统计分析从基础到实践(第2版)联系Email:,第5讲 相关分析,5.1 相关分析概述,统计研究的主要内容:第一部分:总体均值的差异比较第二部分:变量间的统计关系的研究,变量和变量之间的关系可以分为:确定性关系:变量之间的关系可以用精确的函数描述出来。不确定性关系:变量之间存在某种联系,但是这种联系是不能用精确的函数描述出来。,如果仅仅研究变量之间的相互关系的密切程度和变化趋势,并用适当的统计指标描述。这就是相关分析。如果要把变量间相互关系用函数表达出来,用一个或多个变量的取值来估计另一个变量的取值,这就是回归分析。可见相关分析是研究变量间不确定性关系的一种统计方法,而回归分析更倾向
2、于研究变量间的确定性关系。,【Correlate】子菜单: Bivariate:两变量相关分析。Partial:偏相关分析。Distances:距离分析。,5.2 两变量相关分析,两变量相关分析简介两样本相关分析即是研究两个变量之间相关关系的统计方法。 它主要由相关系数来刻画。二维随机变量(X,Y)的相关系数,可见,相关系数越大,相关性越强。,通常情况下, 是未知的,而是用其样本相关系数r来代替。 思考:为什么 是未知的?常用的样本相关系数有:Pearson相关系数 Spearman秩相关系数 Kendall相关系数,Pearson相关系数:用于对定距变量的数据进行计算,即分析两个连续性数据之
3、间的关系。 注意:,Spearman秩相关系数 :用于描述分类或等级变量之间、分类或等级变量与连续变量之间的相关关系。,注意:在正态分布假定下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于非正态分布或者分布不明的数据,则采用Spearman秩相关系数更合适。,Kendall相关系数 :用于描述分类或等级变量之间、分类或等级变量与连续变量之间的相关关系。,从中国30个省区抽样的文盲率(单位:1)和各省人均GDP(单位:元),问文盲率与人均GDP之间是否相关?是正相关还是负相关?,执行【Analyze】/【Correlate】/【Bivariate】命令,弹出【Biv
4、ariate】对话框,结果解读利用散点图确定变量间关系,首先通过散点图判断变量间是否有相关关系,相关系数表,5.3 偏相关分析,在实际问题中,两变量间的相关关系往往还要受到其它因素的影响。这些影响有时候会使相关分析的结果变得不那么可靠。所谓偏相关分析,即是指在研究两变量之间的相关关系的时候,将与这两个变量有联系的其它变量控制不变的统计方法。,根据控制变量的个数,将偏相关分析分为:零阶偏相关分析:没有控制变量的相关分析,这就等同于一般的相关分析。一阶偏相关分析:有一个控制变量的相关分析。二阶偏相关分析:有两个控制变量的偏相关分析,。其它高阶偏相关分析都是以此类推。,已知有某河流的一年月平均流量观
5、测数据和该河流所在地区当年的月平均雨量和月平均温度观测数据,如表所示。试分析温度与河水流量之间的相关关系。,执行【Analyze】/【Correlate】/【Partial】命令, 弹出【Partial】对话框,结果解读,相关分析,偏相关分析,相关分析和偏相关分析结论相反!,5.4 距离分析,距离分析简介距离分析就是用于研究变量是否近似的一种相关分析方法。在模式识别之中,为了能划分模式的类别,必须首先定义模式的相似性测度,以此来描述各模式之间特征的相似程度。距离分析是用来描述同一变量内观测值之间或者是多个变量之间的相似或不相似程度的统计方法。,定距变量的距离测度,分类变量的距离测度,二元变量的距离测度,其中a,b,c,d分别表示如下,已知有我国六城市2004年各月的日照时数数据如表所示。请分析各城市日照数是否近似。,执行【Analyze】/【Correlate】/【Distances】命令,弹出【Distances】对话框,结果解读,取值越大说明近似程度越低,反之亦然,感谢您的关注,