1、第二十一章典型相关分析,canonical correlation Analysis,两个随机变量Y与X 简单相关系数一个随机变量Y与一组随机变量X1, X2, Xp 复相关系数(多重相关)一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型相关系数,典型相关是研究两组变量之间相关性的一种统计分析方法。也是一种降维技术。 由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。,第一节 典型相关分析的基本思想,典型
2、相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。例:收集了某年某省男生(1922岁)的资料,欲研究形态指标与机能指标间的相关性。形态指标:身高、坐高、体重、胸围、肩宽、盆骨宽;机能指标:脉搏、收缩压、舒张压、肺活量。,典型相关分析示意图,X1,Y1,Y2,Y3,Y4,Y5,X2,X3,X4,X5,X6,X,Y,U1 U2 U3 U4 U5,V1 V2 V3 V4 V5,CanR1 CanR2 CanR3 CanR4 CanR5,典型相关分析(canonical correlation analysis) :为了研究两组变量之间的相互关系,分别从两组变量中提取
3、综合变量(为两个变量组中各变量的线性组合),并利用各综合变量之间的相关性来反映两组指标之间整体相关性的一种多元统计分析方法。,第二节 典型相关分析的数学模型,设有两组变量为X1,X2,Xp和Y1,Y2,Yq,采用主成分思想寻找综合变量对即典型(相关)变量(Ui,Vi):,8,典型相关变量对与典型相关系数: 在典型相关分析中,分别从两组原始变量中提取的能反映两组原始变量间整体相关信息的综合变量称为典型相关变量,典型相关变量是成对出现的,并且是按其反映两组原始变量间整体相关信息量的大小排序的,如U1、V1之间的相关系数最大,则称U1、V1 为第一对典型相关变量,它们之间的相关系数称为第一典型相关系
4、数,类似地有第二对,第三对,第i对典型变量和第二、第三,第i典型相关系数。,典型相关变量的性质:,10,即: 同一组指标的各典型变量(Ui与Uj)(j=1,2,i-1)之间互不相关; 不同组指标的典型变量(Ui与j)(ij)之间互不相关; 各典型变量Ui与j的方差均为;,11,第三节 典型相关变量及典型相关系数的求法 (了解),1.对各原始指标数据进行标准化。 2.求出X,Y的相关矩阵XX,YY及X与Y的相关矩阵XY 。 3.求出所有非零根,进而求得各典型相关系数,并按大小顺序排列。 4.取最大根1,进而求得非零解a1 (a11,a12 ,a1p ) , b1 ( b11,b12 ,b1q )
5、 5.写出第一对典型相关变量。6.求出第i对典型相关变量。,12,第四节 典型相关系数的假设检验,如果前m个典型相关系数在水准下有统计学意义,而其余的典型相关系数都不具有统计学意义,则可以认为m对典型相关变量已经把X与Y之间存在的全部相关信息进行了分解并提取出来了。 如果第一典型相关系数1无统计学意义,则可认为两组指标X与Y之间互不相关,不能进行典型相关分析。 在实际应用中,通常只取第一对典型相关变量,因为第一对相关变量的专业意义较为明显,且足以表达两组指标间的相关性。,13,第五节 应用实例,例21-1 为了探讨小学生的生长发育指标与身体素质的相互关系,某市对小学生的体质进行调查。先仅对84
6、例10岁男孩的四项生长发育指标:肺活量、身高、体重、胸围与四项反映身体素质的指标:50m跑、跳高、跳远、实心球掷远进行典型相关分析。,14,SPSS的实现:,1.打开例21-1SPSS数据文件 2.通过FileNewDateSyntax打开一个空白文件,再在其中键入下面命令行:include C:Program FilesSPSScanonical correlation.sps.cancorr set1=x1 to x4/set2=y1 to y4/. 3.再点击一个向右的三角形图标(运行目前程序,Run current),就可以得到所需结果了。 4.还可以把Syntax1.sps另以其他名
7、字(比如tv.sps)存入一个文件夹。下次使用时就可以通过FileOpenSyntax来打开这个文件了。,15,1.打开SPSS数据文件,SPSS操作,16,SPSS操作,2.编辑语法,17,编辑语法窗口,18,结果,各典型相关系数依次为:1=0.886, 2=0.279, 3=0.279, 4=0.038。并由检验可知,只有第一典型相关系数有统计学意义。因此,只取第一对典型相关变量。,19,原始的U典型相关变量,原始的第一对典型相关变量为:,原始的V典型相关变量,原始的第一对典型相关变量为:,20,标准化的的第一对典型相关变量为:,21,由标准化的典型相关变量可得:U1主要受X2和X4的影响,V1则在Y2和Y4上的权重较大。说明个子较为高大的男孩在跳高和实心球掷远这两个项目上的成绩较好。,0.301,22,对应分析,Correspondence Analysis,23,对应分析: 简单对应分析:两个分类变量间的类别联系 多重对应分析:多个分类变量间的类别联系,24,表1 318例COPD患者的COPD分级与中医证候分布,例:某研究者为了研究COPD 病情分级与中医证候之间的关系, 对318 例不同程度的COPD 患者进行了中医证候分布调查,结果见表1:,25,有统计学意义表明两变量之间有关联,可以进行对应分析,每个维度携带的信息量,26,