1、Canonical Correlation Analysis,典型相关分析,引言,典型相关分析是研究两组变量之间相关关系的一种统计方法。在科学研究中常需要分析一组个指标与另一组个指标的相关关系,简单的方法两两指标间分别统计简单相关关系,得到个相关系数,用这些相关系数反映两组变量间的关系。但这样做即繁琐又抓不住要领。更有效的方法是类似主成分分析,考虑每组变量的线性组合,从这两族线性组合中找出最相关的组合变量,通过少数几个综合变量来反映两组变量间的相关关系,这样就可以抓住它们的主要关系,而且简明。这就是典型相关分析的基本思想。,1. 两个随机变量Y与X 简单相关系数 2. 一个随机变量Y与一组随机
2、变量X1,X2, Xp 多重相关(复相关系数) 3. 一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型(则)相关系数,何时采用典型相关分析,典型相关分析示意图,X1,Y1,Y2,Y3,Y4,Y5,X2,X3,X4,X5,X6,X,Y,U1 U2 U3 U4 U5,V1 V2 V3 V4 V5,CanR1 CanR2 CanR3 CanR4 CanR5,典型相关和典型相关变量的定义,典型相关变量的一般求法,第一对典型相关变量的求法,典型相关变量的性质,例子(数据tv.txt),业内人士和观众对于一些电视节目的观点有什么样的关系呢?该数据是不同的人群对30个电视节目所作的平均评分
3、。 观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,它们形成第一组变量; 而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。人们对这样两组变量之间的关系感到兴趣。,计算结果,下面一个表给出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累积百分比(Cum. Pct)和典型相关系数(Canon Cor)及其平方(Sq. Cor)。看来,头两对典型变量(V, W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。,计算结果,对于众多的计算机输出挑出一些来介绍
4、。下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量V1、V2和V3的系数,即典型系数(canonical coefficient)。这些系数以两种方式给出;一种是没有标准化的原始变量的线性组合的典型系数(raw canonical coefficient),一种是标准化之后的典型系数(standardized canonical coefficient)。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。,可以看出,头一个典型变量V1相应于前面第一个(也是最重要的)特征值,主要代表高学历变量hed;而相应于前面第二个(次要的)特征值的第二个典型变量V2主要代表低学历变量l
5、ed和部分的网民变量net,但高学历变量在这里起负面作用。,计算结果,类似地,也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W2的系数: 。,例子结论,从这两个表中可以看出,V1主要和变量hed相关,而V2主要和led及net相关;W1主要和变量arti及man相关,而W2主要和com相关;这和它们的典型系数是一致的。 由于V1和W1最相关,这说明V1所代表的高学历观众和W1所主要代表的艺术家(arti)及各部门经理(man)观点相关;而由于V2和W2也相关,这说明V2所代表的低学历(led)及以年轻人为主的网民(net)观众和W
6、2所主要代表的看重经济效益的发行人(com)观点相关,但远远不如V1和W1的相关那么显著(根据特征值的贡献率)。,(二)典型相关系数计算实例,求X,Y变量组的相关阵R=,1985年中国28 省市城市男生(1922岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,X6;机能指标脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、 舒张压(消音)、肺活量(ml)分别为Y1,Y2,Y5。现欲研究这两组变量之间的相关性。,简单相关系数矩阵,Corr(X)R11,Corr(Y)R22,Corr(Y,X)R21,Corr(X,Y)R12,简单相关系数公式符号
7、,Corr(X)R11,Corr(Y)R22,Corr(Y,X)R21,Corr(X,Y)R12,(一)求解典型相关系数的步骤,求X,Y变量组的相关阵R= 求矩阵A、B 可以证明A、B有相同的非零特征根 3. 求A或B的i(相关平方)与CanRi,i1,m 4. 求A、B关于i的特征根向量即变量系数,2. 求矩阵A、B,A矩阵(pp),B矩阵(qq),3. 求矩阵A、B的(相关系数的平方),A、B有相同的非零特征值,B矩阵求 (典型相关系数的平方),5个与典型相关系数,4. 求A、B关于i的变量系数 (求解第1典型变量系数),求解第2典型变量系数,求解第5典型变量系数,5组(标准化)典型变量系
8、数(X),5组(标准化)典型变量系数(X),由标准化典型变量系数获得原变量X对应的粗典型变量系数,粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。,5组(标准化)典型变量系数(Y),(三)典型相关系数的特点,两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变) 第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即CanR1max(|Corr(Xi,Yj)|) 或CanR1max(|Corr(X,Yj)|) max(|Corr(Xi,Y)|),(四)校正典型相关系数 (Adjusted Canonical
9、Correlation),为了使结果更加明了,增加大值或小值,减少之间大小的值,将典型变量系数旋转,可得到校正的典型相关系数。 缺点:1.可能影响max(U1,V1);2. 影响(U1,V1)与其他典型变量间的独立性。,(五)典型相关系数的标准误,(六)E1H的特征值(见典型判别、MANOVA,E误差项,H组间变异),Eigenvalues of Inv(E)*H = CanRsq/(1-CanRsq),Eigenvalue Difference Proportion Cumulative 1 3.2422 2.0510 0.6546 0.6546 2 1.1912 0.8379 0.2405
10、 0.8951 3 0.3533 0.2097 0.0713 0.9665 4 0.1436 0.1212 0.0290 0.99555 0.0225 0.0045 1.0000,(七)典型相关系数的假设检验,全部总体典型相关系数均为0 部分总体典型相关系数为0,1. 全部总体典型相关系数为0,F近似检验(SAS结果),Test of H0: The canonical correlations inthe current row and all that follow are zero Likelihood ApproximateRatio F Value Num DF Den DF Pr
11、F 1 0.06798466 2.24 30 70 0.0030 2 0.28840509 1.38 20 60.649 0.1686 3 0.63195301 0.80 12 50.561 0.6504 4 0.85521598 0.54 6 40 0.7729 5 0.97803479 0.24 2 21 0.7920,F近似检验(计算公式),多变量统计量与F近似检验,Multivariate Statistics and F Approximations Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.06798 2.2
12、4 30 70 0.0030 Pillais Trace 1.71651 1.83 30 105 0.0133 Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032Roys Greatest Root 3.24221 11.35 6 21 .0001NOTE: F Statistic for Roys Greatest Root is an upper boun.,多变量统计量的计算公式,2. 部分总体典型相关系数为0 仅对较小的典型相关作检验,卡方近似检验,部分总体F近似检验(计算公式),与原变量间的相关程度和典型变量系数有关。,典型变量与
13、原变量的亲疏关系,原变量与自已的典则变量 原变量与对方的典则变量之间的相关系数。,三、典型结构分析,原变量在典型变量上的负荷 (即原变量与典型变量间的相关系数),三、典型结构分析,负荷矩阵的表达,左上角的矩阵 X1=0.9050U1-0.0806U2+0.3777U3-0.1487U4+0.0887U5X2=0.8616U1+0.0112U2+0.4152U3-0.0360U4+0.2412U5 X6,右下角的矩阵 Y1= -0.4130 V1-0.0848V2+0.7353V3+0.4530V4+0.2764V5Y2=0.4533V1+0.8452V2+0.0968V3+0.1433V4+0
14、.2240V5 Y5,各典型变量的意义解释,等于该变量与自己这方典则变量的相关系数与典则相关系数的乘积,原变量与对方典型变量的相关,原变量与对方典型变量的相关,右上角和左下角反映了原变量和对方的典型变量间关系,为利用对方的典型变量来预测原变量(回归)提供依据,四、典型变量的冗余分析 (Canonical Redundancy Analysis),该方法由Stewart and Love 1968; Cooley and Lohnes 1971; van den Wollenberg 1977)发展。以原变量与典型变量间相关为基础。通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的
15、方差百分比与累计百分比,反映由典型变量预测原变量的程度。,X原变量的相关被典型变量解释的百分比,Y原变量的相关被典型变量解释的百分比,U1,U2,U5并没有完全概括X变量的全部信息(97.24),而V1,V2,V5 却概括了Y变量的全部信息(100);V1,V2,V5中仅蕴含X变量信息的48.44%,而U1,U2,U5中仅蕴含Y变量信息的43.96%。,实例冗余分析的解释,五、基于典型变量的回归,SAS输出结果,Squared Multiple Correlations Between the VAR Variables andthe First M Canonical Variables o
16、f the WITH VariablesM 1 2 3 4 5X1 0.6260 0.6296 0.6668 0.6696 0.6697X2 0.5674 0.5674 0.6124 0.6126 0.6139X3 0.6697 0.6846 0.6852 0.6960 0.6960 X4 0.3701 0.4253 0.5010 0.5138 0.5142X5 0.0141 0.1684 0.1687 0.1758 0.1878X6 0.0452 0.1511 0.1515 0.2217 0.2251Squared Multiple Correlations Between the WITH
17、 Variablesand the First M Canonical Variables of the VAR Variables M 1 2 3 4 5 Y1 0.1303 0.1342 0.2754 0.3012 0.3028 Y2 0.1571 0.5454 0.5479 0.5505 0.5516 Y3 0.3366 0.3612 0.3626 0.3634 0.3745 Y4 0.2503 0.2512 0.2582 0.3129 0.3175 Y5 0.6390 0.6391 0.6438 0.6493 0.6516,用对方典型变量V解释原X变量的 确定系数,用对方典型变量U解释
18、原Y变量的 确定系数,九、SAS计算程序,PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2;VAR x1 x2 x3 x4 x5;WITH y1 y2 y3 y4 y5 y6; RUN;,健身俱乐部生理量测量资料与运动表现成绩之相关性分析,x1 :体重(磅)(Weight) x2 :腰围(英吋)(Waist) x3 :每分钟脈博跳动次数(Pulse) y1 :拉单杠次数(Chins) y2 :仰臥起坐次数(Situps) y3 :跳跃次数(Jumps),生理与运动表現资料,SAS过程,vprefix=PHYS vname=Physio
19、logical Measurements wprefix=EXER wname=Exercises; var weight waist pulse; with chins situps jumps; run;,data fit;,input weight waist pulse chins situps jumps;,cards;,(数据略),proc cancorr data=fit all;,例 . 某健身房对20个中年人测量三个生理变量:WEIGHT(体重)、WAIST(腰围)、PULSE(脉膊)和三个训练变量:CHIWS(引体向上)、SITVPS(起坐次数)、JVMPS(跳跃次数).试
20、分析这两组变量间的相关性. 为此,我们可采用下述SAS程序 data fit; input weight waist pulse chins situps jumps; cards; (数据略) ; proc cancorr data=fit all ; /*PROC CANCORR 语句指示SAS对数据集FIT作典型相关分析,其中ALL选项要求输出所有计算结果*/ var weight waist pulse; /*varwith给出前后两组分析变量*/ with chins situps jumps; run;,SAS Means and Standard Deviations 3 Phy
21、siological Measurements 3 Exercises 20 Observations,SAS同一种类的原始变量的相关 Correlations Among the Original Variables Correlations Among the Physiological Measurements,SAS同一种类(运动)的原始变量的相关,相关矩陣中不同組间絕对值最大相关为腰围(x2)与仰臥起坐(y2),其相关系数是0.6456,但x組內最大相关是体重(x1)与腰围圍(x2)的0.8702,而y組內最大相关是y1与y2的0.6957 最大典型相关為 r1 = 0.7956,但
22、P值= 0.0635未达显著水平,第二組典型相关为r2 = 0.2006,第三典型相关为r3=0.07257 单位不同因此以标准化资料较合适,典型相关的解釋,典型相关的解釋,X組的第一組典型变量 1 -0.7754X1 + 1.5793X2 - 0.0591X3 系数的正负值应与相关系数相同,否則该变量称为suppressor variable 体重变量(X1)的问题 Y組的第一組典型变量 1 -0.3495Y1 1.0540Y2 + 0.7164Y3跳跃变量(Y3)的问题,典型相关的解釋,第一組典型变异解釋對方变量之变异比例分別为0.2854与0.2584 运动变量的第一組典型变量对体重的解
23、釋能力为0.2438,对腰圍的解釋能力为0.5421,对脈搏的解釋能力为0.0701 生理变量(x組)的第一組典型变量对拉单杠的预测能力是0.3351,对仰臥起坐的预测能力是0.4233,对跳跃次数预测能力只有0.0167,典型相关結果摘要表,典型变量的特征值与典型相关,y組典型变量权与负荷,x組典型变量权重与负荷,解释变异百分比,重叠系数,可以研究的課題,智能表現(語文、數理)與體能(健康體能、運動體能)的相關研究 智商(有多的面向)與情緒智商(有多的面向)的相關研究 問卷調查結果間的相關研究?,利用分析员应用系统进行典型相关分析,SolutionnalysisAnalyst (出现空白数据
24、表) FileOpen By Sas Name (在Make one selection窗口中) work 选中数据名 (数据data fit见V8文件)(OK) Statistics Multivariate Canonical Correlation进入典型相关分析主窗口Canonical Correlation 第一组原始变量weight,vaist,pulseSet 1 第二组原始变量chine,situps,jumpsSet 2 OK,七、典型判别的思想,设有分别来自q2个总体的q份样本,每份样本都有关于X1,X2,Xp的观察值,p q,样本量为ni,i=1,2,q。现欲以此为训练样
25、本,从中学习出判别规则。,定义q-1个类别变量Y1,Y2,Yq-1,它们取值0或1,而且规定q个类别与Y1,Y2,Yq-1的取值对应如下:,第i对标准化典型变量与 典型判别函数,典型判别的步骤,八、简单实例计算,简单实例计算,1. 计算简单相关矩阵,简单实例计算,2. 计算A、B矩阵,简单实例(P293页9.2题)计算,3. 计算A、B矩阵的特征值i ,即得典型相关系数的平方,A、B有相同的非零特征值 分别为:0.623096,0.006679,简单实例(P293页9.2题)计算,4. 计算典型相关系数及其标准误,典型相关系数的标准误分别为: 0.076935,0.202761,典型相关系数为
26、: 0.789364,0.081723,5. E-1H的特征值,分别为:1.6532, 0.0067,6.似然比统计量及其F检验(即典型相关系数的假设检验),Test of H0: The canonical correlations inthe current row and allEigenvalues of Inv(E)*H that follow are zero= CanRsq/(1-CanRsq)Likelihood ApproximateEigenvalue Difference Proportion Cumulative Ratio F Value Num DF Den DF
27、Pr F1 1.6532 1.6465 0.9959 0.9959 0.37438667 6.66 4 42 0.00032 0.0067 0.0041 1.0000 0.99332139 0.15 1 22 0.7042,7. 典型相关系数的多变量统计量及其假设检验,Multivariate Statistics and F ApproximationsStatistic Value F Value Num DF Den DF Pr FWilks Lambda 0.37438667 6.66 4 42 0.0003Pillais Trace 0.62977475 5.06 4 44 0.00
28、19Hotelling-Lawley Trace 1.65991998 8.60 4 24.198 0.0002Roys Greatest Root 1.65319646 18.19 2 22 .0001NOTE: F Statistic for Roys Greatest Root is an upper bound.NOTE: F Statistic for Wilks Lambda is exact.,简单实例(P293页9.2题)计算,8.求A、B关于i的特征向量,即典型变量系数,Canonical Correlation AnalysisStandardized Canonical
29、Coefficients for the VAR Variablesu1 u2x1 0.5667 -1.3604x2 0.5069 1.3838Standardized Canonical Coefficients for the WITH Variablesv1 v2y1 0.5184 -1.7857y2 0.5233 1.7842,矩阵A的第1特征值为0.623096,简单实例(P293页9.2题)计算,典型变量的表达式,9.典型结构分析(可观察典型变量的意义),u1 u2x1 0.9390 -0.3439x2 0.9231 0.3845 v1 v2y1 0.9596 -0.2814y2
30、0.9604 0.2788v1 v2x1 0.7412 -0.0281x2 0.7287 0.0314u1 u2y1 0.7575 -0.0230y2 0.7581 0.0228,10.冗余分析(对方典型变量可解释的信息),Canonical Redundancy AnalysisStandardized Variance of the VAR Variables Explained byTheir Own The OppositeCanonical Variables Canonical VariablesCanonicalVariable Cumulative Canonical Cumu
31、lativeNumber Proportion Proportion R-Square Proportion Proportion X 1 0.8669 0.8669 0.6231 0.5402 0.54022 0.1331 1.0000 0.0067 0.0009 0.5411Y 1 0.9215 0.9215 0.6231 0.5742 0.57422 0.0785 1.0000 0.0067 0.0005 0.5747,11.基于典型变量回归的确定系数,Squared Multiple Correlations Between the VAR Variables and the Firs
32、t M Canonical Variables of the WITH VariablesM 1 2x1 0.5494 0.5502x2 0.5310 0.5320M 1 2y1 0.5737 0.5743y2 0.5747 0.5752,九、SAS计算程序(1),PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2;VAR x1 x2;WITH y1 y2; RUN;,九、SAS计算程序(2),DATA canocorr (TYPE=CORR);INPUT _NAME_ $ x1 x2 y1 y2;_ TYPE_=CORR; CARDS; x1 1 0.73456 0.71915 0.70398 x2 0.73456 1 0.69038 0.70855 y1 0.71915 0.69038 1 0.84307 y2 0.70398 0.70855 0.84307 1 ;PROC CANCORR DATA=canocorr ALLEDF=24 ; * EDF=n-1;VAR x1 x2;WITH y1 y2; RUN;,谢谢!,