1、1第 8 章 典型相关分析典型相关分析是用来描述两组随机变量(两个随机向量)间关系的统计分析方法。两组随机向量,各含有许多随机变量,能否用少量随机变量来描述其相关性?例如为了研究饲料与荤菜价格的关系,统计若干年玉米、大豆、稻子、麦子、鱼粉以及猪肉、牛肉、羊肉、鸡肉、鸡蛋、鸭肉、鸭蛋的价格,分析饲料与荤菜价格的关系时,发现单独一种饲料和单独一种肉蛋禽价格关系并不密切(由显著性检验可见),但饲料的某种综合价格则与肉蛋禽综合价格的关系很密切。把饲料价格看成一组随机变量,肉蛋禽价格看成另一组随机变量,找这两组随机变量的线性组合,使之相关系数平方最大,从而分析两组随机变量间的关系,判定这两组随机变量是否
2、有关联,这就是典型相关分析。8.1 典型相关分析数学模型设随机向量 与 的方差 存在,协方差),.(1pxX),.(1pyYyx,为 。 为常数向量。则xyY),cov(ba,1/2(,)/()xyxycorabab为了计算确定性,限制 。,1XD)YD定义 8.1 设 在条件:1,ba,)(x 1)(by下使 大,则称 为第一对典型相关变量,cov(,)XbYYwXv,11称为第一典型相关系数。a由定义可见, 尽可能多地反映原来 对随机变量相关的信息。第一对1, p典型相关变量往往不能完全反映随机向量间的关系,必须建立其它典型相关变量,它应当最能反映随机向量间的关系,但是它应当与第一对典型相
3、关变量不相关(不包含第一对典型相关变量的信息) 。定义 8.1 若常数向量 = , = 在条件:a2b2, ;()1xDX1)(bYDy,0,cov1 0,cov1w下使 最大,则称 为第二对典型相关变量,cov(,)abYa222称为第二典型相关系数。若常数向量 = , = 在条件:2cov(,)aXbYa3b3, ;()1DaX)(Yb, ;0,cov1 0,cov1w, ,)(2 )(2下使 最大,则称 为第三对典型相关变量,2cov(,)aXbYYbXav,33称为第三典型相关系数。3求第一对典型相关变量是在条件: ,1)(aXDx 1)(bYDy下使 最大,由 Lagrange 乘子
4、法,应当求 Lagrange 函数cov(,)xyabY的无条件极大。2/)(2/11 bl yxy 对 , 求偏导数得:120xyxyab(8.1)假设 正定(否则用广义逆处理 ), (8.1)第 1 式左乘 得 ;yx, abxy1(8.1)第 2 式左乘 得 ;从而 。baxy221当 时(8.1)式消去 得 ,从而 , 分0 0byxy 2别是 相对于 的特征值,特征向量,或化为:xyyx1y 2/12/1/12/ yyxx 令 ,则 , 是 的特征值,特征向量。bdy2/1d/2/ xxy(8.1)式消去 得 ,从而 , 分别是01ax 2a相对于 的特征值,特征向量,或化为:yxx
5、y1,2/12/1/12/1 xxyxxy 令 ,从而 、c 是 的特征值和特征向量。acy/ yy可以证明:定理 81 设 ,c 分别是 的最大特征值及相应2 2/112/1xyxy特征向量; ,d 分别是 的最大特征值及相应特征向/y3量; , 满足条件 ,则cay2/1dby2/1,1)(XaD1)(YbD为第一对典型相关变量, 为第一典型相关系数的平方。YwXv,11 2更一般的,设 , 分别是 的第 大特征值及相02ii 2/112/1xyxyi应特征向量; , 分别是 的第 大特征值及iid/相应特征向量; , ,满足条件 iyica2/1iyidb2/1 ,1)(XaDi,则 为
6、第 对典型相关变量, 为第 典型相1)(YbDi YwXviiii , 2i关系数的平方。实际问题中协差阵总用样本协差阵估计,设 是正态总体(),12,.iXn的一个样本。 , ,则)(1iXn)(1iYn,)()(iix,)()(Xiiy,1)()(Ynii分别是 的极大似然估计样本协差阵。定理(8.1)中协差阵可用极大yx,似然估计样本协差阵代替。这样做的依据是:定理 82 设 , 分别是 的第 大特征02iic2/112/1xyxyx i值及相应特征向量; , 分别是 的第 大特iid/征值及相应特征向量;满足条件: , 的样本方差都是 1;则 分别XciYi idc,为 的极大似然估计
7、, 为 的极大似然估计。iba, 2ii定义 82 , 称为第 对样本典型相关变量, 称为ivciwdi 2i第 个样本典型相关系数平方i冗余分析也是典型相关分析的重要内容。设每组变量都标准化了,从第 1 组变量提取的典型变量为 ,),.(21rvV从第 2 组变量提取的典型变量为 ;原第 1 组变量为),.(2rwW,原第 2 组变量为 ; 与 分量的相关系数),.(1pxX 1qyYiX所成向量为 , 与 分量的相关系数所成向量为1(,.)iiipGiv,则第 个典型变量 从第 1 组变量提取的方差比例为),.(1iqiiHiu4,则第 个典型变量 从第 2 组变量提取的方差比例为 。pG
8、i/iiv qHi/令 , ,它们称为冗余测度。pRiiiu/)(qHRiiiv/)(冗余测度的大小表示这对典型变量能够对另一组变差相互解释程度的大小,对进一步讨论多对建模提供有用的信息。8.2 典型相关过程SAS 中用 CANCORR 过程(典型相关过程)计算样本典型相关系数和样本典型相关变量。该过程主要包括以下三个语句:(1)PROC CANCORR 语句,一般形式是:PROC CANCORR 选择项 1 选择项 2 。PROC CANCORR 语句中选项可以是 DATA,用以表明输入数据集;OUT 或 OUTSTAT,用以表明输出数据集;还可以是 ALL,用以表明输出全部计算内容。(2)
9、VAR 语句,一般形式是 VAR 变量 l 变量 2 ,用以指定第一组变量。(3)WITH 语句,一般形式是 WITH 变量 1 变量 2 ,用以指定第二组变量。例 8.1 现有北京地区 19511976 年冬季的气象资料见表 81,其中year:年份Dec:12 月份平均气温Jan:次年一月份平均气温Feb:次年二月份平均气温High7:7 月 500hpa 图上 13 -14 E,40 -50 N 范围内 6 点高度距平和ooHigh4:4 月 500hpa 图上(110 E,45 N)(100 W,40 N)和o(100 W,50 N)3 点高度距平和oohigh8:8 月 500hpa
10、 图上 150 E,35 -45 N;100 E,40 -50 N 范围内oooo5 点高度距平和表 81 北京地区冬季气温Year Dec Jan Feb Hhigh7 high4 high81951 1.0 -2.7 -4.3 4 -7 121952 -5.3 -5.9 -3.5 0 21 51953 -2.0 -3.4 -0.8 6 -9 51954 -5.7 -4.7 -1.1 10 17 651955 -0.9 -3.8 -3.1 1 5 111956 -5.7 -5.3 -5.9 -3 1 -121957 -2.1 -5.0 -1.6 -15 3 131958 0.6 -4.3 -
11、0.2 10 -3 01959 -1.7 -5.7 2.0 -9 -5 -141960 -3.6 -3.6 1.3 11 -3 181961 -3.0 -3.1 -0.8 5 -15 41962 0.1 -3.9 -1.1 8 12 11963 -2.6 -3.0 -5.2 11 3 -31964 -1.4 -4.9 -1.7 -11 -8 71965 -3.9 -5.7 -2.5 -18 6 -61966 -4.7 -4.8 -3.3 -9 -6 151967 -6.0 -5.6 -4.9 4 0 -201968 -1.7 -6.4 -5.1 -7 -2 -151969 -3.4 -5.6
12、-2.0 4 17 -231970 -3.1 -4.2 -2.9 9 -16 231971 -3.8 -4.9 -3.9 -13 5 -21972 -2.0 -4.1 -2.4 7 0 101973 -1.7 -4.2 -2.0 27 -11 41974 -3.6 -3.3 -2.0 17 -2 01975 -2.7 -3.7 0.1 -1 -13 101976 -2.4 -7.6 -2.2 5 9 -30以 Dec,Jan,Feb 为第一组变量,high7,high4,high8 为第二组变量作典型相关分析。解 采用如下程序:data temperat;input year Dec Jan
13、Feb high7 high4 high8;cards;1951 1.0 -2.7 -4.3 4 -7 121952 -5.3 -5.9 -3.5 0 21 51953 -2.0 -3.4 -0.8 6 -9 51954 -5.7 -4.7 -1.1 10 17 61955 -0.9 -3.8 -3.1 1 5 111956 -5.7 -5.3 -5.9 -3 1 -1261957 -2.1 -5.0 -1.6 -15 3 131958 0.6 -4.3 -0.2 10 -3 01959 -1.7 -5.7 2.0 -9 -5 -141960 -3.6 -3.6 1.3 11 -3 18196
14、1 -3.0 -3.1 -0.8 5 -15 41962 0.1 -3.9 -1.1 8 12 11963 -2.6 -3.0 -5.2 11 3 -31964 -1.4 -4.9 -1.7 -11 -8 71965 -3.9 -5.7 -2.5 -18 6 -61966 -4.7 -4.8 -3.3 -9 -6 151967 -6.0 -5.6 -4.9 4 0 -201968 -1.7 -6.4 -5.1 -7 -2 -151969 -3.4 -5.6 -2.0 4 17 -231970 -3.1 -4.2 -2.9 9 -16 231971 -3.8 -4.9 -3.9 -13 5 -2
15、1972 -2.0 -4.1 -2.4 7 0 101973 -1.7 -4.2 -2.0 27 -11 41974 -3.6 -3.3 -2.0 17 -2 01975 -2.7 -3.7 0.1 -1 -13 101976 -2.4 -7.6 -2.2 5 9 -30;proc cancorr all;var Dec Jan Feb;with high7 high4 high8;run;执行后得到如下结果:Means and Standard Deviations3 VAR Variables3 WITH Variables26 ObservationsVariable Mean Std
16、DevDEC -2.742308 1.859069JAN -4.592308 1.172663FEB -2.273077 1.960930HIGH7 2.038462 10.4708397HIGH4 -0.038462 9.799922HIGH8 0.730769 13.128771以上给出6个变量的样本均值与样本标准差。Correlations Among the Original VariablesCorrelations Among the VAR VariablesDEC JAN FEBDEC 1.0000 0.3284 0.2652JAN 0.3284 1.0000 0.1587FE
17、B 0.2652 0.1587 1.0000Correlations Among the WITH VariablesHIGH7 HIGH4 HIGH8HIGH7 1.0000 -0.1103 0.1019HIGH4 -0.1103 1.0000 -0.3871HIGH8 0.1019 -0.3871 1.0000以上是两组变量的组内样本相关阵。Correlations Among the Original VariablesCorrelations Between the VAR Variables and the WITH VariablesHIGH7 HIGH4 HIGH8DEC 0.1
18、238 -0.2831 0.1652JAN 0.4378 -0.4479 0.6645FEB 0.1180 -0.1812 0.2118以上是两组变量的组间样本相关阵。Canonical Correlation AnalysisAdjusted Approx SquaredCanonical Canonical Standard CanonicalCorrelation Correlation Error Correlation1 0.793562 0.761686 0.074052 0.6297412 0.190066 -.007368 0.192775 0.0361253 0.022657
19、 . 0.199897 0.000513以上给出(样本)典型相关系数分别是0.793562,0.190066,0.022657;(样本)典型相关系数平方分别是0.629741,0.036125,0.000513。第一典型相关系数0.793562远大于两组变量间单个相关系数。Eigenvalues of INV(E)*H= CanRsq/(1-CanRsq)8Eigenvalue Difference Proportion Cumulative1 1.7008 1.6633 0.9782 0.9782 2 0.0375 0.0370 0.0216 0.99973 0.0005 . 0.0003
20、1.0000Canonical Correlation AnalysisTest of H0: The canonical correlations in thecurrent row and all that follow are zeroLikelihoodRatio Approx F Num DF Den DF Pr F1 0.35670032 2.8612 9 48.82535 0.00862 0.96338007 0.1977 4 42 0.93823 0.99948666 0.0113 1 22 0.9163似然比检验表明第1对典型相关是高度显著的(0.0086 0.01);第2,
21、3对典型相关是不显著的(概率0.9382,0.9163远大于0.05)。Canonical Correlation AnalysisMultivariate Statistics and F ApproximationsS=3 M=-0.5 N=9Statistic Value F Num DF Den DF Pr FWilks Lambda 0.35670032 2.861 9 48.82535 0.0086 Pillais Trace 0.66637929 2.094 9 66 0.0424 Hotelling-Lawley Trace 1.73880346 3.6064 9 56 0.0
22、013Roys Greatest Root 1.70081079 12.4726 3 22 0.0001NOTE: F Statistic for Roys Greatest Root is an upper bound.多种检验表明两组变量存在相关性。Canonical Correlation AnalysisRaw Canonical Coefficients for the VAR VariablesV1 V2 V3DEC -0.032779661 -0.568666035 -0.13313535JAN 0.8339789573 0.2818830288 -0.212608817FEB
23、0.0889953418 -0.002884889 0.5230182828Raw Canonical Coefficients for the WITH VariablesW1 W2 W3HIGH7 0.043598289 0.0116551032 -0.085060488HIGH4 -0.024925353 0.1078948423 -0.007697455HIGH8 0.0542083662 0.0477850548 0.04038807589上表给出原始变量典型相关变量的系数,第1对典型变量是v1=-0.032779661Dec+0.8339789578Jan+0.0889953418
24、w1=0.043598289high7-0.024925353high4+0.0542083662hign8第2对典型变量是v2=-0.568666035Dec+0.2818830288Jan-0.002884889 Febw2=0.0116551032high7+0.1078948423high7+0.0477850548high8第3对典型变量读者自己找一找。Canonical Correlation AnalysisStandardized Canonical Coefficients for the VAR VariablesV1 V2 V3DEC -0.0609 -1.0572 -0
25、.2475JAN 0.9780 0.3306 -0.2493FEB 0.1745 -0.0057 1.0256Standardized Canonical Coefficients for the WITH VariablesW1 W2 W3HIGH7 0.4565 0.1220 -0.8907HIGH4 -0.2443 1.0574 -0.0754HIGH8 0.7117 0.6274 0.5302上表给出标准化变量典型相关变量的系数,第1对典型变量是v1=-0.0609Dec+0.9780Jan+0.1754Febw1=0.4565hign7-0.2443huigh4+0.7117high
26、8第2,3对典型变量读者自己找一找。Canonical StructureCorrelations Between the VAR Variables and Their Canonical VariablesV1 V2 V3DEC 0.3065 -0.9501 -0.0574JAN 0.9857 -0.0175 -0.1678FEB 0.3136 -0.2336 0.9204以上给出第1组变量与自己典型变量间的相关系数,即冗余分析的, ,36.09857.1G236.01759.2 9204.16785.3GCorrelations Between the WITH Variables an
27、d Their Canonical VariablesW1 W2 W3HIGH7 0.5560 0.0693 -0.828310HIGH4 -0.5701 0.8010 -0.1825HIGH8 0.8528 0.2304 0.4687以上给出第2组变量与自己典型变量间的相关系数,即冗余分析的, ,852.0716.1H2304.8169.H4687.01253.3Canonical StructureCorrelations Between the VAR Variables and theCanonical Variables of the WITH VariablesW1 W2 W3DE
28、C 0.2432 -0.1806 -0.0013JAN 0.7822 -0.0033 -0.0038FEB 0.2488 -0.0444 0.0209Canonical StructureCorrelations Between the WITH Variables andthe Canonical Variables of the VAR VariablesV1 V2 V3HIGH7 0.4412 0.0132 -0.0188HIGH4 -0.4524 0.1522 -0.0041HIGH8 0.6767 0.0438 0.0106以上是典型变量与对方变量间的相关系数。Canonical R
29、edundancy AnalysisRaw Variance of the VAR VariablesExplained byTheir Own The Opposite Canonical Variables Canonical VariablesCumulative Canonical Cumulative Proportion Proportion R-Squared Proportion Proportion1 0.2350 0.2350 0.6297 0.1480 0.14802 0.3838 0.6188 0.0361 0.0139 0.16183 0.3812 1.0000 0.
30、0005 0.0002 0.1620Canonical Redundancy AnalysisRaw Variance of the WITH VariablesExplained byTheir Own The Opposite11Canonical Variables Canonical VariablesCumulative Canonical CumulativeProportion Proportion R-Squared Proportion Proportion1 0.5038 0.5038 0.6297 0.3173 0.31732 0.1886 0.6924 0.0361 0
31、.0068 0.32413 0.3076 1.0000 0.0005 0.0002 0.3242以上给出每组原始变量用它们自己的典型变量和用对方的典型变量解释的方差的累计比例。Canonical Redundancy AnalysisStandardized Variance of the VAR VariablesExplained byTheir Own The OppositeCanonical Variables Canonical VariablesCumulative Canonical CumulativeProportion Proportion R-Squared Propo
32、rtion Proportion1 0.3879 0.3879 0.6297 0.2443 0.24432 0.3192 0.7071 0.0361 0.0115 0.25583 0.2929 1.0000 0.0005 0.0002 0.2560以上给出第1组变量1,2,3个典型变量从标准化的第1组变量提取的比例分别是0.3879,0.3912,0.2929。而 分别是/iG)(ivR0.2443,0.2558,0.2560。Canonical Redundancy AnalysisStandardized Variance of the WITH VariablesExplained by
33、Their Own The OppositeCanonical Variables Canonical VariablesCumulative Canonical CumulativeProportion Proportion R-Squared Proportion Proportion1 0.4538 0.4538 0.6297 0.2858 0.28582 0.2332 0.6870 0.0361 0.0084 0.29423 0.3130 1.0000 0.0005 0.0002 0.2944以上给出第2组变量1,2,3个典型变量从标准化的第2组变量提取的比例分别是 0.4538,0.
34、2332,0.3130。而 分别是/iH)(iwR0.2858,0.2942,0.2944。12Canonical Redundancy AnalysisSquared Multiple Correlations Between the VAR Variables andthe First M Canonical Variables of the WITH VariablesM 1 2 3DEC 0.0592 0.0918 0.0918JAN 0.6118 0.6118 0.6118FEB 0.0619 0.0639 0.0643以上给出第一组变量与第二组1,2,3个典型变量相关系数累计平方和
35、,即0.0592=0.24322, 0.0918=0.0592+( -0.1806) 2,0.0918=0.0918+(-0.0013) 2 0.0619=0.24882, 0.0639=0.0619+( -0.0419) 2,0.0643=0.0639+0.0209 2。Canonical Redundancy AnalysisSquared Multiple Correlations Between the WITH Variables andthe First M Canonical Variables of the VAR VariablesM 1 2 3HIGH7 0.1947 0.
36、1948 0.1952HIGH4 0.2047 0.2279 0.2279HIGH8 0.4580 0.4599 0.4600以上给出第二组变量与第一组1,2,3个典型变量相关系数累计平方和,即0.1947=0.44122,0.1948=0.1947+0.01322,0.1952=0.1948+(-0.0188) 2;0.4580=0.67672, 0.4599=0.4580+0.04382,0.4600=4599+0.0106 2。例 8.2 利用武汉市 2005 年五月份的每天的各监测站平均的 SO2(so2) 、NO2(no2) 、PM10(pm10)监测值与每天早上八点钟的风力(win
37、d) 、气温(temp) 、三小时降水( rain)作典型相关分析。数据见表 8.2:表 8.2Date so2 no2 pm10 wind temp rain20050501 22.43 25.43 65.71 1 23.00 18.0020050502 45.57 26.14 94.71 2 20.40 0.0020050503 70.14 26.86 79.43 1 22.30 0.0020050504 47.14 27.14 76.86 2 22.90 7.0020050505 42.29 27.00 69.00 1 23.00 0.1020050506 34.57 18.86 53.
38、71 1 17.80 0.0020050507 46.14 29.71 63.14 1 20.00 0.001320050508 27.86 21.14 60.43 1 21.60 0.0020050509 45.57 24.43 109.71 1 21.90 0.0020050510 53.57 27.00 98.00 1 24.20 0.0020050511 43.29 28.43 81.71 2 24.10 0.0020050512 54.71 34.86 93.71 2 25.20 0.0020050513 49.29 25.00 76.86 0 23.80 0.7020050514
39、26.57 22.43 68.43 2 20.70 0.0020050515 20.71 23.57 50.43 2 20.00 0.0020050516 26.14 29.29 75.43 1 22.00 13.0020050517 18.29 23.43 63.14 2 20.30 18.0020050518 30.29 22.29 53.14 2 20.20 0.0020050519 33.00 24.71 53.00 2 20.40 0.2020050520 46.14 39.43 116.86 0 20.90 0.0020050521 24.14 28.57 113.57 1 19.
40、20 5.0020050522 26.14 31.86 94.29 1 21.10 0.0020050523 42.71 38.29 134.86 0 23.30 0.3020050524 45.00 34.43 92.14 0 22.30 0.0020050525 48.29 30.71 85.14 2 24.10 0.0020050526 52.86 32.43 86.00 2 23.80 0.0020050527 52.29 42.86 109.00 0 24.30 0.0020050528 33.43 41.86 125.14 1 25.30 0.0020050529 44.14 27
41、.71 104.00 2 24.30 0.0020050530 54.86 37.86 94.43 2 27.60 0.0020050531 30.71 28.43 97.43 1 25.90 0.00解 采用以下程序:data wuhan;input date so2 no2 pm10 wind temp rain;cards;20050501 22.43 25.43 65.71 1 23.00 18.0020050502 45.57 26.14 94.71 2 20.40 0.0020050503 70.14 26.86 79.43 1 22.30 0.0020050504 47.14 2
42、7.14 76.86 2 22.90 7.0020050505 42.29 27.00 69.00 1 23.00 0.1020050506 34.57 18.86 53.71 1 17.80 0.0020050507 46.14 29.71 63.14 1 20.00 0.0020050508 27.86 21.14 60.43 1 21.60 0.0020050509 45.57 24.43 109.71 1 21.90 0.0020050510 53.57 27.00 98.00 1 24.20 0.0020050511 43.29 28.43 81.71 2 24.10 0.00142
43、0050512 54.71 34.86 93.71 2 25.20 0.0020050513 49.29 25.00 76.86 0 23.80 0.7020050514 26.57 22.43 68.43 2 20.70 0.0020050515 20.71 23.57 50.43 2 20.00 0.0020050516 26.14 29.29 75.43 1 22.00 13.0020050517 18.29 23.43 63.14 2 20.30 18.0020050518 30.29 22.29 53.14 2 20.20 0.0020050519 33.00 24.71 53.00
44、 2 20.40 0.2020050520 46.14 39.43 116.86 0 20.90 0.0020050521 24.14 28.57 113.57 1 19.20 5.0020050522 26.14 31.86 94.29 1 21.10 0.0020050523 42.71 38.29 134.86 0 23.30 0.3020050524 45.00 34.43 92.14 0 22.30 0.0020050525 48.29 30.71 85.14 2 24.10 0.0020050526 52.86 32.43 86.00 2 23.80 0.0020050527 52
45、.29 42.86 109.00 0 24.30 0.0020050528 33.43 41.86 125.14 1 25.30 0.0020050529 44.14 27.71 104.00 2 24.30 0.0020050530 54.86 37.86 94.43 2 27.60 0.0020050531 30.71 28.43 97.43 1 25.90 0.00;proc cancorr all;var so2 no2 pm10 ;with wind temp rain;run;输出结果如下:The CANCORR ProcedureVAR Variables 3WITH Variables