1、课 时 授 课 计 划课次序号: 22一、课 题:实验九 典型相关分析二、课 型:上机实验三、目的要求:1.掌握典型相关分析的理论与方法、模型的建立与显著性检验;2.掌握利用典型相关分析的 SAS过程解决有关实际问题.四、教学重点:典型相关分析的 SAS过程.教学难点:相关分析的理论与方法、模型的建立与显著性检验.五、教学方法及手段:传统教学与上机实验相结合六、参考资料:应用多元统计分析 ,高惠璇编,北京大学出版社,2005;使用统计方法与 SAS系统 ,高惠璇编,北京大学出版社,2001;多元统计分析(二版),何晓群编,中国人民大学出版社,2008;应用回归分析(二版),何晓群编,中国人民大
2、学出版社,2007;统计建模与 R软件 ,薛毅编著,清华大学出版社,2007.七、作业:4.9 4.10八、授课记录:九、授课效果分析:授课日期班 次实验九 典型相关分析 (Canonical Correlation Analysis) (2 学时)一、实验目的和要求 能利用原始数据与相关矩阵、协主差矩阵作相关分析,能根据 SAS输出结果选出满足要求的几个典型变量二、实验内容1.典型相关分析的 SAS过程PROC CANCORR 过程基本语句:PROC CANCORR ;VAR variables;WITH variables;RUN;说明:此过程输入数据可以是原始数据,也可以是相关系数矩阵或
3、协方差矩阵,输出结果包含相关系数矩阵、典型相关系数、典型变量的系数、典型变量对之间的相关性检验的 F统计量值、自由度、p 值、典型变量与原始变量的相关系数等(1)proc cancorr 语句的:第三十七课 OUT=SAS 数据集创建含原始数据和典型相关变量得分(观测值)的SAS 集第三十八课 OUTSTAT=SAS 数据集创建含原始变量的样本均值、样本标准差、样本相关系数阵、典型相关系数和典型变量的标准化和非标准化系数等 SAS 集第三十九课 CORR(或 C)打印原始变量的样本相关系数矩阵第四十课 NCAN=m规定要求输出的典型变量对个数,默认为两组变量个数较小者第四十一课 EDF=n-1
4、针对输入原始数据集为样本相关系数矩阵或样本协方差矩阵,借此选项指定样本容量为观测个数减 1输入为原始观测数据时,省略此项第四十二课 all所有输出项第四十三课 noprint不输出分析结果第四十四课 short只输出典型相关系数和多元分析统计数第四十五课 simple简单统计数第四十六课 vname=变量名为 var 语句的变量定义名称第四十七课 vprefix=前缀名 为 var 语句的典型变量定义前缀第四十八课 wname=变量名为 with 语句的变量定义名称第四十九课 wprefix=前缀名为 with 语句的典型变量定义前缀(2)VAR variablesVAR 后列出进行相关分析的
5、第一组变量名称(3)WITH variablesWITH 后列出进行相关分析的第二组变量名称var 与 with 语句经常同 proc cancorr 语句一起使用其他语句类似 corr 过程2. 典型相关分析步骤两组随机变量 ,TqTpYX),(,),( 2121 取值 yx yx组观测数据 , n TiqiiTipii ),(,),( 2121 标准化样本 , 21* piiiiii sxsxxx Tqiiii yyy),( 1121* ni,1样本相关系数矩阵为总体 相关系数矩阵 的估计21RT),(YX样本典型相关分析步骤:(1)求 ( )的特征值 211*A1221*RB02p(2)
6、求 和 对应的正交单位化特征向量211*R 1221*和pe,21 pff,(3)第 k 对典型相关变量为,*21*21*,yfxTkTVU其中 ),()( *1*1 qp样本典型相关系数为, kVUk*, p,2(4)典型相关系数的显著性检验0:0:)(1)(0 kkHHpk,21统计量 ),(121/2)(0kHktk dFdF真检验 值为 p ),(210 kkkk fPf若 ,拒绝 )(依次就 进行检验,若对某个 ,检验 值首次满足 ,则认为只有k,21kpp前 对典型变量显著相关,选取前 对即可1注意:利用样本协方差矩阵,分析方法一样不需要对数据标准化处理3.实例分析例 4.6 为研
7、究空气温度与土壤温度的关系,考虑六个变量日最高土壤温度; 日最低土壤温度; 日土壤温度积分值; :1X:2X:3X日最高气温; 日最低气温; 日气温曲线积分值YYY观测了 天,数据如表 4.7 ,做典型相关分46n TT),(,),( 321321析解:(1)建立输入数据集,程序如下:data examp4_6;input x1-x3 y1-y3;cards;85 59 151 84 65 14786 61 159 84 65 14983 64 152 79 66 14283 65 158 81 67 14788 69 180 84 68 16777 67 147 74 66 13178 69
8、 159 73 66 13184 68 159 75 67 13489 71 195 84 68 16191 76 206 86 72 16991 76 206 88 73 17694 76 211 90 74 18794 75 211 88 72 17192 70 201 58 72 17187 68 167 81 69 15483 68 162 79 68 14987 66 173 84 69 16087 68 177 84 70 16088 70 169 84 70 16883 66 170 77 67 14792 67 196 87 67 16692 72 199 89 69 1719
9、4 72 204 89 72 18092 73 201 93 72 18693 72 206 93 74 18894 72 208 94 75 19995 73 214 93 74 19395 70 210 93 74 19695 71 207 96 75 19895 69 202 95 76 20296 69 173 84 73 17391 69 168 91 71 17089 70 189 88 72 17995 71 210 89 72 17996 73 208 91 72 18297 75 215 92 74 19696 69 198 94 75 19295 67 196 96 75
10、19594 75 211 93 76 19892 73 198 88 74 18890 74 197 88 74 17894 70 205 91 72 17595 71 209 92 72 19096 72 208 92 73 18995 71 208 94 75 19496 71 208 96 76 202;run;(2) 调用典型相关分析 cancorr 过程菜单操作方法为,选择 Globals/SAS/Assist/Data analysis/multivariate/canonical correlation analysis(典型相关分析 )菜单命令编程方法如下:proc canco
11、rr data=examp4_6 corr; /*调用相关分析过程,打印样本相关系数矩阵*/var x1-x3; /* 第一组变量x1-x3*/with y1-y3; /* 第二组变量y1-y3*/run;由 SAS proc cancorr 过程求得 样本相关系数矩阵TYX),(321321 21RSAS 系统 10:24 Sunday, November 2, 2008 14The CANCORR ProcedureCorrelations Among the Original VariablesCorrelations Among the VAR Variables(变量x1-x3的相关
12、系数矩阵 )1Rx1 x2 x3x1 1.0000 0.5705 0.8751x2 0.5705 1.0000 0.7808x3 0.8751 0.7808 1.0000Correlations Among the WITH Variables(变量y1-y3的相关系数矩阵 )2Ry1 y2 y3y1 1.0000 0.6705 0.7850y2 0.6705 1.0000 0.9324y3 0.7850 0.9324 1.0000Correlations Between the VAR Variables and the WITH Variables变量x1-x3与y1-y3的相关系数矩阵
13、12Ry1 y2 y3x1 0.7136 0.8400 0.9143x2 0.3796 0.6809 0.5907x3 0.6256 0.8185 0.8695变量间高度相关。SAS 系统 10:24 Sunday, November 2, 2008 15The CANCORR ProcedureCanonical Correlation Analysis典型相关分析的一般结果Adjusted Approximate SquaredCanonical Canonical Standard CanonicalCorrelation Correlation Error Correlation典型相
14、关系数 校正的典型相关系数 近似的标准误 典型相关系数平方k1 =0.927857 0.922345 0.020733 =0.860919212 =0.562181 0.539833 0.101958 =0.3160473 =0.165974 . 0.144965 =0.02754723(3)检验各对典型变量是否显著相关表4.8 各对典型变量相关性检验结果Eigenvalues of Inv(E)*H Test of H0: The canonical correlations in the= CanRsq/(1-CanRsq) 即 current row and all that follo
15、w are zero)1/(2kLikelihood ApproximateEigenvalue Difference Proportion Cumulative Ratio F Value Num DF Den DF Pr F各对相关系 相邻两特 特征值占 特征值占方差 似然比 值 kkd1k2p数特征值 征值之差 方差比例 比例累计值1 6.1901 5.7280 0.9266 0.9266 0.09250440 17.98 9 97.5 F统计方法 F值 检验p值Wilks Lambda 0.09250440 17.98 9 97.5 .0001Pillais Trace 1.20451
16、366 9.39 9 126 .0001Hotelling-Lawley Trace 6.68047081 29.18 9 59.755 .0001Roys Greatest Root 6.19005360 86.66 3 42 .0001NOTE: F Statistic for Roys Greatest Root is an upper bound.(4)求出典型变量及典型相关系数,并解释典型变量的系数和典型结构SAS 系统 10:24 Sunday, November 2, 2008 16The CANCORR ProcedureCanonical Correlation Analys
17、isRaw Canonical Coefficients for the VAR Variables第一组变量x1-x3的典型变量的系数(原始变量未标准化)第一典型变量 第二典型变量 1U23UV1 V2 V3x1 0.1280199827 0.1095637597 -0.406148274x2 -0.031330493 0.4635275823 -0.074977596x3 0.0219719226 -0.08102918 0.1118830437第二组变量y1-y3的典型变量的系数(原始变量为标准化)Raw Canonical Coefficients for the WITH Varia
18、bles 第一典型变量 第二典型变量 1V2V3W1 W2 W3y1 -0.011564835 0.0308514741 -0.222582518y2 -0.061163256 0.8627405447 -0.119837671y3 0.0624247406 -0.137906924 0.0811935636数据未标准化结果,即利用协方差矩阵分析的结果3211 019.3.028. xxU 645yyV其余略SAS 系统 10:24 Sunday, November 2, 2008 17The CANCORR ProcedureCanonical Correlation Analysis第一组
19、变量x1-x3的典型变量的系数(原始变量标准化后)Standardized Canonical Coefficients for the VAR Variables第一典型变量 第二典型变量 *1U*23UV1 V2 V3x1(即 ) 0.6485 0.5550 -2.0575*1xx2(即 ) -0.1149 1.6993 -0.27492x3(即 ) 0.4600 -1.6963 2.3422*3x第二组变量y1-y3的典型变量的系数(原始变量标准化后) Standardized Canonical Coefficients for the WITH Variables第一典型变量 第一典
20、型变量 *1V*23VW1 W2 W3y1 -0.0863 0.2302 -1.6609y2 -0.2016 2.8436 -0.3950给出 的三个特征值211*RA, , .0.869210.36470.27543第一对典型变量主要日最高、日均土壤温度加权*3*2*1*1 .4.5. xxU主要受日均气温影响513yyV第一对典型变量主要表现日均气温与日均、最高土壤温度相关性。气温高,则土壤温度高。第一对典型相关系数为 0.9781第二、第三对典型变量及典型相关系数主要日最低土壤温度和日均土壤温度差异*3*2*1*2 6.-9.50. xxU主要最低气温和日均气温的差异483yyV第二对变
21、量主要表现日均温差与土壤温差的关系。温差大,则土壤温度差异大。 *3*2*1* .7. 3 691350690.562180.1659743(5)以下输出原变量和典型变量间的相关系数(可不要求)SAS 系统 10:24 Sunday, November 2, 2008 18The CANCORR ProcedureCanonical Structure第一组变量x1-x3和它们的典型变量 , , 的相关系数*1U2*3Correlations Between the VAR Variables and Their Canonical VariablesV1 V2 V3x1 0.9856 0.0
22、400 -0.1646x2 0.6143 0.6915 0.3802x3 0.9378 0.1163 0.3270第二组变量y1-y3和它们的典型变量 , , 的相关系数*1V23Correlations Between the WITH Variables and Their Canonical VariablesW1 W2 W3y1 0.7620 -0.0358 -0.6466y2 0.9086 0.4176 0.0107y3 0.9970 0.0647 -0.0428第一组变量x1-x3和第二组典型变量 , , 的相关系数*1V23Correlations Between the VAR
23、 Variables and the Canonical Variables of the WITH VariablesW1 W2 W3x1 0.9145 0.0225 -0.0273x2 0.5700 0.3887 0.0631x3 0.8702 0.0654 0.0543第二组变量y1-y3和第一组典型变量 , , 的相关系数*1U2*3Correlations Between the WITH Variables and the Canonical Variables of the VAR VariablesV1 V2 V3y1 0.7070 -0.0201 -0.1073y2 0.84
24、30 0.2347 0.0018y3 0.9251 0.0364 -0.0071原变量和第一对变量相关程度高,后两组提取的信息很少,与典型对系数一致。练习:评委打分问题data examp1;input x1-x3 y1-y3;cards;86 43 85 43 93 7199 74 99 78 99 8937 22 10 27 24 335 19 56 13 11 3845 43 55 39 54 5821 32 21 34 35 3236 78 48 75 42 7869 31 85 32 70 5240 98 36 99 64 8626 14 40 8 25 2151 68 38 68
25、48 7263 86 79 87 76 9539 80 57 80 55 68 78 40 72 42 75 5856 49 54 48 52 6139 80 71 76 52 8165 5 53 11 67 4128 11 31 12 23 3550 32 68 23 49 5869 98 69 97 81 9955 99 78 97 60 9036 11 5 15 26 5 77 18 61 27 68 5467 33 95 34 59 6145 87 46 85 67 8061 72 63 63 62 7541 63 74 55 50 766 5 13 5 5 1328 53 35 51
26、 31 5966 20 79 18 67 55;run;(2) 调用典型相关分析 cancorr 过程菜单操作方法为,选择 Globals/SAS/Assist/Data analysis/multivariate/canonical correlation analysis(典型相关分析 )菜单命令编程方法如下:proc cancorr data=ex5 corr; /*调用相关分析过程,打印样本相关系数矩阵*/var x1-x3; /* 第一组变量x1-x3*/with y1-y3; /* 第二组变量y1-y3*/run;SAS 系统 2008 年 08月 01日 星期五 下午 09时 25分 34秒 1