1、第10章典型相关分析,典型相关分析着眼于识别和量化两组随机变量之间的相关关系,它是两个随机变量之间的相关关系在两组变量下的推广。两个随机变量X,Y之间的相关关系可用它们的相关系数来度量,其定义为,但在许多实际问题中,需要研究多个变量与多个变量间的相关关系。,现实中: 如鸡蛋、猪肉的价格(作为第一组变量)和相应产品的销量(第二组变量)有相关关系。如投资性变量(劳力投入、财力投入、固定资产投资(用一种变量X1,X2.,XP 描述)等)与国民收入(工农业收入、建筑业收入、 (用另一种变量Y1,Y2YP描述)等)具有相关关系。又如:在生物科学中,在研究某生物种群状况(用一种变量X1,X2.,XP 描述
2、)与其生活环境(用另一种变量Y1,Y2YP描述)之间的相关关系。,如何研究两组变量之间的相关关系?,设两组变量用X1,X2.,XP以及Y1,Y2YP表示。分别研究Xi和Yj之间的相关关系,列出相关系数表。其缺陷:虽然每个Xi和每个Yj之间的相关关系也反映了两组变量间各对之间的联系,但不能反映这两组变量整体之间的相关性。孤立地了解各对( Xi ,Yj )之间的相关性无助于对于实际问题的全面分析和解决。另外当两组变量较多时,处理较烦琐,不易抓住问题的实质。,由主成分分析思想启发,把两组随机变量之间的相关关系转化为两个随机变量之间的相关关系来考虑。,采用主成分分析的方法,每组变量分别提取主成分,再通
3、过主成分之间的关系反映两组变量之间的关系。即考察一组变量的线性组合与另一组变量的线性组合的相关关系。为最大可能地提取X1,X2.,XP 与Y1,Y2YP 之间的相关关系,我们选择a和b,使Z与W之间有最大相关系数,这时称Z和W为第一对典型变量。,进一步,我们还可确定第二对、第三对典型变量等等,并使各对典型变量之间互不相关(即相关性不会被各对典型变量重复提取)。这样,我们就将两组变量间的相关性凝结为少数几个典型变量对之间的相关性,通过对相关性较大的几对典型变量的研究来了解原来两组变量之间的相关关系从而容易抓住问题的本质。,例:鸡蛋、猪肉的价格用X1和X2表示;鸡蛋、猪肉的销量用Y1和Y2表示。构
4、造第一组和第二组变量的线性组合:F1=a11X1+ a12X2 Z1=a11Y1+ a12Y2 满足F1和Z1的相关性最大化。 典型相关分析,一、总体的典型变量与典型相关,设两组随机变量分别为令,则有,为便于理解后述定理的内容,我们首先介正定矩阵的平方根矩阵的概念及其简单性质。,总体的典型相关系数和典型变量的求法,第三节 样本典型相关系数,一、样本典型相关变量及典型相关系数的计算 在实际应用中,总体的协差阵通常是未知的,往往需要从研究的总体中随机的抽取一个样本,根据样本估计出总体的协差阵,并在此基础上进行典型相关分析。,第四节 典型相关系数的显著性检验,、什么是典型相关分析?典型相关分析是研究两组变量之间相关关系的多元统计分析方法它借用主成分分析降维的思想,分别对两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系,典型相关关系研究两组变量之间整体的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量所研究的两组变量可以是一组为自变量,而另一组变量为因变量;两组变量也可以是同等的地位,但典型相关关系要求两组变量都至少是间隔尺度,