1、第8章 典型相关分析,一、什么是典型相关分析及基本思想,通常情况下,为了研究两组变量的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,既可以使变量个数简化,又可以达到分析相关性的目的。,例 家庭特征与家庭消费之间的关系,为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。,在解决实际问题中,这种方法有广泛的应用。,变量间的相关系数矩阵,y2,y3,y1,x2,x1,要求: 1、 u1和v1与u2和v2相
2、互独立,但u2和v2相关。 2、由于随机变量u和v,乘以任意常数并不改变它们之间的相关系数,为防止不必要的结果重复出现,最好的限制是令各自的方差等于1,如var(u1)=Var(v1)=1如此继续下去,直至进行到r步,rmin(p,q),可以得到r组变量。,从而达到降维的目的。,典型相关分析的思想:,首先分别在每组变量中找出第1对线性组合,使其具有最大相关性,然后再在每组变量中找出第2对线性组合,使其分别与本组内的第1对线性组合不相关,第2对本身具有次大的相关性。如此下去,直至两组变量的相关性被提取完为止。,第1对线性组合,第2对线性组合,二、典型相关的数学描述,(一)想法考虑两组变量的向量,
3、其协方差阵为,其中11是第一组变量的协方差矩阵;22是第二组变量的协方差矩阵;12 和21是X和Y的其协方差矩阵。,如果我们记两组变量的第一对线性组合为:,其中:,所以,典型相关分析就是求1和1,使二者的相关系数达到最大。,(二)典型相关系数和典型变量的求法,在约束条件,下,求1和1,使uv达到最大。,根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求,的极大值,其中和是 Lagrange乘数。,将上面的3式分别左乘 和,将 左乘(3)的第二式,得,并将第一式代入,得,的特征根是 ,相应的特征向量为,类似地,将 左乘(3)的第一式,并将第二式代入,得,的特征根是
4、 ,相应的特征向量为,引理:AB和BA有相同的非零特征根.A和A有相同的非零特征根.,则 和有相同的非零特征根。,结论: 既是M1又是M2的特征根, 和 是相应于M1和M2的特征向量。,至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。,第1对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第2对典型变量和他们的典型相关系数。,在剩余的相关中再求出第2对典型变量和他们的典型相关系数。设第2对典型变量为:,在约束条件:,求使 达到最大的 和 。,例 家庭特征与家庭消费之间的关系,为了了解家庭的特征与其消费模式之间的关系。调查了7
5、0个家庭的下面两组变量:分析两组变量之间的关系。,变量间的相关系数矩阵,三、典型变量的性质,1、同一组的典型变量之间互不相关,X组的典型变量之间互不相关:,Y组的典型变量之间是互不相关:,2、不同组的典型变量之间相关性,不同组内典型变量之间的相关系数为:,同对则协方差为i ,不同对则为零。,3、原始变量与典型变量之间的相关系数,又称为典型载荷或典型结构相关系数,是原始变量与典型变量之间的简单线性相关系数。典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,就是每个原始变量对典型函数的相对贡献。 注: 典型载荷:本组原始变量与本组典型变量的相关关系 典型交叉载荷:本组原始变量与另一
6、组典型变量的相关关系。,3、原始变量与典型变量之间的相关系数,原始变量相关系数矩阵,x典型变量系数矩阵,y典型变量系数矩阵,两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,说明u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了家庭收入, u1和 v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间的关系是很密切的;第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3013,
7、可见典型变量v2主要代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的有关。,4、各组原始变量被典型变量所解释的方差,X组原始变量被ui解释的方差比例,X组原始变量被vi解释的方差比例(典型变量Ui的冗余指数),y组原始变量被ui解释的方差比例(典型变量Vi的冗余指数),y组原始变量被vi解释的方差比例,冗余指数,冗余指数是典型变量对另一组原始变量总变差解释的百分比。冗余指数的大小表示一对典型变量分别能够对另一组变差相互解释的程度大小。该指数越大,表示一对典型变量分别解释对方组原始变量的能力越强,典型变量的代表性就好。冗余指数的另一
8、计算公式: 某个典型变量的冗余指数 =这个典型变量的共同方差比例典型相关系数的平方(本组原始变量被本组典型变量解释的方差比例),五、样本典型相关系数,在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵进行估计,然后利用估计得到的协方差或相关系数矩阵进行分析。由于估计中抽样误差的存在,所以估计以后还需要进行有关的假设检验。,1、假设有X组和Y组变量,样本容量为n。假设( X1, Y1), ( X2, Y2), ( Xn, Yn),观测值矩阵为:,2、计算特征根和特征向量求M1和 M2的特征根 ,对应的特征向量 。则
9、特征向量构成典型变量的系数,特征根为典型变量相关系数的平方。,六、典型相关系数的检验,典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析。用样本来估计总体的典型相关系数是否有误,需要进行检验。因此,原始变量组间的相关性检验,既是典型相关分析的适用性检验,也是对典型相关系数的整体检验。检验的统计量:,(一)整体检验,所以,对两边同时求行列式,等式左边有,由于所以若M的特征根为2 ,则(l-M)的特征根为(1-2)。根据矩阵行列式与特征根的关系,可得:,在原假设为真的情况下,检验的统计量近似服从自由度为pq的2分布。在给定的显著性水平下,
10、如果22 (pq),则拒绝原假设,认为至少第一对典型变量之间的相关性显著。再检验下一对典型变量之间的相关性。直至相关性不显著为止。对两组变量x和y进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。H0经检验被拒绝,则应进一步检验假设。,(二)部分总体典型相关系数为零的检验,若原假设H0被接受,则认为只有第一对典型变量是有用的;若原假设H0被拒绝,则认为第二对典型变量也是有用的,并进一步检验假设:,如此进行下去.直至对某个k,,第一步:,检验的统计量,近似服从自由度为(p-k)(q-k)的2分布。在给定的显著性水平
11、下,如果22 (p-k)(q-k),则拒绝原假设,认为至少第k+1对典型变量之间的相关性显著。,可见,前面两对典型变量的相关性是很强的。,47,典型相关分析的步骤,1、确定典型相关分析的目标 (1)确定两组变量相互独立、或相反,确定两组变量间存在关系的大小。 (2)为每组变量推导出一组权重,使得每组变量的线性组合达到最大程度相关。 (3)解释自变量与因变量组中存在的相关关系,通常是通过测量每个变量对典型函数的相对贡献来衡量。,48,2、设计典型相关分析 样本量至少保持每个变量有10个观测。3、典型相关分析的基本假设 (1)假定两个变量之间是线性相关的。 (2)变量要服从正态分布,49,4、推导
12、典型函数、评价整体拟合情况 (1)推导典型函数 (2)典型函数的解释三个准则:函数的统计显著性水平、典型相关的大小、冗余指数 5、解释典型变量 三种方法:典型权重(标准化系数)、典型载荷(结构系数)、典型交叉载荷,50,6、验证与诊断 方法一:构造两个子样本,在每个样本上分别做分析。 方法二:验证测量结果对于剔除一个因变量或自变量的灵敏度,保证典型权重和典型载荷的稳定性。,51,典型相关分析的局限,典型相关反映变量组的线性组合所共享的方差,而不是从变量提取的方差。 计算典型函数推导的典型权重有较大的不稳定性 推导的典型权重是最大化线性组合的相关关系,而不是提取的方差 典型变量的解释可能会较困难
13、,因为没有类似方差分析中变量旋转的工具。 难以识别自变量与因变量的子集间有意义的关系,只能通过一些不充分的测量,如载荷和交叉载荷。,职业满意度典型相关分析,某调查公司从一个大型零售公司随机调查了784人,测量了5个职业特性指标和7个职业满意变量。讨论 两组指标之间是否相联系。 X组: Y组: X1用户反馈 Y1主管满意度 X2任务重要性 Y2事业前景满意度 X3任务多样性 Y3财政满意度 X4任务特殊性 Y4工作强度满意度 X5自主权 Y5公司地位满意度Y6工作满意度 Y7总体满意度,Canonical Correlation Analysis,当前和后面的典型相关系数均为零的检验,X组的典型
14、变量,Y组的典型变量,原始变量与本组典型变量之间的相关系数,原始变量与对应组典型变量之间的相关系数,可以看出,所有五个表示职业特性的变量与u1有大致相同的相关系数, u1视为形容职业特性的指标。第一对典型变量的第二个成员v1与Y1,Y2,Y5,Y6有较大的相关系数,说明v1主要代表了主管满意度,事业前景满意度,公司地位满意度和工种满意度。而u1和v1之间的相关系数0.5537。,Canonical Redundancy AnalysisRaw Variance of the VAR VariablesExplained byTheir Own The OppositeCanonical Var
15、iables Canonical VariablesCumulative CumulativeProportion Proportion Proportion Proportion1 0.5818 0.5818 0.1784 0.17842 0.1080 0.6898 0.0060 0.18443 0.0960 0.7858 0.0014 0.18584 0.1223 0.9081 0.0006 0.18645 0.0919 1.0000 0.0003 0.1867Raw Variance of the WITH VariablesExplained byTheir Own The Oppos
16、iteCanonical Variables Canonical VariablesCumulative CumulativeProportion Proportion Proportion Proportion1 0.3721 0.3721 0.1141 0.11412 0.1222 0.4943 0.0068 0.12093 0.0740 0.5683 0.0011 0.12204 0.1289 0.6972 0.0007 0.12265 0.1058 0.8030 0.0003 0.1230,u1和v1解释的本组原始变量的比率:X组的原始变量被u1到u5解释了100% Y组的原始变量被v
17、1到v5解释了80.3% X组的原始变量被u1到u4解释了90.81% Y组的原始变量被v1到v4解释了69.72%,房地产指标典型相关分析报告在对房地产指标的典型相关分析中建立了如下的指标体系: X1:开发公司个数(个) X2:年平均职工人数(人) X3:自开始建设至本年底累计完成投资 X4:本年完成投资 X5:施工房屋面积(万平方米) Y1:经营总收入 Y2:土地转让收入 Y3:商品房屋销售收入 Y4:房屋出租收入 Y5:经营税金及附加 Y6:营业利润 Y7:竣工房屋面积(万平方米) Y8:竣工房屋价值(万元) 其中,X1-X5是反映房地产投入的变量,Y1-Y8是反映房地产产出的变量。 数
18、据来源于1999中国统计年鉴,选取了全国30个省市自治区的相应指标值(西藏和新疆两自治区因数据不全而删除,第一对典型变量中,U1主要受自开始建设至本年底累计完成投资影响,V1主要受经营总收入和商品房屋销售收入影响; 第二对典型变量中,U2主要受自开始建设至本年底累计完成投资、本年完成投资和施工房屋面积影响,V2主要受经营税金及附加、竣工房屋面积和竣工房屋价值影响: 第三对典型变量中,U3受各个指标影响都较大,V4主要受房屋出租收入、经营税金及附加和竣工房屋面积的影响; 第四对典型变量中,U4主要受本年完成投资的影响,V4主要受经营总收入和工房屋价值的影响。 第五对典型变量中,U5主要受开发公司
19、个数影响,V4主要受经营总收入、商品房屋销售收入、房屋出租收入和经营税金及附加影响。 但注意到,第一对典型变量的方差贡献率已达92.20%,故保留第一对典型变量用作分析,从而达到降维的目的。总的来说,房地产的投入变量主要受自开始建设至本年底累计完成投资影响,产出变量集中在经营总收入和商品房屋销售收入上。累计完成投资额与经营总收入,特别是商品房屋销售收入高度相关。,典型相关分析的基本思想:首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有最大相关性。如此下去,直至两组变量的相关性被提取完为止。本例
20、想利用我国1999年城镇居民的家庭收入来源和消费性支出的数据了解我国居民消费构成及主要影响因素分析所用的数据来自:中国统计年鉴2000。,我国居民消费构成及主要影响因素,收入指标:X1可支配收入X2实际收入X3国有单位职工收入X4集体单位职工收入X5其他经济类型职工收入, X6转移收入支出指标:Y1消费性支出Y2食品Y3衣着Y4交通和通讯Y5医疗和保健Y6娱乐、教育、文化服务Y7居住,序号 典型相关系数 典型变量1 0.990174 U1 =0.9989X1+-0.0595X2+0.0776X3+0.0489X4-0.0931X5+0.0074X6 V1=1.3263Y1-0.0270Y2-0
21、.0005Y3-0.0769Y4-0.0717Y5-0.2031Y6-0.0219Y,2 0.868704 U2 =-4.8668X1+0.1264X2+1.9585X3+0.3299X4+1.4095X5+2.6453X6,V2 =-4.4920Y1+2.5421Y2+1.2480Y3-0.4621Y4+1.0443Y5+0.8610Y6+0.0586Y7,由累计贡献率得知,第一组和第二组变量的累计贡献率已达到了97.56%,而且,这两组的系数和方差与其他组相比要大得多.即只需要前两组变量就已经可以解释全部信息的97.56%. 在第一对典型变量中,U1 主要受可支配收入的影响,V1 主要受消
22、费性支出的影响;可见实际收入对消费支出的影响远小于可支配收入的影响。居民消费主要依据其可支配收入而定。 第二对典型变量中,U2 主要受国有单位职工收入、其他经济类型职工收入和转移收入的影响,V2 主要受食品、衣着、医疗和保健的影响。,在此,可见我国集体单位的职工收入还不能够与国有甚至是其他经济类型的单位这职工收入相比,这也从一个侧面放反映了集体单位规模等方面的现状。再有就是我国居民食品和衣着方面的支出仍占了总支出的大部分,反映了我国居民总体收入水平还不够高;其次,医疗保健支出的比例比较大是可喜的,说明我国居民已经可以把部分精力放在了自己身体的调养上来,全国居民的总体健康状况在上升之中。让我们担忧的是在教育方面的支出所占比例太小,不符合现今世界发展对教育程度的要求 。科技是第一生产力,如何提高国民的科技文化知识水平是当今的一大重点。在当代激烈的竞争中,没有知识的支撑是不行的。,