1、 因子分析201100703021 高永明摘要:因子分析可看作是对主成分分析的推广和发展,它也是一种重要的降维方法。与主成分分析相比,因子分析较为灵活,这种灵活性使得变量在降维之后更容易得到解释,这是因子分析比主成分分析有更广泛应用的一个重要原因。因子分析的目的是,试图用几个潜在的,不可观测的随机变量来描述原始变量间的协方差的关系。关键字:因子分析 参数估计 主成分法 极大似然法因子分析与主成分分析有诸多不同,因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低。每组变量代表一个基本结构,这个基本结构称为
2、公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。1. 主成分法:主成分分析在于对原始变量的线性变换,注意是转换、变换;而因子分析在于对原始变量的剖析,注意是剖析,是分解,分解为公共因子和特殊因子。有几个
3、变量就至少有几个成分,一般只提取能解释 80%以上的成分;因子分析,有几个变量不一定有几个公共因子,因为这里的因子是公因子,潜在的存在与每一个变量中,需要从每一个变量中去分解,无法解释的部分是特殊因子2. 因子分析模型:X = (x1,x2,xp)是可观测随机向量,均值向量 E(X)=0,协方差阵 Cov(X)=,且协方差阵与相关矩阵 R 相等(只要将变量标准化即可实现)。F = (F1,F2,Fm) (mp)是不可测的向量,其均值向量 E(F)=0,协方差矩阵 Cov(F) =I,即向量的各分量是相互独立的。e = (e1,e2,ep)与 F 相互独立,且 E(e)=0, e 的协方差阵是对
4、角阵,即各分量 e 之间是相互独立的,则模型:x1 = a11F1+ a12F2 +a1mFm + e1x2 = a21F1+a22F2 +a2mFm + e2xp = ap1F1+ ap2F2 +apmFm + ep称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为 R 型正交因子模型。其矩阵形式为:x =AF + e .其中:x=,A=,F=,e=m p;Cov(F,e)=0,即 F 和 e 是不相关的;D(F) = Im ,即 F1,F2,Fm 不相关且方差均为 1;D(e)=,即 e1,e2,ep 不相关,且方差不同。我们把 F 称为 X 的公共因子或潜因子,矩
5、阵 A 称为因子载荷矩阵,e 称为 X 的特殊因子。A = (aij),aij 为因子载荷。数学上可以证明,因子载荷 aij 就是第 i 变量与第 j 因子的相关系数,反映了第 i 变量在第 j 因子上的重要性。3. 因子旋转建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,通过适当的旋转得到比较满意的主因子。旋转的方法有很多,正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法
6、(Varimax)。进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方值向 0和 1 两个方向分化,使大的载荷更大,小的载荷更小。因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有 Promax 法等。4.因子得分因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。例如地区经济发展的因子分析模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。这时需要将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值
7、来估计它的因子得分5案例分析:就洛杉矶十二个标准大都市居民统计地区中进行人口调查获得的。例 8.4 题 8.4 程序如下:proc factor data=sasuser.exec84 n=2 rotate=varimax out=out84;var x1-x5;proc factor data=sasuser.exec84 n=2 priors=smc preplot rotate=varimax plot;var x1-x5;proc factor data=sasuser.exec84 n=2 method=ml heywood rotate=varimax;var x1-x5;run;
8、运行结果1 21 0.02134 0.999772 0.99977 -0.02134Rotated Factor PatternFactor1 Factor2X1 X1 0.02134 0.99977X2 X2 0.90003 -0.00946X3 X3 0.13869 0.96971X4 X4 0.79849 0.42193X5 X5 0.96015 0.00193Variance Explained by Each FactorFactor Weighted UnweightedFactor1 20.0023399 2.38921346Factor2 24.2159451 2.118000
9、05 Final Communality Estimates and Variable WeightsTotal Communality: Weighted = 44.218285 Unweighted = 4.507214Variable Communality WeightX1 1.00000000 InftyX2 0.81014489 5.2682940X3 0.95957142 24.7246669X4 0.81560348 5.4256462X5 0.92189372 12.799679在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究 简化系统结构,探讨系统内核
10、。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。参考文献:1方开泰:实用多元统计分析2王学民:应用多元分析3高回旋:实用统计方法和 SAS 系统