1、第六章 因素分析,6.1 因素分析的原理 6.2 求因素负荷矩阵的初始解 6.3 因素旋转 6.4 因素分数及其应用,因素分析的主要目的:对数据进行降维,浓缩,探索数据的基本结构。就是研究如何以最少的信息损失把众多的观测变量浓缩为少数几个综合指标(因素)。这些因素(Factor)能够反映原来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存的关系。,6.1 因素分析的原理,因素分析的基本思想是根据相关性大小把变量分组,使得同组内的变量相关性较高,但不同组的变量相关较低.每组变量代表一个基本结构,这个基本结构称为公共因子(公因子或因素)。对于所研究的问题就可试图用最少个数的不可观测
2、的公因子的线性组合与特殊因子之和来描述原来观测的每一个变量。,6.1.1因素分析模型,6.1.2 因素分析中的几个概念,1、因素负荷,aij是xi与fj的相关系数。反映了第i个变量对第j个因素fj的相对重要性,表示变量xi与因素fj间的密切程度。,2、变量的共同度(Communality),变量的共同度指观测变量的方差中由公因子(因素)决定的比例,也叫公因子方差。,3、因素的方差贡献,因素fj 对数据的解释能力,可以用该因素所解释的总方差来衡量。等于因素负荷矩阵A中第j列的各元素的平方和。,6.1.3 因素分析的步骤,1、计算观测变量的相关矩阵,并判断是否适合做因素分析; 2、抽取因素。确定因
3、素个数和求解的方法; 3、因素旋转。目的是通过坐标变换使得因素解的含义更容易解释; 4、计算因素分数。,6.1.4 判断一组观测数据是否适合做因素分析,1、反映象相关矩阵(Anti-image correlation matrix) 它的元素等于负的偏相关系数, 其绝对值应该很小时,适合做因素分析。 2、巴特利特球形检验(Bartlett test of sphericity) 零假设为相关矩阵是单位矩阵。拒绝零假设时,适合做因素分析。 3、KMO测度 KMO:0.9以上,非常适合;0.8以上,较适合;0.7,一般;0.6,较不适合;0.5以下,很不适合做因素分析。,6.2求因素负荷矩阵A的初
4、始解-因素抽取,6.2.1 主成分(Principal components)分析法 1、主成分分析法的原理 通过数学变换的方法,将一组(p个)相关的变量转化成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。 在数学变换中,保持变量的总方差不变,使第一个变量具有最大的方差,称为第一主成分,第二个变量的方差次大,并且与第一个变量不相关,成为第二主成分,依次类推,p个变量就有p个主成分。这些主成分之间互不相关。,2、主成分的几何意义 3、主成分的求解,设R为p个观测变量的相关矩阵,非奇异的。由于R是实对称矩阵,通过求解可得到R的p个非零特征值,从大到小排列为: 12p0,对应的一组正交
5、的单位特征向量为V1,V2,Vp. Vi=(v1i,v2i,vpi), 则V(V1,V2,Vp)为正交阵。满足VV=VV=I, 令Qdiag(1,2,p), RV=VQ, R=VQV, 令f=VX,则f的协方差阵 ME(FF)E(VXXV)=VE(XX)V=VRV=Q = diag(1,2,p), 第k个主成分为fk=VkX,4、主成分的性质,(1)主成分之间互不相关,且fk的方差等于k; (2) 1+2+pp;,5、因素个数的确定,(1)特征值法 取特征值大于等于1的主成分作为初始解,放弃特征值小于1的主成分。,(2)碎石图检验法,按照因素被抽取的顺序画出特征值随因素个数变化的散点图。根据图
6、的形状来判断因素的个数。曲线变平开始的前一点认为是抽取的最大因素个数。,6、主成分分析法的应用,(1)降低所研究的数据空间的维度; (2)可通过因子负荷的结构,弄清x变量间的某些关系; (3)多维数据的一种图形表示方法。 (4)有主成分法构造回归模型。把各主成分作为新的自变量代替原来自变量x做回归分析; (5)用主成分分析筛选回归变量。,6.2.2 公因子分析法,因素分析模型:x=Af+ V(x)=V(Af+)=E(Af+)(Af+)=AV(f)A+V(), 即 =AA+D, 因为x是标准化的变量,所以R, R AA+D 主成分分析法从解释变量的方差出发,假设变量的方差能完全被主成分解释。而公
7、因子法从解释变量之间的相关系数出发,假设观测变量之间的相关能完全被公因子解释,变量的方差不一定能完全被公因子解释。公因子模型求解时,只考虑公因子方差。,几种公因子法:,1、主轴因子法(Principal axis factoring) 用公因子方差代替相关矩阵主对角线上的元素1,通过该矩阵,类似主成分法求因子解。 2、最小二乘法(Least squares) 通过使因素模型计算出的相关系数AA和观测到的相关系数R之间的离差平方和达到最小来求因子解。 3、最大似然法(Maximum likelihood) 假设样本来自多元正态总体,通过构造样本的似然函数,其中因子负荷为未知参数,使似然函数达到最
8、大,求得因子解。,4、因子抽取法(Alpha factoring) 5、映象分析法(Image analysis),6.2.3 不同的因子求解法对结果的影响 当变量个数p不大时,主成分法和公因子法的结果会有差异,当p较大时两者的差异不大。最大似然法比其他解的精度明显提高。 决定选用哪种方法,需要考虑两点:1、进行因素分析的目的;2、对变量方差的了解程度。如果目的是简化数据,以最少的因素最大程度地解释原始数据的方差,或者知道特殊因素和误差带来的方差很小,则适合用主成分法。如果是确定数据的结构,且要易于解释,但不了解变量方差的情况,则适合用公因子法。,6.3 因素旋转解释因素,因素的初始解达到了简
9、化数据的目的,但往往很难解释因素的意义,因为大多数因素都和很多变量相关。 因素旋转的目的是通过改变坐标轴的位置,重新分配各个因素所解释的方差的比例,是因素结构更简单,便于解释。转轴过程中不改变模型对数据的拟合程度,也不改变每个变量的公因子方差(共同度)。 因素旋转方法分为两种:正交旋转和斜交旋转。正交旋转要求因素轴之间仍然保持90度,即旋转后因素之间是不相关的。而斜交旋转中,因素之间的夹角是任意的,因素之间不一定是正交的。,转轴前的结果,转轴后的结果,6.3.1 正交旋转方法(Orthogonal rotation),1、四次方最大法(QUARTIMAX) 从简化因素负荷矩阵的行出发,通过旋转
10、因素使得每个变量只在一个因素上有较高的负荷,在其他因素上有尽可能低的负荷,此时因素解释是最简单的。该方法使得因素负荷矩阵中每一行因素负荷平方的方差达到最大。其规则为:,2、方差最大法(VARIMAX),从简化因素负荷矩阵的每一列出发,使和每个因素有关的负荷平方的方差达到最大。当只有少数几个变量在某个因素上具有较高的负荷时,对因素的解释是最简单的。方差最大法希望通过旋转使得每个因素上的负荷尽可能地拉开距离,一部分变量的负荷接近1,另一部分的负荷接近0. 方差最大法通过使下式达到最大求得因素解:,3、等量最大法(EQUIMAX),把四次方最大法和方差最大法结合起来,取V和Q的加权平均作为简化准则,
11、通过使下式达到最大求得最后因子解。,6.3.2 斜交旋转法(Oblique rotation),斜交旋转法允许因素之间相关,这时,因素结构更加简洁,更容易解释。最常见的求斜交因素解的方法为OBLIMIN。用该方法得到的因素解使变量尽量落在主轴附近。参数控制因素斜交的程度,取值一般小于等于零。 等于零时,因素之间的斜交程度最大,小于0时因子之间的斜交程度减小。,因素模式和因素结构,因素分析中,因素负荷矩阵称为因素模式(Factor pattern) 矩阵。因素结构(Factor structure)矩阵指因素和观测变量之间的相关矩阵。 在正交因素解中,两者是等同的,不加区别;而在斜交因素解中,因
12、素负荷不再等于因素和变量之间的相关系数,它们之间是有区别的。,因素模式矩阵,因素结构矩阵,因素相关矩阵,6.3.3 旋转方法的选择,选择哪种旋转方法主要看研究问题的目的。 如果目标只是为了简化数据,而因素确切的含义并不重要,应该选用正交旋转法。 如果目标是要得到几个理论上有意义的因素,要求因素容易解释,应该用斜交旋转法。,6.3.4 解释因素,通过前面的步骤得到因素解(负荷矩阵)后,需要对每一个因素进行解释,给出一个有意义的名称。对因素命名,首先要从负荷矩阵中找出每个因素上有显著负荷的变量,然后,根据这些变量的意义和共性对因素命名。一般认为绝对值大于0.3的因素负荷就是显著的。对于小于0.3的
13、负荷,变量的方差能被因素解释的部分不足9,所以,小于0.3的负荷可以不加解释。 在实际操作中,为了很清楚地识别出每个因素上重要的负荷,可以把负荷矩阵按从大到小排序,很小的负荷不显示。另外,因素负荷图也能直观地识别出因素。因素负荷图是以因素为坐标轴,因素负荷为坐标来表示变量。如果经过旋转,得到一个简单的因素结构,那么,变量应该出现在因素轴附近。,6.4 因素分数及其应用,因素模型建立之后, 我们往往想用这些因素做其他的研究, 比如,把得到的几个因素作为自变量做回归分析, 对被试进行分类和评价等等, 对需要每个被试, 计算各因素的得分,即因素分数(Factor scores). 因素分析模型是用几
14、个潜在的因素线性表示每一个观测变量,因素负荷为加权系数。 Xk=ak1F1+ak2F2+akmFm 求因素得分要用观测变量描述每个因素,即每个因素是个观测变量的线性组合. Fj=wj1x1+wj2x2+wjpxp,可以用回归法对加权系数wji进行最小二乘估计, 回归系数满足下列正规方程组:,如果因素分析抽取因素使用的是主成分法,那么,每个主成分的得分就是因素得分,因为每个主成分是由观测变量的线性组合构造的。 计算因素分数除了用回归法(Regression)外,还有巴特利特法(Bartlett)和安德森鲁宾法(Anderson-Rubin)。,因素值系数矩阵,F1=0.041x1-0.185x2+0.343x3+0.378x4+0.393x5, F2=-0.510x1+0.627x2-0.032x3-0.1x4-0.113x5,本章结束,