1、第六章 因子分析,6.1 因子分析的基本思想 6.2 因子载荷的求解 6.3 因子分析的基本步骤 6.4 因子分析的上机实现,因子分析(factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关矩阵。因子分析的思想始于1904年Charles Spearman对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医学、
2、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。本章主要介绍因子分析的基本理论及方法,运用因子分析方法分析实际问题的主要步骤及因子分析的上机实现等内容。,1. 因子分析的基本思想因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。例如:如何反应物价变动的情况?对各种商品的价格做全面调查固然可以达到目的,但不可取。实际上,某一类商品中其价格之间存在明显的相关性,只要选择几种主要商品的价格或对这几种商品的价格进行综合综合商品的价格(因
3、子),就足以反映某一类物价的变动情况。只要抓住少数几个主要因子(代表经济变量间的相互依赖的一种经济作用),就可以帮助我们对复杂的经济问题进行分析和解释。,6.1 因子分析的基本思想,1、一个典型案例: 1904年Spearman研究了33名学生在古典语(C)、法语(F)、英语(E)、数学(M)、判别(D)和音乐(Mu)这6门考试成绩的相关性,得到如右的相关矩阵R:,2. 因子分析的基本理论及模型,数据Xi都是标准化后的标准化指标,E(Xi)=0,D(Xi)=1,他从中发现了一个有趣的规律:任意两列的元素(不考虑对角元素)大致成比例。则每一科的考试成绩都遵从以下形式:其中F是公共因子,对各科考试
4、成绩都有影响,均值为0,方差为1。ei是特殊因子,仅对某科有影响,且F与ei相互独立。,在上述的假设条件下,,斯皮尔曼最初使用因子分析方法对学生的考试成绩进行研究时,发现学生的古典文学、法语、英语、数学、判别以及音乐测验成绩相关,这些成绩变量的相关性表明存在一个潜在的“智力”因子。因子分析方法就是要确认原始变量与潜在因子之间的这样一种结构是否存在。,3. 一般因子分析模型,下面给出更为一般的因子分析模型:设有n个样品,每个样品观测p个指标,这p个指标之间有较强的相关性(只有相关性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除量纲及数量级不同造成的影响,将样本观察数据标准化,不失
5、一般性,记:Xi,即E(Xi)=0,D(Xi)=1。F1,F2,.,Fm表示标准化的公共因子,即E(Fi)=0,D(Fi)=1。 因子分析模型的条件: (1) 是可观测的随机向量。是不可观测的量。,则模型称为因子模型,模型的矩阵形式为:式中为因子载荷矩阵。,因子分析案例,该案例是对数学专业的五门专业课进行相关性因子分析,F1 体现逻辑思维和运算能力,F2 体现空间思维和推理能力,(1)因子负荷量(或称因子载荷)-是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。即aij是i与j的协方差,4.几种统计量的统计意义,注意:在各公共因子不相关的前提下, (载荷矩阵中第i行,第j列的元素)
6、是随机变量xi与公共因子Fj的相关系数,表示xi依赖于Fj的程度。反映了第i个原始变量在第j个公共因子上的相对重要性。因此绝对值越大,则公共因子Fj与原有变量xi的关系越强。,(2)共同度-又称共性方差或公因子方差(community或common variance)就是观测变量的方差中由公因子决定的比例。当因子正交时,等于每个公共因子之负荷量的平方总和(一行中所有因素负荷量的平方和)。变量 的共同度是因子载荷矩阵的第i行的元素的平方和。记为,从共同性的大小可以判断这个原始实测变量与公共因子间之关系程度。特殊因子方差(剩余方差)-各变量的特殊因素影响大小就是1减掉该变量共同度的值。,统计意义:
7、,两边求方差,所有的公共因子和特殊因子对变量的贡献为1。 反映了全部公共因子对变量Xi的影响,是全部公共因子对变量方差所做出的贡献,或者说Xi对公共因子的共同依赖程度,称为公共因子对变量Xi的方差贡献。接近于1,表明该变量的原始信息几乎都被选取的公共因子说明了。特殊因子的方差,反映了原有变量方差中无法被公共因子描述的比例。,第一个观测变量共同度: 同时,它的剩余方差是:,(3)特征值-是第j个公共因子Fj对于X的每一分量Xi所提供的方差的总和。又称第j个公共因子的方差贡献。即每个变量与某一共同因子之因子负荷量的平方总和(因子载荷矩阵中某一公共因子列所有因子负荷量的平方和)。,如右案例中F1的特
8、征值 :,如上案例中F1的贡献率为 3.113/5=62.26%,(4)方差贡献率实际中更常用的指标:方差贡献率(指每个因子所解释的方差占所有变量总方差的比例,即公共因子对实测变量的贡献)变量方差贡献率=特征值,是衡量公共因子相对重要性的指标,Gi越大,表明公共因子Fj对的贡献越大,该因子的重要程度越高,联系:(1)因子分析是主成分分析的推广,是主成分分析的逆问题。(2)二者都是以降维为目的,都是从协方差矩阵或相关系数矩阵出发。区别:(1)主成分分析模型是原始变量的线性组合,是将原始变量加以综合、归纳,仅仅是变量变换;而因子分析是将原始变量加以分解,描述原始变量协方差矩阵结构的模型;只有当提取
9、的公因子个数等于原始变量个数时,因子分析才对应变量变换。(2)主成分分析,中每个主成分对应的系数是唯一确定的;因子分析中每个因子的相应系数即因子载荷不是唯一的。(3)因子分析中因子载荷的不唯一性有利于对公共因子进行有效解释;而主成分分析对提取的主成分的解释能力有限。 目的不同!一个侧重降维,一个侧重解释!,5.主成分分析分析与因子分析的联系和差异,6.2 因子载荷的求解,1. 因子载荷矩阵求解的方法:(1)主成分分析法(2)主轴因子法(3)极大似然法(4)最小二乘法(5)a因子提取法(6)映象分析法在此主要介绍主成分分析法和主轴因子法。,一、 主成分分析法,假定从相关矩阵出发求解主成分,设有p
10、个变量,则我们可以找出p个主成分。将所得的p个主成分按由大到小的顺序排列,记为 ,则主成分与原始变量之间存在如下关系式:,式中,rij是随机向量X的相关矩阵的特征值所对应的特征向量的分量,因为特征向量彼此正交,从X到Y的转换关系是可逆的,很容易得出由Y到X的转换关系为:,对上面每一等式只保留前m个主要成分而把后面的部分用 代替,则上式变为:,上式在形式上已经与因子模型相一致,且 之间相互独立,为了把 转化成合适的公共因子,现在要做的工作是把主成分 变为方差为1的变量。则将 除以其标准差,则上式变为:,这与因子模型完全一致,这样就得到了载荷矩阵A和一组初始公共因子。则载荷矩阵A的一个解为: 共同
11、度的估计为:,那么如何确定公因子的数目m呢?一般而言,这取决于问题的研究者本人,对于同一问题进行因子分析时,不同的研究者可能会给出不同的公因子数;当然,有时候由数据本身的特征可以很明确地确定出因子数目。当用主成分法进行因子分析时,也可以借鉴确定主成分个数的准则,如所选取的公因子的信息量的和达到总体信息量的一个合适比例为止。但对这些准则不应生搬硬套,应按具体问题具体分析,总之要使所选取的公因子能够合理地描述原始变量相关阵的结构,同时要有利于因子模型的解释。,二、主轴因子法,是对主成分方法的修正,假定我们首先对变量进行标准化变换。则:,式中,A为因子载荷矩阵; 为一对角阵,其对角元素为相应特殊因子
12、的方差。则称 为调整相关矩阵,显然R* 的主对角元素不再是1,而是共同度 。分别求解R*的特征值与标准正交特征向量,进而求出因子载荷矩阵A。假设R*有m个正的特征值。设 为R*的特征根,为对应的标准正交化特征向量。则因子载荷矩阵A的一个主轴因子解为:,2. 因子旋转,由于因子载荷阵是不惟一的,由此引出了因子分析的第二根本步骤因子旋转。建立因子分析模型的目的不仅在于要找到公共因子,更重要的是知道每一个公共因子的意义,以便对实际问题进行分析。然而我们得到的初始因子解中各主因子的典型代表量不是很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。出于该种考虑,可以对初始公共因子进行线性组合,即
13、进行因子旋转,以期找到意义更为明确,实际意义更明显的公共因子。经过旋转后,公共因子对Xi的贡献 并不改变,但由于载荷矩阵发生变化,公共因子本身就可能发生很大的变化,每一个公共因子对原始变量的贡献 不再与原来相同,从而经过适当的旋转我们就可以得到比较满意的公共因子。,(1)正交旋转由初始载荷矩阵A右乘一正交矩阵得到。经过正交旋转得到的心的公共因子仍然保持彼此独立的性质。 (2)斜交旋转放弃了因子之间彼此独立这个限制,可以得到更为简洁的形式。无论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近于0,要么尽可能地远离0.,因子旋转包括两种:,3.因子得分当因子模型建立起来之后,我们往
14、往需要反过来考察每一个样品的性质及样品之间的相互关系。比如当关于企业经济效益的因子模型建立起来之后,我们希望知道每一个企业经济效益的优劣,或者把诸企业划分归类。这就需要进行因子分析的第三步骤的分析,即因子得分。顾名思义,因子得分就是公共因子F1,F2,.,Fm在每一个样品点上的得分。具体方法如下:用回归的思想求出线性组合系数的估计值,即建立如下公共因子为因变量,原始变量为自变量的回归方程:j=1,2,.,m在最小二乘意义下,可以得到F的估计值式中,A为因子载荷矩阵;R为原始变量的相关矩阵;X为原始变量向量。这样,在得到一组样本值后,就可以带入上面的关系式求出公共因子的估计得分,从而用少数公共因
15、子去描述原始变量的数据结构,用公共因子得分去描述原始变量的取值。,一、因子分析的步骤 进行因子分析应包括如下几步:1.根据研究问题选取原始变量;2.对原始变量进行标准化并求其相关阵,分析变量之间的相关性;3.求解初始公共因子及因子载荷矩阵;4.因子旋转;5.因子得分;6.根据因子得分值进行进一步分析。,6.3 因子分析的基本步骤,二、因子分析的逻辑框图,例:对企业经济效益指标体系的八项指标建立因子分析模型,6.4 因子分析的上机实现,由spss输出方差解释表及碎石图可看出,前三个特征值较大,其余五个特征值均较小。前三个公共因子对样本方差的贡献和为87.085%,于是我们选取3个公共因子。,因子
16、载荷的估计如右:,上表可得出企业经济效益指标体系的因子分析模型(特殊因子忽略不计):,由因子分析模型可知,第一个主因子F1主要由固定资产利税率,资金利税率,销售收入利税率,资金利税率这四个指标所决定,这四个指标在主因子F1上的载荷均在0.85以上,它代表着企业经济活动中的盈利能力,而且主要因子F1对x1的方差贡献已达60%之多,所以更说明F1是企业经济效益指标体系中的主要方面。此外,固定资产产值率对F1的贡献也相对较大,这也是反映企业经济活动的盈利能力的主要指标。企业要提高经济效益,就要在这个主因子方面下功夫。,分析结论:,第二个主因子F2主要由流动资金周转天数所决定,说明企业经济活动中流动资
17、金周转快慢与企业的生产经营及市场信息息息相关。企业要提高经济效益就要在产品结构的调整上想办法,要生存适销对路的产品,提高本企业产品的市场占有率。第三个主因子F3主要反映了企业的产值和能耗,产值和能耗反映的是投入与产出的关系。企业要提高经济效益就不能忽视降低生产成本。,相关论文:,1. 高校绩效评估量化研究因子分析法的应用 2. 基于层次分析法和因子分析的社区满意度评价体系 3. 基于因子分析的区域经济不平衡发展研究 4. 基于因子分析的我国商业银行竞争力突变综合评价 5. 企业经济效益的综合分析与评价因子分析法的应用 6. 基于因子分析法构建大中型工业企业技术 创新能力评价模型,Thank You!,