1、第五章 主成分分析与因子分析,5.1 因子分析模型与应用 1. 因子分析模型设p维可观测的随机向量X = (X1,.,Xp)(假定Xi为标准化变量,即E(Xi) = 0,Var(Xi) = 1,i = 1,2,p)表示为,或 X = AF + 其中F1、F2、Fm称为公共因子,简称因子,是不可观测的变量;待估的系数阵A称为因子载荷阵,aij(i = 1,2,p;j = 1,2,m)称为第i个变量在第j个因子上的载荷(简称为因子载荷);称为特殊因子,是不能被前m个公共因子包含的部分。并且满足:cov(F,) = 0,即F,不相关;D(F) = Im,即F1、F2、Fm互不相关,方差为1;D()
2、= diag(12,22,p2),即1、2、p互不相关,方差不一定相等,iN(0,i2)。因子分析的目的就是通过模型X = AF + 以F代替X,由于m p,从而达到降维的愿望。,2. 因子分析模型中的几个统计特征 (1) 因子载荷aij的统计意义由Xi = ai1F1 + aimFm + i,两边同乘以Fj E(XiFj)=ai1E(F1Fj)+aijE(FjFj)+aimE(FmFj)+E(iFj)从而有 ij = E(XiFj) = aij即载荷矩阵中第i行,第j列的元素aij是第i个变量与第j个公共因子的相关系数,反映了第i个变量与第j个公共因子的相关程度。在这种意义上公共因子解释了观
3、测变量间的相关性。,(2) 变量共同度的统计意义因子载荷矩阵第i行的元素平方和: 称为变量Xi的共同度(i = 1,2,p)。对Xi = ai1F1 + aimFm + i两边求方差:显然,若因子方差hi2大,剩余方差i2必小。而hi2大就表明Xi对公因子的共同依赖程度大。可见hi2反映了变量Xi对公共因子F的依赖程度,故称hi2为变量Xi的共同度。,(3) 公共因子Fj方差贡献的统计意义因子载荷矩阵A中各列元素的平方和:称为公共因子Fj对X的贡献,是衡量Fj相对重要性的指标,qj2越大表明Fj对X的贡献越大。,3 金融时间序列中因子的类型 收益率时间序列宏观经济因子:GDP , 通胀,失业率
4、,收益率曲线的陡峭度等(或者这些变量的意外冲击-扰动项)基本面因子:财务分析得到的变量Fama-French方法(1992):市场收益率,企业规模,价值型/成长型(市场资产净值或市场资产净值/账面资产净值)统计因子:数学过程得到的变量,主成分分析(PCA),主因子分析,1 因子载荷矩阵的估计 给定p个相关变量X1,.,Xp的观测数据阵X,由X = AF + 易推出 = AA + D 其中 = D(X)为X的协方差阵,A = (aij)为p m的因子载荷阵,D = diag(12,22,p2)为p阶对角阵。由p个相关变量的观测数据可得到协差阵的估计,记为S。为了建立因子模型,首先要估计因子载荷a
5、ij和特殊方差i2。常用的参数估计方法有以下三种:主成分法,主因子法和极大似然法。,5.2 因子载荷矩阵的估计方法,(1) 主成分法设样本协方差阵S的特征值为12p0,u1,u2,up,为对应的标准化特征向量,当最后pm个特征值较小时,S可近似地分解为:其中 为pm阵,即得因子模型的一个解。载荷阵A中的第j列和X的第j个主成分的系数相差一个倍数(j = 1,m),故这个解称为主成分解。,(2)主因子法主因子方法是对主成分方法的修正,设R = AA + D,则R* = R D = AA称为约相关矩阵,若已知特殊因子方差的初始估计 ,也就是已知变量共同度的估计:则R*对角线上的元素是 ,而不是1。
6、即:,计算R*的特征值和特征向量,取前m个正特征值1*2*p* 0,相应的特征向量为u1*,u2*,up*,则有近似分解式: R* = AA 其中 ,令(i = 1,p), 则A和D为因子模型的一个解,这个解称为主因子解。,在实际中特殊因子方差(或变量共同度)是未知的。以上得到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的 D* = diag( ) 作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。变量共同度hi2常用的初始估计有以下几种方法: 取第i个变量与其他所有变量的多重相关系数的平方; 取第i个变量与其他变量相关系数绝对值的最大值; 取1,它等价
7、于主成分解。,(3) 极大似然法假定公共因子F和特殊因子服从正态分布,那么可得到因子载荷阵和特殊因子方差的极大似然估计,设p维观测向量X(1),.,X(n)为来自正态总体Np(,)的随机样品,则样品似然函数为,的函数L(,)。设= AA + D,取 = ,则似然函数为A,D的函数:(A,D),求A,D使达最大。为保证得到唯一解,可附加计算上方便的唯一性条件:AD-1A = 对角阵,用迭代方法可求得极大似然估计A和D。,2. 因子旋转(正交变换)所谓因子旋转就是将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*。它并不影响变量Xi的共同度hi2,却会改变因子的方差贡献qj2。因子旋转通过改
8、变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解。,设p维可观测向量X满足因子模型:X = AF +。T为正交阵,则因子模型可写为 X = ATTF + = A*F* + 其中A* = AT,F* = TF。易知, = AA + D = A*A* + D(其中A* = AT)。这说明,若A,D是一个因子解,任给正交阵T,A* = AT,D也是因子解。在这个意义下,因子解是不惟一的。由于因子载荷阵是不惟一的,所以可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。,有三种主要的正交旋转法:四次方最大
9、法、方差最大法和等量最大法。这些旋转方法的目标是一致的,只是策略不同。如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点。只取决于惟一的一种你认为是正确旋转的任何结论都是不成立的。在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好。因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型。,3. 因子得分计算因子得分的途径是用原有变量来描述因子,第j个因子在第i个样本上的值可表示为: Fji = j1xi1 + j2xi2 + jpxip (j = 1,2,k)式中,xi1,xi
10、2,xip分别是第1,2,p个原有变量在第i个样本上的取值,j1,j2,jp分别是第j个因子和第1,2,k个原有变量间的因子值系数。可见,它是原有变量线性组合的结果(与因子分析的数学模型正好相反),因子得分可看作各变量值的加权(j1,j2,jp)总和,权数的大小表示了变量对因子的重要程度。,于是有: Fj = j1X1+j2X2+jpXp (j = 1,2,k)上式称为因子得分函数。由于因子个数k小于原有变量个数p,故式中方程的个数少于变量的个数。因此,对因子值系数通常采用最小二乘意义下的回归法进行估计。可将上式看作是因子变量Fj对p个原有变量的线性回归方程(其中常数项为0)。可以证明,式中回
11、归系数的最小二乘估计满足:Bj = AjR-1,其中 Bj = (j1,j2,jp),Aj = (a1j,a2j,apj)为第1,2,p个变量在第j个因子上的因子载荷,R-1为原有变量的相关系数矩阵的逆矩阵。由上式计算出因子变量Fj的因子值系数,再利用因子得分函数可算出第j个因子在各个样本上的因子得分。,13.3 主成分分析(PCA)的概念与步骤 1. 主成分分析基本思想主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是
12、这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?,在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)0。称F2为第二主成分,依此类推可以构造出第三、第四、第p个主成分。,2. 主成分分析的数学模型设有n个样本(多元观测值),每个样本观测p项指标(变量):X1,X2,Xp,得到原始数据资料阵:其中Xi = (x1i,x2i,xni),i = 1,2,p。,用数据矩阵X的p个列向量(即p
13、个指标向量)X1,X2,Xp作线性组合,得综合指标向量:简写成: Fi = a1iX1 + ai2X2 +apiXp i = 1,2,p,为了加以限制,对组合系数ai = (a1i,a2i,api)作如下要求:即:ai为单位向量:aiai = 1,且由下列原则决定:1) Fi与Fj(ij, i, j = 1, , p)互不相关,即Cov(Fi,Fj) = aiai = 0,其中是X的协方差阵。2) F1是X1,X2,Xp的一切线性组合(系数满足上述要求)中方差最大的,即,其中 a= (a1,a2,ap)F2是与F1不相关的X1,X2,Xp一切线性组合中方差最大的,Fp是与F1,F2,Fp-1都
14、不相关的X1,X2,Xp的一切线性组合中方差最大的。,满足上述要求的综合指标向量F1,F2,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i,每一个主成分的组合系数 ai = (a1i,a2i,api) 就是相应特征值i所对应的单位特征向量。方差的贡献率为 ,i越大,说明相应的主成分反映综合信息的能力越强。,3. 主成分分析的步骤 (1) 计算协方差矩阵计算样品数据的协方差矩阵: = (sij)pp,其中i,j = 1,2,p(2) 求出的特征值及相应的特征向量求出协方
15、差矩阵的特征值12p0及相应的正交化单位特征向量:则X的第i个主成分为Fi = aiX i = 1,2,p。,(3) 选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率达到足够大(一般在85%以上)为原则。 另外,如果主成分对应的特征根已小于1,一般也不选用,(4) 计算主成分得分计算n个样本在m个主成分上的得分:i = 1,2,m (5) 标准化实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中 , ,j = 1,2,p。标准化后的数据阵记为X*,其中每个列向量 (标准化变量)的均值为0,标准差为1,数据无量纲。,标准化后变量的协方差矩阵(Covariance Matrix) = (sij)pp,即原变量的相关系数矩阵(Correlation Matrix)R= (rij)pp:i,j = 1,2,p此时n个样品在m个主成分上的得分应为: Fj = a1jX1* + a2jX2* +.+ apjXp* j = 1,2,m,