1、因子分析应用举例,李晓翠,目录,因子分析的原理 因子分析的一般步骤 因子分析的案例案例简介数据导入参数设置结果分析,因子分析的原理,数学模型 x1=u1+a11f1+a12f2+a13f3a1mfm+e1 x2=u2+a21f1+a22f2+a23f3a2mfm+e2 x3=u3+a31f1+a32f2+a33f3a3mfm+e3xp=up+ap1f1+ap2f2+ap3f3apmfm+ep矩阵表示:x=u+Af+e 假设:E(f)=0; E(e)=0; V(f)=I;Cov(f,e)=E(feT)=0. 其中:(x1,x2,x3xm)T为P维可观测随机变量;u=(u1,u2,u3.um)T为
2、可观测变量的均值 ;为协方差矩阵;f=(f1,f2,f3.fm)T为公因子向量;e=(e1,e2,e3em)T为特殊因子向量;A=(aij)p*m为因子载荷矩阵。,因子分析的原理,因子分析的基本目的是用少数的几个因子去描述多个变量之间的关系,以达到降维的目的。 因子分析的基本思想就是把联系比较紧密的变量归为同一个类别,实现不同类型的变量之间有较低相关性。在同一个类别内的变量,认为是收到了某个共同的影响而高度相关,这个共同因素称之为公共因子,即为潜在的不可观测变量。 因子分析的基本原理是以相关性为基础,从协方差或相关矩阵入手把大部分的变异归结为少数几个公共因子所为,即找出能够完全表达原有变量方差
3、信息的因子,称为公共因子,把剩余的变异称为特殊因子。因子分析就是寻找和确定这些公共因子的分析方法。,因子分析的一般步骤,1,确认待分析的变量是否适合做因子分析 2,构造因子变量 3,因子旋转是因子变量更具有可解释性 4,计算因子得分,因子分析的一般步骤,因子旋转 目的:使公共因子所代表的实际意义更容易解释 依据:因子模型的不唯一性设T 为任意一个m*m的正交矩阵,则 TTT=I X=u+Af+e=u+A(TTT)f+e=u+(AT)(TTf)+e 则载荷矩阵由A变为(AT),公共因子由f变为(TTf),,因子分析的案例,案例简介 数据导入 参数设置 结果分析,案例简介,商品零售价格指数(Ret
4、ail Price Index)是指反映一定时期内商品零售价格变动趋势和变动程度的相对数。商品零售价格指数分为食品、饮料烟酒、服装鞋帽、纺织品、中西药品、化妆品、书报杂志、文化体育用品、日用品、家用电器、首饰、燃料、建筑装潢材料、机电产品等十四个大类。 此例中选用的数据为在国家统计局下载的2012年29月份商品零售价格分类指数数据。包含国家规定的十四类商品类别的价格变动指数,数据表示为当期对于前期的变动百分数。本例意在通过对这些数据进行因子分析,找出影响商品零售价格变动的公共因子。,数据导入,打开SPSS Statistics 17.0后,出现如下对话框或者打开后在文件打开-数据中选择相应的文
5、档。,参数设置,选择分析-降维-因子分析 对数据进行因子分析 1,在主界面选择原有变量在此处选择出项目名称和商品零售价格指数以外的所有原有变量作为分析变量。,参数设置,2,在“描述”选项选择设置如下:此处输出对原始变量的基本描述,从输出结果中分析这些原有数据是否适合做因子分析。此块即是完成因子分析的第一步。,单变量描述性:输出每个初始变量的均值,标准差和有效值个数。 原始分析结果:输出每个初始分析变量的相关矩阵或者协方差矩阵。 系数:输出初始分析变量的相关系数矩阵。如果相关系数矩阵在进行统计检验中大部分相关系数都小于0.3,那么表明这些变量不适合于进行因子分析。 巴特利特球形检验(Bartle
6、tt Test of Sphericity) 此方法采用假设检验法。若显著性概率值小于0.05,则认为假设不成立,适合做因子分析。 KMO(Kaiser-Meyer-Olkin)检验 KMO值在0-1之间,其值越接近1,就越适合因子分析。一般认为,大于0.7则适合做因子分析。,参数设置,3,在“抽取”选项中设置如下:所谓“抽取”,即为因子分析的第二步,实现提取因子变量的过程设置,此栏选择主成分分析法为因子分析的方法。,参数设置,主成分分析法 步骤:首先对原有变量进行标准化处理,之后,所有原有变量均值为0,方差为1.然后计算相关系数矩阵之后计算相关系数矩阵的特征值与特征向量 fi为原有变量的主成
7、分,按在总方差中所占比列排次序,所占比例越大,表明综合原有变量的能力也越强,这些从前往后取前面几个主成分,一般认为累积变量贡献率达到85%以上时,所选择的所有主成分能够较为完整的表示所有原变量的信息,从而确定了因子个数和公共因子。,参数设置,4,在“旋转”选项做如下设置:此栏实现因子分析的第三步的设置,对于因子旋转设置所用的方法和输出结果形式,参数设置,最大方差法 原理:选择正交矩阵T,使得矩阵AT所有m个列元素平方的相对方差之和达到最大。V=V1+V2+.Vm 步骤:设已求出的因子载荷矩阵 A=(aij)任意选取两列A*(例如第一,二列)与正交变换矩阵T因子旋转,T可以表示为A*T=由上式求
8、得各列元素的相对方差之和V,易知V是角度值的函数,利用微积分求极值的方法,将V对角度值导数等于0,求出角度值,使V达到最大, 此时,其余列不变。 之后,在其余列中再人选两列重复上述旋转,m个公因子总共需要进行1/2m(m-1)次,此时算是完成了第一轮旋转,然后再重新开始,进行第二轮配对旋转,如此继续下去,得到一系列因子载荷矩阵A1,A2,必然有V1V2V3,这是个有界的单调上升数列,因此一定会收敛到某一极限。实际应用中,当V的值变化不大时,即可停止旋转。,参数设置,5,在“得分”选项做如下设置:此栏对因子分析第四步进行设置,采用回归法计算因子的分并显示因子得分系数矩阵,参数设置,6,在“选项”
9、选项做如下设置:此时设置在分析过程中对于缺失值的默认处理方法以及所有输出结果的显示格式。,结果分析,单击“确定”按钮运行,在SPSS查看器窗口输出如下结果 1,描述性统计输出,关于17个初始统计量的描述性输出,包括均值和标准差以及有效值得个数。,结果分析,2,初始变量的相关性检验由图可知,多个变量的相关系数较大,比如,五与二、六与二、九与六等等,说明多个变量之间存在较为显著的相关性,进而说明了因子分析的必要性和有效性。,结果分析,3,变量的共同度,主成分分析法在开始就对所有原有变量进行了初始化,初始化之后,所有原有变量的方差都为1=所有公共因子的方差共献率之和+特殊因子的方差贡献公因子方差表格
10、解释的实际是初始变量的共同度。共同度取值01,在初始情况下其值都为1,表明所有变量的组合能够完全解释各个初始变量的方差,提取列表明在以提取的三个公共因子表示初始变量的情况下,能够解释的初始变量的方差百分比。由列表值可知,提取的三个变量足以解释初始变量。,结果分析,4,方差解释表,结果分析,此表格显示的是每个公共因子所解释的方差及其累加和。在初始特征值那栏下,前三个公共因子可以解释的累加和已经达到94.696%,一般来说,累积贡献率达到85%以上就可以很好地认为公共因子具有解释原有问题的能力,所以,此图说明提取这三个公共因子就足以比较好的解释初始变量所包含的信息了,与上述公因子方差表所表现的一致
11、。 提取平方和载入栏表示在未经过因子旋转时被提取的三个公共因子所能解释的初始变量的方差贡献率,此信息应与初始特征值栏一致。旋转平方和载入栏所显示的是同样的三个公共因子在经过因子旋转后对初始变量的累积方差贡献率。由表可知,各个因子的方差贡献率有所改变,但总贡献率不变。这符合因子旋转的基本原理。,结果分析,5,碎石图即为根据上述解释的总方差图标初始特征值栏的合计列所做的图。从趋势上看,在第三个成分后趋势改变缓慢,所以,选择三个公共因子为宜,与上述分析一致。,结果分析,6,成分矩阵,此矩阵即为初始的因子模型矩阵,即为载荷矩阵。在此矩阵中对于九、五等初始变量,能有较为明显的载荷分配,但对于如十一、八等
12、初始变量就不那么明显了,在实际中难以解释,因此需要进行因子旋转,结果分析,7,因子旋转后的矩阵,结果分析,旋转后,每个初始变量都有了较为清晰的载荷分配。成分转换矩阵即为前述的T。旋转空间成分图是旋转后成分矩阵的形象化体现。 因子载荷表示初始变量与公共因子的相关系数,所以认为初始变量主要受因子载荷较大的公共因子的影响。从这一点出发,根据旋转成分矩阵,家具、日用品、体育娱乐用品、饮料烟酒、家用电器及音像器材、文化办公用品、交通通信用品、书报杂志及电子出版物、燃料等多受第一公共因子的影响, 根据各变量特点,把第一公共因子解释为轻工业发展因素;金银珠宝、纺织品、化妆品、建筑材料及五金材料、服装鞋帽、中西药品及医疗保健用品等多受第二公共因子的影响,把第二公共因子解释为化工业发展因素;食品多受第三公共因子的影响,解释为农业发展因素。,结果分析,8,因子得分,因子得分可以看做是各变量值得权数综合,表示各个变量对于公共因子的重要程度。,结果分析,9,综合测评选择 转换计算变量 以每个因子对于原始变量的方差贡献率(即解释的总方差表格中旋转平方和载入后的合计值)作为权数做综合评价。 由结果可得,在8,9 月份,商品价格波动较大。,The end,Thank you,