1、2019/3/21,1,多元统计分析因子分析,2019/3/21,2,2019/3/21,3,多元统计分析(简称多元分析)是运用数理统计的方法研究多变量(多指标)问题的理论和方法,是一元统计学的推广。,2019/3/21,4,因子分析的提出,为尽可能完整描述一个事物,往往要收集它的许多指标 多指标产生的问题: 计算处理麻烦 信息重叠 从众多的指标中剔除一些指标又会造成信息丢失,2019/3/21,5,因子分析是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法.其核心是用较少的相互独立的因子反映原有变量的绝大部分信息.,2019/3/21
2、,6,因子分析的基本思想,因子分析的基本出发点 将原始指标综合成较少的指标,这些指标能够反映原始指标的绝大部分信息(方差是各变量值与其均值离差平方的平均数,是测度数值型数据离散程度的主要指标. ) 这些综合指标之间没有相关性,2019/3/21,7,因子分析的基本思想,因子变量的特点 这些综合指标称为因子变量,是原变量的重造 个数远远少于原变量个数,但可反映原变量的绝大部分方差 不相关性 可命名解释性,2019/3/21,8,因子分析的基本步骤,确认待分析的原始变量是否适合作因子分析 构造因子变量 利用旋转方法使因子变量具有可解释性 计算每个样本的因子变量得分,2019/3/21,9,因子分析
3、的数学模型,数学模型(xi为标准化的原始变量;Fi为因子变量;kp)也可以矩阵的形式表示为:X=AF+,F:因子变量 A:因子载荷阵 aij: 因子载荷 : 特殊因子,2019/3/21,10,因子分析的相关概念,因子载荷在因子变量不相关的条件下,aij就是第i个原始变量与第j个因子变量的相关系数。aij的绝对值越大,则Xi与Fi的关系越强 特殊因子表示了原有变量不能被因子解释的部分, 其均值为0,相当与多元线性回归模型中的残差.,2019/3/21,11,因子分析的相关概念,变量的共同度(Communality)hi变量的共同度hi也称公共方差。Xi的变量共同度为因子载荷矩阵A中第i行元素的
4、平方和,可见:Xi的共同度反应了全部因子变量对Xi总方差的解释能力,2019/3/21,12,可见:Xi的共同度反应了全部因子变量对Xi总方差的解释能力,2019/3/21,13,因子分析的相关概念,因子变量Fj的方差贡献SJ 因子变量Fj的方差贡献SJ为因子载荷矩阵A中第j列各元素的平方和,可见:因子变量Fj的方差贡献体现了同一因子Fj对原始所有变量总方差的解释能力 Sj/p表示了第j个因子解释原所有变量总方差的比例,2019/3/21,14,检验原有变量是否适合作因子分析,计算原有变量的相关系数矩阵 一般小于0.3就不适合作因子分析 计算KMO检验统计量 是用于比较简单相关系数和偏相关系数
5、的指标. 取值在0-1之间.KMO越接近1,意味着变量间的相关性越强, 原有变量越适合做因子分析.0.9以上表示非常适合, 0.8表示适合, 0.7表示一般,0.6以下表示不适合.,2019/3/21,15,计算巴特利特球形检验统计量以原有变量的相关系数矩阵为出发点。其零假设是H0是:相关系数矩阵是单位矩阵。巴特利特球形检验的检验统计量根据相关系数矩阵的行列式计算得到,且近似服从卡方发布。如果该统计量的观测量比较大,且对应的概率p值小于给定的显著性水平,则应拒绝零假设,认为相关系数矩阵不太可能是单位矩阵,原有变量适合作因子分析。反之,原有变量不适合作因子分析。,原有变量是否适合作因子分析,20
6、19/3/21,16,确定因子变量-主成份分析,主成份分析法的数学模型:该方程组要求:,将原有的P个相关变量Xi 作线性变换后转成另一组 不相关的变量Yi,2019/3/21,17,确定因子变量-主成分分析,系数uij依照两个原则来确定 yi与yj (ij,i,j=1,2,3,p)互不相关; y1是x1,x2,x3,xp的一切线性组合(系数满足上述方程组)中方差最大的;y2是与y1不相关的x1,x2,x3,xp的一切线性组合中方差次大的;yP是与y1, y2, y3,yp都不相关的x1,x2,x3,xp的一切线性组合中方差最小的; y1在总方差中所占比例最大,它综合原有变量的能力最强,其余变量
7、在总方差中所占比例依次递减,即:其余变量综合原有变量的能力依次减弱。,2019/3/21,18,确定因子变量-主成分分析,2019/3/21,19,确定因子变量-主成份分析,主成份分析的基本步骤: 将原始数据标准化 计算变量间简单相关系数矩阵R 求R的特征值123p0及对应的单位特征向量1, 2, 3,p 得到:yi=u1ix1+u2ix2+upixp,2019/3/21,20,2019/3/21,21,确定因子变量个数,确定k个因子变量 根据特征值i确定:取特征值大于1的特征根 根据累计贡献率:一般累计贡献率应在70%以上。,2019/3/21,22,确定因子变量个数,确定k个因子变量 通过
8、观察碎石图的方式确定因子变量的个数。,2019/3/21,23,因子变量的命名解释,发现: aij的绝对值可能在某一行的许多列上都有较大的取值,或aij的绝对值可能在某一列的许多行上都有较大的取值。 表明: 某个原有变量xi可能同时与几个因子都有比较大的相关关系,也就是说,某个原有变量xi的信息需要由若干个因子变量来共同解释;同时,虽然一个因子变量可能能够解释许多变量的信息,但它却只能解释某个变量的一少部分信息,不是任何一个变量的典型代表。 结论:因子变量的实际含义不清楚,2019/3/21,24,因子变量的命名解释,通过某种手段使: 每个变量在尽可能少的因子上有比较高的载荷,即:在理想状态下
9、,让某个变量在某个因子上的载荷趋于1,而在其他因子上的载荷趋于0。 这样:一个因子变量就能够成为某个变量的典型代表,它的实际含义也就清楚了。,2019/3/21,25,因子变量的命名解释,2019/3/21,26,因子分析的基本步骤,1.菜单选项:analyze-Data Reduction-Factor 2.选择参与因子分析的变量到Variables框 3.Discriptive:分析是否适合做因子分析 4.Extraction:选择构造因子变量的方法。 默认主成分分析法。 Extract框:指定确定因子个数的标准 5.Rotation:择因子载荷矩阵的旋转方法。默认是不进行旋转。一般可以选
10、择Varimax选项采用方差极大法旋转,2019/3/21,27,计算因子得分,因子得分是因子变量构造的最终体现。 基本思想:是将因子变量表示为原有变量的线性组合,即:通过因子得分函数计算因子得分 因子得分可看作各变量值的权数总和,权数的大小表示了变量对因子的重要程度,2019/3/21,28,因子分析的应用举例,因子分析在心理学上的应用因子分析在经济分析上的应用,2019/3/21,29,利用因子分析方法对贵阳市中学生进行女性性别角色期望调查分析.分析显示:传统的女性角色并不被现代中学生完全接受,无论是男中学生还是女中学生都在力图探求一种新的女性性别角色模式,但两性对这一新的女性性别角色模式的期望和把握是有一定差异的。,2019/3/21,30,应用多元统计分析中的因子分析方法建立贵州省县域经济发展水平综合评价的因子模型,并利用聚类分析方法,对贵州省87个区、县、县级市的经济发展水平情况进行客观的综合评价、排位和分类,提出政策建议,为促进贵州县域经济健康发展,缩小地区间差距,制定经济平衡发展战略提供量化依据。,