1、5 - 1问题 :影响因素很多,采用什么方法寻找有限个 不可观测的隐变量 解释原始变量间的相关性?而 不是原始变量的线性组合 (主成份分析方法)问题提出主营业务利润率销售毛利率 速动比率资产负债率主营业务收入增长率营业利润增长率冀东水泥 33.8 34.75 0.67 59.77 15.49 16.35大同水泥 27.54 28.04 2.36 35.29 -20.96 -46.45四川双马 22.86 23.47 0.61 42.83 5.48 -49.22牡丹江 19.05 19.95 1 48.51 -12.32 -65.99西水股份 20.84 21.17 1.08 48.45 65.
2、09 54.81狮头股份 28.14 28.84 2.51 24.52 -6.43 -15.94太行股份 30.45 31.13 1.02 46.14 6.57 -16.59海螺水泥 36.29 36.96 0.27 58.31 70.85 117.59尖峰集团 16.94 17.26 0.61 52.04 9.03 -94.055 - 2第 9章 因子分析9.1 因子分析思想9.2 因子分析模型9.3 因子载荷的估计与解释9.4 因子旋转方法9.5 因子得分计算9.6 因子分析步骤9.7 实际中如何进行因子分析5 - 39.1因子分析思想基本思想:是一种把多个变量化为少数几个综合变量的多变量
3、分析方法,其目的是用有限个 不可观测的隐变量 来解释原始变量之间的相关关系。主成份与因子分析区别:主成分分析 :是变量变换,原始变量的线性组合表示新的综合变量,即主成分;因子分析: 构造因子模型 ,用 潜在的假想变量和随机影响变量的线性组合 表示原始变量。5 - 49.2 因子分析模型模型思想: 将观测变量进行分类,将相关性较高的分在同一类,不同类变量之间相关性较低,每一类变量代表一个基本结构,即 公共因子 。 用最少个数的不可测公共因子的线性函数与特殊因子之和 描述原来观测每一分量。分类样本间相关关系: Q型因子分析变量间相互关系: R型因子分析5 - 5基本结构:R型因子分析模型结构其中:
4、 X为可观测随机向量 (标准化 ),E(X)=0,cov(X)=,F为不可测向量 ,E(F)=0,cov(F)=I 独立且与 F独立 ,E( )=0,cov( )= 为对角阵aij为因子载荷 ,表示第 i个变量在第 j个因子上的相关系数矩阵形式:5 - 6( 1)因子载荷统计意义取值: 因子载荷 aij 是 xi 与 Fj 的协方差和相关系数含义: 表示 xi依赖 Fj的程度,可将 aij看作第 i个变量在第 j个公共因子上的权数,绝对值越大,相依程度越大,即公共因子 Fj对于 xi的载荷量越大。标准化:已知: E(X)=0,cov(X)= , E(F)=0,cov(F)=I 独立且与 F独立
5、 ,E( )=0,cov( )= 为对角阵5 - 7( 2)因子载荷的分解:变量共同度含义: 表示全部公共因子对变量 xi的影响。 hi2大表明 xi对于每一分量 F1, F2, , Fm的共同依赖程度大。aij按 行 平方和,即共同度 hi2为:Xi标准差:5 - 8( 3)因子载荷的分解:方差贡献aij按 列 平方和,即方差贡献 gi2为:含义: 表示公共因子 Fj对于 x的每一分量xi(i=1,2,p) 所提供方差的总和, gi2越大,贡献越大 , 对 x影响越大。5 - 99.3 因子载荷的估计与解释主因子估计法极大似然估计法1、主因子估计法其中: 为 x协方差阵 的特征根, 1 p0
6、; 为 组成的对角矩阵 为 对应的标准正交化特征向量因子个数 =变量个数,且特殊因子方差为 0( 1) X变量协方差阵 的(正交矩阵)谱分解5 - 10( 2)谱分解与因子载荷关系实际: 公共因子数 m 小于变量个数 p,当最后 p-m个特征根较小时,可省略,即:结论:因子载荷是谱分析部分,也是主成份系数。 因子模型是描述原变量 X协方差阵 结构的一种模型,每个因子的相应系数不唯一,即因子载荷阵不是唯一的。5 - 112、极大似然估计法假设条件: 公共因子 F和特殊因子 e服从正态分布结论: 当 A D-1A=( 对角阵 ),可以得到唯一 A和 D估计值,因子载荷 A即为所求。 极大似然估计法
7、中对 F和 e正态分布条件较为苛刻, 故估计效果较差。假定条件: 变量 x1,x2,x m来自正态总体Np( , )的随机样本 , =AA+D,可以不考虑 D.5 - 123.实证分析主营业务利润率销售毛利率 速动比率资产负债率主营业务收入增长率营业利润增长率冀东水泥 33.8 34.75 0.67 59.77 15.49 16.35大同水泥 27.54 28.04 2.36 35.29 -20.96 -46.45四川双马 22.86 23.47 0.61 42.83 5.48 -49.22牡丹江 19.05 19.95 1 48.51 -12.32 -65.99西水股份 20.84 21.1
8、7 1.08 48.45 65.09 54.81狮头股份 28.14 28.84 2.51 24.52 -6.43 -15.94太行股份 30.45 31.13 1.02 46.14 6.57 -16.59海螺水泥 36.29 36.96 0.27 58.31 70.85 117.59尖峰集团 16.94 17.26 0.61 52.04 9.03 -94.05问题 :采用因子分析方法对水泥行业上市公司经营业绩进行因素影响分析。5 - 13( 1)数据标准化,计算相关系数X=read.table(“clipboard“,header=T)Y=scale(X) #标准化cor(Y) #计算相关系
9、数x1 x2 x3 x4 x5 x6x1 1.0000 0.9992 -0.0998 0.1885 0.2010 0.2978 x2 0.9992 1.0000 -0.1042 0.1967 0.1904 0.2875 x3 -0.0998 -0.1042 1.0000 -0.8372 -0.4088 0.0152 x4 0.1885 0.1967 -0.8372 1.0000 0.2585 -0.0293 x5 0.2010 0.1904 -0.4088 0.2585 1.0000 0.5803 x6 0.2978 0.2875 0.0152 -0.0293 0.5803 1.0000 结论
10、: 自变量间存在相关性,可以采用因子分析方法提取因子5 - 14library(mvstats)(Fac=factpc(X,3) #主成份因子分析结论: 3个综合因子累计贡献率为 0.92190.8,基本可以全面反映所有和指标信息,但各因子对各变量贡献系数差不多,经济含义不够明晰。Factor1 Factor2 Factor3x1 0.7829 0.5029 -0.3624x2 0.7811 0.4964 -0.3756x3 -0.5786 0.7685 0.0802x4 0.5951 -0.699 -0.2415x5 0.6317 -0.1457 0.6557x6 0.5084 0.3367
11、 0.6943Ssloadings 2.57 1.713 1.249ProportionVar 0.4283 0.2855 0.2082CumulativeVar 42.83 71.38 92.19( 2)计算特征根,因子载荷和共同度5 - 15(FA0=factanal(X,3,rot=“none“)#极大似然因子分析结论: 3个综合因子累计贡献率为 0.8610.8,基本可以全面反映所有和指标信息,但由于要求数据来自多元正态分布,效果不如主成份好。 同样,各因子对各变量贡献系数差不多,经济含义不够明晰。Factor1 Factor2 Factor3x1 0.95 -0.307x2 0.94
12、8 -0.310x3 -0.34 -0.782 0.517x4 0.363 0.561 -0.531x5 0.454 0.693 0.556x6 0.383 0.163 0.527Ssloadings 2.402 1.623 1.14ProportionVar 0.400 0.271 0.19CumulativeVar 0.400 0.671 0.8615 - 169.4 因子旋转方法基本目的: 在 共同度保持不变 的条件下,使因子载荷矩阵中因子载荷的绝对值向 0和 1两个方向分化,大的载荷更大,小的载荷更小。方法正交旋转:最大方差正交( Varimax)斜交旋转: Promax法5 - 17
13、1、旋转方法因子载荷矩阵:因子载荷矩阵与正交阵乘积:载荷 类标准化和方差 :极值原理:总方差最大:证明得知:5 - 182.因子旋转Fa1=factanal(X,3,rot=“varimax ”) #varimax 法旋转因子分析变量名 公共因子 (旋转前 )F1 F2 F3x1 0.95 -0.307x2 0.948 -0.31x3 -0.34 -0.782 0.517x4 0.363 0.561 -0.531x5 0.454 0.693 0.556x6 0.383 0.163 0.527变量名 公共因子(旋转后)F1 F2 F3x1 0.983 0.155x2 0.985 0.142x3
14、-0.99 -0.124x4 0.127 0.844x5 0.293 0.953x6 0.21 0.631结论: 旋转前各综合因子代表的具体经济意义不很明显,而旋转后各因子代表的经济意义则十分明显。 因子 F1代表企业的盈利能力, 反映企业投资收益的情况, 因子 F2代表了企业的偿债能力。 因子 F3代表了企业的发展能力,是反映企业持续经营发展能力的指标。5 - 199.5 因子得分计算基本目的: 运用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。方法回归估计法( regression)Bartlett估计法 (bartlett)5 - 20因子得分回归模型:1.回归估计法因子
15、载荷阵:标准化处理后:因子得分:5 - 21因子分析模型:2.Bartlett估计法转化符合条件 等方差随机误差 :该模型是以 X为因变量, A为自变量, 为随机误差的回归模型, 计算系数 F即为因子得分因子得分:5 - 22Fac1=factpc(X,3,scores=“regression” ) Fac1$scores#主成份因子得分Fa1=factanal(X,3,scores=“regression“) Fa1$scores #极大似然因子分析Factor1 Factor2 Factor3冀 东 水泥 1.0571 0.49858 -0.01932大同水泥 0.2508 -1.9718
16、2 -0.55062四川双 马 -0.7619 0.61936 -0.35643牡丹江 -1.2622 0.10831 -0.8249西水股份 -1.4124 -0.3652 2.0984狮头 股份 0.2993 -2.28407 0.0654太行股份 0.5368 -0.01725 -0.16548海螺水泥 1.1383 0.86089 1.85549尖峰集 团 -1.799 0.62143 -0.20236四川金 顶 0.4397 0.83905 -1.87521祁 连 山 1.022 -0.27756 0.10237华 新水泥 -0.4381 0.53317 0.26013福建水泥 1.
17、1144 0.91988 0.13561天 鹅 股份 -0.1847 -0.08479 -0.52308Factor1 Factor2 Factor3冀 东 水泥 1.10805 0.19287 -0.40233大同水泥 -1.07195 1.46385 -0.37413四川双 马 -0.58577 -0.49848 0.24193牡丹江 -1.17442 -0.77791 0.08986西水股份 -0.05264 -0.46073 2.31615狮头 股份 -1.05007 2.04151 0.25174太行股份 0.20807 0.48809 -0.2343海螺水泥 2.20745 0.3
18、2524 1.16336尖峰集 团 -1.11541 -1.53235 0.39013四川金 顶 0.09714 -0.60602 -1.45691祁 连 山 0.66096 1.03293 0.04173华 新水泥 0.41359 -1.08331 0.19805福建水泥 0.8684 -0.53255 -1.82104天 鹅 股份 -0.5134 -0.05315 -0.404225 - 233.综合得分以各因子的 方差贡献率为权 ,由各因子的线性组合得到综合评价指标,即:F rank冀东水泥 0.5776 3大同水泥 -0.7358 14四川双马 -0.1732 9牡丹江 -0.6689 13西水股份 -0.1185 8狮头股份 -0.6629 12太行股份 0.1579 5海螺水泥 1.2314 1尖峰集团 -0.533 11四川金顶 -0.0337 7祁连山 0.3258 4华新水泥 0.0851 65 - 24计算过程数据标准化, 计算标准化数据相关矩阵计算相关矩阵特征值和特征向量计算方差贡献率与累计方差贡献率确定因子( 80%)因子旋转计算因子得分 (regression,Bartlett)计算综合得分,排序Fac1=factpc(X,3,rot=“varimax”)# 主成份因子分析两个问题:如何构建因子变量;如何解释因子变量。5 - 25第九章结束!