收藏 分享(赏)

第14章因子分析1统计学原理.ppt

上传人:dzzj200808 文档编号:3186532 上传时间:2018-10-06 格式:PPT 页数:99 大小:2MB
下载 相关 举报
第14章因子分析1统计学原理.ppt_第1页
第1页 / 共99页
第14章因子分析1统计学原理.ppt_第2页
第2页 / 共99页
第14章因子分析1统计学原理.ppt_第3页
第3页 / 共99页
第14章因子分析1统计学原理.ppt_第4页
第4页 / 共99页
第14章因子分析1统计学原理.ppt_第5页
第5页 / 共99页
点击查看更多>>
资源描述

1、第14章,因子分析,因子分析,1 因子分析的概念 2 数学模型及统计意义 3 因子载荷阵的估计方法 4 因子得分 5 因子旋转* 6 计算步骤及实例,因子分析的概念,因子分析的概念起源于Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。1904年Charles Spearman发表了一篇著名论文对智力测验得分进行统计分析被视为因子分析的起点。因子分析最早用来研究心理学和教育方面的问题,但因子分析由于计算量大,在缺少计算机条件下其应用受到了很大限制。随着计算机的大量使用,使得因子分析的计算问题得到了解决大大促进了该方法的发展。 因子分析方法应用范围十分广泛,在

2、经济管理科学、社会科学、生物学、医学、地质科学、考古学、教育学乃至体育科学等取得了显著成就。,1 引言,因子分析是主成分分析的推广和发展,它是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。,1 引言,因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测

3、的潜在变量,称为因子。,问题一:某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子 .,100人测试的分数 可以用上述六个因子表示成线性函数:,问题二:在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。,消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进

4、行综合评价。而这三个公共因子可以表示为:,问题三,服装剪裁问题,对于裁缝来说,服装裁剪需要根据许多指标来进行决定,虽然有许多指标如领长、袖长、等一些列指标,但最后关键指标是衣服的长度和衣服的宽度两个核心指标或者因子。其他指标都是相关指标。,因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低 .,注: 因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明

5、确的实际意义;主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。,2 数学模型及统计意义,1)因子分析模型(正交因子模型),(1)R型因子分析模型 (变量因子模型),用矩阵表示:,简记为,且满足:,其中X是可实测的p个指标所构成p维随机向量,F是不可观测的向量,F称为X的公共因子或潜因子;aij称为因子载荷是第i个变量在第j个公共因子上的负荷,如果把变量Xi看成m维因子空间中的一个向量,则表示Xi在坐标轴Fj上的投影,矩阵A称为因子载荷矩

6、阵;称为X的特殊因子,通常理论上要求的协方差阵是对角阵,其中包括了随机误差.,此时X1, X2, , Xn表示n个样品.,(2)Q型因子分析模型(样品因子模型),因子分析的目的就是通过模型 代替X,由于 ,从而达到简化变量维数的愿望。,2 )因子载荷和变量共同度及其统计意义,(1) 因子载荷的统计意义,于是:,已知模型:,两端后乘Fj得:,所以上式可写成:,由于在标准化下有:,因此,因子载荷 ai j的统计意义:第i个变量与第j个公共因子的相关系数,即表示Xi依赖Fj的份量(比重).,(2) 变量共同度的统计意义,所谓变量Xi的共同度定义为因子载荷阵A中第i行元素的平方和,即,共同度 hi2:

7、它刻划全部公共因子对变量Xi的总方差所作的贡献, 越接近1,说明由原始变量空间转为因子空间转化的性质越好,保留原来信息量多;其值越小,说明公共因子对Xi影响很小,主要由特殊因子 来描述,因此是Xi方差的重要组成部分。,所以,i2 :是特定变量所产生的方差,称为特殊因子方差, 仅与变量Xi本身的变化有关,它是使Xi的方差为1的补充值。,3) 公共因子Fj的方差贡献的统计意义,将因子载荷矩阵中各列元素的平方和记为,称qj为公共因子Fj对变量组X的贡献,即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之总和,它是衡量公共因子相对重要性指标。,3 因子载荷阵的估计方法,设随机向量X的协差阵为 ,i为

8、的特征根,ei为对应的标准正交化特征向量(只要特征根不等,对应的单位特征向量一定是正交的),则根据线性代数知识可分解为,1)忽略特殊因子,上边给出的表达式是精确的,但实际应用时总是希望公共因子个数小于变量的个数即mp,当最后p-m个特征根较小时,通常是略去最后p-m项对的贡献,于是得到,上式是假定了因子模型中的特殊因子是不重要的,因而从 的分解中忽略掉特殊因子的方差.,2)考虑特殊因子,当未知,可用样本协差阵S去代替,要经过标准化处理,则S与相关阵R相同,仍然可作上面类似的表示。,一般设 为样本相关阵R的特征根,相应的标准正交化特征向量为 ,设 mp,则因子载荷阵的估计 即,4 因子得分,因子

9、分析的数学模型是将变量(或样品)表示为公共因子的线性组合:,往往需要反过来将公共因子表示为变量(或样品)的线性组合,即,称上式为因子得分的函数。用它来计算每个样品的公共因子得分。,由于因子得分函数中方程的个数m小于变量的个数p,因此不能精确计算出因子得分,只能对因子得分进行估计。这里用回归法进行估计。,Thomson假设公共因子可以对p个变量作回归,Fj(j=1,m)对变量X1,Xp的回归方程为,由于假设变量及公共因子都已经标准化了,所以,由因子载荷的意义知:,即,其中,因此,记,则,于是,其中,这就是估计因子得分的计算公式。,建立了因子分析模型的目的不仅仅要找出公共因子以及对变量进行分组,更

10、重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释. 由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法。四次方最大法、方差最大法和等量最大法。,5 因子旋转,5 因子旋转,原因子模型,令,新因子模型,变成,因子载荷阵不是唯一的。证明如下,设C为一个pp的正交矩阵,仍满足,正是由于因子载荷阵不是唯一的,可寻找合适的正交矩阵,使得因子载荷阵具有特殊的结构。,因子载荷旋转:用一个正交阵右乘A,使旋转后的因子载荷阵结构简化,便于对公共因子

11、进行解释。有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。本节只介绍常用的方差最大正交旋转法。,对A按行计算共同度,5 因子旋转,首先考虑m=2的情形。,设因子载荷阵,然后对规格化后的矩阵,为书写方便仍记为A,施行方差最大正交旋转。,设正交阵,记,这样做的目的是使因子载荷阵A的结构简化,为此,正交旋转的角度必须满足:旋转后所得到因子载荷阵的总方差V达到最大值,即,达到最大值。,根据求极值原理,先求V对的导数,令,经过计算,其旋转角度可按下面公式求得:,记,则,根据tg(4)的分式的分子和分母取值的正负号来确定角 的取值范围如下表:,如果公共因子有m个,则需逐次对每两个公共因子进行

12、上述旋转,必须满足使旋转后所得到的因子载荷阵的总方差达到最大值,即,其中Tkj 为如下的正交阵:,A经过Tkj旋转(变换)后,矩阵 B = ATk j ,其元素为,其中旋转角度 仍按下面公式求得,m个因子,每次取两个全部配对进行旋转,共需旋转Cm2次,算做一个循环完毕,如果循环完毕得出的因子载荷阵还没有达到目的,则可以继续进行第二轮次配对旋转,具体地说如果第一轮旋转完毕的因子载荷阵记为B(1),从B(1)算出V(1) 。,从B(1)出发进行第二轮旋转循环,旋转完毕得B(2),如此不断重复旋转循环可得V值的一个非降序列:,从B(2)算出V(2) 。,因为因子载荷的绝对值不大于1,故这个序列是有上

13、界的,于是有极限记为 ,即为V的最大值。因此只要循环次数k充分大,就有,为所要求的精度。在实际应用中,经过若干次旋转之后,若相对方差改变不大,则停止旋转,最后得,即为旋转后的因子载荷矩阵。,6 计算步骤及实例,计算步骤,设原始数据资料如下表:,第一步 将原始数据标准化,为书写方便仍记为xij。,第二步 建立变量的相关系数阵,若作Q型因子分析,则建立样品的相似系数阵Q=(Qij)nn。其中,其中,第三步 求R的特征根及相应的单位特征向量,分别记为 和 ,记,根据累计贡献率的要求比如 ,取前m个特征根及相应的特征向量写出因子载荷阵:,第四步 对A进行方差最大正交旋转。,第五步 计算因子得分。,例题

14、,对全国30个省市自治区的经济发展八项指标作因子分析。,第二步 建立指标间的相关系数阵R。,首先对原始数据标准化,以消除量纲的影响;,第三步 求R的特征值和特征向量。,由于前三个特征值的累计贡献率已达89.564%。所以取前三个特征值所对应的特征向量如下:,第四步 建立因子载荷阵。,第五步 对因子载荷阵实行方差最大旋转,旋转后的矩阵如下:,正交因子表,从上表可见,每个因子只有少数几个指标的因子载荷较大,因此可根据上表进行分类,将8个指标按高载荷分成三类,列于下表:,第一个因子在指标X1、X2、X有较大的载荷,这些是从GDP、固定资产投资、工业总产值三个方面反映经济发展状况的,因此命名为总量因子

15、。,第二个因子在指标X2、X4、X5有较大的载荷,这些是从居民消费水平,职工平均工资、货物周转量这三方面反映经济发展状况的,因此命名为消费因子。,第三个因子在指标X6、X7有较大的载荷,因此命名为价格因子。,例2 利用1995年的数据对我国社会发展状况进行综合考察。原始数据如下:,资料来源:中国统计年鉴。,第一步 将数据标准化。,第二步 建立指标间相关系数阵R如下:,第三步 求R的特征值和累计贡献率。,第四步 建立因子载荷阵。,由于前三个特征值的累计贡献率已达93.46%,故取前三个特征值建立因子载荷阵如下:,第五步 将因子载荷阵实行方差最大正交旋转,得正交因子表如下:,第六步 将六个指标按高

16、载荷分成三类,并结合专业知识对各因子给此命名如下,SPSS操作,(一) 操作步骤1. 在SPSS窗口中选择AnalyzeData ReductionFactor,调出因子分析主界面图(7.1),并将变量X1X13移入Variables框中。,图7.1 因子分析主界面,SPSS操作,2. 点击Descriptives按钮,展开相应对话框,见图7.2。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。,图7.2 Descriptives子对话框,SPSS操作,3. 点击Extraction按钮,

17、设置因子提取的选项,见图7.3。在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。这里我们均

18、选择系统默认选项,单击Continue按钮,返回主界面。,SPSS操作,图7.3 Extraction子对话框,SPSS操作,4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。,图7.4 Rotation子对话框,SPSS操作,5.点击Scores按钮,设置因子得分的选项。选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。选中Display factor score coeffici

19、ent matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。6. 单击OK按钮,运行因子分析过程。,图7.5 Scores子对话框,SPSS操作,(二) 主要运行结果解释1. Communalities(给出变量共同度)变量共同度反映每个变量对所提取的所有公共因子的依赖程度,此数值是因子载荷阵中每一行的因子载荷量的平方和,提取的因子个数不同,变量共同度也不同。,2. Total Variance Explained (给出各公因子方差贡献表),Initial Eigenvalues给出初始相关矩阵或协差阵矩阵的特征值,用于确定哪些因子应该被提取,

20、共有三项: Total列为各因子对应的特征值,本例中共有四个因子对应的特征值大于1,因此应提取相应的四个公因子;% of Variance列为各因子的方差贡献率;Cumulative %列为各因子的累积方差贡献率,由表7.1可以看出,前四个因子已经可以解释89.651%的方差。 Rotation Sums of Squared Loadings给出提取出的公因子经过旋转后的方差贡献情况。,表7.1 特征根与方差贡献率表,SPSS操作,表7.2 旋转前因子载荷阵,SPSS操作,表7.3 旋转后因子载荷阵,SPSS操作,SPSS操作,注意:在因子表达式中的各变量为进行标准化变换后的标准变量,均值为

21、0,标准差为1。,SPSS操作,7. 由于我们已经在Scores子对话框中选择了Save as variables复选框,因此,因子得分已经作为新的变量保存在数据文件中,变量名分别为fac1_1、fac2_1、fac3_1和fac4_1。此后,我们还可以利用因子得分进行其他的统计分析。,表7.4 因子得分系数矩阵,实例1上市公司财务状况的因子分析,随着我国股票市场的发展与不断成熟,人们的投 资越来越理性化,更加重视对上市公司财务状况的 考察,从而更需要准确地了解上市公司的经营业绩 状况。而上市公司的经营业绩可以通过一系列的财 务指标来反映,但是这些财务指标往往容易混淆投资 者的视线。,传统评价

22、公司财务指标方法的缺陷,无论是投资者、中介机构还是上市公司自身,大都会习以为常地设计一套综合指标评价体系。其基本做法就是选取多项财务指标,并根据行业平均水准对各个财务指标打分,再给每个考核指标设置一个权重,计算出综合评分。而这种方法依赖于分析者的偏好和经验,指标选取和权重设置带有较强主观性,且难以解决评价指标之间存在的相关性问题。,因子分析法能解决,因子分析方法能较好地解决上述问题。它把众多指标综合为少数几个基本不相关的综合因子,以实现“用变量子集来解释整个问题”的目的。特别是在上市公司报表中,财务指标名目繁多,并可以进行大量的变换组合,这不但增加了问题分析的复杂性,而且由于每一指标都在不同程

23、度上反映了财务绩效的某些信息,所以各个指标之间往往存在一定的相关关系。因此,有必要设计若干综合指标来整合各方面的信息,同时这些综合指标之间并不相关,反映的信息就不会重叠。因子分析较好地满足了这些要求,比较便于研究复杂事物,它通过一种从大量数据和指标当中“去粗取精”、“由表及里”的方法,把多个变量转化为少数几个综合的更具有解释力的变量,通过对统计结果的深入分析,挖掘数据内在的信息资源,更好地从整体上洞察研究对象的现状和发展规律。同时这种方法比较客观、准确、可操作性强,能处理大量复杂的数据信息,可较大限度地避免人为因素所产生的偏差。,运用因子分析方法,借助SPSS15. 0软件,选取40家上市公司

24、的7项财务指标进行综合评价,客观合理地反映上市公司的经营绩效,从而为投资者提供一定的投资决策依据。,返回,数据介绍,数据来源:http:/ 公告期:2010年4月21日,报告期:2009年12月31日 选取的指标:流动比率、速动比率、资产负债率、净资产收益率、每股收益、主营收入增长率、净利润增长率。,部分数据,相关系数矩阵,KMO检验和巴特利特球度检验结果表,检验结果表明可以做因子分析,总的方差解释表,由于贡献率反映了每个因子包含原始数据的信息量度,所以当选择前3个因子作为公因子时,就包含了原始变量信息量的81%以上,满足了因子分析“用变量子集来解释整个问题”的要求。,碎石图,建立因子载荷矩阵

25、,因子载荷用于反映因子和各个变量间的密切程度。当各公因子间完全不相关时,因子负荷值就等于因子与变量的相关系数。它的绝对值越大,说明该因子对当前变量的影响程度越大。下图给出了旋转后的因子载荷矩阵。,因子载荷矩阵,可以看出经过旋转后载荷系数已经明显地向两极分化了。第一个公因子对流动比率、速动比率、资产负债率有较大的载荷系数,主要涉及企业的偿债能力,可以成为企业偿债能力因子;第二个因子对净资产收益率、每股收益有较大的载荷系数,主要涉及企业的盈利能力,可以成为盈利能力因子;第三个因子对主营收入增长率、净利润增长率有较大的载荷系数,主要代表企业的成长和发展能力,可以成为成长能力分析因子。如下图.,因子得

26、分,对原始7个指标提取公因子后,就可以通过分析少数几个公因子来对相关数据进行比较研究了。通过操作可以看到在数据窗口中多了三个变量fac1_1、fac2_2、fac3_3的值,这3个值就是各公司在偿债能力,盈利能力以及成长能力上的得分。,综合得分,其中以0为参考基准,综合得分大于0的公司,综合业绩相对好一些;综合得分小于0的则相对差一些。依此可对公司财务绩效有一个高度概括,并据以作出简约而不失有效的判断和决策。,前15名综合得分图,结果分析,(1)从各个上市公司综合得分及排名来分析:排在前五名的上市公司分别是神州泰岳、上海医药、双鹭药业、赛马实业、科华生物,这五家综合业绩相对较好。 (2)有的上

27、市公司虽然在某个能力方面排名靠前,但是在综合排名时靠后, 如衡水老白干,在成长能力方面比较强,但是综合业绩较差。这说明要提高上市公司的综合业绩,应当注重各个方面能力的提高,包括偿债能力、盈利能力、成长能力等。,例2 因子分析在市场研究的应用,研究消费者对购买牙膏偏好的调查数据。通过市场的拦截访问,用7级量表询问受访者对以下陈述的认同程度(1表示非常不同意,7表示非常同意)。V1:购买预防蛀牙的牙膏是重要的;V2:我喜欢使牙齿亮泽的牙膏;V3:牙膏应当保护牙龈;V4:我喜欢使口气清新的牙膏;V5:预防坏牙不是牙膏提供的一项重要利益;V6:购买牙膏时最重要的考虑是富有魅力的牙齿。,SPSS操作,表

28、7.5 牙膏属性评分得分表,公因子方差表,总方差分解,从表7.6可以看出,提取两个因子累计方差贡献率就达到82%, 第三个特征根相比下降较快, 因此我们选取两个公共因子。,因子矩阵 为了得到意义明确的因子含义,我们将因子载荷阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下表7.7。,表7.7 因子载荷矩阵,表7.7 旋转后因子载荷矩阵,从因子载荷阵可以看出: 因子1与V1(预防蛀牙),V3(保护牙龈),V5(预防坏牙)相关性强,其中V5的载荷是负数,是由于这个陈述是反向询问的; 因子2与V2(牙齿亮泽),V4(口气清新),V6(富有魅力)的相关系数相对较高。 因此,我们命名因子1为“护牙因子”,是人们对牙齿的保健态度;因子2是“美牙因子”,说明人们“通过牙膏美化牙齿影响社交活动”的重视。从这两方面分析,对牙膏生产企业开发新产品都富有启发意义。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报