1、主成分分析与因子分析方法,汇报什么?,假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? 当然不能。 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。,主成分分析,每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。 这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出
2、它们的少数“代表”来对它们进行描述。 本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。,主成分分析,概 念,主成分分析(principal component analysis)是将分散在一组变量上的信息,集中到某几个综合指标(主成分)上的一种探索性统计分析方法。它利用降维的思想,将多个变量化为少数几个互不相关的主成分,从而描述数据集的内部结构。,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研
3、究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,1 基本思想,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。,主成分
4、分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。,(1) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。,在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:,(2) 选择几个主成分。主成分分析的目的是简化变量,一般情况
5、下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。(3)如何解释主成分所包含的经济意义。,成绩数据(student.sav),100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,从本例可能提出的问题,目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。,主成分分析,例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表
6、示。 先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的),主成分分析,主成分分析,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也越有道理。,主成分分析
7、,对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。,主成分分析,正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。 选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约80%即可,其实,这只是一个大体的说法;具体选几个,要看实际
8、情况而定。,成绩数据(student.sav),100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,对于我们的数据,SPSS输出为,这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。,怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?SPSS可以输出下面的表。,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为数学、物理、化学、语文、历史、英语这六个原先变量的线性组合,系数(比例)为-0.8
9、06, -0.674, -0.675, 0.893, 0.825, 0.836。,如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六个变量x1,x2,x3,x4,x5,x6与第一和第二主成分y1,y2的关系为: X1=-0.806y1 + 0.353y2 X2=-0.674y1 + 0.531y2 X3=-0.675y1 + 0.513y2 X4= 0.893y1 + 0.306y2 x5= 0.825y1 + 0.435y2 x6= 0.836y1 + 0.425y2 这些系数称为主成分载荷(loading),它表
10、示主成分和相应的原先变量的相关系数。 比如x1表示式中y1的系数为-0.806,这就是说第一主成分和数学变量的相关系数为-0.806。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。,可以把第一和第二主成分的载荷点画出一个二维图,以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。,该图左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目。,2 数学模型与几何解释,假设我们所讨论的实际问题中,有p个指标,我
11、们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定
12、的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,主成分分析的几何解释,如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,主成分分析的几何解释,平移、旋转坐标轴,根据旋转变换的公式:,旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信
13、息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。,3 主成分的性质,一、均值,二、方差为所有特征根之和,说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。协方差矩阵的对角线上的元素之和等于特征根之
14、和。,三、精度分析,1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率 ,反映了原来P个指标多大的信息,有多大的综合能力 。,2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。,我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。,4 主成分分析的步骤,第一步:由X的协方差阵x,求出其特征根,即
15、解方程 ,可得特征根 。,一、基于协方差矩阵,第二步:求出分别所对应的特征向量U1,U2,Up,,第三步:计算累积贡献率,给出恰当的主成分个数。,第四步:计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。,二、基于相关系数矩阵如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。不同的是计算得分时应采用标准化后的数据。,例一 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或
16、其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,做到“知己知彼,百战不殆”,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的5C方法,5C的目的是说明顾客违约的可能性。,1、品格(用X1表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过顾客以往的付款记录得到此项。2、能力(用X2表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时
17、,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。3、资本(用X3表示),指顾客的财务势力和财务状况,表明顾客可能偿还债务的背景。4、附带的担保品(用X4表示),指借款人以容易出售的资产做抵押。5、环境条件(用X5表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。,首先抽取了10家具有可比性的同类企业作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值,如表。,Total Variance = 485.31477778Eigenvalues of the Covariance MatrixEigenvalue
18、 Difference Proportion CumulativePRIN1 410.506 367.242 0.845854 0.84585PRIN2 43.264 22.594 0.089146 0.93500PRIN3 20.670 12.599 0.042591 0.97759PRIN4 8.071 5.266 0.016630 0.99422PRIN5 2.805 . 0.005779 1.00000EigenvectorsPRIN1 PRIN2 PRIN3 PRIN4 PRIN5X1 0.468814 -.830612 0.021406 0.254654 -.158081X2 0.
19、484876 0.329916 0.014801 -.287720 -.757000X3 0.472744 -.021174 -.412719 -.588582 0.509213X4 0.461747 0.430904 -.240845 0.706283 0.210403X5 0.329259 0.122930 0.878054 -.084286 0.313677,第一主成份的贡献率为84.6%,第一主成份Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5的各项系数大致相等,且均为正数,说明第一主成份对所有的信用评价指标都有近似的载荷,是对所有指标的一个综合测
20、度,可以作为综合的信用等级指标。可以用来排序。将原始数据的值中心化后,代入第一主成份Z1的表示式,计算各企业的得分,并按分值大小排序:,在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政 策等,这对于加强应收帐款的管理大有帮助。,例二 基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三个公司和石油产业的2个公司做了100周的收益率调查。下表是其相关系数矩阵。 1)利用相关系数矩阵做主成分分析。2)决定要保留的主成分个数,并解释意义。,Eigenvalues of the Correlation MatrixEigenvalue Difference Proportio
21、n CumulativePRIN1 2.85671 2.04755 0.571342 0.57134PRIN2 0.80916 0.26949 0.161833 0.73317PRIN3 0.53968 0.08818 0.107935 0.84111PRIN4 0.45150 0.10855 0.090300 0.93141PRIN5 0.34295 . 0.068590 1.00000EigenvectorsPRIN1 PRIN2 PRIN3 PRIN4 PRIN5X1 0.463605 -.240339 -.611705 0.386635 -.451262X2 0.457108 -.50
22、9305 0.178189 0.206474 0.676223X3 0.470176 -.260448 0.335056 -.662445 -.400007X4 0.421459 0.525665 0.540763 0.472006 -.175599X5 0.421224 0.581970 -.435176 -.382439 0.385024,对主成分分析法进行综合评价特点的讨论: 1.能消除评价指标间相关关系的影响,因而减少了指标选择的工作量 2.用主成分分析进行综合评价所得的权数是伴随数学变换自动生成的,具有客观性 3.综合评价结果不稳定,5 主成分分析主要有以下几方面的应用,根据主成分分
23、析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。1主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替高维的x空间所损失的信息很少。即使只有一个主成分Yl(即 m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。,5 主成分分析主要有以下几方面的应用,2有时可通过因子负荷aij的结构,弄清X变量间的某些关系。3. 多维数据的一种图形表示方
24、法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。,4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集
25、合的效果。,因子分析,因子分析的基本思想,在实际中,人们往往希望收集到更多的有关研究对象的数据信息,进而能够得到一个更加全面的、完整的和准确的把握和认识。于是描述一个对象就会有许多指标,这些指标数量繁多、重复、类型复杂,给统计分析带来许多麻烦。 因子分析正是基于信息损失最小化而提出的一种非常有效的方法。它把众多的指标综合成几个为数较少的指标,这些指标即因子指标。因子的特点是:第一,因子变量的数量远远少于原始变量的个数;第二,因子变量并非原始变量的简单取舍,而是一种新的综合;第三,因子变量之间没有线性关系;第四,因子变量具有明明解释性,可以最大限度地发挥专业分析的作用。,55,1 引言因子分析(
26、factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。,56,但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以
27、表示为:,称 是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分 ,称为特殊因子。,57,注: 因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义;主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。,因子分析的基本步骤,因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开
28、的。 因子分析常常有以下四个基本步骤: (1)确认待分析的原有变量是否适合作因子分析。 (2)构造因子变量。 (3)利用旋转方法使因子变量更具有可解释性。 (4)计算因子变量得分。,59, 2 因子分析模型,一、数学模型,设 个变量,如果表示为,60,称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。 是特殊因子,是不能被前m个公共因子包含的部分。并且满足:,即不相关;,即 互不相关,方差为1。,61,即互不相关,方差不一定相等, 。,62,用矩阵的表达方式,63,二、因子分析模型的性质,1、原始变量X的协方差矩阵的分解,D的主对角线上的元素值越小,则公共因子共享的成 分越多。,64,
29、2、模型不受计量单位的影响,将原始变量X做变换X*=CX,这里Cdiag(c1,c2,cn),ci0。,65,66,3、因子载荷不是惟一的,设T为一个pp的正交矩阵,令A*=AT,F*=TF,则模型可以表示为,且满足条件因子模型的条件,67,三、 因子载荷矩阵中的几个统计特征,1、因子载荷aij的统计意义,因子载荷 是第i个变量与第j个公共因子的相关系数,即表示变量 xi 依赖于 Fj 的份量(权重),心理学家将它称为载荷。,模型为,在上式的左右两边乘以,再求数学期望,根据公共因子的模型性质,有,(载荷矩阵中第i行,第j列的元素)反映了第i个变量与第j个公共因子的相关重要性。绝对值越大,相关的
30、密切程度越高。,68,2、变量共同度的统计意义,定义:变量 的共同度是因子载荷矩阵的第i行的元素的平方和。记为,统计意义:,两边求方差,所有的公共因子和特殊因子对变量 的贡献为1。如果 非常靠近1, 非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。,69,3、公共因子 方差贡献的统计意义,因子载荷矩阵中各列元素的平方和 称为第j个公共因子 对所有分量 的方差贡献和。衡量 的相对重要性。,70, 3 因子载荷矩阵的估计方法,设随机向量 的均值为,协方差为,为的特征根, 为对应的标准化特征向量,则,(一)主成分分析法,71,上式给出的表达式是精确的,然而,它实际上是毫无价值的,
31、因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有,72,上式有一个假定,模型中的特殊因子是不重要的,因而从的分解中忽略了特殊因子的方差。,73,74,注:残差矩阵,其中S为样本的协方差矩阵。则有,因而,当被略去的特征值的平方和较小时,表 明因子模型的拟合是较好的。,75,例 假定某地固定资产投资率 ,通货膨胀率 ,失业率 ,相关系数矩阵为法 一 试用主成分分析法求因子分析模型。,76,特征根为:,77,可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55。第一公因子F2为投资因子,对X的贡献为0.85。共同度分别为1,0.706,0.7
32、06。,78,(二)主因子法,(三)极大似然估计法,79, 4 因子旋转,建立了因子分析模型的目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。使因子载荷阵的结构简化,使载荷矩阵中每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。,(一)为什么要旋转因子,80,百米跑成绩跳远成绩铅球成绩跳高成绩400米跑成绩百米跨栏铁饼成绩撑杆跳远成绩标枪成绩1500米跑成绩,奥运会十项全能运动项目
33、得分数据的因子分析,81,82,因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。于是考虑旋转因子,得下表,83,84,通过旋转,因子有了较为明确的含义。 百米跑,跳远和 400米跑,需要爆发力的项目在 有较大的载荷, 可以称为短跑速度因子; 铅球, 铁饼和 标枪在 上有较大的载荷,可以称为爆发性臂力因子;百米跨栏, 撑杆跳远, 跳远和为 跳高在 上有较大的载荷, 爆发腿力因子; 长跑耐力因子。,85,变换后因子的共同度性质,设正交矩阵,做正交变换,变换后因子的共同度没有发生变化!,(二)旋转方法,86,变换后因子贡献的性
34、质,设正交矩阵,做正交变换,变换后因子的贡献发生了变化!,87, 5 因子得分,(一)因子得分的概念,前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。,88,因子分析的数学模型为:,原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原变量的线性组合。,因子得分函数:,可见,要求得每个因子的得分,必须求得分函数的系数,而由于pm,所以不能得到精确的得分,只能通
35、过估计。,89,人均要素变量因子分析。对我国32个省市自治区的要素状况作因子分析。指标体系中有如下指标: X1 :人口(万人) X2 :面积(万平方公里) X3 :GDP(亿元) X4 :人均水资源(立方米/人) X5:人均生物量(吨/人) X6:万人拥有的大学生数(人) X7:万人拥有科学家、工程师数(人),Rotated Factor PatternFACTOR1 FACTOR2 FACTOR3X1 -0.21522 -0.27397 0.89092X2 0.63973 -0.28739 -0.28755X3 -0.15791 0.06334 0.94855X4 0.95898 -0.01
36、501 -0.07556X5 0.97224 -0.06778 -0.17535X6 -0.11416 0.98328 -0.08300X7 -0.11041 0.97851 -0.07246,90,X1=-0.21522F1-0.27397F2+0.89092F3X2=0.63973F1-0.28739F2-0.28755F3X3=-0.15791F1+0.06334F2+0.94855F3X4=0.95898F1-0.01501F2-0.07556F3X5=0.97224F1-0.06778F2-0.17535F3X6=-0.11416F1+0.98328F2-0.08300F3X7=-0
37、.11041F1+0.97851F2-0.07246F3,91,Standardized Scoring CoefficientsFACTOR1 FACTOR2 FACTOR3X1 0.05764 -0.06098 0.50391X2 0.22724 -0.09901 -0.07713X3 0.14635 0.12957 0.59715X4 0.47920 0.11228 0.17062X5 0.45583 0.07419 0.10129X6 0.05416 0.48629 0.04099X7 0.05790 0.48562 0.04822,F1=0.05764X1+0.22724X2+0.1
38、4635X3+0.47920X4+0.45583X5+0.05416X6+0.05790X7 F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7 F3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X7,92,前三个因子得分,93,国民生活质量的因素分析国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和
39、精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。从1990年开始,联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP表达),并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以及国民生活质量的总水平。,94,在这个指标体系中有如下的指标: X1预期
40、寿命 X2成人识字率 X3综合入学率 X4人均GDP(美圆) X5预期寿命指数 X6教育成就指数 X7人均GDP指数,95,旋转后的因子结构 Rotated Factor Pattern FACTOR1 FACTOR2 FACTOR3X1 0.38129 0.41765 0.81714X2 0.12166 0.84828 0.45981X3 0.64803 0.61822 0.22398X4 0.90410 0.20531 0.34100X5 0.38854 0.43295 0.80848X6 0.28207 0.85325 0.43289X7 0.90091 0.20612 0.35052F
41、ACTOR1为经济发展因子 FACTOR2为教育成就因子FACTOR3为健康水平因子,96,被每个因子解释的方差和共同度Variance explained by each factorFACTOR1 FACTOR2 FACTOR32.439700 2.276317 2.009490Final Communality Estimates: Total = 6.725507X1 X2 X3 X4 X5 0.987530 0.945796 0.852306 0.975830 0.992050 X6 X70.994995 0.976999,97,Standardized Scoring Coeffi
42、cients标准化得分系数FACTOR1 FACTOR2 FACTOR3X1 -0.18875 -0.34397 0.85077X2 -0.24109 0.60335 -0.10234X3 0.35462 0.50232 -0.59895X4 0.53990 -0.17336 -0.10355X5 -0.17918 -0.31604 0.81490X6 -0.09230 0.62258 -0.24876,98, 6 因子分析的步骤、展望和建议,2、计算所选原始变量的相关系数矩阵相关系数矩阵描述了原始变量之间的相关关系。可以 帮助判断原始变量之间是否存在相关关系,这对因子分析 是非常重要的,因为
43、如果所选变量之间无关系,做因子分 析是不恰当的。并且相关系数矩阵是估计因子结构的基础。,1、 选择分析的变量用定性分析和定量分析的方法选择变量,因子分析的前 提条件是观测变量间有较强的相关性,因为如果变量之间 无相关性或相关性较小的话,他们不会有共享因子,所以 原始变量间应该有较强的相关性。,一、 因子分析通常包括以下五个步骤,99,3、提取公共因子这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认
44、为要达到80才能符合要求;4、因子旋转通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。,100,5、计算因子得分求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做变量的聚类分析,做回归分析中的回归因子。,101,因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依赖一个 “哇!”准则,如果在仔细检查因子分析的时候,研究人员能够喊出“
45、哇,我明白这些因子”的时候,就可看着是成功运用了因子分析方法。,因子分析与主成分分析的异同点,都对原始数据进行标准化处理 都消除了原始指标的相关性对综合评价所造成的信息重复的影响 构造综合评价时所涉及的权数具有客观性 在信息损失不大的前提下,减少了评价工作量 公共因子比主成分更容易被解释 因子分析的评价结果没有主成分分析准确 因子分析比主成分分析的计算工作量大,成绩数据(student.sav),100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,对于我们的数据,SPSS因子分析输出为,这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、
46、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。从这个例子可以看出,因子分析的结果比主成分分析解释性更强。,这两个因子的系数所形成的散点图(虽然不是载荷,在SPSS中也称载荷图,,可以直观看出每个因子代表了一类学科,主成分分析与因子分析的公式上的区别,主成分分析,因子分析(mp),因子得分,因子分析和主成分分析的一些注意事项,可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。 另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果
47、就越好。 在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系 在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。,SPSS实现(因子分析与主成分分析),拿student.sav为例,选AnalyzeData ReductionFactor进入主对话框; 把math、phys、chem、literat、history、english选入Variables,然后点击Extraction, 在Method选择一个方法(如果是主成分分析,则选Principal Components),SPSS的因子分析案例,2001年10月,为山西证券的一个营业部作了一次客户满意度研究,采用因子分析作了分析。调查的项目包括18项指标,基本上可以涵盖客户服务的各个方面。 这些指标包括:技术、环境、人员、股市、服务等方面的多项指标。,