1、2019/6/10,1,多元统计分析 主成份分析,华南农业大学理学院 张国权,2019/6/10,2,主成份分析,多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间往往存在着一定的相关性,例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性;身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。变量之间存在的相关性使得所观测到的数据在一定程度上反映的信息有所重迭。而且当变量较多时,在高维空间中研究样本的分布规律比较复杂。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,而且彼此
2、之间互不相关。利用这种降维的思想,产生了主成分分析。主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。,2019/6/10,3,总体的主成分,则有:,定义:,2019/6/10,4,如满足条件:,主成份的推导,2019/6/10,5,结果2:,对对称实矩阵,2019/6/10,6,2019/6/10,7,而且,当 时有,因此,使,达最大,且,在实际应用中,一般主成份只取前KP个,2019/6/10,8,则有:,性质:,2019/6/10,9,2019/6/10,10,累计贡献率,2019/6/10,11,样本的主成分,2019/6/10,12,2019/6/10,13,2019/6
3、/10,14,主成分的解释要根据实际问题给出。主成分的应用是多方面的,譬如利用主成分简化数据后,可以用直观的方法对样本或变量进行分类;当自变量间存在多重共线性时,可以利用自变量间的主成分,建立因变量关于主成分的回归方程以克服多重共线性等。,2019/6/10,15,调用PRINCOMP过程进行主成分分析。用户可以使用下列语句来调用PRINCOMP过程: PROC PRINCOMP 选项1 选项2 ;VAR 变量1 变量2 ;WEIGHT 变量;FREQ 变量;PARTIAL 变量1 变量2 ;BY 变量1 变量2 ;,2019/6/10,16,2019/6/10,17,2019/6/10,18
4、,COV 要求从协方差阵出发计算主分量。缺省为从相关阵出发计算。 NOINT 要求在模型中不使用截距项。这时统计量输出数据集类型为TYPE=UCORR或UCOV。 STD 要求在OUT=的数据集中把主成分得分标准化为单位方差。不规定时方差为相应特征 值。 用VAR语句指定原始变量。必须为数值型(区间变量)。,2019/6/10,19,应用举例,例1一月和七月平均气温的主分量分析 在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主分量分析。程序如下: DATA TEMPERAT; INPUT
5、CITY $1-15 JANUARY JULY; CARDS; MOBILE 51.2 81.6 PHOENIX 51.2 91.2 LITTLE ROCK 39.5 81.4 MILWAUKEE 19.4 69.9 CHEYENNE 26.6 69.1; PROC PRINCOMP COV OUT=PRIN; VAR JULY JANUARY; RUN;,2019/6/10,20,主要结果:,2019/6/10,21,由上结果可知,第一个主成分的贡献率已达到了94.39%,且可写出两主成分的表达式为: PRIN1 = 0.343532 (JULY-75.61) + 0.939141(JANU
6、ARY-32.09) PRIN2 = 0.939141 (JULY-75.61)+ (- 0.343532) (JANUARY-32.09) 由系数可见,第一主分量是两个月份的加权平均,代表了一个地方的气温水平,第二主分量系数一正一负,反应了冬季和夏季的气温差别。,2019/6/10,22,2019/6/10,23,SAS程序如下: data cities93; input city $ z1-z6; cards; BJ 863.50 318.221 30640 532.864 13.706 144.756 TJ 536.10 153.655 18217 227.420 66.030 65.0
7、80 SY 402.45 73.508 12729 171.266 2.700 41.281 CQ 399.64 68.133 14738 165.694 1.855 24.246 XA 229.57 54.738 8406 120.110 1.138 28.340 ; proc standard data=cities93 out=a mean=0 std=1;var z1-z6; proc princomp data=a out=score;var z1-z6; proc sort data=score; by descending prin1; proc print; id city;
8、var prin1-prin6; run;,2019/6/10,24,结果一:相关阵的特征值及主分量贡献率:Eigenvalues of the Correlation MatrixEigenvalue Difference Proportion Cumulative1 4.93348104 4.25641047 0.8222 0.82222 0.67707058 0.39085676 0.1128 0.93513 0.28621382 0.21243318 0.0477 0.98284 0.07378064 0.04856376 0.0123 0.99515 0.02521688 0.020
9、97984 0.0042 0.99936 0.00423704 0.0007 1.0000 可知第一主成分和第二主成分的累计贡献率达到了93.51%,即这两个主成分提取了Z1、Z2、Z6中93.51%的信息,所以取两个主成分分析即可。结果二:相关阵的特征向量(即各主分量的组合系数)The PRINCOMP ProcedureEigenvectorsPrin1 Prin2 Prin3 Prin4 Prin5 Prin6 z1 0.440097 0.025954 -.159319 -.597376 -.640675 -.113732 z2 0.433725 -.007878 -.438357 -.
10、248460 0.689352 -.287621 z3 0.381275 -.370092 0.810739 -.121305 0.179096 -.116506 z4 0.441793 -.192277 -.156615 0.163419 0.032094 0.845923 z5 0.293619 0.902145 0.282948 0.086674 0.072042 0.084618 z6 0.437532 -.107054 -.143442 0.729709 -.275742 -.409903,主要结果:,2019/6/10,25,由上结果写出这两个主成分的表达式 : prin1=0.4
11、40097z1+0.433725z2+0.381275z3+0.441793z4+0.293619z5+0.437532z6 prin2=0.025954z1-0.007878z2-0.370092z3-0.192277z4+0.902145z5-0.107054 z6 其中,z1-z6都为标准化的数据。,第一主成分的各个系数都是正的,而且数值相差不多。如果各个变量的数值都增加,则第一主成分数值也会增加。而这正说明城市的规模较大、效益较高。从各个指标的具体含义可以看出,第一主成分代表的是各城市的“综合经济实力”。其数值越大,代表综合经济实力越强。 第二主成分中, Z5的系数高达0.9021,换
12、言之,如果外贸出口强劲,则第二主成分取值一定变大,反之,当外贸出口较弱者,则第二主成分会取较小的值。因此可以说,第二主成分是“外向型经济”的度量,其数值取得越大,外向型经济越强。,2019/6/10,26,结果三:各个城市在各主成分的得分值:city Prin1 Prin2 Prin3 Prin4 Prin5 Prin6SH 6.70397 0.49659 -0.96393 -0.49704 0.01060 -0.01087BJ 4.16150 -1.88335 0.01643 0.60137 0.12832 0.01356GZ 2.49861 1.06497 1.22936 0.30773
13、-0.31199 0.02199TJ 1.05471 0.19955 0.49100 0.05904 0.12434 -0.12704SZ 0.12001 2.30772 -0.41712 0.34940 0.09648 0.08498DL -0.14423 0.28869 1.10978 -0.32879 0.32630 -0.03075SY -0.47665 -0.56422 0.11196 -0.04089 -0.12898 0.01124WH -0.57326 -0.50645 0.04086 -0.06259 0.06310 0.05287CQ -0.61603 -0.61570 0
14、.39074 -0.37103 0.00315 0.13839HZ -0.73002 -0.38548 -0.18102 -0.01214 -0.35107 -0.04342QD -0.73876 0.41256 0.25525 -0.21686 -0.01551 -0.04803CD -0.76976 -0.43164 0.02601 -0.31648 -0.12925 0.02211NJ -0.90278 -0.18263 -0.21679 0.04839 -0.01394 -0.04984XA -1.28904 -0.31284 -0.05878 0.09719 0.09787 0.01
15、889HB -1.33266 -0.15074 -0.28399 0.23110 0.09193 0.07473JN -1.55961 -0.14105 -0.28990 -0.10171 -0.04958 0.05279CC -1.59056 -0.14467 -0.24343 0.03694 -0.02420 -0.09788FZ -1.74874 0.21761 -0.57126 0.11506 -0.06662 -0.04974XM -2.06669 0.33109 -0.44517 0.10129 0.14905 -0.03399,2019/6/10,27,从各个城市的得分情况来看,
16、这两个主成分的结果含义是准确清晰的。在第一主成分中,得分最高的是上海,得分为6.70397,第二名是北京,得分4.16150,第三名是广州,得分2.49861,第四名是天津,得分为1.05471,这与各城市综合经济实力的实际状况是一致的。在第二主成分中,得分最高的是深圳,得分2.30772,第二名是广州,得分1.06497,北京得分最低,为-1.88335,这与这些城市的对外开放程度是一致的。至于北京为何名列倒数第一(对外开放最差),这可以从外贸出口总额数看出,北京总的经济实力较强,但外贸出口总额确实落在很多城市之后了。,2019/6/10,28,应用相关阵进行主成分分析 为解决服装定型分类问
17、题,对128个成年男子的身材进行测量,每人各测得16项指标:身高(X1)、坐高(X2)、胸围(X3)、头高(X4)、裤长(X5)、下档(X6)、手长(X7)、领围(X8)、前胸(X9)、后背(X10)、肩厚(11)、肩宽(X12)、袖长(X13)、肋围(X14)、腰围(X15)、和腿肚(X16)。16项指标的相关阵R见以下SAS程序的数据行,由相关阵为实对称距阵,数据行只给出相关阵的上三角部分,下半部分用缺失值代替。,2019/6/10,29,由相关阵出发来进行主分量分析的SAS程序如下: data a (type=corr); input _name_ $ x1-x16; cards; x1
18、 1.0 .79 .36 .96 .89 .79 .76 .26 .21 .26 .07 .52 .77 .25 .51 .27 x2 . 1.0 .31 .74 .58 .58 .55 .19 .07 .16 .21 .41 .47 .17 .35 .16 x3 . . 1.0 .38 .39 .30 .35 .58 .28 .33 .33 .35 .41 .64 .58 .51 x4 . . . 1.0 .90 .78 .75 .25 .20 .22 .08 .53 .79 .27 .57 .26 x5 . . . . 1.0 .79 .74 .25 .18 .23 -.02 .48 .7
19、9 .27 .51 .23 x6 . . . . . 1.0 .73 .18 .18 .23 .00 .28 .69 .14 .26 .00 x7 . . . . . . 1.0 .24 .29 .25 .10 .44 .67 .16 .38 .12 x8 . . . . . . . 1.0 -.04 .49 .44 .30 .32 .51 .51 .38 x9 . . . . . . . . 1.0 -.34 -.16 -.05 .23 .21 .15 .18 x10. . . . . . . . . 1.0 .23 .50 .34 .15 .29 .16 x11. . . . . . .
20、. . . 1.0 .24 .10 .31 .28 .31 x12. . . . . . . . . . . 1.0 .26 .17 .41 .18 x13. . . . . . . . . . . . 1.0 .26 .50 .24 x14. . . . . . . . . . . . . 1.0 .63 .50 x15. . . . . . . . . . . . . . 1.0 .65 x16. . . . . . . . . . . . . . 1.0 ; proc princomp data=a(type=corr) n=4; var x1-x16; run;,2019/6/10,3
21、0,结果一:相关阵的特征值及主分量贡献率:Eigenvalues of the Correlation MatrixEigenvalue Difference Proportion Cumulative1 6.99170909 4.40129898 0.4370 0.43702 2.59041011 0.95978649 0.1619 0.59893 1.63062362 0.77554359 0.1019 0.70084 0.85508003 0.0534 0.7542,2019/6/10,31,菜单操作,2019/6/10,32,二、因子分析,因子分析是多元分析中数据缩减的一种主要方法,本
22、章讨论基于统计软件的因子分析以及主成分分析方法和一般步骤。其中包括:1因子分析的基本思想2因子分析的过程3SAS的因子分析4因子分析的结果评述5证券营业部客户满意度的因子分析6因子分析的推广,2019/6/10,33,因子分析的基本思想,在实际中,人们往往希望收集到更多的有关研究对象的数据信息,进而能够得到一个更加全面的、完整的和准确的把握和认识。于是描述一个对象就会有许多指标,这些指标数量繁多、重复、类型复杂,给统计分析带来许多麻烦。 因子分析正是基于信息损失最小化而提出的一种非常有效的方法。它把众多的指标综合成几个为数较少的指标,这些指标即因子指标。因子的特点是:第一,因子变量的数量远远少
23、于原始变量的个数;第二,因子变量并非原始变量的简单取舍,而是一种新的综合;第三,因子变量之间没有线性关系;第四,因子变量具有明明解释性,可以最大限度地发挥专业分析的作用。,2019/6/10,34,二、因子分析模型,一般地,设X=(x1, x2, ,xp)为可观测的随机变量,且有F=(F1,F2,Fm)为公共(共性)因子(common factor),简称因子(factor),2019/6/10,35,e=(e1,e2,ep)为特殊因子(specific factor) f和e均为不可直接观测的随机变量 =(1,2,p)为总体x的均值 A=(aij)p*m为因子负荷(载荷)(factor lo
24、ading)矩阵,2019/6/10,36,2019/6/10,37,其中,表示两个因子,它对所有,是公有的因子,通常称为公共因子,它们的系数,表示第,个变量在第,个因子上的载荷。,表示第,个变量不能被前两个因子包括的部分,称为特殊因子,通常假定,高度相关的观测变量(不管是正相关还是负相关)很可能是受同样的因子影响,而相对来说相关程度不是很高的观测变量很可能是受不同的因子影响的。而因子必须尽可能多地解释变量方差,每个变量在每个因子上都有一个因子载荷,因子的意义需由看哪些变量在哪个因子上载荷最大来决定。通过寻找潜在公共因子,并合理解释因子的意义,我们就能揭示错综复杂的事物的内部结构。,2019/
25、6/10,38,通常先对x作标准化处理,使其均值为零,方差为这样就有假定()fi的均数为,方差为;()ei的均数为,方差为i;() fi与ei相互独立 则称x为具有m个公共因子的因子模型,2019/6/10,39,如果再满足()fi与fj相互独立(ij),则称该因子模型为正交因子模型。 正交因子模型具有如下特性: x的方差可表示为设,2019/6/10,40,()hi2是m个公共因子对第i个变量的贡献,称为第i个共同度(communality)或共性方差,公因子方差(common variance) ()i称为特殊方差(specific variance),是不能由公共因子解释的部分,2019
26、/6/10,41,因子载荷(负荷)aij是随机变量xi与公共因子fj的相关系数。 设称gj2为公共因子fj对x的“贡献”,是衡量公共因子fj重要性的一个指标。,2019/6/10,42,三、因子分析的步骤,输入原始数据xn*p,计算样本均值和方差,进行标准化计算(处理); 求样本相关系数矩阵R=(rij)p*p; 求相关系数矩阵的特征根i (1,2,p0)和相应的标准正交的特征向量li;,2019/6/10,43,确定公共因子数; 计算公共因子的共性方差hi2; 对载荷矩阵进行旋转,以求能更好地解释公共因子; 对公共因子作出专业性的解释。,因子得分。因子分析的数学模型是将变量表示为公共因子的线
27、性组合,由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量的线性组合,即因子得分。,2019/6/10,44,四、因子分析提取因子的方法,主成分法(principal component factor),2019/6/10,45,每一个公共因子的载荷系数之平方和等于对应的特征根,即该公共因子的方差。,2019/6/10,46,极大似然法(maximum likelihood factor) 假定原变量服从正态分布,公共因子和特殊因子也服从正态分布,构造因子负荷和特殊方差的似然函数,求其极大,得到唯一解。,2019
28、/6/10,47,主因子法(principal factor) 设原变量的相关矩阵为R=(rij),其逆矩阵为R-1=(rij)。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数,i=1/rii。则共同度的初始值为(hi)2=1- i=1-1/rii。,2019/6/10,48,以(hi)2代替相关矩阵中的对角线上的元素,得到约化相关矩阵。(h1)2 r12 r1pr21 (h2)2 r2pR= . . . . .rp1 rp2 (hp)2R的前m个特征根及其对应的单位化特征向量就是主因子解。,2019/6/10,49,迭代主因子法(iterated principal factor) 主
29、因子的解很不稳定。因此,常以估计的共同度为初始值,构造新的约化矩阵,再计算其特征根及其特征向量,并由此再估计因子负荷及其各变量的共同度和特殊方差,再由此新估计的共同度为初始值继续迭代,直到解稳定为止。,2019/6/10,50,Heywood现象 残差矩阵,2019/6/10,51,五、因子旋转,目的:使因子负荷两极分化,要么接近于0,要么接近于1。 常用的旋转方法:,2019/6/10,52,(1)方差最大正交旋转(varimax orthogonal rotation) 基本思想:使公共因子的相对负荷(lij/hi2)的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。 可使每个因
30、子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。,2019/6/10,53,(2)斜交旋转 (oblique rotation) 因子斜交旋转后,各因子负荷发生了较大变化,出现了两极分化。各因子间不再相互独立,而彼此相关。各因子对各变量的贡献的总和也发生了改变。 适用于大数据集的因子分析。,2019/6/10,54,六、因子得分,Thomson法,即回归法 回归法得分是由Bayes思想导出的,得到的因子得分是有偏的,但计算结果误差较小。,2019/6/10,55,Bartlett法 Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较
31、大。因子得分可用于模型诊断,也可用作进一步分析的原始资料。,2019/6/10,56,七、因子分析应用实例,2019/6/10,57,八、因子分析应用的注意事项,应用条件 (1)变量是计量的,能用线性相关系数(Pearson积叉相关系数)表示。 (2)总体的同质性,2019/6/10,58,样本量 没有估计公式。至少要保证样本相关系数稳定可靠。 因子数目 一般认为,累积贡献要达到80%以上。但要注意Heywood现象。,2019/6/10,59,基本思想使用,问题:假设我们要研究影响人们对生活满意度的潜在因子,为此对有关项目进行了问卷调查,其中各包括三项工作方面(WORK_1、 WORK_2、
32、 WORK_3)和家庭方面(HOME_1、 HOME_2、 HOME_3)的满意度调查。下表为对100人调查后所计算的相关系数矩阵。 Correlations (n=100),由表可以看出,3项工作满意调查项目之间具有较高的相关性,3项家庭满意调查项目之间也具有较高的相关性,而工作满意调查项目与家庭满意项目之间相关性则较低。假定可用变量间的相关性把它们分组。也即假设在一个特定组内的所用变量之间是高度相关的,而与不同组内的变量却有较小的相关性。于是可以想象,各组变量可以找到潜在的单一因子对观察到的相关负责。,2019/6/10,60,因而,上述相关性表明,一组变量存在一个潜在的因子“工作满意度”
33、,另一组变量对应另一潜在因子“家庭满意度”,且两因子相对独立。 对于问卷的回答显然有赖于所找到的两个潜在因子。而且,每一调查项目线性依赖于这两个潜在的因子,以及每一调查项目独有的特殊因子。据此,将这一分析推广至p个变量,存在m个潜在的公共因子,可建立以下数学模型:,矩阵形式为:,2019/6/10,61,且满足:,F=(F1,Fm)称为X的公共因子,A为因子载荷矩阵,aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。,2019/6/10,62,。因子载荷的估计方法要建立实际问题的因子模型,关键是要根据样本数据估计因子的载荷矩阵
34、,其中使用最为普遍的方法是主成分法。 设随机向量X的协差阵为, 为的特征根, 为对应的标准正交化特征向量,则根据线性代数知识可分解为:,当因子个数与变量个数一样多,特殊方差因子为0时,因子模型为:,2019/6/10,63,因子载荷矩阵A的第j列为 ,也就是说出常数外,第j列因子载荷恰是第j个主成分的系数uj,因此该方法成为主成分提取法。实际应用时通常根据因子的累积贡献率达于80%或85%以上,决定所取因子的个数。,2019/6/10,64,2019/6/10,65,2.正交因子模型中各个量的统计意义,2019/6/10,66,2019/6/10,67,2019/6/10,68,FACTOR(
35、因子分析) 过程简介,FACTOR过程用下列语句引用:PROC FACTOR 选择项;VAR 变量;PRIORS 方法;PARTIAL 变量表;FREQ 变量; WEIGHT 变量;BY 变量; 通常只有VAR语句必须跟随在PROC FACTOR语句后面,其余语句是可选择的。,2019/6/10,69,1.PROC FACTOR语句的选项,可用于PROC FACTOR语句的任选项主要有下列几项: DATA=SAS数据集给出输入数据集的名字,它可以是普通的SAS数据集或者是特殊结构的SAS数据集。 OUT=SAS数据集创建一个数据集,它包括来自DATA=的数据集中的全部数据,还包括被命名为FAC
36、TOR1,FACTOR2等变量的因子得分估计。,2019/6/10,70,2019/6/10,71,2019/6/10,72,2019/6/10,73,ROTATE=name|R=name给出旋转的方法。缺省时ROTATE=NONE。PROC FACTOR可以进行下面几种旋转的方法(即的有效值):VARIMAX(正交的方差最大旋转),ORTHOMAX(权数为GAMMA的正交方差最大旋转),EQUAMAX(正交的均方最大旋转),QUARTIMAX(正交的四次方最大旋转),PARSIMAX(正交的PARSIMAX旋转),PROMAX(规定斜交的PROMAX旋转),PROCRUSTES(斜交Proc
37、urstes旋转)等。 2.PRIORS语句 该语句对每个变量规定0.0和1.0之间的数值作为先验公因子方差的估计。第一个数值对应于VAR语句中的第一个变量,第二个值对应于第二个变量,等等。数值的个数必须等于变量的个数。,2019/6/10,74,6.3 范例,2019/6/10,75,2019/6/10,76,运行结果: Means and Standard Deviations from 12 observationsPOP SCHOOL EMPLOY SERVICES HOUSE Mean 6241.66667 11.4416667 2333.33333 120.833333 17000
38、 均值 Std Dev 3439.99427 1.78654483 1241.21153 114.927513 6367.53128 标准差Correlations相关矩阵POP SCHOOL EMPLOY SERVICES HOUSE POP 1.00000 0.00975 0.97245 0.43887 0.02241 SCHOOL 0.00975 1.00000 0.15428 0.69141 0.86307 EMPLOY 0.97245 0.15428 1.00000 0.51472 0.12193 SERVICES 0.43887 0.69141 0.51472 1.00000 0.
39、77765 HOUSE 0.02241 0.86307 0.12193 0.77765 1.00000Initial Factor Method: Principal Components主成份法的输出结果Prior Communality Estimates: ONE初始共性方差估计值 相关矩阵的特征值 Eigenvalues of the Correlation Matrix: Total = 5 Average = 1特征值总和5,平均特征值11 2 3 4 5 Eigenvalue 2.8733 1.7967 0.2148 0.0999 0.0153 各特征值 Difference 1
40、.0767 1.5818 0.1149 0.0847 各相邻特征值之差 Proportion 0.5747 0.3593 0.0430 0.0200 0.0031 被解释的方差的比例 Cumulative 0.5747 0.9340 0.9770 0.9969 1.0000被解释方差的累计比例2 factors will be retained by the MINEIGEN criterion. 确定因子的数目为2,2019/6/10,77,Factor Pattern 因子模式阵 FACTOR1 FACTOR2 POP 0.58096 0.80642 SCHOOL 0.76704 -0.5
41、4476 EMPLOY 0.67243 0.72605 SERVICES 0.93239 -0.10431 HOUSE 0.79116 -0.55818Variance explained by each factor 每个因子所解释的方差 FACTOR1 FACTOR2 2.873314 1.796660 总体最终共性方差估计 Final Communality Estimates: Total = 4.669974 POP SCHOOL EMPLOY SERVICES HOUSE 0.987826 0.885106 0.979306 0.880236 0.937500 每一各指标的最终共性
42、方差估计 Initial Factor Method: Principal Factors 主因子法 Prior Communality Estimates: SMC 先验共性方差估计 POP SCHOOL EMPLOY SERVICES HOUSE 0.968592 0.822285 0.969181 0.785724 0.847019,它们是用公因子预报原始变量的回归系数。第一主分量(因子)在所有五个变量上都有正的载荷,可见这个因子反应了城市规模的影响。第二主分量在人口、就业上有大的正载荷,在教育程度和住房价格上有大的负载荷,则第二个因子较大的城市人口多但是教育程度和住房价格低。,这里给出
43、了公因子对每一个原始变量的解释能力的量度,这是用原始变量对公因子的复相关系数平方(取0到1间值)来计算的。Communality Estimate是这些复相关系数平方的总和。因为每一个复相关系数平方都比较大,所以我们可以认为两个公因子可以很好地解释原始变量中的信息。但是我们得到的因子解释不够清楚,于是考虑用其它的因子分析方法。,2019/6/10,78,Eigenvalues of the Reduced Correlation Matrix:相关矩阵的特征值 Total = 4.39280116 Average = 0.87856023特征值总和5,平均特征值11 2 3 4 5 Eigen
44、value 2.7343 1.7161 0.0396 -0.0245 -0.0726 Difference 1.0182 1.6765 0.0641 0.0481 Proportion 0.6225 0.3907 0.0090 -0.0056 -0.0165 Cumulative 0.6225 1.0131 1.0221 1.0165 1.00002 factors will be retained by the PROPORTION criterion. Initial Factor Method: Principal Factors Factor Pattern FACTOR1 FACTO
45、R2 SERVICES 0.87899 -0.15847 HOUSE 0.74215 -0.57806 EMPLOY 0.71447 0.67936 SCHOOL 0.71370 -0.55515 POP 0.62533 0.76621Variance explained by each factor FACTOR1 FACTOR2 2.734301 1.716069,2019/6/10,79,主因子法计算简约了的相关阵的特征值(相当于 的估计),所以其特征值可能为负值。选取因子个数的缺省准则是PROPORTION=1,即累计特征值达到特征值总和的100%。这样取了两个因子。结果与主分量分析相似。为了得到好的因子解释,我们在上面的PROC FACTOR语句中再加上一个ROTATE=PROMAX旋转选项,这样将在得到主因子分析后先产生方差最大正交预旋转(VARIMAX )然后进行斜交旋转,并加了一个REORDER选项使输出时把原始变量受相同因子影响的放在一起:,