1、目 录一 摘要 .2二 基本介绍 .22.1、因子分析模型 2三 数据预处理 .3四 计算结果及分析 .34.1、用“主成分法 ”求因子载荷阵 34.2、因子旋转 64.3、结果分析 8参考文献 .11附录 .121一 摘要本文选出 2007 年分地区城镇住户 31 个省的情况作为统计分析数据,其中分析的项目为:城镇居民家庭人均可支配收入(元);城镇居民家庭人均可支配收入指数( 上年 =100);城镇居民平均每人全年总收入(元);城镇居民家庭平均每人全年消费性支出(元) ;城镇居民家庭恩格尔系数(% 。依次用F2,F3,F4,F5,F6 表示。随着我国经济改革的深入, 城镇居民的收入不断提高,
2、 生活消费随之增加。但由于各地区经济发展不平衡, 消费差距较大。要了解、比较各地区居民生活消费的特点和差距, 只是将各种生活消费金额简单相加是难以实现的, 况且各消费指标间还潜在着较强的相关性。因此根据收集到的实际数据依据因子分析的原理步骤提取初始主因子,然后进行因子旋转,通过旋转后的因子载荷矩阵、三个因子得分及总因子得分对城镇的生活状况进行分析。从而更清楚地了解、比较各地区居民的消费水平。从以上结论分析可以知道影响分地区城镇住户主要指标,从而可以更好地帮助国家调整相关因素,使城镇地区的发展水平更加优越。关键字:SAS 软件 因子分析 相关系数矩阵 相关系数矩阵的特征值 二 基本介绍2.1 因
3、子分析模型设有 N 个样品( 地区),每个样品有 P 个指标: 12XP, , , ;综合指标记为: 12mFp, , , ( ) 它们是 12X, , , 的线性组合 ,称为公共因子或综合因子,在经济过程中起支配作用,代表经济效益的主要方面。组合模型为:(1)11212 2m12mPPaaFXX 模型(1) 要求满足 :1、 ,其中 表示第个单项指标权22(,)kkpa kj=1,2a( , , )数。由权数的大小来决定 的经济意义。kF2、 和 互不相关。iF(,1,2)jijm3、 是 12XP, , , 的一切线性组合中方差最大的; 是与 不相关的2F112, , ,的一切线性组合中方
4、差最大的, 与 都不相关mm, , ,2的 12XP, , , 的一切线性组合中方差最大者。这样决定了综合因子分别称为原变量的一,第二,第 m 主成分, 在总方差中占的比mF, , , 1F重最大,其余递减。我们在实际评价经济效益时,挑选前几个方差较大的综合因子.就可反映出单项指标的最大信息量。这样既减少了指标数目又抓住了主要矛盾,简化了因子间的关系。而原指标向量 X( 12XP, , , ) 的协方差阵的特征根入就是综合因子凡的方差。一般第 个综合因子保持原始数据总信息量的比重为i。通常要求所选综合因子 m 个应保持原始数据总信息i1k=(,2)P量的 85%以上,即 一般当 m= 3 就使
5、信息总量ik85%i=1,2P)( , , ;达到 85%以上。三 数据预处理1、将数据导入逻辑库 sasuser,由定义数据集名为 class。2、建立的数据集表中数据已经存放在数据集 sasuser.class 中四 计算结果及分析4.1. 用“主成分法 ”求因子载荷阵1) 在 INSIGHT 模块中打开数据集 sasuser.class;选择菜单“Analyze” “Multivariate(Y,X)(多元分析) ”,打开“Multivariate(Y X)”对话框。如图 4-1 所示。3图 4-12)将做主成分分析的变量 F2-F6 的变量类型改为区间型,如图 4-2 所示。图 4-2
6、4) 将 F2F6 选为 Y 变量,将变量 _COL0 选为 Label 变量,如图 4-3 所示。图 4-345) 单击“Output”按钮,在打开的对话框(图 4-4 左)中选中“Principal Component Analysis(主成分分析) ”复选框,单击下面的“Principal Component Options(主成分选项) ”按钮,打开“Principal Component Options”对话框,在最左边一栏的选项按钮中选择“All”,并确认“Correlations(Structure)(相关(结构)) ”复选框被选中(默认状态) ,如图 4-4 右,3 次单击“O
7、K”按钮,输出结果。图 4-4 因子分析选项对话框输出结果包括 5 个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及因子载荷阵等。其中相关系数阵、特征值及其特征向量等如图 4-5 所示。图 4-5 相关系数阵、特征值及其特征向量5图 4-5 中显示,前 2 个特征值的方差贡献率依次为:0.6414、0.2391,前 2 个特征值的累积贡献率已达 88.05%,故取前 2 个因子可以解释原始变量信息的 88.05%。 *10.54.30.54.50.6PCRFFF286972164+29对于第一主成分而言,F2、F4、F5 的各变量所占比重均在 0.5 以上,因此第一主成分主要由 F2
8、、F4、F5 等 3 个变量解释;而第二主成分则主要由F3、F6 这两个变量解释。回到 insight 的数据窗口,可以看到前两个主成分的得分情况,如图 4-6所示。图 4-64.2. 因子旋转重新回到 INSIGHT 的数据窗口,选择菜单“Analyze”“Multivariate(Y X)(多元分析) ”,打开“Multivariate(Y X)”对话框,将变量 F2F6 选为 Y 变量。单击“Method” 按钮,在打开的对话框(图 4-7)中单击 “Rotation Options”按钮,打开“Rotation Options”对话框,对话框中列出 5 种旋转方法:6图 4-7 多元分
9、析对话框 图 4-8 选择因子旋转方法Equamax,均衡法;Orthomax,正交旋转法;Parsimax,正交 parsimax 旋转法;Quartimax,最大四分位法,可减少因子个数且简化变量;Varimax,最大方差法。可以通过尝试,选择最佳方案。本例选择旋转方式为“Quartimax(最大四分位法) ”,并确认 “Components”的值为 3,如图 4-8 所示。单击“OK”按钮返回。然后,单击“Output”按钮,在打开的对话框中单击“Principal Component Analysis(主成分分析) ”复选框下面的 “Principal Component Option
10、s(主成分选项) ”按钮,打开 “PrincipalComponent Options”对话框。选中“Component Rotation(因子旋转) ”复选框(图 4-9 左) ,单击“Rotation Options”按钮,打开“Rotation Options”对话框,增加选中 “Output Component Scores”复选框和“Communality Estimates”复选框如图 4-9 右所示。单击“OK”按钮返回。7图 4-9 设置因子旋转三次单击“OK”按钮,再次得到分析结果。结果包括正交旋转矩阵(Orthogonal Rotation Matrix) (图 4-10
11、左) 、旋转后的因子载荷阵(Rotation Correlations (Structure)) (图 4-10 ) ,以及各变量的共同度(图 4-11) 。图 4-10 正交旋转矩阵以及旋转后的因子载荷阵(最大四分位法)图 4-11 各变量的共同度4.3 结果分析从旋转后的因子模型(即因子载荷阵)中可以看出,相对于旋转前的因子模型,第一个公因子在 F2、F4 、F5 等 3 个指标上的载荷仍然保持主导地位,而其他 2 个指标则明显下降,反映了消费主体需求水平,因此,可定义为主体因子;公因子 2 在 F3 和 F6 的载荷较大,在其他指标上的载荷都较小。由于各因子是不相关的,所以可以认为第二个
12、公因子是在第一个公因子大致相同时区分在城镇居民家庭人均可支配收入指数(上年=100)和城镇居民家庭恩格尔系数(%)上的因子,因而可以认为第二个公因子反映消费力质量水平,因此,可定义为质量因子。8回到 INSIGHT 数据窗口,可以看到旋转后的各因子得分。用鼠标单击左上角的三角箭头,在弹出的菜单中选择“Extract”,打开“Extract” 对话框,按下“Ctrl”键,用鼠标选定 _COL0、RT1_1 和 RT2_1,如图 4-12 左所示,单击“OK”按钮,得到只包含编号及旋转后因子得分的数据子集如图 4-12 右。图 4-12 因子得分导出数据,用 excel 对因子得分进行排名如下表:
13、地区 RT1_1 排名 RT2_1 排名 总分 排名上海市 3.06806 1 0.410616 9 3.478676 1贵州省 -0.70564 27 3.714092 1 3.008448 2江苏省 0.807633 6 1.697359 2 2.504992 3浙江省 1.968566 3 -0.26635 18 1.70222 4北京市 2.386936 2 -0.79075 26 1.596182 5山东省 0.238682 8 0.88947 4 1.128152 6福建省 0.60646 7 0.251311 12 0.857771 7安徽省 -0.38242 16 1.1983
14、43 3 0.815926 8广东省 1.415938 4 -1.10367 29 0.312263 9西藏自治区 -0.1905 12 0.485907 7 0.295403 10天津市 0.920276 5 -0.76924 25 0.151041 11四川省 -0.40483 17 0.554496 6 0.149662 12宁夏回族自治区 -0.62503 25 0.715628 5 0.090601 13湖北省 -0.35763 15 0.306086 11 -0.05154 14河南省 -0.58895 24 0.388745 10 -0.2002 15湖南省 -0.24862 1
15、3 -0.09366 14 -0.34228 16青海省 -0.87311 29 0.442983 8 -0.43012 17海南省 -0.47198 19 -0.05499 13 -0.52697 18广西壮族自治区 -0.13052 10 -0.41387 22 -0.54439 19江西省 -0.41341 18 -0.26337 17 -0.67678 20山西省 -0.55039 21 -0.16987 15 -0.72026 219陕西省 -0.62624 26 -0.22862 16 -0.85486 22河北省 -0.56578 23 -0.2982 19 -0.86398 2
16、3重庆市 -0.25724 14 -0.68649 23 -0.94373 24辽宁省 -0.07151 9 -0.92924 28 -1.00075 25新疆维吾尔自治区 -0.75555 28 -0.36982 21 -1.12536 26云南省 -0.51646 20 -0.76212 24 -1.27858 27甘肃省 -0.93736 30 -0.36444 20 -1.30179 28吉林省 -0.56421 22 -0.80601 27 -1.37022 29内蒙古自治区 -0.18183 11 -1.37837 31 -1.5602 30黑龙江省 -0.99335 31 -1.
17、30596 30 -2.29931 31从上表可以看出: 1)从省市、自治区本身来看,信息消费力内部发展不协调 。如:贵州虽然在质量因子上得到了最高得分,但在主体因子得到了较低分。在 31 个省市、 自治区 中,只有 4 个省市的 2 个 主因子得分全为正数 ,其余 27 个省市、自治区的 2 个因子得分至少有 1 个主因子得分为负,进一步说明了信息消费力内部发展不协调。其中 2 个主因子得分都为负分数的占大多数, 应引起政府的高度重视。2)从综合得分来看,我国各地区的得分水平差距不大,反映了整体信息消费力较为协调 。贵州虽然综合排名第一 ,但在主体因子上得分排名却靠后,这缩小了其他城市与它的
18、整体信息消费力的差距 ,说明主体因子在我国城镇居民信息消费力评价中起了决定作用。10参考文献1汪远征,徐雅静.SAS 软件与统计应用教程.机械工业出版社.20122黄燕.SAS 统计分析及应用.机械工业出版社.20063何宁.统计分析系统 SAS.武汉大学出版社.200511附录2007 年分地区城镇住户主要指标(摘要版)指标城镇居民家庭人均可支配收入(元)城镇居民家庭人均可支配收入指数(上年=100)城镇居民平均每人全年总收入(元)城镇居民家庭平均每人全年消费性支出(元)城镇居民家庭恩格尔系数 (%)按地区分北京市 21988.71 107.5 24576.47 15330.44 32.2天
19、津市 16357.35 109.9 17828.15 12028.88 35.3河北省 11690.47 108.7 12335.96 8234.97 33.9山西省 11564.95 110.7 12468.41 8101.84 32.1内蒙古自治区 12377.84 114.6 12977.07 9281.46 30.4辽宁省 12300.39 113.4 13438.43 9429.73 37.8吉林省 11285.52 110.6 11798.58 8560.3 33.2黑龙江省 10245.28 105.9 10882.21 7519.28 35.0上海市 23622.73 110.
20、8 26101.54 17255.38 35.5江苏省 16378.01 111.8 17686.48 10715.15 36.7浙江省 20573.82 108.4 22583.83 14091.19 34.7安徽省 11473.58 111.5 12499.55 8531.9 39.7福建省 15505.42 107.3 16983.26 11055.13 38.9江西省 11451.69 114.9 11984 7810.73 40.9山东省 14264.7 112.7 15366.26 9666.61 32.9河南省 11477.05 111.0 12082.99 7826.72 34
21、.6湖北省 11485.8 111.9 12382.93 8701.18 39.7湖南省 12293.54 111.3 12997.91 8990.72 36.1广东省 17699.3 106.5 19618.89 14336.87 35.3广西壮族自治区 12200.44 116.7 13182.57 8151.26 41.7海南省 10996.87 111.9 11792.05 8292.89 42.8重庆市 12590.78 103.9 13441.17 9890.31 37.2四川省 11098.28 112.1 12009.81 8691.99 41.2贵州省 10678.4 110
22、.6 11066.43 7758.69 40.2云南省 11496.11 107.8 12296.42 7921.83 45.0西藏自治区 11130.93 120.9 11951.67 7532.07 50.9陕西省 10763.34 110.4 11482.13 8427.06 36.4甘肃省 10012.34 106.7 10859.69 7875.78 35.9青海省 10276.06 107.4 11428.29 7512.39 37.3宁夏回族自治区 10859.33 112.5 11793.08 7817.28 35.3新疆维吾尔自治区 10313.44 111.1 11302.99 7874.27 35.1