1、1多元数据处理-因子分析方法多元数据处理主要包括多元随机变量,协方差分析,趋势面分析,聚类分析,判别分析,主成分分析,因子分析,典型相关分析,回归分析以及各个分析方法的相互结合等等。本文主要针对其中的因子分析方法展开了论述,并举了一个因子分析法在我国房地产市场绩效评价中的应用实例。第一章 因子分析方法概述1.1 因子分析的涵义为了更全面和准确的测量和评估对象的特征,在实际的应用中,我们往往尽可能多的选用特征指标进行系统评估,选取的指标越多,就越能全面、客观的反映评价对象的特征。选取众多指标的同时也带来了统计分析的困难:一、不同的指标,不同重要程度需要赋予不同的权重,而靠主观的评价避免不了一些失
2、误与错误。二、收集到的指标之间可能存在较大的相关性,大量收集指标带来了人力、物力和财力的浪费。而因子分析方法则较好的解决了上述问题。因子分析 1是一种多元统计方法,该方法起源于 20 世纪初 Karl Pearson 和 Charles Spearman 等人关于心理测试的统计分析,它的核心是用最少的相互独立的因子反映原有变量的绝大部分信息。 2通过分析事物内部的因果关系来找出其主要矛盾,找出事物内在的基本规律。 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但是,这少数几个随机变量是不可观测的,通常称为因子。然后根
3、据相关性的大小把变量分组,使得同组内的变量之间相关性较高,使不同组内的变量相关性较低 3。对于所研究的问题就可试图用最少个数的所谓因子的线性函数与特殊因子之和来描述原来观测的每一变量 4。因子变量的特点:第一,因子变量的数量远小于原指标的数量,对因子变量的分析能够减少分析的工作量;第二,因子变量不是原有变量的简单取舍,而是对原2有变量的重新组构,他们能够反映原有变量的绝大部分信息,不会产生丢失;第三,因子变量之间线性相关性较低;第四,因子变量具有命名解释性 5。因子分析可以消除指标间的信息重叠,抽象出事物的本质属性,不仅可以综合评价,还可以综合分析对其产生影响的主要因素。1.2 因子分析统计模
4、型 设 p 个可以观测的指标为 , m 个不可观测的因子为123,pX,则因子分析模型描述如下: 6 7 123,mF112112 2212mppppaFaFX 其中:m0.9, 非常适合;0.9KMO0.8,适合;0.8KMO0.7,一般;0.7KMO0.6 ,不太适合;KMO0.5 不适合,故 KMO 检验通过。同时,相伴概率为 0.000,小于显著水平 0.05,表明 Bartlett 球形检验通过,所以本文所选的变量适合做因子分析。表 2-2 KMO 检验结果和 Barlett 球形检验结果62.5 指标相关性检验根据本文构建的房地产业市场绩效指标体系,借助于多元分析软件 SPSS,利
5、用我国 2007 年房地产业基础数据对我国房地产业市场绩效做出分析与评价。通过 SPSS 软件进行的相关性分析,得到 2007 年全国各省市房地产市场绩效评价指标的相关系数矩阵,如表 2-3表 2-3 Correlation Matrix(相关系数矩阵)7续上表通过以上相关系数矩阵的分析可以看出,各个房地产市场绩效指标之间有较大的相关性,如果单纯以一个指标来评价市场绩效指标就会存在不够准确甚至重迭。为了消除指标间的重迭,简化计算,可以采用因子分析的方法进行降维处理,把原来比较复杂的相关矩阵内部找出几个综合指标,使综合指标为原来变量的线性组合,利用相对较少的因子研究市场绩效。2.6 共同度分析根
6、据变量共同度的统计意义,它刻画了全部公共因子对于原始变量的总方差所作的贡献,它说明了全部公共因子反映出原变量信息的百分比 11。如下表 2-4 所示8的变量共同度可知,除了 X13 企业所有者权益、X14 从业人数、X15 房屋销售价格、X16 商品房空置面积、的共同度为 0.880、0.878、 0.877、0.705,其余变量的共同度都在 90%以上,因此这四个公共因子对各变量的解释能力是比较强的。采用因子分析房地产市场绩效的效果是比较好的。表 2-4 共同性公因子方差2.7 公共因子分析因子载荷是公共因子与指标变量之间的相关系数,载荷越大,说明公共因子与指标变量之间的关系越密切。在确定公
7、共因子个数时,先选择与原变量数目相等的因子个数,其因子计算结果见下表 2-5。取初始特征矩阵大于 1 的因子为公共因子。经过总方差分解,可以明显看出有二个因子旋转后特征值大于 1,它们的方差贡献率分别为 50.574%、41.199%,累计贡献率为 91.772%。当累积贡献率达到 85%以上,9因此完全可以采用这二个因子概况原始数据对全国 31 个省市的房地产市场绩效做出评价是合适的。表 2-5 总方差分解从未转轴的因素矩阵(见下表 2-6)可以看出,结果并不非常令人满意,有 2 个因素被抽取,所以本文采用方差最大化正交旋转方法对因子进行了旋转,得到了因子载荷矩阵,进而更清楚地观察样本。从旋
8、转后的因素矩阵(见下表 2-7)可以看出:(1)X4 本年购置土地面积、X6 新开工面积、X10 商品房销售套数、X9 商品房销售面积、X7 商品房屋竣工面积、X5 房屋施工面积、X1 企业个数、X14 从业人数、X2 本年完成投资额、X16 商品房空置面积为第一主因子,他们的载荷值分别为:0.959、0.948、0.926、0.894、0.848、0.835、0.802、0.781、0.728、0.630;这些指标都是从一个方面反映关于房地产开发销售方面的情况,故可以命名此公共因子 F1 为:房地产市场开发销售。表 2-6 未旋转因素矩阵表 2-7 转轴因素矩阵10(2)X15 房屋销售价格
9、、X13 企业所有者权益、X11 企业利润总额、X12 企业经营收入、X8 商品房销售额、X3 本年资金来源合计为第二因子,他们的载荷值分别为:0.935、0.908、0.874、 、0.872、0.816、0.796;这些指标都是在一定程度上能够反映房地产企业的经济效益,故可以命名此公共因子 F2 为:房地产企业综合效益水平。2.8 计算因子得分计算分析及结果表 2-8 为因子得分系数矩阵,根据因子得分系数和原始变量的值可以计算出每个观测值的各因子的分数,并可以据此对观测值进行下一步的分析。旋转后的因子得分表达式与计算结果如下:表 2-8 2007 年各因子得分系数矩阵由估计出的因子的得分,
10、可以描述我国各省市绩效水平,利用因子得分可以从不同的角度对我国各省市房地产市场绩效水平进行比较分析。为了对我国各省市房地产业市场绩效进行评价,现利用各省市因子得分表计算综合得分,各省市房地产市场绩效的获取是基于总方差分解表中旋转后各因子的方差贡献率及计算所得的上市公司各因得分所得,其具体计算公式为:11综合绩效=( 50.574%F1+41.199%F2)/91.772%。详细情况见表 2-9。表 2-9 2007 年 31 个省(市)各因子得分及排名12为了更直观的观察,本文也给出了样本城市因子的柱状图,如下图 2-1,由表 2-9 可以看出 2007 年北京、上海在房地产市场开发因子 F1
11、 得分仅-0.541、-0.8737 ,在31 个省市自治区排名分别为 21、26;而在房地产企业综合绩效 F2 得分为2.6789、3.4528,排名为第二、第一。江苏、广东在因子 F1 得分分别为:2.5437、1.6465,排名第一、第三;在因子 F2 得分为:0.3358、2.0979,排名第六、第三。江苏、广东在因子 F1、F2 得分均靠前。图 2-1 2007 年各省市因子得分使用同样的方法我们也给出了 2008 年及 2009 年各省市因子得分及排名情况。如表 2-10 和 2-11 所示。通过表 2-9、2-10 、2-11 的分析可知,广东、江苏、浙江三省份在因子 F1 房地
12、13产市场开发销售、F2 房地产企业综合效益得分均较高,发展相对平衡,总的绩效水平高。而其他各省市都有某一个因子或两个得分相对较低,即所谓的“短板” ,发展不平衡影响了其总的绩效水平。由表 2-12 可以看出,2007-2009 三年内北京综合绩效得分排名从第五下降到第八,上海从第三下降到第七,市场绩效没有得到提高,房地产发展存在一定问题;江苏从 2007 年的第二到 2009 年的第一,山东从 2007 年的第六到 2009 年第三,绩效持续提高。西藏、陕西、甘肃、青海、宁夏、新疆等省市排名一直靠后,绩效水平没有得到提高。14表 2-10 2008 年 31 个省(市)各因子得分及排名15表
13、 2-11 2009 年 31 个省(市)各因子得分及排名16表 2-12 2007-2009 年 31 个省(市)综合得分及排名2.9 房地产市场绩效综合评价实证结果分析2.9.1 房地产市场绩效的综合得分分析通过因子分析法得到 31 个省(市)房地产市场绩效的 2 项因子得分及综合得分,按照综合得分从高到低排名如表 2-12 所示。综合得分越高,表明其市场绩效水平越好。综合得分为零或者负值,并不代表其绩效水平为负,这里仅是将各省市的平均绩效水平作为零点。根据综合得分可以给我国各省市绩效水平层次分类,分为四类,17见表 2-13。我国房地产市场绩效跟经济水平有很大关系,沿海东部省市绩效水平靠
14、前,经济发展落后的西部地区绩效水平相对较差。表 2-13 我国各省市绩效水平层次分类2.9.2 各省市房地产绩效的主因子得分分析房地产市场开发销售因子 F1 反映了一个省市在房地产市场的开发、投入、销售等方面的水平。方差贡献率最大。2007 年为 50.574%、2008 年为 55.895%、2009 年为 54.716%。根据 2007-2009 三年来因子 F1 得分可以把我国 31 个省市分为四个层次。如表2-14 所示表 2-14 我国各省市因子 F1 层次分类根据 2007-2009 三年来因子 F2 得分可以把我国 31 个省市分为三个层次。如表2-15 所示。因子 F2 大部分
15、城市没有达到平均水平,都处于相对落后的水平,这跟当地的房地产企业发展水平有很大的关系。北京、上海为国际化大都市,房地产企业众多,房地产综合效益水平较高,此两个直辖市房地产业综合效益要比其他地区有优势,18房地产企业 经营收入、销售利润更多、房地产企业发展更快。而中部及西部落后城市,经济发展较为缓慢,房地产企业较少,企业综合效益水平低。导致得分相对较低。表 2-15 我国各省市因子 F2 层次分类参考文献1 晓群, 统计学. 现代统计分析方法与应用M. 中国人民大学出版社, 1998. 2 张丽. 基于因子分析法的基金综合绩效评价研究 D. 中南大学, 2007. 3 李斌, 蒋涛, 吴俊芳,
16、等. 房地产行业上市公司绩效评价的实证研究J. 特区经济, 2007 (3): 122-123. 4 陆璇. 实用多元统计分析J. 2001. 5 薛微. 统计分析与 SPSS 的应用J. 北京: 中国人民大学出版社, 2001: 234-256. 6 Anderson T W. An Introduction To Multivariate Stsisical AnalysisJ. 1954. 7 张斌, 府亚军. 我国房地产上市公司经营业绩实证研究J. 北京机械工业学院学报, 2006, 20(3): 62-66. 8 Harva M, Kabn A. Variational learning for rectified factor analysisJ. Signal Processing, 2007, 87(3): 509-527. 9 余有贤. 我国地方政府绩效评估指标体系构建与实际测评D. 浙江大学, 2005.10 王家远, 袁红平. 基于因子分析法的建筑业综合评价J. 深圳大学学报: 理工版, 2007, 24(4): 373-378.11 周刚, 孙尧, 许远明. 我国房地产业市场结构探析J. 重庆建筑大学学报 (社科版), 2001, 3.