1、实验 十一(因子分析) 报告 一、数据来源 各地区年平均收入 .sav 二、基本结果 ( 1)考察原有变量是否适合进行因子分析 首先考察原有变量之间是否存在线性关系,是否采用因子分析提取因子。借助变量的相关系数矩阵、反映像相关矩阵、巴特利球度检验和 KMO 检验方法进行分析,结果如表 1、表 2 所示: 表 1 原有变量相关系数矩阵 correlation matrix 表 1 显示原有变量的相关系数矩阵,可以看出大部分的相关系数都比较高,各变量呈较强的线性关系,能够从中提取公共因子,适合 进行因子分析。 表 2 KMO and Bartletts Test 由表 2 可知,巴特利特球度检验统
2、计量观测值为 182.913, p 值接近 0,显著性差异,可以认为相关系数矩阵与单位阵有显著差异,同时 KMO 值为0.882,根据 Kaiser 给出的 KMO 度量标准可知原有变量适合进行因子分析。 ( 2)提取因子 进行尝试性分析:根据原有变量的相关系数矩阵,采用主成分分析法提取因子并选取大于 1 的特征值。具体结果见表 3:可知, initial 一列是因子分析初始解下的共同度,表明如果对原有 7 个变量采用主成分分析法提取所有特 征值,那么原有变量的所有方差都可以被解释,变量的共同度均为 1。事实上,因子个数小于原有变量的个数才是因子分析的目的,所以不可以提取全部特征值。第二列表明
3、港澳台经济单位、集体经济单位以及外商投资经济单位等变量的绝大部分信息(大于 83%)可被因子解释 。但联营经济、其他经济丢失较为严重。因此,本次因子提取的总体效果不理想。 表 3 因子分析中的变量共同度 (一) 重新制定提取特征值的标准,指定提取 2 个因子,分析表 4:可以看出,此时所有变量的共同度均较高,各个变量的信息丢失较少。因此,本次因子提取的总体效果比较理想 。 表 4 因子分析的变量共同度(二) 表 5 中,第一列是因子编号,以后三列组成一组,每组中数据项为特征值、方差贡献率、累计方差贡献率。第一组数据项( 2-4 列)描述因子分析初始解的情况。在初始解中由于提取了 7 个因子,因
4、此原有变量的总方差均被解释,累计方差贡献率为 100%。 第二组( 5-7 列) 描述了因子解的情况。由于指定提取 2 个因子, 2 个因子共解释原有变量宗法差的 84%,总体上丢失原有信息量较少,因子分析效果理想。 第三组( 8-10 列)描述了最终因子解的情况。因子旋转后,总的累计方差贡献率没有发生改变,也就 是没有影响原有变量的共同度,但却重新分配了各个因子的解释原有变量的方差,改变了各因子方差贡献,使得因子更易被解释。 表 5 因子解释原有变量总方差的情况 图 1 中,横坐标为因子数目,纵坐标为特征值。可以看出,第 1 个因子特征值很高,对解释原有变量的贡献最大,第 3 个以后的因子特
5、征值都较小,对解释原有变量的贡献很小。因此提取两个因子是合适的。 图 1 因子的碎石图 表 6 显示了因子载荷矩阵,是因子分析的核心内容。根据表 6 可以写出因子分析模型: 港澳台经济单位 =0.955f1-0.095f2 集体经济单位 =0.923f1+0.057f2 外商投资经济单位 =0.911f1-0.159f2 股份制经济单位 =0.886f1+0.176f2 国有经济单位 =0.872f1+0.086f2 联营经济单位 =0.774f1+0.462f2 其他经济单位 =0.770f1-0.527f2 由表 6 知, 7 个变量在第 1 个因子上的载荷都很高,意味着它们与第 1 个因
6、子的相关度较高,第 1 个因子很重要。第 2 个因子与原有变量相关性较小,它对原有变量解释力较弱。另外可看出,这两个因子实际意义较模糊。 表 6 因子载荷矩阵 ( 3)因子的命名解释 采用方差极大法对因子载荷矩阵实行正交旋转以使因子具有命名解释性。制定按第一因子载荷降序的顺序输出旋转后的因子载荷,并绘制旋转后的因子载荷矩阵图。由表 7 可知,联营经济单位、股份制经济单位、集体经济单位与国有经济单位在第一个因子里具有较高的载荷,可以解释为内部投资经济单位;而剩下的在第 2 个因子里具有较高的载荷,可以将第 2 个因子解释为外部投资经济单位。 表 7 旋转后的因子载荷矩阵 表 8 显示了两因子的协
7、方差矩阵,可以看出两因子没有线性相关性,实现了因子分析的设计目标。 表 8 因子协方差矩阵 由图 2 可以看出, 联营经济单位( X3)、其他经济单位( X7)比较靠近两个因子坐标轴,表明如果分别用第 1 个因子刻画联营经济单位。用第 2 个因子刻画其他经济单位,信息丢失较少,效果较好。但如果只用一个因子分别刻画其他变量,则效果不太理想。 图 2 旋转后的因子载荷图 ( 4)计算因子得分 采用回归法估计因子得分系数,并输出因子得分系数。显示结果在下表: 表 9 因子得分系数矩阵 根据表中数据,可以写出以下因子分析得分函数: F1=0.223 国有 +0.196 集体 +0.656 联营 +0.
8、331 股份 -0.062 外商 +0.020 港澳台 -0.519 其他 F2=-0.002 国有 +0.042 集体 -0.504 联营 -0.117 股份 +0.322 外商 +0.244 港澳台 +0.784 其他 由此可见,计算两个因子得分变量的变量值,联营经济单位和其他经济单位的权重较高,但方向相反,这与因子的实际含义是相吻合的。另外,因子得分的均值为 0,标准差为 1。正值表示高于平均水平,负值低于平均水平。 ( 5)各省市自治区的综合 可利用两因子得分变量对地区进行对比研究。首先,绘制散点图:图 3 各地区两因子得分变量的散点图 观察图 3 可知, 1 号样本(北京), 9 号
9、样本(上海)以 及 19 号样本(广东)是较为特殊的点,其他相似。北京的第 2 因子得分最高,表明外来投资经济单位的人均年收入远远高于其他省,第 1 因子得分居平均值,表明内部投资经济单位的人均年收入与其他地区差异不大。上海两因子得分均偏高,总体上上海的人均年收入是较高的。广东第 1 因子得分最高,说明内部投资经济单位的人均年收入远高于其他省市,第 2 因子得分偏低,说明外来投资经济单位的人均年收入与其他地区不明显。 三、结论: 对各地区人均年收入进行综合评价。采用计算因子加权总分的方法,其中权重的确定是关键。从单纯的数量上考虑,以两个因子的 贡献率为权数,计算公式为: F=0.435F1+0
10、.429F2 人均年收入较高的省市自治区有北京、上海、广东、浙江、天津、福建、江苏。他们多属于经济文化中心或东南沿海地区。人均年收入较低的省市区有内蒙古、山西、黑龙江、青海等,它们多为内陆或西北边缘地区。 四、建议与对策 一般进行因子分析时,探索性分析很关键,当多个变量信息丢失的情况较严重时,应该重新指定提取特征值的标准。直到结果显示因子提取的总体效果理想时,方可进行其下工作。 另外,对于因子个数的选择很重要,通过碎石图,可以比较清晰的看出因子的选择在多少个是合 适的。本实验中,极大方差旋转前,因子 2 解释较弱,两因子区别较模糊,而通过发差极大法对因子载荷矩阵实行正交旋转以后可以使因子具有命名解释性。