1、各地区各行业工资水平 的分析 (2009年 数据 ) 小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍 1. 研究背景及意义 1.1 研究背景 工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展 的水平。 1.2 研究意义 1. 通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。 2. 将平均工资水平划分为 3 类, 分析哪些地区、哪些行业的工资 水平 较高,可以为大学生就业提供宏观上的方向指引。 2. 数据来源与描述 2.1 数据来源 中
2、国劳动统计年鉴 2010 ( URL: http:/ 主编单位: 国家统计局人口和就业统计司 , 人力资源和社会保障部 规划财务司 出版社: 中国统计出版社 简介: 中国劳动统计年鉴 2010是一部全面反映中华人民共和国劳动经济情况的资料性年刊。本刊收集了 2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统计数据。 本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。 2.2 数据描述 本数据 集 记录了全国 31个省市(港、澳、台除外)的工资状况,各省市分别记录了其 23个主要行业的平均工资水平,这 23个主要行业包括 :企 业、事业、机关、 金融
3、业、制造业、建筑业、房地产业、农林牧渔业等等 , 具体数据格式参见图 -0。 图 -0 3. 分析方法及原理 3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高 描述统计分析方法主要是从基本统计量(诸如均值、方差、标准差、极大 /小值 、偏度、峰度 等)的计算和描述开始的, 并辅助于 SPSS 提供的 图形功能,能够把握数据的基本特征和整体的分布特征。 在本案例中,通过比较不同行业(诸如企业、事业、机关、建筑业、制造业)工资的均值 、极大 /小值 ,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。 3.2 通过聚类分析 方法 ,判断哪些地区平均工资水平较高 聚类分析是依据研
4、究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等 领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。 在本案例中,我们 将 采用两种方法进行聚类分析:一种是系统聚类法,另一种是 K-均值法(快速聚类法) 。 3.2.1 系统聚类法 系统聚类法的基本 原理:首先将一定数量的样 本 或指标各自看成一类,然后根据样 本 (或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合
5、并。重复这一 过程,直到将所有的样 本 (或指标)合并为一类。 系统聚类分为 Q 型聚类和 R 型聚类两种: Q 型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来; R 型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。 在本例中进行的是 Q 型聚类。 类与类之间距离的计算方法主要有以下几种: ( 1) 最短距离 法 ( Nearest Neighbor) ,是指两类之间每个个体 距离 的最小值; ( 2) 最长距离法( Farthest
6、Neighbor),是指 两类之间 每个个体 距离 的最大值; ( 3) 组间联接法( Between-groups Linkage),是指 两类之间个体之间距离的平均值; ( 4) 组内联接( Within-groups Linkage), 是指把两类所有个体之间的距离都考虑在内; ( 5) 重心距离法( Centroid clustering),是指两个类中心点之间的距离; ( 6) 离差平方和法( Ward 法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。 3.2.2 K-均值法(快速聚类法) K-均值法( 又称 快速聚类法) ,是由 MacQueen 于 1967
7、年提出的,它将数据看成 K 维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法 只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。 快速聚类 分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。 因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在 聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。 4. 实验操作与结果分析 4.1 描述统计分析方
8、法 在数据编辑 窗口的主菜单中选择“分析 (A)” “描述统计” “描述性分析 (D)” ( 如 图 -1) , 图 -1 打开如下对话框, 将 左侧框中的 所有 变量选入右侧框中,如图 -2所示,单击“选项 (O)”按钮, 图 -2 在“选项”对话框中选择所需要分析的统计量,包括均值、标准差、极大值、极小值 ,如图 -3所示 。 图 -3 点击“确定” 按钮之后 ,分析结果如下表 -1所示: 表 -1 描述统计量 N 极小值 极大值 均值 标准差 企业 31 22000 62046 30869.10 8680.069 非农企业 31 24788 62098 31787.84 8385.740
9、 事业 31 25021 68371 35282.77 11732.956 机关 31 26668 74734 39085.10 13350.591 农 _林 _牧 _渔业 31 8841 45925 19413.84 7964.071 采矿业 31 22846 66138 38030.74 11461.961 制造业 31 21242 48207 26453.74 5509.114 电力 _燃气及水的生产和供应业 31 29605 86262 44113.10 14812.450 建筑业 31 16583 69131 25769.23 10063.993 交通运输 _仓储和邮政业 31 25
10、797 56955 35202.77 7353.178 信息传输 _计算机服务和软件业 31 22347 105413 47303.87 18924.379 批发和零售业 31 16263 60260 26534.19 9705.925 住宿和餐饮业 31 13577 38040 19263.71 5071.244 金融业 31 31466 180816 62972.65 32341.917 房地产业 31 15993 57052 28447.45 8900.469 租赁和商务服务业 31 17671 57585 26310.61 9099.037 科学研究 _技术服务和地质勘查业 31 26
11、465 81358 43211.35 14388.981 水利 _环境和公共设施管理业 31 15977 49251 24446.45 7464.077 居民服务和其他服务业 31 16257 53696 25369.58 7297.780 教育 31 26578 66960 36765.42 10879.537 卫生 _社会保障和社会福利业 31 22556 73544 36058.87 12136.386 文化体育和娱乐业 31 22649 71034 35008.90 12451.214 公共管理和社会组织 31 25577 69425 38001.94 12356.391 有效的 N
12、(列表状态) 31 输出结果分析 : 分析 描述统计量的输出结果可知 ,平均工资水平较高的三个行业分别是金融业( 62972.65 元),信息传输 _计算机服务和软件业 ( 47303.87 元), 电力 _燃气及水的生产和供应业 ( 44113.10 元) ; 平均工资水平较低的三个行业分别是 住宿和餐饮业 ( 19263.71 元), 农 _林 _牧 _渔业 ( 19413.84 元),水利 _环境和公共设施管理业 ( 24446.45 元)。从极大值和极小值方面分析,在所有行业中,极大值最大的行业是金融业( 180816 元) ,极小值最小的 行业是 农 _林 _牧 _渔业 ( 8841
13、 元)。 4.2 聚类分析 系统聚类法 在数据编辑 窗口的主菜单中选择“分析 (A)” “分类 (F)” “系统聚类 (H)” (如图 -4所示) , 图 -4 弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案 (C)”中,将其他变量选入“变量框”中,如 图 -5 所示。在“分群”单选框中选中“个案”,表示进行的是 Q 型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。 图 -5 单击“统计量 (S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如图 -6 所示,表示输出结果将包括这两项内容。 图 -6 单击“绘制 (T)”
14、按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如图 -7所示,表示输出的结果将包括 谱系聚类图 (树状) 以及冰柱图(垂直)。 图 -7 单击“方法 (M)”按钮, 弹出 “系统聚类分析:方法”对话框 , 如下图 -8 所示。 图 -8 “聚类方法 (M)”选项条中可选项包括如图 -9 所示的几种方法,本例中选择“组间联接”: 图 -9 “度量标准 -区间 (N)”选项条中可选项包括如图 -10 所示的几种度量方法,本例中选择“平方Euclidean 距离”: 图 -10 “转换值 -标准化 (S)”选项条中可选项包括如图 -11 所示的几种将原始数据标准化的方法,本例中选择“
15、全局从 0 到 1”: 图 -11 输出结果分析 : 表 -2 显示的是用平方 Euclidean 距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。 表 -2 近似矩阵表 表 -3显示的是聚类表,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数”,第 2列和第 3列表示的是聚合的类。聚类表的具体说明可参照教材 P91,此处不再赘述。 表 -3 聚类表 阶 群集组合 系数 首次出现阶群集 下一阶 群集 1 群集 2 群集 1 群集 2 1 24 25 .076 0 0 5 2 18 20 .078 0 0 5 3 8 17
16、.081 0 0 6 4 12 16 .118 0 0 12 5 18 24 .138 2 1 9 6 8 23 .152 3 0 13 7 5 15 .153 0 0 10 8 4 28 .162 0 0 12 9 14 18 .173 0 5 11 10 5 27 .191 7 0 15 11 7 14 .198 0 9 13 12 4 12 .213 8 4 18 13 7 8 .223 11 6 18 14 6 22 .226 0 0 16 15 5 29 .272 10 0 19 16 6 13 .288 14 0 19 17 21 31 .322 0 0 21 18 4 7 .34
17、1 12 13 21 19 5 6 .352 15 16 23 20 10 19 .379 0 0 25 21 4 21 .381 18 17 22 22 3 4 .450 0 21 23 23 3 5 .532 22 19 24 24 3 30 .736 23 0 29 25 10 26 1.027 20 0 26 26 10 11 1.229 25 0 28 27 1 9 1.484 0 0 30 28 2 10 1.766 0 26 29 29 2 3 3.403 28 24 30 30 1 2 11.285 27 29 0 图 -12 是冰柱图,是反映样本聚类情况的图,如果按照设定的类
18、数,在那类数的行上从左到右就可以找到各类所包含的样本。冰柱图的具体说明同样可参照教材 P91,此处不再赘述。 图 -12 图 -13 是用“组间联接”聚类法生成的树状聚类图。如果将所有样本分为 3 类的话,如图所示,第 1 类包括北京、上海,第 2 类包括天津、广东、浙江、江苏、西藏,剩下的其他样本属于第 3 类。 图 -13 树状聚类图(组间联接) 不同聚类方法的比较: 图 -14 至图 -19 分别表示的是用其它 6 种聚类方法( 组内联接法、最近邻元素法、最远邻元素法、质心聚类法、中位数聚类法、 Ward 法 )生成的树状聚类图。 图 -14 树状聚类图 ( 组内联接 ) 图 -15 树
19、状聚类图 ( 最近邻元素 ) 图 -16 树状聚类图 ( 最远邻元素 ) 图 -17 树状聚类图 ( 质心聚类法 ) 图 -18 树状聚类图 ( 中位数聚类法 ) 图 -19 树状聚类图 ( Ward 法 ) 纵观 7 种不同的聚类方法,比较其聚类结果(分为 3 类),可总结出如下表 -4。 表 -4 不同聚类方法的聚类结果比较 聚类结果 聚类方法 第 1 类 第 2 类 第 3 类 组间联接 法 北京、上海 江苏、广东、西藏、浙江、天津 其他 组内联接 法 上海 北京 其他 最近邻元素 法 上海 北京 其他 最远邻元素 法 北京、上海 江苏、广东、西藏、浙江、天津 其他 质心聚类法 北京、上
20、海 江苏、广东、西藏、浙江、天津 其他 中位数聚类法 北京、上海 江苏、广东、西藏、浙江、天津 其他 Ward 法 北京、上海 江苏、广东、西藏、浙江、天津 其他 4.3 聚类分析 K-均值 法 (快速聚类法) 在数据编辑窗口的主菜单中选择“分析 (A)”“分类 (F)”“ K-均值 聚类 (K)”(如图 -20 所示), 图 -20 弹出“ K 均值聚类分析”对话框,将“地区”变量选入“个案标记依据 (B)”中,将其他变量选入“变量框 (V)”中,如图 -21 所示。在“方法”单选框中选中“迭代与分类”,在“聚类数”中填上“ 3”,表示聚类结果将分成 3 类。 图 -21 单击“迭代 (I)
21、”按钮,弹出“ K 均值聚类分析 :迭代”对话框,在“最大迭代次数 (M)”中填上“ 10”(默认值),如图 -22 所示,表示设定的最大迭代次数为 10。 图 -22 单击“选项 (O)”按钮,在“ K 均值聚类分析 :选项”对话框中选择“初始聚类中心”、“每个个案的聚类信息”,如图 -23 所示,表示输出结果将包括这两项内容。 图 -23 单击“保存 (S)”按钮,在“ K 均值聚类分析 :保存”对话框中选择“聚类成员 (C)”、“与聚类中心的距离 (D)”,如图 -24 所示,表示输出结果将包括这两项内容,并保存在“变量视图”以及“数据视图”中,如图 -25、图 -26 所示。其中变量
22、QCL-1 表示的是案例的类别号,表示该个案是属于哪一类; QCL-2 表示案例与其类别中心之间的距离。 图 -24 图 -25 图 -26 输出结果分析 : 输出结果中,表 -5 表示的是初始聚类的中心,也就是种子点。 表 -5 初始聚类中心 聚类 1 2 3 企业 57305 31707 26428 非农企业 57526 31701 26943 事业 65456 57789 27482 机关 64448 65137 29284 农 _林 _牧 _渔业 27231 34271 17045 采矿业 57046 27326 43103 制造业 40642 25287 26105 电力 _燃气及水
23、的生产和供应业 78712 71959 33204 建筑业 42723 27220 16583 交通运输 _仓储和邮政业 46109 44661 31281 信息传输 _计算机服务和软件业 98016 78660 22347 批发和零售业 55076 36544 16845 住宿和餐饮业 29211 23418 15223 金融业 180816 102433 31466 房地产业 44344 40986 18181 租赁和商务服务业 52697 30479 21220 科学研究 _技术服务和地质勘查业 81358 56145 30346 水利 _环境和公共设施管理业 38237 32552 2
24、2372 居民服务和其他服务业 25198 31253 19569 教育 58009 60698 29142 卫生 _社会保障和社会福利业 65667 57861 27418 文化体育和娱乐业 71034 54959 27460 公共管理和社会组织 57859 61906 28467 表 -6 表示的是迭代历史记录。 表 -6 迭代历史记录 a 迭代 聚类中心内的更改 1 2 3 1 30407.548 35352.601 30161.151 2 .000 .000 .000 a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的
25、最小距离为 106236.479。 表 -7 表示的是最终聚类中心,可以看出,第 1 类的平均工资水平最高,第 2 类居中,第 3 类最低。 表 -7 最终 聚类中心 聚类 1 2 3 企业 59676 35281 27549 非农企业 59812 35488 28682 事业 66914 48959 29798 机关 69591 58677 32461 农 _林 _牧 _渔业 36578 26581 16490 采矿业 61592 42913 35050 制造业 44425 28131 24607 电力 _燃气及水的生产和供应业 82487 60477 37506 建筑业 55927 287
26、85 22628 交通运输 _仓储和邮政业 51532 42822 32255 信息传输 _计算机服务和软件业 101715 63583 39378 批发和零售业 57668 33152 22561 住宿和餐饮业 33626 24170 17045 金融业 162618 89646 49112 房地产业 50698 38849 24426 租赁和商务服务业 55141 30099 23119 科学研究 _技术服务和地质勘查业 79266 60082 36692 水利 _环境和公共设施管理业 43744 31983 21268 居民服务和其他服务业 28908 33646 23350 教育 62
27、485 50174 31829 卫生 _社会保障和社会福利业 69606 49440 30476 文化体育和娱乐业 67875 50165 29113 公共管理和社会组织 63642 57284 31848 表 -8 表示的是最终聚类中心间的距离 ,可以看出,第 2 类与第 3 类之间的距离要比第 2 类与第 1 类之间的距离小。 表 -8 最终聚类中心间的距离 聚类 1 2 3 1 115400.533 192579.977 2 115400.533 84951.400 3 192579.977 84951.400 表 -9 表示的是 每个聚类中的案例数 ,可以看出,第 1 类有 2 个样本
28、,第 2 类中有 5 个样本。 表 -9 每个聚类中的案例数 聚类 1 2.000 2 5.000 3 24.000 有效 31.000 缺失 .000 表 -10 是聚类表,表示的是每个个案的分类情况:第 3 列“聚类”表示的是该案例属于哪一类,第 4 列“距离”表示该案例与其所属类别重心之间的距离。 表 -10 聚类成员 案例号 地区 聚类 距离 dimension0 1 北京 1 30407.548 2 天津 2 41547.950 3 河北 3 22051.392 4 山西 3 24771.809 5 内蒙古 3 18195.108 6 辽宁 3 23579.122 7 吉林 3 21
29、847.011 8 黑龙江 3 14315.972 9 上海 1 30407.548 10 江苏 2 25200.450 11 浙江 2 35352.601 12 安徽 3 19006.083 13 福建 3 35908.402 14 江西 3 26753.534 15 山东 3 21620.054 16 河南 3 14657.438 17 湖北 3 13789.177 18 湖南 3 16689.836 19 广东 2 26397.608 20 广西 3 15532.793 21 海南 3 24810.182 22 重庆 3 27961.518 23 四川 3 16613.417 24 贵州
30、 3 16984.758 25 云南 3 20370.488 26 西藏 2 35078.661 27 陕西 3 14063.856 28 甘肃 3 30161.151 29 青海 3 30209.921 30 宁夏 3 30965.740 31 新疆 3 16724.554 分析 上表 可知, 若采用“ K-均值聚类法(快速聚类法)”, 第 1类包括北京、上海,第 2类包括天津、广东、浙江、江苏、西藏,剩下的其他 样本属于第 3类。 5. 结论 结论 1: 不同行业平均工资水平的比较 平均工资水平较高的三个行业分别是: 1. 金融业( 62972.65 元) 2. 信息传输 _计算机服务和软
31、件业 ( 47303.87 元) 3. 电力 _燃气及水的生产和供应业 ( 44113.10 元) 平均工资水平较低的三个行业分别是: 1. 住宿和餐饮业 ( 19263.71 元) 2. 农 _林 _牧 _渔业 ( 19413.84 元) 3. 水利 _环境和公共设施管理业 ( 24446.45 元) 结论 2: 不同地区平均工资水平的比较 比较系统聚类法和 K-均值聚类法(快速聚类法)的输出结果,可以看出,其聚类结果大致相同。比较合理的聚类方法是将所有样本分成 3 类, 第 1 类包括北京、上海,第 2 类包括天津、广东、浙江、江苏、西藏,剩下的其他 样本属于第 3 类。很显然,第 1 类的工资水平(经济发展水平)最高,第 2 类居中,第 3 类次之。 Q & A 这里有个问题想考考大家,对于 天津、广东、浙江、江苏 这 4 个省市同属于第 2 类中我们比较容易理解,但是为什么西藏 的工资水平与这 4 个省市排在一起呢? 参考答案: 造成西藏工资高的主要原因是物价和人工成本过高, 听说那里一棵大白菜,内地几毛钱,那里要 卖几 块 钱 是什么概念?什么东西运上去都是飞机,成本当然很高,那么其他的东西跟着涨,但是既然要活命,那么薪水也就很高了。