1、对北京地区 18 区县中等职业教育发展水平进行聚类,聚类的依据是 x(1):每万人中职在校生数,x(2):每万人中职招生数,x(3):每万人中职毕业生数,x(4):每万人中职专任教师数,x(5): 本科以上学校老师 占任教师的比例,x(6):高级教师占专任教师的比例,x(7): 学校平均在校生人数, x(8):国家财政预算中职经费占国内生产总值的比例,x(9):生均教育经费,数据如表 11.1表示。表 11.1 北京地区中等职业教育发展水平情况表县区 x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9)东城 156 53 45 15 0.507 0.245
2、701 0.0109 5356西城 119 42 31 13 0.502 0.331 552 0.0063 6449崇文 202 72 57 16 0.566 0.193 633 0.0168 5357宣武 176 57 31 12 0.630 0.234 584 0.0155 6432朝阳 221 77 45 17 0.499 0.254 553 0.0228 6625海淀 169 64 42 13 0.573 0.183 573 0.0048 5840丰台 166 66 48 15 0.444 0.142 465 0.0112 5532石景山 192 61 52 19 0.524 0.08
3、5 535 0.0158 5695门头沟 127 53 33 30 0.143 0.026 376 0.0057 3904房山 115 38 25 10 0.571 0.127 618 0.0061 7020昌平 232 80 66 19 0.531 0.106 491 0.0072 5089顺义 67 35 17 5 0.341 0.079 403 0.0006 3056通县 98 40 25 7 0.533 0.107 474 0.00031 5559大兴 205 76 67 16 0.597 0.129 616 0.0107 4490平谷 81 39 21 7 0.198 0.030 5
4、33 0.0007 2518怀柔 121 52 27 12 0.223 0.076 637 0.0023 4149密云 84 41 22 6 0.558 0.091 618 0.0043 4376延庆 78 31 23 5 0.366 0.070 424 0.0039 4677建立数据文件取名为“EG11-1,SAR ”如下图q(x) x1 x2 x3 x4 x5 x6 x7 x8 x91 东城 156 53 45 15 0.507 0.245 701 0.0109 53562 西城 119 42 31 13 0.502 0.331 552 0.0063 64493 崇文 202 72 57
5、16 0.566 0.193 633 0.0168 53574 宣武 176 57 31 12 0.630 0.234 584 0.0155 64325 朝阳 221 77 45 17 0.499 0.254 553 0.0228 66256 海淀 169 64 42 13 0.573 0.183 573 0.0048 58407 丰台 166 66 48 15 0.444 0.142 465 0.0112 55328 石景山 192 61 52 19 0.524 0.085 535 0.0158 56959 门头沟 127 53 33 30 0.143 0.026 376 0.0057 39
6、0410 房山 115 38 25 10 0.571 0.127 618 0.0061 702011 昌平 232 80 66 19 0.531 0.106 491 0.0072 508912 顺义 67 35 17 5 0.341 0.079 403 0.0006 305613 通县 98 40 25 7 0.533 0.107 474 0.00031 555914 大兴 205 76 67 16 0.597 0.129 616 0.0107 449015 平谷 81 39 21 7 0.198 0.030 533 0.0007 251816 怀柔 121 52 27 12 0.223 0.
7、076 637 0.0023 414917 密云 84 41 22 6 0.558 0.091 618 0.0043 437618 延庆 78 31 23 5 0.366 0.070 424 0.0039 4677步骤:1、单击“analyze”菜单中 “classify”菜单中的“Hierar chical claster”命令2、单击“Hierar chical claster analysis”对话框,从其左侧的变量列表中选“x1”“x2” “x9”变量,添加到右侧的 “variable(s): ”,选择 g(x)变量添加到“label cases by:”中。3、单击“method ”
8、,弹出“Hierar chical claster analysis:method” ,在“claster method: ”中指定小类之间的距离计算方法,选择“interval”中的“squared eudidean distance”,单击“continue” ,返回 “Hierar chical claster analysis”。4、单击“plots” ,弹出“Hierar chical claster analysis: plots”,选中“dendiogran ”,并选择纵向 vetial 输出类聚全过程的冰柱图,单击“continue” ,返回“Hierar chical cla
9、ster analysis”。5、显示凝聚状态表。单击“statistic” ,弹出“Hierar chical claster analysis:statistic” 。6、设定保存层次聚类结果。单击“save” ,弹出“Hierar chical claster analysis:save new var”,选中 single solution,并在后面的框中输入 3。单击“continue” ,返回“Hierar chical claster analysis” ,单击 ok。结果和讨论:1、先是层次聚类分析的概要结果,该结果是 spss 输出结果文件的第一表格,从结果中科院看出,18
10、个样本都进入了聚类分析,如下表:表一 对测量统计结果cases casesvalicl missing total valicl missing total N percent N percent N percent N percent18 100.0 18 100.0 0 0 18 100.02、输出结果文件中的第二表格为层次聚类分析的凝聚状态表如表二,表二的第一行表示第五个样本最先进行了聚类样本间的距离为 4803.873,这个聚类的结果将在第六步中用到。表二 具体聚类步骤Stage claster comloined coefficients stage claster next sta
11、ge Claster1 claster2 claster1 claster21 5 10 4803.872 0 0 6 2 9 14 6703.665 0 0 7 3 2 7 7247.354 0 0 9 4 6 8 13144.222 0 0 7 5 3 4 26181.127 0 0 9 6 1 5 41826.139 0 1 13 7 6 9 66464.075 4 2 11 8 13 15 67141.152 0 0 10 9 2 3 123773.372 3 5 1110 12 13 187090.660 0 8 1411 2 6 2736999.209 9 7 1512 17 18
12、 275196.025 0 0 1713 1 11 285000.252 6 0 1614 12 16 243175.390 10 0 1515 2 12 1509277.8 11 14 1616 1 2 2963641.0 13 15 1717 1 17 7818718.8 16 12 03、表三 样本的类归属case 3clasters case 3claster1.朝阳 1 10.西城 12.崇文 2 11.房山 13.大兴 2 12.门兴沟 24.昌平 2 13.怀柔 25.宣武 1 14.通县 26.石景山 2 15.宏云 27.东城 2 16.延庆 28.海淀 2 17.平谷 39
13、.丰台 2 18.顺义 3表四 层次聚类分析的冰柱图Number 18 17 16 15 13 12 14 9 6 4 3 7 2 11 10 5 1claster 顺 平 延 宏 怀 门 通 丰 石 昌 大 东 崇 房 西 宣 朝义 谷 庆 云 柔 头 县 台 景 平 兴 城 文 山 城 武 阳沟 山1 xx xx xx xx xx xx xx xx xx xx xx xx xx xx x xx xx2 xx x xx xx xx xx xx xx xx xx xx xx xx xx x xx xx3 xx x xx xx xx xx xx xx xx xx xx xx x xx x xx
14、xx4 xx x xx xx xx x xx xx xx xx xx xx x xx x xx xx5 xx x x xx xx x xx xx xx xx xx xx x xx x xx xx6 xx x x xx xx x xx xx xx xx xx xx x x x xx xx7 x x x xx xx x xx xx xx xx xx xx x x x xx xx8 x x x xx xx x xx xx x xx xx xx x x x xx xx9 x x x xx x x xx xx x xx xx xx x x x xx xx10 x x x xx x x xx xx x x
15、x x xx x x x xx xx11 x x x x x x xx xx x xx x xx x x x xx xx12 x x x x x x xx x x xx x xx x x x xx xx13 x x x x x x xx x x x x xx x x x xx xx14 x x x x x x xx x x x x xx x x x xx x15 x x x x x x xx x x x x xx x x x xx x16 x x x x x x xx x x x x x x x x xx x17 x x x x x x x x x x x x x x x x x该表格第一列表
16、示类数,柱图一般从表格的最后一行开始观察,在本题中聚成 3 类,样本17、18 属于第一类,样本 1、5、10、11 属于二类,其余属于三类。5、由于对“Hierar chical claster analysis:save new var”进行了设置,将聚类成 3 类,各个样本是类归属情况保存为一个变量,因此在 spss 数据编辑窗口中就新增了一个变量值。表五 新增变量值q(x) x1 x2 x3 x4 x5 x6 x7 x8 x9 cla3-11 东城 156.00 53.00 45.00 15.00 0.507 0.245 701.00 0.0109 5356.00 12 西城 119.
17、00 42.00 31.00 13.00 0.502 0.331 552.00 0.0063 6449.00 23 崇文 202.00 72.00 57.00 16.00 0.566 0.193 633.00 0.0168 5357.00 24 宣武 176.00 57.00 31.00 12.00 0.630 0.234 584.00 0.0155 6432.00 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18 延庆 78.00 31.00 23.00 5.00 0.366 0.070 424.00 0.0039 4677.00 3