1、1对我国主要城市空气质量的聚类分析和判别分析 摘要本文应用多元统计分析中聚类分析和判别分析的理论,使用SPSS17.0 软 件和 spss13.0 对我国主要城市的空气 质量进行了聚类分析,将 31 个城市按照空气质量的类型分为了四类。在此基础上,对这些城市的空气质量归属进行了回报判别,结果令人满意。关键词 :spss,聚类分析,判别分析,回报判别,空气质量类型Abstract:According to the theory of Cluster Analysis and Return Discrimination in the book of Multivariate Statistical
2、 Analysis and according to the software of SPSS17.0 and SPSS13.0 ,and processing the date of our mainly city in our county ,and classify 31 cities into four according to the air of quality .Based on the foundation ,according to Return Discrimination to make process about air quality to decide which
3、rank belong to, the outcome is satisfactory.Keyword: SPSS;Cluster Analysis;Discriminant Analysis;Return DiscriminationType of Air Quality1 引言大气环境质量评价是环境质量评价的一项重要内容。对空气环境质量的充分认识对我国社会的可持续发展具有现实的指导意义。在多元统计分析中,常常使用聚类分析和判别分析来解决样本的分类问题。在事先不知道应将样品或指标分为几类、怎么分类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类。聚类分析的基本思想是:
4、在样品之间定义距离,在变量之间定义相似系数,2距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品进行分类。一般地,根据分类对象的不同,聚类分析可以分为Q型和R型两大类。 Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。 2判别分析也是一种数据的分析方法。在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。本文以4种空气质量指标为变量,采用系统聚类分
5、析Ward方法(离差平方和法),对我国31个主要城市的空气质量类型进行了聚类。并在此基础上,对这些城市的空气质量归属进行了回报判别。从结果来看,比较圆满地完成了预定目标。2 聚类分析和主要城市空气质量类型的划分2.1 指标的选取本文选取了全国 31 个城市的 2008 年的四项空气质量指标作为对空气质量类型划分的依据,所选数据全部来自中国统计年鉴,具体见下表。主要城市空气质量指标 (2008 年)单位:毫克/立方米空气质量达到及可吸入颗粒物 二氧化硫 二氧化氮 好于二级的天数城 市(天)北 京 0.123 0.036 0.049 274天 津 0.088 0.061 0.041 322石 家
6、庄 0.116 0.046 0.031 301太 原 0.094 0.073 0.021 303呼和浩特 0.070 0.049 0.045 340沈 阳 0.118 0.059 0.037 3233长 春 0.096 0.030 0.038 342哈 尔 滨 0.102 0.043 0.055 308上 海 0.084 0.051 0.056 328南 京 0.098 0.054 0.053 322杭 州 0.110 0.052 0.053 301合 肥 0.134 0.022 0.025 257福 州 0.071 0.023 0.046 354南 昌 0.083 0.050 0.036 3
7、44济 南 0.126 0.052 0.022 295郑 州 0.094 0.060 0.047 325武 汉 0.113 0.051 0.054 294长 沙 0.097 0.053 0.043 329广 州 0.071 0.046 0.056 345南 宁 0.056 0.040 0.044 352海 口 0.043 0.009 0.017 366重 庆 0.106 0.063 0.043 297成 都 0.111 0.049 0.052 319贵 阳 0.082 0.064 0.023 347昆 明 0.067 0.051 0.039 366拉 萨 0.051 0.005 0.024 3
8、53西 安 0.113 0.050 0.044 301兰 州 0.132 0.070 0.054 268西 宁 0.118 0.029 0.030 296银 川 0.084 0.049 0.021 330乌鲁木齐 0.145 0.105 0.065 2612.2 解决问题的方法和计算结果通过 SPSS 使用离差平和方法(Ward 方法),计算样本的欧氏距离,样本变量按照 Z 得分进行标准化处理。4离差平方和法,也称沃尔德法.思想是同一类内案例的离差平方和应该较小,不同类之间案例的离差平方和应该较大. 求解过程是首先使每个案例自成一类,每一步使离差平方和增加最小的两类合并为一类,直到所有的案例都
9、归为一类为止.采用欧氏距离 ,它倾向于把案例数少的类聚到一起,发现规模和形状大致相同的类 .此方法效果较好,使用较广.欧氏距离定义: 欧氏距离( Euclidean distance)是一个通常的距离定义,它是在 m 维空间中两个点之间的真实距离。 在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是 :d = sprt (x1-x2)2 + (y1-y2)2 三维的公式是: d = sprt (x1-x2)2 + (y1-y2)2 + (z1-z2)2 推广到 n 维空间,欧式距离的公式是: d = sprt (xi1-xi2) 2 这里 i=1,2n xi1 表示第一个点的第 i
10、 维坐标, xi2 表示第二个点的第 i 维坐标 n 维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),.x(n),其中 x(i) (i=1,2.n) 是实数,称为 x 的第 i 个坐标 ,两个点 x 和 y = ( y(1),y(2). y(n) )之间的距离 d(x,y)定义为上面的公式.聚类结果将 31 个城市分成四种空气质量类型。聚类分析得到的聚类分析图谱如下图 1 所示。5表 1表2Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +-+-+-+-+-+11 -+27 -+3 -+4 -+
11、15 -+29 -+17 -+-+22 -+ |8 -+ |9 -+ +-+18 -+ | |30 -+ | |2 -+-+ |610 -+ |6 -+ +-+16 -+ | |23 -+ | |21 -+-+ | |25 -+ | | |13 -+ +-+ |26 -+ | |20 -+-+ |5 -+ |7 -+ |14 -+ |19 -+ |24 -+ |12 -+ |31 -+-+1 -+28 -+表 3类型 城市第一类 合肥,兰州,太原,呼和浩特,郑州,银川,长沙,上海,成都第二类 南京,广州,乌鲁木齐,石家庄,杭州,武汉,长春,贵阳第三类 拉萨,重庆,南昌,西安,海口,哈尔滨,沈阳
12、,济南,南宁,昆明第四类 天津,西宁,福州,北京从图 1,2 中可以看出,全国 31 个城市可以分为四种空气质量类型,如表3 所示。2.3 结果讨论按照表 3 聚类分析的分类结果,可以将我国 31 个城市的空气质量类型分为四类:优、良、污染和轻微污染。第一类型的城市空气质量良好。第二类型的城市属于轻微污染型,这些城市的工业类型多以轻工业为主,对大气环境的污染较轻。第三类型的城市空气质量优,尤其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。7第四类型的城市属于污染型城市,这些城市人口密集、交通拥挤、工业发达,像北京是全国
13、的政治文化中心,汽车拥有量很大,汽车尾气的排放对环境的污染十分严重。这些城市的大气质量急需改善。第三类型的城市空气质量优,尤其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。总的来说,结合这些城市的工业等的发展状况,该聚类结果还是比较符合实际的。3 判别分析定义: 判别分析产生于 20 世纪 30 年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类
14、的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。建立的判别规则为:计算自变量 x 到每一个组中心的广义平方距离,并把 x 判入最近的类。广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计,并与先验概率有关,定义为 :8其中 :Vt = St (使用单个类的协方差阵估计)或 Vt = S(使用合并的协方差阵估计)。m t可以用第 t 组的均值overlineX_t 代替。在使用合并协方差阵时, 其中 xS 1x 是共同的可以不考虑,于是在比较
15、x 到各组中心的义平方距离时,只要计算线性判别函数,当 x 到第 t 组的线性判别函数最大时把 x 对应观测判入第 t 组。在如果使用单个类的协方差阵估计 Vt = St则距离函数是 x 的二次函数,称为二次判别函数。 后验概率可以用广义距离表示为 :9因此,参数方法的判别规则为:先决定是使用合并协方差阵还是单个类的协方差阵,计算 x 到各组的广义距离,把 x 判入最近的组;或者计算 x 属于各组的后验概率,把 x 判入后验概率最大的组。如果 x 的最大的后验概率都很小(小于一个给定的界限),则把它判入其它组。 非参数判别方法仍使用 Bayes 后验概率密度的大小来进行判别,但这时第 t 组在
16、 x 处的密度值 ft(x)不再具有参数形式,不象参数方法那样可以用 mt和 St(或 St)表示出来。非参数方法用核方法或最近邻方法来估计概率密度 ft(x)。 最近邻估计和核估计也都需要定义空间中的距离。除了可以用欧氏距离外,还可以用马氏(Mahalanobis)距离,定义为: 其中 Vt为以下形式之一: Vt = S 合并协方差阵Vt = diag(S)合并协方差阵的对角阵Vt = St第 t 组内的协方差阵Vt = diag(St)第 t 组内的协方差阵的对角阵Vt = I 单位阵,这时距离即普通欧氏距离10下面对这些城市的空气质量归属进行了回报判别,判别分析采用逐步选择判别分析 Fi
17、sher 判别法。本文采用 WilkLambda(每步选择 Wilk 的 统计量值最小的变量进行判别函数)方法进行样品分析及分类。表 4 表示对判别函数的显著行检验,其中 Wilk 的 值很小,显著概率 Sig=0.000,从而认为判别函数有效。表 4显著性检验表函数检验 Wilks 的 Lambda 卡方 df Sig.1 到 3 .079 67.299 9 .0002 到 3 .452 21.046 4 .0003 .996 .103 1 .748表 5 是逐步判别后给出的判别函数系数表,最后进入的自变量是可吸入颗粒物、二氧化硫和二氧化氮的含量,分别设这三个变量为 x1、x 2、x 3,其
18、判别函数如下:F1=687.606x1+573.39x2+325.217x365.827F2=433.725x1+488.629x2+422.513x342.275F3=573.032x1+400.508x2+189.123x340.646F4=274.6x1+119.857x2+118.602x311.182表5分类函数系数Ward Method1 2 3 4687.606 433.725 573.032 274.600573.390 488.629 400.508 119.857325.217 422.513 189.123 118.602-65.827 -42.275 -40.646 -
19、11.182Fisher 的线性判别式函数表 6 为回报判别的结果。可以看到所有的回报率均为 1,所以采用的判别分析方法是适用的。11表 6 分类结果 a预测组成员1 2 3 4 合计17 0 0 0 170 6 0 0 60 0 6 0 60 0 0 2 2100.0 .0 .0 .0 100.0.0 100.0 .0 .0 100.0.0 .0 100.0 .0 100.0.0 .0 .0 100.0 100.0a. 已对初始分组案例中的 100.0% 个进行了正确分类。4 结论本文对我国 31 个主要城市的空气质量进行了聚类分析,将其空气质量的类型分为了四类:优、良、污染和轻微污染。通过
20、对实际情况的分析,发现这种划分结果与实际比较相符。通过对这些城市的空气质量归属进行了回报判别,结果令人满意。5 建议随着社会的发展,城市的发展也越来越快,随之而来的环境问题越来越突出,环境污染严重。在附录表中可以看到工业废水排放量都超标。毕竟城市是很多人的居住环境,在运行费用多做些投入,废水治理设施多增加些,可能我的环境会变得更好,当然,这也需要市民的共同努力,使我们的城市居住环境更加美好!参考文献【1】2008 中华人民共和国国家统计局 中国统计年鉴 200812【2】潘丽军 陈锦权 ,实验设计与数据统计,东南大学出版社,2008【3】薛薇 ,spss 统计分析方法与应用,电子工业出版社,2
21、009【4】何晓群,多远统计分析第二版,中国人民大学出版社,2008【5】王国梁,何晓群,多变量经济数据统计分析。西安:陕西科学出版社,1989附录主要城市工业废水排放及处理情况 (2008 年)单位:万吨工业废水工业废水工业废水中化学工业废水中氨氮废水治理本年运行费用城 市排 放 量排放达标量需氧量排放量(吨)排放量 (吨)设施数(套) (万元)北 京 8367 8221 4918.3 443.9 514 40184天 津 20433 20413 27838 3440.1 875 87264石 家 庄 20957 20795 53345 4192.8 547 40320太 原 2468 19
22、94 4725 364.1 310 38455呼和浩特 2977 2802 4552.6 246.6 74 7325.2沈 阳 7332 6706 9213.1 1355.1 352 11989长 春 5487 5181 19289 460.1 103 6003.7哈 尔 滨 3620 3367 16520 2435.5 156 17278上 海 41871 41364 27653 2428 1790 223072南 京 39363 36606 26709 1038.6 701 75335杭 州 75585 63889 89624 2902.3 1051 74489合 肥 2093 2011
23、2944.8 117.8 170 8879.2福 州 5659 5429 5975.6 564.8 367 1666813南 昌 10118 9471 18826 1143.5 198 9351.1济 南 4749 4693 5854.4 545.1 208 16955郑 州 12700 12696 10628 308.1 388 18341武 汉 23844 23603 24389 874.5 248 26705长 沙 4176 3679 4966.9 210.7 289 4904.5广 州 34475 33045 19389 915.4 1161 77114南 宁 15731 12696
24、76665 1834.2 367 15035海 口 481 481 374.4 12.2 35 1441.2重 庆 67027 62648 101231 8331.2 1550 48918成 都 20698 20421 62610 8724.4 1759 40865贵 阳 2404 2244 2091.3 97.7 385 10167昆 明 4425 4405 4145.1 249.5 546 23204拉 萨 666 267 586.6 6.8 11 225西 安 18304 17862 42057 1568.9 414 11174兰 州 3737 2311 2204.5 205.3 73 72134西 宁 4140 3443 13290 1143.3 123 2353.6银 川 4935 4923 14631 1415.5 106 10904乌鲁木齐 5766 4564 7934.6 1793.2 103 17735