1、顾及属性空间分布不均的空间聚类方法以城市商业中心的提取为例 朱杰 孙毅中 陈律余 周卫 孟耀伟 南京师范大学虚拟地理环境教育部重点实验室 江苏省地理信息资源开发与利用协同创新中心 摘 要: 针对 Delaunay 三角网空间聚类存在的不足, 提出一种顾及属性空间分布不均的空间聚类方法。首先将 Delaunay 三角网空间位置聚类作为约束条件, 采用广度优先搜索方法, 以局部参数“属性变化率”作为阈值识别非空间属性相似簇的聚类过程。以城市商业中心为例, 验证了该方法能够更客观地识别非空间属性相似的簇, 且自适应属性阈值可以满足不同聚类需求, 为城市商业中心等空间实体的提取提供了一种有效方法。关键
2、词: 空间聚类; Delaunay 三角网; 属性空间分布不均; 属性阈值; 城市商业中心; 作者简介:朱杰, 博士生, 主要从事空间数据表达与挖掘研究。Chu_J作者简介:孙毅中, 博士, 教授。sunyizhong_收稿日期:2016-09-14基金:国家自然科学基金 (41671392, 41371374, 41301405) A Spatial Clustering Method Based on Uneven Distribution of Non-spatial AttributesIdentifying City Commercial CenterZHU Jie SUN Yizh
3、ong CHEN Lvyu ZHOU Wei MENG Yaowei Key Laboratory of Virtual Geographic Environment of Ministry of Education, Nanjing Normal University; Abstract: Spatial clustering is an important tool for spatial data mining and spatial analysis.It is important for the clustering results in many applications to m
4、eet the requirement that spatial objects in the same cluster are similar in both the spatial and the attribute domains.To solve the problems of existing methods based on Delaunay triangulation, this paper proposes a spatial clustering method considering uneven distribution of non-spatial attributes.
5、The proposed algorithm involves two main steps:the first is to construct spatial proximity relationships, and the second is to cluster spatial objects with similar attributes.Delaunay triangulation with edge length constraints is first employed to construct spatial proximity relationships among obje
6、cts.To obtain satisfied results in spatial clustering with attribute similarity, the breadth first traverse (BFT) clustering algorithm is used in accordance with variation rate of attribute to adapt to the local change information of attribute distribution.The performance of the proposed algorithm w
7、as evaluated experimentally through comparison with one of the leading state-of-the-art alternatives:multi-constraints algorithm.The results show that our method outperforms the comparative algorithm as attributes are unevenly distributed in space, and provides a quantitative research method in city
8、 commercial center extraction.The effectiveness and practicability of the proposed algorithm illustrates three advantages of our algorithm:i) it can reflect the tendency of the entity attribute in the spatial distribution;ii) it can meet the requirement that attributes are unevenly distributed in sp
9、ace;iii) it can discovery clusters with arbitrary shape and is robust to outliers.Keyword: spatial clustering; Delaunay triangulation; uneven distribution of non-spatial attributes; attribute threshold; city commercial center; Received: 2016-09-14空间聚类分析是空间数据挖掘与知识发现的重要内容, 能够发现空间实体的空间集聚模式, 揭示空间实体的分布规律
10、。空间聚类分析进一步结合空间实体的非空间属性在空间上的分布与差异, 对于解释复杂的地理现象具有重要的意义1。Delaunay 三角网是空间邻近关系表达2,3和空间聚类4-6的一种有效工具。现有 Delaunay 三角网空间聚类方法主要是一体化法7,8和空间位置上的非空间属性相似性聚类方法。这类方法将空间坐标和非空间属性数据加权融合构造距离函数, 将空间位置和属性特征纳入统一的空间距离测度9,10, 虽然能够简化变量提高效率, 但由于空间位置和非空间属性之间的不可比性11和属性阈值难以准确获得, 影响了聚类方法的可操作性。第二类方法首先考虑实体的空间邻近性, 再加入非空间属性约束, 聚类结果精度
11、较高, 能够满足空间数据分布的分异特性, 但属性阈值采用的是全局参数12,13, 实质上假设了空间实体分布的均匀性, 如文献12和文献14将非空间属性阈值设为最邻近实体非空间属性差异的平均值, 难以满足非空间属性分布不均匀的地理现象 (如城市商业中心) , 有可能将局部相似的对象划入到噪声簇或者其他聚类簇中, 导致聚类精度降低。针对上述问题, 本文提出了一种顾及属性空间分布不均的空间聚类方法。1 考虑属性空间分布不均的空间聚类方法本文提出的空间聚类方法首先进行空间位置聚类, 再在此基础上顾及非空间属性聚类。1.1 空间位置聚类采用文献15-16结合的聚类策略, 分别对 Delaunay 三角网
12、施加整体约束和局部约束, 具体表达如下。定义 2 LSD (P) 是对象 P 与 DN (P) 相连边长的标准差, 表示为:Lmean (P) 和 LSD (P) 两个指标都只反映了点的局部变化, 无法满足不同密度的空间簇。定义 3 全局性判断 GSD是 DT内所有对象 LSD (P) 的平均值, 表示为:式中, N 表示空间数据集 D 所有对象的个数。如果网内任一对象 P 与 DNP () 相连的边长长度大于或等于长边长度, 则将其删除。定义 5 局部边长约束。在完成整体边长约束的基础上, Delaunay 三角网内依然存在若干不一致的边, 针对对象 P 进一步施加局部边长约束准则:式中,
13、F (P) 表示对象 P 邻域内的紧凑程度, F (P) 越小该邻域越紧凑, 该参数能够探测到异常的“短边”和“长边”; 表示紧凑度阈值, 采用文献15启发式方法确定 , 连接所有 F (P) 的点及其邻域。1.2 非空间属性聚类定义 7 聚类中心点。在 Sub_DT邻近图中, C P表示聚类中心点, 表示为:计算所有对象 (P) 值, 按照升序排列, 取最小值作为聚类中心点。聚类中心不是固定的, 当一个聚类簇形成时, 在所有未被聚类的对象中, 按照上述定义重新选择中心点。定义 8 直接邻居。给定一个对象 P, 存在一个对象 QD N (P) , 则 Q 是 P 的直接邻居。定义 10 属性变
14、化率。设类 A 已有 m 个对象P 1, P2, , Pm, 若存在一个对象Q 要加入到类 A, 则必须满足:式中, Q.a 表示对象 Q 的非空间属性值;v 表示P 1.a, , Pm.a, Q.a的均值;SD表示类P 1.a, , Pm.a, Q.a的标准差, 反映待划分对象与已知空间簇质心的偏离程度;dist Q (.a, v) 表示空间对象与聚类集合之间的差异, 采用欧氏距离进行度量, 针对多维非空间属性要归一化处理。当对象 Q 满足式 (7) 时, Q 可以加入到类 A 中。定义 11 聚类。给定一个聚类中心点 P, 根据属性变化率按照广度优先遍历方法搜寻该对象的直接邻居和间接邻居,
15、 直到没有新的对象加入, 一个聚类簇形成。定义 12 噪声。给定一个对象 P, 如果 P 不属于任何簇, 认定 P 为噪声。2 聚类阈值分析与算法实现2.1 聚类阈值分析如果 Sub_DT中非空间属性分布不均匀, 采用全局参数聚类有可能将局部相似的对象划入噪声簇中或者其他簇中。以图 1 (a) 数据为例, 原始数据可分为两个簇 C1和 C2, 两簇的属性空间分布不均匀。若采用多约束聚类方法13可能得到两种结果: (1) 只能发现簇 C1, 簇 C2被划分为噪声点, 如图 1 (b) 所示; (2) 当数据集中存在明显的异常值时, 簇 C1和簇 C2会合并成一个类, 如图 1 (c) 所示。图
16、1 全局参数聚类结果 Fig.1 Clustering Results Based on Global Parameter 下载原图本文提出的属性变化率能够描述对象间的相对变化信息, 可以同时满足属性空间分布不均匀和均匀两种情况。此处 k 是控制参数, 用于调节空间对象与聚类集合的偏离程度, k 值越大属性变化率的敏感性越低。为了保证参数 k 能够自动地适应不同的聚类需求, 引入了最优分割指数 (partitioning best method, PBM) 17。PBM 指数能够满足紧密性与分离性的聚类准则, 指数越大聚类结果越可靠, 具体为:式中, N C表示簇的数量;N i表示簇 Ci中实
17、体数量;v i表示簇 i 的质心;E i表示簇Ci的内部距离 (簇内所有空间对象到其质心的距离之和) ;E 1表示数据集只分为一类的聚类内部距离;E NC表示数据集分为 NC个簇的聚类内部距离;D NC表示空间簇间的分离度, 随 NC增大而增大, 最大值为数据集中最远两个簇的质心距离。以图 2 (a) 的模拟数据为例阐述上述非空间属性聚类过程, 图 2 中结点的属性密度值按照升序排序为 (v 4, v3, v1, v2, v5, v6, v12, v11, v8, v10, v7, v9) , 以 v4为聚类中心点按照 (P) 升序访问 v4的直接邻居v 3, v1, v5, v2, v6,
18、PBM 值最大时属性变化率中 k 取 1.8, v4, v3, v1, v5, v2, v6可以形成一个初始簇, 将v 3, v1, v5, v2, v6作为初始点按照上述方式搜索符合阈值条件的邻居, 最终得到一个簇, 如图 2 (b) 所示。聚类 1 为v 4, v3, v1, v5, v2, v6, v8在剩余未聚类的对象中, 以 v12 为聚类中心点, 按照广度优先遍历的方法聚类, 得到最后的结果, 如图 2 (c) 所示。聚类 2 为v 12, v13, v10, v11, v7, v92.2 算法实现本文方法采用“先空间后属性”的聚类策略, 具体步骤如下。1) 构建 Delaunay
19、 三角网并对其施加边长约束, 删除不一致边, 得到对象间的空间邻近关系。图 2 基于属性密度的广度优先聚类结果 Fig.2 Clustering Result Based on Breadth First Traverse 下载原图2) 计算每个对象的属性密度, 对 Delaunay 三角网内每个对象属性密度进行升序排序。3) 非空间属性聚类。首先选取属性密度最小值作为初始聚类中心;然后按照广度优先遍历方法搜索该对象的直接邻居, 将符合阈值的对象聚类合并, 并标识为已聚类;依次循环搜寻该对象的间接邻居, 向外不断扩散, 将符合阈值的对象加入簇中, 直到没有新对象加入, 一个聚类簇形成。最后对于
20、未被标识聚类的对象, 迭代步骤 1) 3) , 遍历完所有对象, 聚类结束, 没有被标识到任何一类簇的对象视为噪声。3 实验例证本文以城市商业中心提取为例来验证方法的可行性, 利用 Visual Studio 2010C#环境结合 ArcEngine 组件二次开发实现。采用的数据为 2011 年扬州市中心城区商业用地现状图, 商业用地图斑数为 735 个, 如图 3 (a) 所示。城市地价直接决定不同商业类型的选址和布局18,19, 本文以扬州市的商业用地价格为属性数据进行实证研究。图 3 扬州市商业用地分布情况及商业用地离散点群 Fig.3 Commercial Land Distribut
21、ion and its Discrete Points of Yangzhou City 下载原图首先将面状单元的商业地块抽象成离散点群 (图 3 (b) ) 并构建 Delaunay 三角网, 对三角网进行整体边长约束和局部边长约束 (=0.463 8) , 其具体过程如图 4 (a) 、4 (b) 所示, 得到空间位置聚类结果 (图 4 (b) ) 。由于篇幅限制, 图 4 (a) 和图 4 (b) 给出了聚类结果的主体部分。图 4 顾及空间位置的 Delaunay 三角网聚类过程 Fig.4 Delaunay Triangulation Clustering Based on Spati
22、al Proximity in Commercial Discrete Points 下载原图将商业用地价格归一化到0, 10区间内, 采用多约束聚类方法13和本文方法 (k=1.4, k=1.7, k=2.0) 分别进行非空间属性聚类, 得到图 5 的聚类结果。从图 5 可以看出, 当属性变化率 k=1.4 时, 聚类数目、均值同多约束方法相似, 两者聚类效果整体一致, 也证明了本文方法的有效性。但多约束方法的属性阈值采用的是一种全局参数, 导致若干相似的簇无法识别, 被划分成孤立点或噪声, 因此其孤立点个数是最多的;当 k=1.4 时, 聚类阈值较小, 聚类数目也会增多, 可能导致簇间分离
23、性不明显;随着 k 值不断变大, 当 k=2.0 时, 聚类阈值较大, 聚类数目也会减少, 但这有可能会使簇内对象属性值出现较大差异。为了确定合适的 k 值, 采用 PBM 值评价出最可靠的聚类结果, 图 6 显示了不同 k 值PBM 的取值情况。图 5 不同方法的聚类结果对比 Fig.5 Comparison of the Clustering Results Using Different Methods 下载原图图 6 不同 k 值 PBM 取值 Fig.6 PBM Value With the Change of Kvalue 下载原图当 k 取 1.6 时, PBM 值最大, 计算出
24、 k=1.6 时每个聚类的均值, 据此将扬州市商业用地分为 4 个等级:0.245 03.246 7, 3.246 84.940 0, 4.940 17.063 3, 7.063 49.797 3, 将分级范围 7.063 49.797 3 界定为扬州市商业中心, 如图 7 (a) 所示, 黑色圆圈即为聚类的城市商业中心。1996 年扬州市城市中心体系规划包括两个城市主中心 (文昌阁商圈与河东商务中心) , 一个城市副中心 (西部副中心) , 将城市商业中心提取结果与扬州市城市空间格局 (19962010) (图 7 (b) ) 进行对比分析, 区域 1、2、3 在19962010 年间稳步发
25、展, 已形成一定的商业规模。另外, 2011 年扬州市进行了行政区划调整, 江都撤市并区, 图 7 (a) 中提取的商业中心 4 表示江都城区中心。城市商业中心的识别可以为城市空间结构分析和未来城市规划提供必要的信息支持。4 结语本文方法能够顾及实体间空间位置与非空间属性相似性的局部变化信息, 更客观、准确地识别非空间属性相似的簇。属性密度、属性变化率的定义和广度优先聚类过程都兼顾了属性空间分布不均的情况, 能够适应复杂的属性空间分布情况和输出相对稳定的聚类结果。与现有的 Delaunay 三角网空间聚类方法相比, 本文方法具有在属性空间分布不均匀的情况下能够顾及属性分布的局部信息, 满足属性
26、空间分布不均匀和均匀两种情况的优点。本文方法采用 PBM 值引导参数 k 的选取, 可以自动地适应不同聚类需求, 得到可靠的聚类结果。进一步的研究内容主要集中在高维数据相似性度量及其空间聚类方法上。图 7 扬州城市商业中心提取结果对比 Fig.7 Comparison Between Result of City Commercial Centers Extraction and Actual Situation in Yangzhou 下载原图参考文献1Deng Min, Liu Qiliang, Li Guangqiang, et al.Spatial Clustering Analysi
27、s and its ApplicationM.Beijing:Science Press, 2011:2-5 (邓敏, 刘启亮, 李光强, 等.空间聚类分析及应用M.北京:科学出版社, 2011:2-5) 2Kang I S, Kim T, Li K J.A Spatial Data Mining Method by Delaunay TriangulationC.The 5th International Workshop on Advances in Geographic Information Systems, Las Vegas, USA, 1997 3Okable A, Boots
28、B, Sugihara K, et al.Spatial Tessellations:Concepts and Applications of Voronoi DiagramsM.Hoboken:John Wiley&Sons, Inc, 2009 4Eldershaw C, Hegland M.Cluster Analysis Using TriangulationJ.Computational Techniques and Applications, 1997:201-208 5KolingerovI, Alik B.Reconstructing Domain Boundaries Wit
29、hin a Given Set of Points, Using Delaunay TriangulationJ.Computers&Geosciences, 2006, 32 (9) :1 310-1 319 6Estivill-Castro V, Lee I.Multi-level Clustering and its Visualization for Exploratory Spatial AnalysisJ.GeoInformatica, 2002, 6 (2) :123-152 7Deng M, Liu Q, Li G, et al.Field-Theory Based Spati
30、al Clustering MethodJ.Journal of Remote Sensing, 2010, 14 (4) :694-700 8Zhou Cuizhu, Zhu Jianjun, Shi Yan.A Multi-level Spatial Clustering Based on Distance ConstraintsJ.Science of Surveying and Mapping, 2014, 39 (10) :98-101 (周翠竹, 朱建军, 石岩.一种基于双重距离约束的多层次空间聚类方法J.测绘科学, 2014, 39 (10) :98-101) 9Mundur P
31、, Rao Y, Yesha Y.Keyframe-Based Video Summarization Using Delaunay ClusteringJ.International Journal on Digital Libraries, 2006, 6 (2) :219-232 10Deng Min, Peng Dongliang, Liu Qiliang, et al.A Hierarchical Spatial Clustering Algorithm Based on Field TheoryJ.Geomatics and Information Science of Wuhan
32、 University, 2011, 36 (7) :847-852 (邓敏, 彭东亮, 刘启亮, 等.一种基于场论的层次空间聚类算法J.武汉大学学报信息科学版, 2011, 36 (7) :847-852) 11Jiao Limin, Hong Xiaofeng, Liu Yaolin.Self-organizing Spatial Clustering Under Spatial and Attribute ConstraintsJ.Geomatics and Information Science of Wuhan University, 2011, 36 (7) :862-866 (焦
33、利民, 洪晓峰, 刘耀林.空间和属性双重约束下的自组织空间聚类研究J.武汉大学学报信息科学版, 2011, 36 (7) :862-866) 12Shi Yan, Liu Qiliang, Deng Min, et al.A Hybrid Spatial Clustering Based on Graph Theory and Spatial DensityJ.Geomatics and Information Science of Wuhan University, 2012, 37 (11) :1 276-1 280 (石岩, 刘启亮, 邓敏, 等.融合图论与密度思想的混合空间聚类方法J.
34、武汉大学学报信息科学版, 2012, 37 (11) :1 276-1 280) 13Liu Qiliang, Deng Min, Shi Yan, et al.A Novel Spatial Clustering Method Based on Multi-constraintsJ.Acta Geodaetica et Cartographica Sinica, 2011, 4:509-516 (刘启亮, 邓敏, 石岩, 等.一种基于多约束的空间聚类方法J.测绘学报, 2011, 4:509-516) 14Liu Q, Deng M, Shi Y, et al.A Density-Based
35、 Spatial Clustering Algorithm Considering Both Spatialproximity and Attribute SimilarityJ.Computers&Geosciences, 2012, 46:296-309 15Estivill-Castro V, Lee I.Argument Free Clustering for Large Spatial Point-Data Sets Via Boundary Extraction from Delaunay DiagramJ.Computers, Environment and Urban Syst
36、ems, 2002, 26 (4) :315-334 16Liu D, Sourina O.Free-Parameters Clustering of Spatial Data with Non-uniform DensityC.Cybernetics and Intelligent Systems, 2004IEEE Conference on, Singapore, 2004 17Pakhira M K, Bandyopadhyay S, Maulik U.Validity Index for Crisp and Fuzzy ClustersJ.Pattern Recognition, 2
37、004, 37 (3) :487-501 18Zhang Wenzhong.Economic Location TheoryM.Beijing:Science Press, 2000:100-107 (张文忠.经济区位论M.北京:科学出版社, 2000:100-107) 19Battaglia F, Borruso G, Porceddu A.Real Estate Values, Urban Centrality, Economic Activities.A GIS Analysis on the City of Swindon (UK) M.Heidelberg:Springer Berlin, 2010