1、面向属性空间分布特征的空间聚类 朱杰 孙毅中 李吉龙 南京师范大学虚拟地理环境教育部重点实验室 江苏省地理信息资源开发与利用协同创新中心 摘 要: 空间聚类应当同时满足空间位置邻近和属性相似, 在此背景下, 为满足空间邻近实体之间趋势性和不均匀性的属性聚类需求, 提出一种基于图论和信息熵的空间聚类算法。该算法主要是在 Delaunay 三角网空间位置聚类基础上, 通过引入信息熵, 采用多元相似性度量方法以解决二元关系在属性聚类中的缺陷, 同时基于“等概率最大熵”原则提出了一种局部参数度量方法, 用于表达邻近目标间属性分布的局部变化信息。将本文方法与多约束聚类方法和 DDBSC 聚类方法进行对比
2、分析, 结果表明: (1) 在属性空间分布不均的情况下, 本文方法的聚类精度要高于多约束方法和 DDBSC 方法, 尤其是当属性空间分布不均程度不断扩大时, DDBSC 和多约束算法会将空间簇内的实体误判为噪声; (2) 在对异常值的敏感性问题上, 3 类方法都能识别出异常值的位置, 但 DDBSC 和多约束算法对异常值具有一定的敏感性, 聚类结果会掩盖属性分布的趋势性, 本文方法受异常值影响很小。通过模拟实验和实际算例可以发现, 在保证空间邻近的基础上本文方法具有如下优势:第一, 能反映实体属性在空间分布中的趋势性特征;第二, 能满足属性空间分布不均匀;第三, 对异常值具有良好的稳健性。关键
3、词: 空间聚类; Delaunay 三角网; 信息熵; 趋势性; 不均匀性; 作者简介:朱杰 (1989) , 男, 博士研究生, 研究方向为空间数据表达与挖掘。E-mail:Chu_J作者简介:孙毅中 (1957) , 男, 教授, 研究方向为城市空间数据挖掘。E-mail:sunyizhong_收稿日期:2016-12-26基金:国家自然科学基金 (编号:41671392) Spatial clustering method considering spatial distribution feature in the attribute domainZHU Jie SUN Yizhong
4、 LI Jilong Abstract: Spatial clustering is important for spatial data mining and spatial analysis. Spatial objects in the same cluster should be similar in the spatial and attribute domains. Tendency and heterogeneity are important characteristics of geographic phenomena. Currently, most spatial clu
5、stering algorithms only consider either tendency or heterogeneity, failing to obtain satisfied clustering results. To overcome these limitations, a spatial clustering method based on graph theory and information entropy is developed in this work.The proposed algorithm involves two main steps: constr
6、uct spatial proximity relationships and cluster spatial objects with similar attributes. Delaunay triangulation with edge length constraints is first employed to construct spatial proximity relationships among objects. To obtain satisfactory results in spatial clustering with attribute similarity, t
7、he information entropy is introduced to overcome the defects of similarity measure with binary relation, which can reflect the clustering tendency of geographical phenomena. Furthermore, a local parameter measurement method based on the principle of “equal probability maximum entropy” is designed to
8、 adapt to the local change information of attribute distribution. The performance of the proposed algorithm was evaluated experimentally by comparing the leading state-of-the-art alternatives: DDBSC and multi-constraint algorithms. Results showed that our method outperformed the two other algorithms
9、 as attributes are unevenly distributed in space. The sensitivity analysis of these algorithms showed that our method was the least sensitive to outliers. The effectiveness and practicability of the proposed algorithm were validated using simulated and real spatial datasets. Two experiments were per
10、formed to illustrate the three advantages of our algorithm: (1) It can reflect the tendency of the entity attribute in the spatial distribution. (2) It can meet the requirement that attributes are unevenly distributed in space. (3) It can discover clusters with arbitrary shape and is robust to outli
11、ers.Keyword: spatial clustering; Delaunay triangulation; information entropy; tendency; heterogeneity; Received: 2016-12-261 引言空间聚类是地理空间数据挖掘与知识发现的重要技术手段, 其能够发现空间实体自然的空间集聚模式, 对于揭示空间实体的分布规律和空间结构特征具有重要的作用。进一步, 结合空间实体属性在空间上的分布与差异对于解释复杂的地理现象具有重要意义 (邓敏等, 2011) 。目前空间聚类技术已广泛应用于地图综合 (Ai 和 van Oosterom, 2 0 0
12、 2;武芳等, 2 0 0 8) 、城市规划 (H o n g 和 OSullivan, 2012;焦利民等, 2015) 、图像处理 (贺辉等, 2016) 、气候变化 (Birant 和 Kut, 2007;石岩等, 2013) 等研究领域。国内外学者对空间聚类方法做了大量的研究, 可分为两种形式:一种是只顾及空间位置的聚类方法;另一种是兼顾空间位置和属性特征的聚类方法。基于空间位置聚类方法主要是通过解决实体空间位置分布的不规则性包括噪声问题 (Ahuja, 1982) 、空间密度分布不均问题 (Kang 等, 1997;Eldershaw 和 Hegland, 1997) 和簇间边问题
13、(Estivill-Castro 和 Lee, 2002;Zhong 等, 2010) 等, 以此获取实体的空间邻近关系, 现有方法主要包括划分法 (Mac Queen, 1967) 、层次法 (Zhang 等, 1996) 、基于密度的方法 (Ester 等, 1996) 和基于图论的方法 (Estivill-Castro 和 Lee, 2002) 等。兼顾空间位置和属性特征的聚类方法在聚类过程中顾及了实体的空间邻近性和属性相似性, 目前主要有 3 类方法: (1) 双重距离聚类方法 (Sander 等, 1998;Birant 和 Kut, 2007;李光强等, 2008) 将空间距离和属
14、性距离作为聚类变量分开来考虑, 聚类过程中两种距离要同时满足聚类要求才能划分到同一个簇中。这类算法所涉及对象之间的相似性度量均为二元关系 (单个实体与单个实体) , 国内外已有研究 (Slonim 等, 2005;Bai 等, 2012) 表明二元相似关系在复杂数据中难以获取有意义的结构, 就地理要素而言, 在局部区域内会出现邻近要素之间区分度很小的情况, 二元相似关系在面对这种局部特征时本身所具有的传递性会导致属性值之间的差异在聚类过程不断传播积累, 造成最终的聚类结果无法准确地反映地理要素在空间分布中的过渡性; (2) 一体化法 (Mundur 等, 2006;邓敏等, 2010;焦利民等
15、, 2011) 将空间坐标和属性数据加权融合构造距离函数, 再结合特定的空间聚类算法进行聚类, 本质是将空间位置和属性特征纳入统一的空间距离测度。由于空间位置和属性特征存在不可比性, 对空间距离度量进行属性扩展或对属性距离进行空间扩展存在一定的人为任意性; (3) 空间位置上的属性相似性聚类方法 (Lin 等, 2005;刘启亮等, 2011;Liu 等, 2012;石岩等, 2012) 首先考虑实体的空间邻近性, 然后加入属性约束, 可以适应不同用途的空间聚类应用且可操作性更强。但此类方法在聚类过程中采用了固定的阈值如刘启亮等人 (2011) 和 Liu 等人 (2012) 将属性阈值设为最
16、邻近实体非空间属性差异的平均值, 这种设置方法在属性空间分布均匀的情况能够很好地揭示空间对象的分布规律, 但是不能满足属性分布不均匀的情况, 有可能将局部相似的对象划入到噪声簇中或划入其他聚类簇中, 导致聚类精度降低。针对目前兼顾空间位置和属性特征的聚类方法存在的问题, 本文将信息熵引入到空间聚类算法中。2 方法提出的空间聚类方法分为两个步骤:第一, 空间位置聚类, 得到实体间的空间邻近关系;第二, 在此基础上进一步顾及属性聚类, 得到最终聚类结果。2.1 基于空间实体位置的聚类实体间空间邻近关系的构建是空间位置聚类的关键问题, 许多聚类算法需要输入人为参数和先验知识如密度阈值, 聚类的数目,
17、 数据分布模式的假设, 核密度窗口大小等, 这种带有参数的方法难以适应空间实体分布的不规则性且效率较低。Delaunay 三角网是空间相似性表达的一种有效工具, 不需要任何参数设置, 参数信息完全包含在三角网中, 这有利于减少人为产生的误差, 提高聚类效率。为适应空间实体分布的不规则性, 本文首先采用一种顾及全局和局部信息的动态筛选准则 (Estivill-Castro 和 Lee, 2002) 对 Delaunay 三角网施加整体边长约束, 具体表达如下。定义 1 整体边长约束:给定一个空间数据集 D, 其包含的对象生成的 Delaunay三角网表示为 DT。针对任一对象 P, 与其直接相连
18、的对象表示为 DN (P) , Longedge 表示与 P 连接的所有边的整体边长约束, 表示为式中, Local -Mean-Length (P) 表示点 P 的邻域内所有边长的均值;Local -S D (P) 表示点 P 邻域内所有边长的标准差;Global_S D 表示 D T 所有对象 Local-S D (Pi) 的平均值;d (P) 表示点 P 直接邻近对象的个数;|ei|表示点 P 邻域内的边长;N 表示平面点集数目。如果网内任一对象 P 与 DN (P) 相连的边长长度大于 Longedge, 则将其删除。整体边长约束能够适应发现任意形状、不同密度的空间簇 (图 1 (c)
19、 ) , 但无法解决簇间的“颈”问题 (图 1 (c) 黑色圆圈所示) , 需要进一步施加局部边长约束。由图 1 可以看出, 簇间的“颈”通常位于空间聚类簇的边界处, 边界点邻域内连线长短不一, 梯度变化较大。基于此, 采用一个相对参数来量化这种特征, 即通过判断点的松散度来探测簇间的“颈”。图 1 基于 Delaunay 三角网空间位置聚类过程 Fig.1 Different stages of spatial clustering 下载原图定义 2 点的松散度:给定一个平面点集 D, 由点集生成的 Delaunay 三角网表示为 DT。针对 DT 内任一点实体 P, F (P) 表示点实体
20、 P 的松散度, 表示为式中, F (P) 是一个相对参数, 表示对象 P 邻域内的紧凑程度, F (P) 越小该邻域越紧凑。由定义 2 可知 F (P) 值越小说明该对象邻域内边长梯度变化小。很明显, 聚类簇内的点由于邻域内边长变化较小, 其 F (P) 值较小, 相反, 聚类簇边界点 F (P) 值较大。因此, 针对 DT 内任一点实体 P, 聚类簇边界点的松散度可以表示为式中, Sets 表示聚类簇边界点的松散度集合; 表示松散度阈值, 采用 Liu 和Sourina (2004) 的启发式方法可确定 。通过集合 Sets 可以找到聚类簇的边界点, 删除这些边界点之间的连线以此获取局部边
21、长约束结果 (图 1 (d) ) 。通过上述过程对 Delaunay 三角网施加多层次的边长约束能够满足实体空间位置分布的不规则性, 探测不同空间簇之间的边界获取若干相似的簇以此达到空间位置的聚类。2.2 基于信息熵度量的属性聚类信息熵 (Shannon, 1948) 可以用来测量一个系统的有序程度, 熵值越大说明系统中的数据越无序;熵值越小说明系统中的数据越有序。如果将信息熵应用到聚类中, 根据聚类的判断准则, 同一聚类簇中数据越相似越好, 而数据越有序。因此, 基于信息熵的聚类要求应使得聚类后类内熵尽可能小, 类间熵尽可能大。然而, 具体如何聚类以及采用何种聚类准则仍然是个问题。目前基于信
22、息熵聚类的主流做法是将原始数据集分配到 K 个聚类簇中, 找出使得整个分配的总信息熵最小的那种分配组合。这个过程中信息熵实际上是对聚类结果进行处理以达到改善聚类效果的目的, 聚类过程仍然以一些经典聚类算法为主 (Li 等, 2004;周悦来, 2011;郭新辰等, 2015;李凯和曹喆, 2016) 。本文受最大熵理论启发, 从信息熵相对变化的角度来看待聚类过程, 提出了一种基于信息熵度量的属性聚类方法, 具体表达如下。定义 3 属性熵:属性熵:设有 n (n2) 个空间对象的聚类簇 X=x1, x2, , xn, 空间对象的属性集合为 A=A1, A2, , Az, X 在属性 Aj 上的取
23、值记为矩阵 RAj= (ri) n1, 此时定义任一对象 xkX 在属性 Aj 的属性概率为 Pk, 即显然, P k具有归一性, 相当于某事件的概率, 于是 X 在属性 Aj 的属性熵 H (MAj) 表示为由最大熵原理 (张继国和 Singh, 2012) 可知, 当对所有 i=1, 2, , n, Pi为相同值时, H (M Aj) 会达到最大值, 称为信息的“等概率最大熵”原则。换言之, 某一聚类簇中对象属性值相差越小, 信息熵值也就越高;反之, 对象属性值差异性越大, 熵值也就越低。根据聚类的判断准则, 同一聚类簇中的数据越相似越好, 因此聚类过程中应尽量遵循“等概率最大熵”原则,
24、确保样本数据划分到最相似的聚类簇中, 具体参数化过程见 2.3.1 节。如果属性集合 A 中各个属性独立不相关, 那么该聚类簇的信息熵值即为每个属性的信息熵的和, 表示为式中, 表示第 z 个属性值的权重, 定义 4 直接邻居:空间位置聚类后获得 Sub_DT 空间邻近图, 针对任一对象 P, 存在一个对象 QDN (P) , 则 Q 是 P 的直接邻居。直接邻居表达了某个实体的一阶邻域对象。定义 5 间接邻居:在 Sub_DT 空间邻近图中, 如果存在一个对象链 P1, P2, , Pn-1, Pn 满足 Pn 仅属于 DN (Pn-1) , Pm 属于DN (Pm-1) DN (Pm+1)
25、 , 1mn, P2仅属于 DN (P1) , 那么 P3, P4, , Pn是 P1的间接邻居。间接邻居表达了某个实体的多阶邻近对象。定义 6 信息熵度量:在 Sub_DT 空间邻近图中, 对象 x1与 x2互为直接邻居关系, 其在某个属性 Aj上的取值分别为 a1、a 2, 那么定义两个对象之间的信息熵相似度为式中, a ka 1, a2, 如果对象 x1和 x2的属性向量是集合 A=A 1, A 2, , A z, 那么两个对象之间的信息熵相似度可以定义为式中, a iz表示对象 x1与 x2在属性 Az上的取值;式 (10) 和 (12) 所给出的对象之间的相似性度量为二元关系, 当聚
26、类对象数量只有两个时, 式 (10) 和 (12) 是可行的, 但聚类对象大于 2 时, 在空间聚类中二元相似关系有可能无法准确反映地理要素在空间分布的趋势性特征, 具体表现为同一聚类簇中出现属性差异较大的现象, 因此, 当判断对象是否属于同一个类时, 需要更多的对象参与到相似性度量中。若存在一个对象 v, 其加入到一个聚类簇 B (簇中实体数量2) 中的可能性要取决于对象 v 与聚类簇 B 中所有对象的相似度。设对象 v 的属性为 qv, 聚类簇B 中对象的属性为q 1, q2, , qm, 则对象 v 与聚类簇 B 的相似性表示为式中, q kq 1, q2, , qm, qv。同样, 如
27、果对象的属性是多维的, 可以根据式 (14) 进行扩展。定义 7 邻域属性熵:在 Sub_DT 空间邻近图中, 针对任一对象 P, 其直接邻居包括自身表示为 Sub_DN (P) , 则空间对象 P 的邻域属性熵为式中, H Sub_DN (P) (M) 表示 P 与直接邻居集合之间的相似性, 可由式 (14) 计算得出; 表示 Sub_DN (P) 的个数。H Sub_DN (P) (M) 能够比较比较量纲不同或者平均值差别较大的两组数据 (成员数量相同) 的离散度, 其值越大说明 Sub_DN (P) 内对象属性差异越小, 信息熵的单调性决定了 HSub_DN (P) (M) 在比较两组数
28、量不同的数据时可能是失效的。因此, 提出邻域属性熵的概念, 其是一个相对参数, 数值越大说明对象 P 与直接邻居对象间属性差异度越小。定义 8 聚类中心:在 Sub_DT 空间邻近图中, Cluster_Point 表示聚类中心点, 表示为通常很多方法没有考虑到聚类结果的唯一性, 聚类中心的定义用来选取属性差异最小的区域开始聚类, 每次凝聚实体时, 也是按照实体邻域属性熵最大原则进行, 可以保证聚类结果的有序性。计算所有对象 Hnear (P) 值, 按照降序排列, 取最大值作为聚类中心点。聚类中心不是固定的, 当一个聚类簇形成时, 在所有未被聚类的对象中, 按照上述定义重新选择中心点。定义
29、9 聚类簇:在 Sub_DT 空间邻近图中, 选取聚类中心, 对其直接邻居和间接邻居的邻域属性熵按照降序排列, 采用广度优先遍历方法 (严蔚敏和吴伟民, 2007) 依次访问该聚类中心的直接邻居和间接邻居并进行信息熵度量, 访问顺序按照实体的邻域属性熵从大到小依次进行, 将符合相似性阈值 (详见 2.3.1节) 的所有对象进行合并, 一个聚类簇形成。定义 10 噪声:聚类簇全部形成后, 给定一个对象 P, 如果 P 不属于任何簇, P 被认定为噪声。2.3 算法分析与描述2.3.1 属性聚类阈值分析由定义 3 和定义 6 可知聚类簇中属性值差异越小, H (M) 值越高, 那么当每个对象的属性
30、值都相等, H (M) 取得最大值记为 Hmax (M) , 此时聚类簇内达到了最大相似性。为确保聚类过程中遵循“等概率最大熵”原则, 给出了具体的参数化过程:对于任一对象 P, 如果它与已知对象或者聚类簇相似时, 根据信息熵的单调性可知, 加入 P 的聚类簇信息熵与最大信息熵差异小;如果 P 与已知对象或者聚类簇差异性较大时, 加入 P 的聚类簇信息熵与最大信息熵差异也越大, 本文引入 这个参数量化对象 x 与已知对象或者聚类簇之间的相似性, 具体表达如下式中, H (M) 表示增加对象 x 后聚类簇的信息熵, Hmax (M) 表示增加对象 x 后聚类簇的最大信息熵。全局参数聚类实质上假设
31、了空间实体分布的均匀性, 有可能将局部相似的对象划入到噪声簇中或者其他簇中, 导致聚类精度降低。是一个相对率的概念能够描述对象间的相对变化信息, 可以同时满足属性空间分布不均匀和均匀两种情况。显然 0, 1, 值越大, 对象 P 与已知对象或者聚类簇之间的相似性越大。为了保证参数 能够自动地适应不同的聚类需求, 本文引入了 PBM 指数 (Pakhira 等, 2004) 来确定参数 的取值。PBM 指数作为一个相对评价指标能够满足紧密性与分离性的聚类准则, 该指数越大则得到的聚类结果越可靠, 其具体表示为式中, N c表示簇的数量;N i表示簇 Ci中实体数量;v i表示簇 i 的质心;E
32、i表示簇Ci的内部距离 (簇内所有空间对象到其质心的距离之和) ;E 1表示数据集只分为一类的聚类内部距离;E Nc表示数据集分为 Nc 个簇的聚类内部距离;D Nc表示空间簇间的分离度, 其随着 Nc增大而增大, 最大值为数据集中最远两个簇的质心距离。2.3.2 算法描述本文提出的空间聚类方法主要包含两个主要步骤:第一, 构建空间邻近关系, 对所有空间对象构建 Delaunay 三角网, 对三角网施加边长约束, 删除不一致边;第二, 基于信息熵度量的属性聚类, 在空间邻近关系的基础上进行属性聚类, 具体过程如下:(1) 计算每个对象的邻域属性熵, 并对 Delaunay 三角网内所有对象的邻
33、域属性熵值按照降序排列;(2) 选取邻域属性熵最大值作为初始聚类中心;(3) 按照广度优先遍历方法搜索该对象的直接邻居, 将符合 值的对象聚类合并, 并标识为已聚类;(4) 循环步骤 2 和步骤 3, 依次搜寻该对象的间接邻居, 向外不断扩散, 将符合阈值的对象加入到簇中, 直到没有新对象加入, 一个聚类簇即形成;(5) 对于未被标识聚类的对象, 迭代步骤 24, 遍历完所有对象, 聚类结束, 没有被标识到任何一类簇的对象视为噪声。3 实例验证为了验证本文方法的有效性与可行性, 共设计了两组实验。实验 1 采用了一组模拟数据;实验 2 采用 756 个气象站点的海拔高度数据, 并将本文方法与双
34、重距离 (DDBSC) 聚类算法 (李光强等, 2008) 和多约束聚类算法 (刘启亮等, 2011) 进行比较。3.1 模拟实验模拟数据是在 Ester 等人 (1996) 的 2 维模拟数据库的基础上进一步添加了 1维专题属性, 其中图 2 (a) 是模拟数据的空间分布, 模拟数据包含了空间密度不同、形状各异的空间簇, 采用整体边长约束对三角网过滤, 结果显示Delaunay 三角网内还会存在簇间边问题 (图 2 (b) 红色虚线范围) , 需要进一步施加局部边长约束获取最终的空间位置聚类结果 (如图 2 (c) 所示) 。图 2 模拟数据空间位置聚类过程 Fig.2 Spatial cl
35、ustering in simulated dataset 下载原图在图 2 (c) 的聚类结果上对模拟数据添加 1 维属性值 (图 3) , AV 表示属性的取值范围, 为避免聚类结果出现偶然性, 对每个数据点随机生成 20 次数值, 取其均值作为最终的属性值, 共预设了 5 个空间簇 (C1C5) 。图 3 模拟数据的属性设置 Fig.3 Attribute settings of simulated dataset 下载原图图 3 (a) 中各个空间簇的属性上存在差异且属性空间分布不均 (C2 内部属性差异区别于其他簇) , 采用多约束聚类方法、DDBSC 算法和本文方法分别进行属性聚类
36、, 结果如图 4 所示。可以发现: (1) 本文方法准确识别了预设的空间簇 (图 4 (c) ) ; (2) DDBSC 聚类过程中采用的是二元相似关系, 二元关系的传递性会掩盖属性空间分布的过渡性, 其结果将 C4 和 C5 识别为一个空间簇 (图 4 (a) ) ; (3) 多约束聚类方法虽然采用了一种类似 K-means (Mac Queen, 1967) 的相似性策略即单个实体与聚类集合间的相似性, 但全局距离阈值难以满足属性分布不均匀的情况, 可能会导致局部区域会产生多个空间簇 (如图 4 (b) 中C3 被分解为 3 个) , 整个聚类结果产生了 17 个空间簇。进一步探讨全局参数
37、的局限性, 将 C2 的属性范围扩大到 1020 (图 3 (b) ) , 聚类结果出现了另一种现象:DDBSC 和多约束算法将 C2 内的多个实体误判为噪声 (图 4 (d) (e) ) , 而本文方法能够准确识别预设的空间簇 (图 4 (f) ) 。图 4 不同方法的聚类结果对比 Fig.4 Comparison of the clustering results using different methods 下载原图图 3 (c) 在图 3 (a) 的基础上设置了 5 个异常值 (表示) 来检验 3 类算法的敏感性, EV 表示异常数值。从聚类结果看出 3 类方法都准备识别出异常值的位
38、置, 但 DDBSC (图 4 (g) ) 和多约束算法 (图 4 (h) ) 对异常值具有一定的敏感性, 这导致 C4 和 C5 被误判为一个空间簇, 掩盖了属性分布的趋势性, 本文算法表现出一定的稳健性, 能够识别出预设的空间簇 (图 4 (i) ) 。3.2 实验二实际应用选用了中国大陆地区 756 个气象站点的海拔高度数据, 图 5 (a) 显示了气象站点的空间分布, 图 5 (b) 可视化表达了各气象站点的海拔高度, 可见地势西高东低, 呈阶梯状分布, 海拔高度存在差异且空间分布不均。在空间位置聚类结果的基础上分别采用 DDBSC 方法、多约束方法与本文方法进行属性 (海拔高度) 聚类, 结果如图 5 (c) (e) 所示。可以发现: (1) DDBSC 聚类