1、聚类分析模式中 K 均值算法的综述及改进分析班级:09 信息与计算科学 学号:20090810010218 姓名:周小员摘要:聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类分析已被广泛应用于统计学、机器学习、空间数据库、生物学以及市场营销等领域。聚类算法可以分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。本文主要介绍了聚类分析模式中几种算法,由于在这些方法当中,K-means(k均值)算法是一种应用十分广泛的聚类分析方法,所以本文同时叙述了经典的 K-means 算法,并总结了一些针对 K-means 算法的相关改进。
2、关键字 : 聚类分析 K-means 算法1.引言随着计算机技术的发展,信息数据越来越多,如何从海量数据中提取对人们有价值的信息已经成为一个非常迫切的问题。由此产生了数据挖掘技术,它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它在图像处理、入侵检测和生物信息学等方面有着极为重要的应用。数据挖掘是从大量数据中提取出可信、 新颖、 有效并能被人理解的模式的高级处理过程。 其目标是从数据库中发现隐含的、 有意义的知识。聚类分析作为一个独立的工具来获得数据分布的情况,是数据挖掘的一个重要研究分支。 在数据挖掘领
3、域,研究工作己经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。活跃的主题集中在聚类方法的可伸缩性,方法对聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据库中混合数值和分类数据的聚类方法。迄今为止, 人们己经提出了很多聚类算法, 它们可以分为如下几类:划分方法、 层次方法、基于密度的方法、 基于网格的方法和基于模型的方法,这些算法对于不同的研究对象各有优缺点。K-means 算法是聚类分析算法中应用非常广泛的算法,同时它也在聚类分析中起着重要作用。日益丰富的空间和非空间数据收集存储于空间数据库中,随着空间数据的不断膨胀,海量的空间数据的大小、复杂性都在快速增长,远远
4、超出了人们的解译能力,从这些空间数据中发现邻域知识迫切需求产生一个多学科、多邻域综合交叉的新兴研究邻域,空间数据挖掘技术应运而生。2.聚类分析2.1 聚类分析的定义聚类分析是根据“物以类聚”的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。2.2 聚类分析的基本思想(1)基本思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系) 。(2)根据一批样本的多个观测指标,找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量作为分类的依据,把一些相似程度较
5、大的样本(或指标)聚合为一类,把另外一些相似程度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)都聚合完毕,形成一个由小到大的分类系统。2.3 聚类分析算法已经提出的聚类分析的方法很多,目前,主要分为以下 5 种主要的聚类分析方法: (1)基于划分的方法首先创建 k 个划分,k 为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。包括 K平均法、K 中心点法和 EM 聚类法。它们都是采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进聚类效果。由于这类方法适用于发现大小相近的球状簇,故常用在设施选址等应用中。(2)基于层次的方法此法只
6、是对对象集合进行分解。根据层次的分解方式,这类方法可分为凝聚和分裂两种, Birch, Cure 和 Chameleon 是上述方法的改进。(3)基于密度的方法对给定类中的每个数据点,在一个给定范围的区域中必须包含超过某个阈值的数据点,才继续聚类。它可以用来发现任意形状的簇,过滤“噪声” 。代表性的方法有:DBscan,Optics和 Denclue。(4)基于栅格的方法把对象空间划为有限的数据单元,形成一个网格结构。该方法处理速度快,处理时间独立于数据对象的数目。常用的方法有 STING、WaveCluster 以及 CLIQUE 等。(5)基于模型方法它假设每个聚类的模型并发现适合相应模型
7、的数据。典型的基于模型方法包括统计方法 COBWEB 和神经网络方法 SOM在这些方法当中,K-means( k均值)算法是一种应用十分广泛的聚类分析方法。3.经典的 K-Means 算法k-means 算法接受输入量 k;然后将 n 个数据对象划分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象” (引力中心)来进行计算的。 大体上说,k-means 算法的工作过程说明如下:首先从 n 个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(
8、距离) ,分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值) ;不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 下面详细地介绍 K-means 聚类问题,假设有一组 N 个数据的集合待聚类。K 均值值聚类问题是要找到 X 的一个划分nxxX,321,使目标函数 最小。其中, ,kccP,321k ),()(1ikicxmdPfiiin1表示第 i 个簇中心位置, i=1,k; 是簇 中数据项的个数; 表示icx ini )
9、,(ixd到 的距离。通常的空间聚类算法是建立在各种距离基础上的,如欧几里得距离、曼iim哈顿距离和明考斯距离等。其中,最常用的是欧几里得距离。K-means 算法的基本思想是:给定一个包含 n 个数据对象的数据库,以及要生成簇的数目 k,随机选取 k 个对象作为初始的 k 个聚类中心;然后计算剩余各个样本到每一个聚类中心的距离,把该样本归到离它最近的那个聚类中心所在的类,对调整后的新类使用平均值的方法计算新的聚类中心;如果相邻两次的聚类中心没有任何变化,说明样本调整结束且聚类平均误差准则函数已经收敛。本算法在每次迭代中都要考察每个样本的分类是否正确,若不正确,就要调整。在全部样本调整完成后修
10、改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会有调整,聚类中心不会有变化。在算法迭代中值在不断减小,最终收敛至一个固定的值。该准则也是衡量算法是否正确的依据之一。K-means 算法的过程可以描述为:算法:划分并计算基于簇中对象的平均值。输入:簇的数目 K 和包含 n 个对象的数据库。输出:平方误差总和最小条件下的 K 个簇。方法:1) 任意选择 K 个对象作为初始的簇中心;2) 将所有对象划分到相应的簇中;3) 计算每个簇中对象的平均值,将所有对象重新赋给类似的簇;4) 重复操作;5) 直到不再发生变化。K-means 方法的缺陷在于它生成硬性划分的聚类,即每
11、个数据点唯一地分配给一个且仅一个聚类。由于事先不知道实际的聚类情况,因此这可能是一中严重的局限。同时,K-means 算法很容易陷入局部极小值从而无法获取全局最优解,在大矢量空间空间搜索中性能下降。同时,K-means 法对于孤立和异常数据敏感,并对非球型簇可能失效。4.改进的 K-means 算法k-means 算法中急需解决的问题主要有三个:1)在 k-means 算法中,k 是事先给定的,这个 k 值的选定是很难估计的。很多时候,我们事先并不知道给定的数据集应分成多少类最合适,这也是 k-means 算法的一个不足。有的算法是通过类的自动合并和分裂,得到较为合理的类型数目 k,例如 IS
12、ODALA 算法。关于 k-means 算法中聚类数目 k 值的确定,有些根据方差分析理论,应用混合 F 统计量来确定最佳分类数,并应用了模糊划分墒来验证最佳分类数的正确性。2)在 k-means 算法中常采用误差平方和准则函数作为聚类准则函数,考察误差平方和准则函数发现:如果各类之间区别明显且数据分布稠密,则误差平方和准则函数比较有效;但是如果各类的形状和大小差别很大,为使误差平方和的值达到最小,有可能出现将大的聚类分割的现象。此外在运用误差平方和准则函数测度聚类效果时,最佳聚类结果对应于目标函数的极值点,由于目标函数存在着许多局部极小点,而算法的每一步都是沿着目标函数减小的方向进行,若初始
13、化落在了一个局部极小点附近,就会造成算法在局部极小处收敛。因此初始聚类中心的随机选取可能会陷入局部最优解,而难以获得全局最优解。3)从 k-means 算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心。因此,当数据量非常大时,算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进,提高算法应用范围。一种改进算法中提到了使用测地距离(Geodesic Distance)代替经典的 K-means 算法中使用欧几里德距离衡量,从改善了经典 k-means 算法中的不足。如降低了对空间异常数据的敏感度,防止算法在非线性分离(not linearly se
14、parable)情况下失效。由于典型的 K-means 算法中,初始点簇中心的选择是随机的。算法的在选取随机的初始聚类中心时,可能会得到一个次最优聚类,具有较高的平方误差。解决方法之一是采用多次运算,每次使用一组不同的随机初始中心,然后选取具有最小总误差平方和的簇集。好的初始中心的选择,能够极大的减少算法所需时间,减少聚类结果的误差总和。优化初始中心的选择成为重要的研究点。总体来说,将优化选择总结为两个研究方向,其一是直接对所有点簇进行处理,其二是先取样分析,通过各种对样本的分析方法得到初始点簇中心。1.直接对所有点簇进行处理这种方法的缺陷是很明显的,在空间数据量较小的情况下,它确实能够快速的
15、完成初始聚类中心的优化,但是在数据量较大的情况下,运算量会成倍数增加。其中一种改进算法中研究了优化 K均值算法中优化初始的聚类中心。为了找到与数据在空间分布上相一致且相似程度较大的数据集合,采取下列步骤:(1) 计算数据对象两两之间的距离;(2) 找出距离最近的两个数据对象,形成一个数据对象集合 ,并将它们从总的数据集合1AU 中删除;(3) 计算 中每一个数据对象与数据对象集合 U 中每一个样本的距离,找出在 U 中与 1A 1A中最近的数据对象,将它并入集合 并从 U 中删除,直到 中的数据对象个数到达一1A1定阈值;(4) 再从 U 中找到样本两两间距离最近的两个数据对象构成 ,重复上面
16、的过程,直到2A形成 k 个对象集合;(5) 最后对 k 个对象集合分别进行算术平均,形成 k 个初始聚类中心。还有一种改进算法,在这其中采用了均值标准差选取初始聚类中心。算法的基本思想是:算出所有数据的均值假定为 ,标准差为 。也就是说数据主要分布在之间,在此区间由公式 选取 K 个点,即为),( ),1(2)(mMNii 初始聚类中心,其中 。计算各个数据对象到各聚类中心的距离,把数据对象归到离MNK它最近的那个聚类中心所在的类。(1)对调整后的新类计算新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明数据对象调整结束。(2) K 值是预先给定的,未必就是最优解。基于类际离散度最大、类
17、内离散度最小的原则,使用准则函数对 K 值进一步优化。以确定的聚类中心为初始聚类中心,计算各个数据对象与初始聚类中心距离,并计算距离准则函数,直到 K 大于或等于N /M 。其中使准则函数值最小的 K 值作为最终划分聚类的个数。(3)将空间对象重新根据欧氏距离公式分配到相应的聚类,更新各聚类中心,直到聚类结果不变。2.通过处理采样样本优化初始聚类中心采用这种方法,样本的采集非常重要,样本的代表性越充分,聚类中心的选择就越优良。比如有一些改进算法中提出了 K 值优化的问题,认为在一些实际应用中(如物流配送) ,可以使用距离代价函数改进 K-means 算法,并认为距离代价函数当类内距离和类际距离
18、函数函数相等时是距离代价函数的一个极值点,通过该极值点能较快地找到 K 的最优解。K值优化算法的过程可以描述为:算法:在 K-平均算法基础上,通过距离代价函数优化 K 值。输入:由用户给定的簇的数目 和包含 n 个对象的数据库。)(Kr输出:距离代价函数最小条件下的 个簇。r方法:1) 用 K-平均算法实现 中所有数目下的空间聚类;r2) 根据距离代价函数分别计算不同聚类数目 下的 S 值;rK3) 搜寻距离代价函数最小的 ,并记下相应的 ;Sr4) 结束。5.总结与展望k-means 算法已经是一种比较成熟的算法,在空间数据挖掘中起着重要的作用。典型的 K-Means 算法有着其自身的局限性
19、和缺陷。目前,针对 k-means 算法的改进很多。部分学者研究了不同距离算法下 k-means 算法的特性并取得了不错的成果。国内大部分研究都基于优化 K 值初始聚类中心,达到降低 k-means 算法复杂度的目的,方法很多。 针对 K 值的输入,目前主要还是硬性的划分,具有较大的主观性,如何更好地优化 K 值,有待进一步的研究解决。同时,需要注意的是,在不同的领域中,其空间聚类算法除了具有一般算法的共性外,还具有其领域的独特性,一种优化算法在一个领域内是有效的,但是在其他领域可能失效。因此,只有考虑到不同领域的特性,选用合适的聚类算法及其优化方法,才能充分发挥空间数据挖掘的功能。 同时,K-means 算法已经推广出了很多算法,如 K中心值法,The Globe Kernel k-Means聚类算法等等 参考文献:1 李德仁,王树良,李德毅.空间数据挖掘理论与应用M北京:科学出版社,20062 Shashi Shekhar, Sanjay Chawla.空间数据库M.谢昆青 等,译.北京:机械工业出版社,20043 汪增福 .模式识别M 中国科学技术大学出版社,20104 赵伟,张姝,李文辉.改进 K-means 的空间聚类算法J 计算机应用研究 20085 李永森,杨善林,马溪骏等.空间聚类算法中的 K 值优化问题研究J 系统仿真学报 2006.