收藏 分享(赏)

基于蚁群觅食原理的聚类算法的研究及改进.doc

上传人:无敌 文档编号:153292 上传时间:2018-03-22 格式:DOC 页数:8 大小:125.50KB
下载 相关 举报
基于蚁群觅食原理的聚类算法的研究及改进.doc_第1页
第1页 / 共8页
基于蚁群觅食原理的聚类算法的研究及改进.doc_第2页
第2页 / 共8页
基于蚁群觅食原理的聚类算法的研究及改进.doc_第3页
第3页 / 共8页
基于蚁群觅食原理的聚类算法的研究及改进.doc_第4页
第4页 / 共8页
基于蚁群觅食原理的聚类算法的研究及改进.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、基于蚁群觅食原理的聚类算法的研究及改进 张梦佳 李秦 王菲菲 兰州交通大学数理学院 摘 要: 针对基于蚁群觅食原理的聚类算法初期收敛速度较慢的问题, 以及未区分各维特征主次的缺陷, 本文提出了一种两阶段蚁群聚类算法, 以解决上述问题。第一阶段引入各只蚂蚁的实时信息素更新规则改善算法初期收敛速度较慢问题, 并为第二阶段提供合理的初始隶属度矩阵;第二阶段利用隶属度矩阵自适应地赋予各维特征不同的权重, 再用信息素强度和加权欧氏距离共同指导各只蚂蚁构造解。经过人工数据集和 UCI 数据集的测试, 结果表明两阶段蚁群聚类算法可以加快算法初期收敛速度, 同时提高聚类的准确率。关键词: 蚁群聚类; 两阶段;

2、 收敛速度; 自适应权重; 作者简介:张梦佳 (1993-) , 女, 河南新乡人, 在读硕士研究生, 主要从事智能计算方面的研究.收稿日期:2017-04-25Research and Improvement of Clustering Algorithm Based on Ant Colony Foraging PrincipleZHANG Mengjia LI Qin WANG Feifei Lanzhou Jiaotong University; Abstract: Focusing on the problem, which the clustering algorithm base

3、d on ant colony foraging principle of convergence may be slow in the initial stage, and the defects not distinguishing the various features of primary and secondary, this paper presents a two-stage ant colony clustering algorithm to solve the problems mentioned above. The first stage of algorithm wh

4、ich introduces the ant real-time initial pheromone update rule to improve the problem of low convergence speed in early algorithm. the second stage of algorithm, guiding the ants structural solution by the membership matrix to adaptively endow the reasonable feature weight of each dimension, as well

5、 as the pheromone intensity and weighted Euclidean distance. Through the test on artificial data set and UCI data sets, the results show that the two-stage ant colony clustering algorithm can improve the convergence speed in early algorithm, mean while, improve the accuracy of clustering.Keyword: an

6、t colony clustering; two stages; the rate of convergence; adaptive feature weight; Received: 2017-04-25聚类作为数据分析领域中人们认识和探索事物内在分布结构的一种有效手段, 被广泛应用于许多领域, 如:信息检索、客户细分、机器学习、图像压缩、生物学等。聚类为无监督学习, 其根据数据样本之间的相关性将数据样本集划分为不同的类, 使得相同类内的数据之间相似度较高, 而不同类之间的相异度较高。蚁群算法1是 1991 年由意大利学者 Dorigo M 提出的一种模仿蚂蚁群体行为的仿生优化算法, 200

7、4 年 Shelokar 将蚁群算法运用于聚类分析中, 提出基于蚁群觅食原理的聚类算法2 (Ant Colony Clustering Algorithm, ACCA) 。基于蚁群觅食原理的聚类算法具有蚁群算法的随机搜索、自组织聚类、优良的分布式计算等优点, 但是该算法初期受蚁群随机搜索、信息素更新缓慢的影响收敛速度较慢, 聚类过程中信息素的高度集中导致算法后期易陷入局部最优。目前对基于蚁群觅食原理的聚类算法的改进多是与其他算法相结合, 取得了较好的聚类结果, 但是还存在一些不足:文献3使用初始化敏感的 K-Means 算法快速、粗略地确定蚁群聚类算法的聚类中心, 聚类结果容易受初始聚类中心的

8、影响;文献4-5结合遗传算法的交叉、变异操作避免蚁群聚类算法陷入局部最优, 但混合算法的运行时间较长;文献2-5未区分样本各维特征的主次。为了加快算法初期收敛速度, 又避免聚类结果受到初始聚类中心的影响, 同时考虑样本各维特征的贡献率, 本文提出一种两阶段蚁群聚类算法。1 基于蚁群觅食原理的聚类算法蚂蚁在寻找食物源的过程中会在其走过的路径上留下一种特殊的分泌物信息素来标记路径, 蚂蚁释放出来的信息素的量与路径长度成反比, 而蚂蚁选择路径的概率与信息素的量成正比, 随着时间推移该物质也会逐渐挥发。当一条路径上走过的蚂蚁数量越多, 这条路径被后来蚂蚁选择的概率越高, 从而就增强了该路径上信息素的强

9、度, 因此会吸引更多的蚂蚁, 这一过程称为正反馈6。通过正反馈机制, 蚂蚁最终可以找到从蚁穴到食物源的最短路径。设 X=Xi|i=1, 2, , N为 N 个数据样本集, 其中 Xi= (xi1, xi2, , xiz) 为z 维向量。基于蚁群觅食原理的聚类算法 ACCA 就是把 X 划分为 K 个类 M1, M2, , MK, 使聚类目标函数 F 最小。设 mk= (mk1, mk2, , mkz) 为类 Mk的聚类中心, 目标函数 F 定义如下:式中:y ik表示 Xi 对 Mk 的隶属度, 为欧式距离, 用来衡量样本 Xi到聚类中心 mk之间的距离;z 为样本特征数目。设 ik (t)

10、表示 t 时刻样本 Xi到聚类中心 mk路径上残留的信息素量, 该算法仅对蚂蚁找到的全局最优解路径上的信息素更新, 更新方式为:式中: (0, 1) 为挥发因子;L 为常数; ik=1/Fl, Fl表示对目标函数值从小到大排序后, 序号为 l 的目标函数值。基于蚂蚁觅食原理的聚类算法如下:步骤 1:初始化。设定各参数 、q 0、L, 聚类数 K, 蚂蚁个数 A, 最大迭代次数t_max, 初始信息素矩阵 ik (0) =C。步骤 2:构造每只蚂蚁的解, 对每只蚂蚁随机生成一个随机数 q。若 qq 0, 则蚂蚁根据信息素矩阵选中拥有最大信息素强度的类, 将样本 Xi分配到类 Mk中;否则, 将样

11、本 Xi随机分配到类 Mk中。步骤 3:根据蚂蚁构造的解计算式 (1) 目标函数值和新的聚类中心 (即类内样本特征的平均值) 。步骤 4:若所有蚂蚁均完成解的构造, 则对 A 个目标函数值从小到大进行排序, 找出最小的 F 值记为此次迭代的最优值;然后将此次迭代的最优解与全局最优解进行比较, 取二者之中目标函数值较小者为全局最优解, 再按式 (2) 进行全局信息素的更新;否则, 返回步骤 2。步骤 5:若满足结束条件 tt_max, 则输出全局最优解;否则迭代次数 t=t+1, 转至步骤 2。基于蚁群觅食原理的聚类算法初期收敛速度较慢, 聚类过程中未考虑各维特征的贡献率, 导致聚类结果不理想。

12、为了改善聚类的效率和质量, 本文第一阶段采用基于各只蚂蚁实时信息素更新规则改进的蚁群聚类算法进行初始化, 加快算法初期收敛速度, 使蚁群尽快搜索到近似解附近, 为下一阶段提供合理的初始隶属度矩阵;第二阶段引入自适应特征加权, 在每次迭代中利用隶属度矩阵自适应赋予各维特征不同的权重, 进而由信息素强度和加权欧氏距离共同指导蚂蚁构造解, 最终得到较理想的聚类。2 两阶段蚁群聚类算法2.1 第一阶段蚁群聚类算法基于蚁群觅食原理的聚类算法式 (2) 中信息素的更新仅仅增强了全局最优解路径上的信息素强度, 其他路径上的信息素强度没有更新, 这就造成了算法初期收敛速度较慢。为了改善这一问题, 本阶段在每只

13、蚂蚁搜索完成之后进行全部路径上的信息素更新, 新信息素矩阵作为下一只蚂蚁构造解的依据, 再结合每次迭代完成后全局最优解路径上信息素的更新, 有效提高了算法的初期收敛速度。第 R 只蚂蚁实时信息素更新规则:式中:Q 为一个正常数, 为随机挥发因子7 (当 取大时有利于全局搜索, 取小时加快收敛速度) 。2.2 第二阶段蚁群聚类算法ACCA 中认为样本各维特征是独立、无冗杂的, 并且拥有相同的贡献率, 但在实际聚类中各维特征的贡献率往往不同。因此本阶段将一种自适应赋予各维特征权重的方法引入蚁群聚类算法中, 改善聚类效果。这里定义一个加权目标函数:。r 为特征权重指数;将 F 看作是一个带约束的最小

14、化目标函数, 取 r=2 利用拉格朗日乘法得到各维权重系数 wj:由于 t 时刻聚类中心计算公式为:将 mkj (t) 带入式 (4) 得:将式 (5) 带入式 (6) 得到不计算聚类中心点的各维权重系数:上式中 t 时刻各维权重系数是根据 t-1 时刻得到的隶属度矩阵和数据样本计算得到。进而能够得到 t 时刻样本 Xi到聚类中心 mk的加权欧氏距离:经过第一阶段的预处理之后可以粗略地得到聚类中心, 则在此阶段改变蚂蚁构造解的方式为:用信息素强度和加权欧氏距离指导蚂蚁构造解, 以降低算法仅仅依赖信息素构造解的错误率。2.3 两阶段蚁群聚类算法步骤步骤 1:初始化。设定各参数 Q、L, 聚类数

15、K, 蚂蚁个数 A, 最大迭代次数t_max, 第一阶段迭代次数 t_1, 初始信息素矩阵 ik (0) =C。步骤 2:迭代次数 tt_1, 则每只蚂蚁按 ACCA 中蚂蚁搜索解的方式确定各样本所属的类;每只蚂蚁经过所有样本点后, 按式 (3) 更新全部路径上的信息素。步骤 3:所有蚂蚁全部完成一次遍历后, 按式 (2) 取 rand 更新全局信息素, 直到满足终止条件。步骤 4:利用隶属度矩阵、数据样本确定各维特征的权重系数, 由信息素矩阵和按式 (8) 计算所得的距离矩阵确定 Pik。步骤 5:蚂蚁根据 max Pik确定各样本所属的类, 计算新的聚类中心以及目标函数式 (1) 中 F

16、(令 dik=dik) 的值。每只蚂蚁经过所有样本点后, 使用 dik按式 (3) 更新所有路径上的信息素。步骤 6:若所有蚂蚁全部完成一次遍历后, 对 A 个目标函数值从小到大进行排序, 找出最小的 F 值记为此次迭代的最优值, 然后将此次迭代的最优解与全局最优解进行比较, 取二者之中目标函数值较小者为全局最优解, 再使用 dik和rand 按式 (2) 更新全局信息素;否则转至步骤 5。步骤 7:若满足结束条件 tt_max, 则输出全局最优解;否则迭代次数 t=t+1, 转至步骤 4。3 实验结果与分析本文采用人工数据集和 UCI 机器学习数据集中的 iris、wine 数据集, 分别对

17、ACCA 和两阶段蚁群聚类算法进行测试。其中, 人工数据集由服从以下 4 类高斯分布的数据构成:类 1xN (0, 2) , yN (0, 2) , 类 2xN (0, 2) , yN (8, 2) , 类 3xN (8, 2) , yN (0, 2) , 类 4xN (8, 2) , yN (8, 2) ,每类各 50 个数据。3 种数据集具体描述如表 1 所示。实验运行环境:AMD A8-6410, 2.0 GHz CPU, 4 GB RAM, Matlab2010。实验参数设定:=0.1, q 0=0.9, Q=100, L=2, 初始化 ik (0) =0.01, 蚂蚁个数 A=50。

18、表 1 数据集 下载原表 对以上 3 个数据集运用 ACCA 和两阶段蚁群聚类算法分别运行 50 次, 结果如表2、表 3、表 4 所示。从表 2、表 3 和表 4 中可以看出:(1) 单用两阶段蚁群聚类算法中第一阶段蚁群聚类算法比 ACCA 的收敛速度快, 正确率也有小幅提高, 说明该阶段提供的隶属度矩阵较为合理, 能用于下一阶段特征权重系数的计算。但是该阶段仅仅依靠信息素选择样本所属的类, 正确率还有待提高。(2) 在人工数据集、iris 数据集和 wine 数据集上, 两阶段蚁群聚类算法的平均正确率比 ACCA 分别提高 17.27%、7.16%、27.27%, 聚类的正确率显著提高,

19、这是由于特征权重系数消除了数据间的冗余, 使得蚂蚁依靠信息素强度和加权欧式距离选择样本所属的类更精确。(3) 相比 ACCA, 两阶段蚁群聚类算法的平均运行时间有大幅提高, 说明该算法有效保留了第一阶段蚁群聚类算法收敛速度快的优点。表 2 人工数据集聚类结果对比 下载原表 表 3 iris 数据集聚类结果对比 下载原表 表 4 wine 数据集聚类结果对比 下载原表 4 结语本文对基于蚁群觅食原理的聚类算法进行改进, 第一阶段引入实时信息素更新规则加快算法初期收敛速度, 第二阶段自适应赋予各维特征不同的权重系数, 消除数据间的冗杂, 使蚂蚁更有效地构造解, 提高聚类的准确率。经人工数据集和 U

20、CI 数据集的测试, 进一步验证了两阶段蚁群聚类算法的可行性及有效性。参考文献1Dorigo M, Maniezzo V, Colorni A.The ant system:Optimization by a colony of cooperation agentsJ.IEEE Trans on SMC, 1996, 26 (1) :28-41. 2Shelokar P S, Jayaraman V K, Kulkarni B D.An ant colony approach for clusteringJ.Analytica Chimica Acta, 2004 (509) :187-195

21、. 3李振, 贾瑞玉.基一种改进的 k-means 蚁群聚类算法J.计算机技术与发展, 2015, 25 (12) :28-31. 4戴皇冠, 石跃祥, 李聘婷.基于混合交叉因子的蚁群聚类优化J.计算机工程与设计, 2011, 32:3840-3843. 5王智, 张自力.一种新的混合蚁群聚类算法J.西南师范大学学报 (自然科学版) , 2009, 34 (3) :88-92. 6段海滨.蚁群算法原理及其应用M.北京:科学出版社, 2005:24-42. 7张永强, 王晓东.基于信息素更新和挥发因子调整改进蚁群算法J.西安工程大学学报, 2016, 30 (3) :400-404. 8陈新泉.

22、聚类算法中的优化方法应用M.四川:电子科技大学出版社, 2014:65-81. 9林金灼, 叶东毅.基于蚁群聚类算法的优化与改进J.计算机系统应用, 2013, 22 (12) :93-99. 10Monmarche N, Slimane M, Venturini G.On improving clustering in numerical databases with artificial antsC.Lecture notes in Artificial Intelligence, 1999, 9:13-17. 11Huang J Z, Michael K N, Hongqiang R,

23、et al.Automated Variable Weighting in k-Means Type ClusteringJ.IEEE Transaction on pattern analysis and machine intelligence, 2005, 27 (5) :657-668. 12熊文, 晋耀红.使用蚁群优化和凝聚层次的混合聚类J.北京邮电大学学报, 2013 (36) :60-63. 13肖林云, 陈秀宏, 林喜兰.特征加权和优化划分的模糊 C 均值聚类算法J.微电子学与计算机, 2016, 33 (10) :143-150. 14龚燕.一种新的全局收敛的混合聚类算法D.辽宁:大连理工大学, 2016:20-26.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报