1、混合聚类分析算法在发电设备故障模式识别中的应用 王娜 李号彩 张德利 湖南大唐先一科技有限公司 国网冀北电力有限公司电力科学研究院 摘 要: 为全面诊断火电厂发电设备的故障, 提高发电设备的可靠性, 减少由于非计划停机所带来的经济损失, 提出了一种基于 K-means 与 GMM 结合的聚类分析算法, 将故障模式识别问题转化为实现数据聚类问题, 挖掘设备运行数据间的深层关系, 完成故障诊断。实践结果证明了该算法在故障诊断中应用的可行性, 为火电厂发电设备故障预警及检修规划提供了一种新的途径。关键词: K-means 算法; GMM; 聚类分析; 特征提取; 模式识别; 作者简介:王娜 (198
2、1) , 女, 河北保定人, 工程师, 从事电力生产信息化总体规划、系统设计、产品研发、项目实施等工作;作者简介:李号彩 (1974) , 男, 湖南长沙人, 高级工程师, 从事电力信息化咨询、规划、分析设计、管理等相关工作;作者简介:张德利 (1981) , 男, 山西曲沃人, 高级工程师, 从事汽轮机节能、优化分析等工作。收稿日期:2017-09-06Application of Hybrid Cluster Analysis Algorithm in Fault Pattern Recognition of Power Generating EquipmentWANG Na LI Hao
3、-cai ZHANG De-li Datang Xianyi Technology Co., Ltd.; Electric Power Research Institute, State Grid Jibei Electric Power Company; Abstract: Aiming at improving the reliability of the power generating equipment, reducing the economic loss due to the unplanned downtime of the power plant which caused b
4、y generating equipments failure, this paper presents a clustering algorithm based on K-means and GMM. By transforming the fault pattern recognition problem into data clustering problem, the algorithm excavates the deep relationship between the equipment operation data. The test result verifies the f
5、easibility of data mining technology in fault diagnosis. This paper provides a performance degradation prediction method for thermal power generation equipment failure warning and maintenance plan.Keyword: K-means algorithm; GMM; clustering analysis; feature extraction; pattern recognition; Received
6、: 2017-09-060 引言大型火电厂主、辅机数量较多, 结构复杂, 其作用是完成从热能到机械能再到电能的转换过程。设备与设备之间的耦合性、系统的复杂性等因素决定了火电厂是一个高故障率和故障危害性很大的生产场所, 这些故障都将造成重大的经济损失和社会后果, 因此应用设备故障预警及状态监测技术, 掌握关键设备的正常运行状态, 及时发现易损部件的工况恶化趋势, 及时进行维护和检修, 对提高设备的可靠性和安全性十分必要1-5。目前, 发电设备预警和预知维修的关键技术主要有状态监测技术、故障诊断与预测技术和维修分析与决策, 而故障模式识别是这些技术的基础。本文采用 K-means 算法与基于 EM
7、 (期望最大) 的高斯混合模型 (Gaussian Mixture Model, GMM) 算法相结合的聚类分析算法进行故障模式识别, 实践结果证明该算法能够很好地用于发电设备智能诊断预测。1 算法介绍1.1 K-means 算法K-means 算法, 也被称为 K-平均或 K-均值算法, 是一种得到广泛应用的聚类分析方法6。该算法的主要思想是:将各个聚类子集内所有数据样本的均值作为该聚类的代表点, 通过迭代的方法逐次更新各聚类中心的值, 把数据集划分为不同的类别, 最终目标是使评价聚类性能准则的函数达到最优, 使生成的每个聚类 (簇) 内紧凑, 类间独立7-10。假设要把样本集 X=x1,
8、x2, x3, , xn分为 K 个类别, 算法的过程描述如下:算法:K-means 算法, 划分并计算基于簇中对象的平均值;输入:簇的数目 K 和包含 n 个对象的数据库;输出:K 个簇, 使平方误差总和最小。算法步骤:1) 为每个聚类确定一个初始聚类中心, 形成 K 个初始聚类中心;2) 将样本集中的样本按照最小距离原则分配到最邻近的聚类;3) 利用每个聚类中的样本均值作为新的聚类中心;4) 重复步骤 2 和步骤 3, 直到聚类不再变化;5) 迭代结束, 得到 K 个聚类。K-means 算法的优点是算法快速、简单, 对大数据集有较高的效率并且是可伸缩的。缺点是需要根据初始聚类中心来确定一
9、个初始划分, 然后对初始划分进行优化。在 K-means 算法中, 多维空间相似性度量基于欧氏距离进行计算, 并不能准确反映多维空间点中的相似情况。1.2 高斯混合模型 (GMM) 1.2.1 多维空间单高斯模型 (SGM) 假设有一组在多维空间 (假设维度为 D) 的点 Xi, i=1, 2, , n, 若这些点的分布近似椭球状, 则可以用高斯密度函数 g (X, , ) 来描述产生这些点的密度函数:式中, 为密度函数期望, 也可认为是模型中心点; 为均方差, 在多维空间中为一个 DD 的对称矩阵。因此, 对于 SGM 问题的求解即为:通过有限个样本点来求解 和 这两个高斯参数。假设样本点
10、Xi (i=1, 2, , n) 之间为互相独立事件, 则发生 X=x1, x2, , xn的概率为:由于 xi为己知点, 可通过 p (X;, ) 来求解 和 。这类问题通常以极大似然估计的方法来进行求解, 即在 p (X;, ) 为最大值条件下 (样本点xi已经发生, 故可认为 p (X;, ) 样本 xi发生的概率最大) , 求得 和。根据极值理论, 可以通过对 和 分别求导的方式求解。1.2.2 高斯混合模型 (GMM) SGM 样本点的分布为椭球状。而实际中, 大部分样本点分布不可能是或近似椭球状, 因此引用了高斯混合模型 (GMM) 。GMM 是一种常用的描述混合密度函数分布的模型
11、, 可视为多个高斯分布以一定比例混合而成11-14, GMM 模型可描述为:每个 GMM 由 K 个 Gaussian 分布组成, 每个 Guassian 为一个在概率统计中的组成要素, 任意形状的概率分布都可以用多个高斯分布函数来近似。GMM 待求解的参数除 和 外, 还有各个模型在样本点所占的权值 , 即某个高斯模型对样本点的影响力。其参数求解方法一般使用极大似然估计法求解, 但使用极大似然估计法往往不能获得完整数据 (比如样本已知, 但样本类别未知) , 于是出现了 EM (期望最大) 求解方法15-16。EM 算法是一种从不完整数据中求解模型参数的极大似然估计的迭代算法。计算机基于 E
12、M 算法不断求解和迭代可以得到 GMM 的各个模型参数 和 。GMM 算法的优点是适用性广, 多维空间中聚类效果好, 同时引入了概率分布, 算法简单、迭代方法有效且稳定。缺点是计算速度慢, 模型初始化困难, 由于迭代算法是局部最优求解算法, 因此虽然能保证收敛后达到局部最大点, 但并不能保证收敛到全局最大点, 聚类结果受初始值影响较大。2 基于 K-means 与 GMM 结合的聚类分析算法2.1 模型算法详解结合 K-means 与 GMM 两种算法优缺点, 可先采用 K-means 算法得到结果, 转换为 GMM 的初始值。采用 K-means 算法对 EM 算法进行初始化, 可以显著提高
13、 EM算法的收敛速度, 提高最终分类结果的准确率。具体转化流程如下:1) 将利用 K-means 算法得到的中心点作为高斯模型的初始期望 Mu0;2) 通过同组工况点协方差得到高斯模型初始均方差 0;3) 同组包括的样本点占总样本的比例为高斯模型的初始权值 A0。其中 A0表示各个模型对单个样本点的影响度 (即初始权值) , Mu 0表示高斯模型的初始期望, 0表示高斯模型的初始均方差。计算机求解程序框图如图 1 所示。图 1 求解程序框图 Fig.1 Solution program 下载原图基于 K-means 与 GMM 结合的聚类分析算法描述如下:1) 引用初始 K 个高斯混合模型,
14、其初始参数为2) 在第 1 次迭代中, 通过最大期望算法得到3) 将更新后的高斯模型进行第 2 次迭代, 得到4) 进行多次迭代后, 值变化达到残差设定值, 则迭代结束, 得到最终 A、Mu 以及 n。2.2 模型相似度算法详解在得到高斯混合模型的数学求解结果后, 计算机基于 EM 算法不断求解和迭代可以得到 GMM 各个模型的参数 和 。在现场得到的实时数据将与 GMM 中的模型期望值进行相似度比较, 相似度最高的期望值将作为实时数据的期望值。对于 2 个 D 维数据对象 X=x1, x2, , xd和 Y=y1, y2, , yd, 相似度计算方法如下:该相似度算法在设备预警系统中起到了很
15、好的作用, 能准确反映数据间的相似情况。3 实例分析在设备诊断过程中, 可以对正常工况下的设备各参数运行数据进行聚类分析 (称之为训练) , 通过聚类分析可以得到 K 个组以及组中心 (称之为 K 个工况类别和某个工况的期望值) 。在设备智能诊断过程中, 设备运行的新数据将会与训练得到的组中心进行相似度检验, 通过相似度的高低来决定设备处于何种工况类别, 并给出该工况正常运行的期望值。为了使设备诊断准确可靠, 则需要较为准确的聚类分析算法使组内相似性最大、组间异化度最大。以某一前置泵电机连续稳定运行 8 000 条历史数据作为训练样本, 共得到 11 维、8 000 个样本点, 以前置泵电机模
16、型最新产生的 1 000 个样本点做为实时测试数据。整个计算通过 MATLAB 实现, 设定聚类分类个数为 100 个, 则初始高斯模型为100 个。计算结果如图 2-4 所示。从实例可以得出, 采用 K-means (K 均值) 与基于 EM 的 GMM 算法相结合的聚类分析算法能够对发电设备故障模式进行提取, 并以此作为故障模式识别的依据, 对于 1 000 个样本的验证结果, 经检验后发现其与实际情况基本吻合。图 2 前置泵电机温度训练样本与期望值趋势图 Fig.2 Training sample and expected trend of front pump motor temper
17、ature 下载原图图 3 前置泵电机温度实时数据与期望值趋势图 Fig.3 Real-time data and expectation trend of front pump motor temperature 下载原图图 4 前置泵电机温度相似度趋势图 Fig.4 Similarity trend of front pump motor temperature 下载原图4 结语本文针对火力发电机组发电设备故障预警的难题, 研究了 K-means 与 GMM 结合的聚类分析算法, 应用 K-means 初始化构建混合高斯模型, 使用 EM 算法进行参数估测, 并建立了完整的分类模型, 验证
18、了该数据挖掘技术在故障诊断中应用的可行性, 为发电设备的预警和预知维修奠定了基础。王娜 下载原图参考文献1陈冬霞, 石辉.基于 GC-FD 分析及 GM (1, N) 模型预测的变压器故障监测与保护J.广东电力, 2011, 24 (9) :36-40.CHEN Dong-xia, SHI Hui.Monitoring and protection against transformer failures based on GC-FD analysis and GM (1, N) model forecastJ.Guangdong Electric Power, 2011, 24 (9) :3
19、6-40. 2陈昆亮.汽轮发电机组状态检测与故障预警系统研究D.北京:华北电力大学, 2012. 3陈启卷, 何昌炎, 周元贵, 等.基于云计算的光伏电站故障诊断系统研究J.广东电力, 2015, 28 (10) :1-5.CHEN Qi-juan, HE Chang-yan ZHOU Yuan-gui, et al.Research on fault diagnosis system of photovoltaic power plant based on cloud calculationJ.Guangdong Electric Power, 2015, 28 (10) :1-5. 4李存
20、斌, 李小鹏, 高坡.基于变权模糊物元模型的变压器状态实时评估J.广东电力, 2015, 28 (11) :66-73.LI Cun-bin, LI Xiao-peng, GAO Po.Real-time evaluation on transformer state based on variable weight fuzzy matter-element modelJ.Guangdong Electric Power, 2015, 28 (11) :66-73. 5李谦, 杨劲松.500k V 香山变电站接地网安全性状态评估及整改J.广东电力, 2013, 26 (5) :87-92.LI
21、 Qian, YANG Jinsong.Safety evaluation and rectification for500 kV Xiangshan substation grounding gridJ.Guangdong Electric Power, 2013, 26 (5) :87-92. 6CAO J, WU Z, WU J, et al.Towards information-theoretic K-means clustering for image indexingJ.Signal Processing, 2013, 93 (7) :2026-2037. 7胡炜.基于 SIFT
22、 算法的体育类图像应用J.电子设计工程, 2017, 25 (18) :79-81.HU Wei.Sports images based on SIFT algorithm applicationJ.Electronic Design Engineering, 2017, 25 (18) :79-81. 8刘飞, 贲树俊, 周嘉, 等.面向配网台区的综合评价模型研究与可视化应用J.电网与清洁能源, 2017, 33 (5) :63-68.LIU Fei, BEN Shu-jun, ZHOU Jia, et al.Research and visualization application of
23、 comprehensive evaluation model for distribution network substation areaJ.Power System and Clean Energy, 2017, 33 (5) :63-68. 9施晓筛, 徐森, 曹瑞.文本谱聚类算法研究J.电子设计工程, 2012, 20 (22) :7-9.SHI Xiao-shai, XU Sen, CAO Rui.Research of document spectral clustering algorithmJ.Electronic Design Engineering, 2012, 20
24、(22) :7-9. 10HARTIGAN J A, WONG M A.A K-means clustering algorithmJ.Applied Statistics, 2013, 28 (1) :100-108. 11潘章明, 曲政.基于差分进化算法的高斯混合模型参数估计J.现代计算机:专业版, 2009 (5) :29-31. 12熊彪, 江万寿, 李乐林.基于高斯混合模型的遥感影像半监督分类J.武汉大学学报 (信息科学版) , 2011, 36 (1) :108-112.XIONG Biao, JIANG Wan-shou, LI Le-lin.Gauss mixture mode
25、l based semi-supervised classification for remote sensing imageJ.Geomatics and Information Science of Wuhan University, 2011, 36 (1) :108-112. 13乔少杰, 金琨, 韩楠, 等.一种基于高斯混合模型的轨迹预测算法J.软件学报, 2015, 26 (5) :1048-1063.QIAO Shao-Jie, JIN Kun, HAN Nan, et al.Trajectory prediction algorithm based on Gaussian mi
26、xture modeJ.Journal of Software, 2015, 26 (5) :1048-1063. 14李艳玲, 王加俊.基于高斯混合模型的纹理图像的分割J.微电子学与计算机, 2004, 21 (4) :63-65. 15DEMPSTER A P, LAIRED N M, RUBI D B.Maximum likelihood from incomplete data via the EM algorithmJ.Journal of the Royal Statistical Society, 1977, B (39) :1-38. 16陈宇, 王爱斐, 江露, 等.基于 K-means-GMM 模型的地板块纹理分类算法J.哈尔滨理工大学学报, 2013, 18 (4) :69-73.CHEN Yu, WANG Ai-fei, JIANG Lu, et al.Plate texture classification algorithm based on K-means-GMM modelJ.Journal of Harbin University of Science and Technology, 2013, 18 (4) :69-73.