收藏 分享(赏)

基于动态数据窗口的融合聚类分析与故障检测.pdf

上传人:weiwoduzun 文档编号:1760718 上传时间:2018-08-22 格式:PDF 页数:4 大小:242.77KB
下载 相关 举报
基于动态数据窗口的融合聚类分析与故障检测.pdf_第1页
第1页 / 共4页
基于动态数据窗口的融合聚类分析与故障检测.pdf_第2页
第2页 / 共4页
基于动态数据窗口的融合聚类分析与故障检测.pdf_第3页
第3页 / 共4页
基于动态数据窗口的融合聚类分析与故障检测.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、第37卷2009锭增刊I8月华 中科技大学学报(自然科学版)JHuazhong Univof Sei&Tech(Natural Science Edition)V0137 SupIAug 2009基于动态数据窗口的融合聚类分析与故障检测王天真 汤天浩 蓝建宇 李继方(上海海事大学电气系,上海200135)摘要:针对传统聚类分析方法的特点,融合了划分方法、基于密度方法和中心计算方法中凝聚的思想,提出动态数据窗口的概念,并且提出一种基于动态数据窗口的融合聚类分析方法用来滤除故障检测当中的虚警,并与传统方法进行比较分析,给出实验结果关键词:数据挖掘;聚类分析;动态数据窗口;数据选择;相对主元分析;故

2、障检测中图分类号:TP206 文献标识码:A 文章编号:167l一4512(2009)S1023803A fusion clustering algorithm based on dynamic data windows andits applications in fault detectionWang Tianzhen Tang Tianhao Lan Jianyu Li Jifang(Department of Electrical Engineering,Shanghai Maritime University,Shanghai 200135,China)Abstract:A fusi

3、on clustering algorithm is presented based on dynamic data windowsComparing with志一means algorithm merged in density-based and integrated clustering analysis algorithmthe new fu-sion clustering analysis algorithm has more valuable in data miningAnd also its applications in faultdetection will be disc

4、ussed in the paperSome analysis results show that the significant improvementto filter out the false alarm during the process of fault detectionKey words:data mining analysis;clustering;dynamic data windows;data selection;relative principalcomponet analysis;fault detection数据挖掘(data mining,DM),是从大量的、

5、不完全的、有噪声的、模糊的、随即的、实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程12聚类分析是数据挖掘的重要方法之一3,但是聚类本身也不是尽善尽美的,比如:k-means算法具有可扩展性,能够终止于局部最优,但是只适用于聚类均值有意义的情况,而不适用于发现非凸形状的聚类或具有不同大小的聚类,且对噪声和异常数据也很敏感45基于密度方法能够帮助发现具有任意形状的聚类,但对用户所要设置的参数敏感许多数据挖掘对象仅仅采用一种方法很难得到理想的聚类效果,为此提出了“动态数据窗口”(dynamic data windows)的概念,并且结合动态

6、数据窗口、密度方法、中心计算方法中凝聚的思想提出基于动态数据窗口的融合聚类分析方法,并与传统的聚类分析算法进行比较分析,应用在故障检测中的虚警消除1 基于动态数据窗口的融合聚类分析方法其基本思想是:在整个数据空间中,通过动态数据窗口划分、数据窗口重叠移动、密度计算和求取最大凝聚点,进行聚类分析该算法的具体步骤是:首先将整个聚类对象划分区域,得到一系列的收稿日期:20090508作者简介:王天真(1978一),女,博士,E-mail:wtzOsinacorn基金项目:上海市教育委员会科研创新资助项目(08YZl09);上海市教育委员会重点学科建设资助项目(J50602)增刊I 王天真等:基于动态

7、数据窗口的融合聚类分析与故障检测 239动态数据窗口;随着数据窗口的重叠移动,在每个数据窗口内寻求密度点;最后利用中心计算方法求取最大凝聚点11动态数据窗口定义Z=2,2:,cR。为一个有限的数据集合,先将该数据集合划分为(2k一1)个数据窗口,其中1q)将所有密度点写成向量形式为:D,Dz,DpcRc,其中D1一P11D:=P,Dp=P枷。(假设第q密度点有多个,P如。表示最后一个),这样在每个数据窗口岸;内选出的P个密度点D,D:,D,代表了这个数据窗口的样本点分布情况14计算最大凝聚点对于以上所求得的密度点利用改进的中心计算方法再求最大凝聚点,考虑到不同密度点的地位是不一样的(例如:第1

8、密度点通常要比第q密度点重要),所以在计算最大凝聚点时不同密度点的贡献是不一样的在每一个数据窗口1z;内,将得到的密度点作如下处理:给每一个密度点乘上一个权重系数,第i密度点的权重系数为a;R。Pf=aiPf;(i=1,2,q),其中P,表示预处理完后的密度点权重系数口i处理如下:ra;=_1D。;i一1,P i一12,Ez(k-1),mi为数据窗口l;内的所选出的P个密度点的重心所以,在Z内存在m。,Tn2,m。2H)nI(2k一1)个重心对V只,a;=n,+厂(、厂),()是一个T函数,即厂(V)=El-exp(一V)1+exp(-v)1定义厂了一V=片|l研一m川,V J i=1其中:D

9、,为Di的标幺值;mf为mi的标幺值具体步骤如下:在一个多维数据窗口中,数据窗口的长度为L=L。,一LlII;。;宽度为W=W。一Wmin;高度为H=H。,一H面。样本点B的坐标(z,y,z,)变成研的坐标(z,Y。,2。,),其中z=(zL。ilI)L,Y=(y一。i。)w,2=(zH。;。)H,这样原来的值换算成标幺值使得比重系数a;与输入样本点本身无关以二维平面上的点为例:设晰;R2为二维平面上的数据窗口pi内的所选出的户个密度点的重心,将P个密度点预处理后,采用中心计算公式计算最大凝聚点计算公式如下:蹦m引2(告善D_吉蚤胼)(6)240 华中科技大学学报(自然科学版) 第37卷D。(

10、z,zz)为数据窗口肛内计算所得的最大凝聚点的坐标2聚类效果对比与分析所用示例由法国海军学院研究所提供的来自于GPS数据,其中包括19982000年全球船位分布数据,平均每2 h取一次船位,共有4 700 000多个点其中选取了部分船位数据(经度和纬度),作为二维数据进行聚类分析的样本图2为基于动态数据窗口的融合聚类分析方法的聚类效果图,300个样本点,取奄=7,在数据预处理时,按照纵轴进行排序,图中“。”为选出的凝聚点为了便于观察,用虚线将其按照纵坐标从大到小的顺序将每个小区域的最大凝聚点连接成线一2226、一30越躲一3438经度(。)图2基于动态数据窗121的融合聚类算法的聚类效果图从聚

11、类效果可以看出,复合聚类方法8边界点的贡献率下降;自组织竞争方法嘲计算量比较大基于动态数据窗口的融合聚类方法的优点在于:克服了噪声和异常数据的影响;采用标幺值使得整个算法不受输入样本数据值的影响;在数据窗口胁内选出的聚类中心更具代表性,这样取得的聚类中心在数据空间分布范围广泛,具有多样性;从整个大区域来说,整体性更强,因为数据窗口的重叠,使得k值的变化不会改变每个样本点对聚类中心的贡献;在整个区域之上,将各个聚类中心连成线后,线性度更强,是整个区域的中心3在故障检测中的应用为了验证基于动态数据窗12的聚类分析方法在故障检测中的有效性,采用参考文献6中的故障检测数据,前20个样本数据为正常数据,

12、从第20个点开始系统发生故障在参数X。为6,10,24处加入虚警图3是基于聚类分析方法对数据X(,)图3聚类分析方法的数据预处理进行预处理后的结果,图中:“一”是带有虚警和故障的原始数据;“o,是预处理以后的数据采用基于相对主元分析方法口0|(Relative Principal Component Analysis,RPCA)进行故障检测,如图4所示,当没有采用基于动态数据窗口的聚类分析方法滤除虚警时,RPCA方法只在虚警位置检测图4基于RPCA的异常信号检测结果到故障,而对于系统真正的故障(从第20个点处开始的故障信号)并没有检测到,也就是说RPCA方法在进行故障检测时受虚警信号干扰采用基

13、于动态数据窗口的融合聚类分析方法对数据进行选择,然后对预处理后的数据进行故障检测,如图5所示,采用基于动态数据窗口的聚类分析方法滤除虚假信息以后,RPCA方法可以有效的进行图5 RPCA对处理后数据进行故障检测(下转第251页)增刊I 方华元等:动态运行环境下一类退化系统的寿命分布 251参 考 文 献1Lu C J。Meeker W QUsing degradation measures toestimate a time-to-failure distributionJ 3Technometrics,1993,35(2):161-17421 Nelson B WAccelerated te

14、sting:statistical models,test plans,and data analysisMNew York:JohnWiley and Sons,199031 Lu J C。Park J,Yang QStatistical inference of atime-to failure distribution derived from linear degradation dataJTechnometrics,1997,39:3914004邓爱民,陈循,张春华,等基于性能退化数据的可靠性评估J宇航学报,2006,27(3):5465525Singpurwalla N DSurv

15、ival in dynamic environmentsJStatistical Science,1995,10:861036Bobbio A,Kulkarni V G,Telek MPartial loss inreward modelsCProceedings of the Second Inter-national Conference on Mathematical Methods in ReliabilityBordeaux:IsrL,2000:20721073 Bobbio A,Telek MThe task completion time in de-gradable sytem

16、s-MNew York:Wiley,200183 William TWeeks。numerical inversion of laplacetransforms using laguerre functionsJJournal ofthe ACM,1966。13(4):419-42993 Garbow B S,Giunta GSoftware for an implementa-tion of weeksmethod for the inverse laplace transformJACM Transactions on Mathematical Software,1988,14(2):16

17、3-17010Jeffrey PKharoufehExplicit results for wearprocesses in a Markovian environmentJOpera-tions Research Letters,2003,31:23724411Asmussen S,Bladt MRenewal theory and queueingalgorithms for matrix-exponential distributions,inmatrix-analytic methods in stochastic modelsMNew York:Marcel Dekker Inc,1

18、997123 Bladt M,Neuts M FMatrix-exponential distributions:calculus and interpretations via flowsJStochastic Models,2003。19(1):113124-+-十P+-+-+“-L-+-_一(上接第240页)故障检测而且在初始条件一致的情况下,能够忽略虚警的干扰,检测出真正故障,显然检测效果比参考文献6中的好上述结果表明本方法可以克服采用单一聚类算法中计算凝聚中心点时的过大偏差;去除噪声和异常数据的影响;避免边缘点对计算最大凝聚点的影响,使得区域分界点在计算最大凝聚点时所作的贡献一样多;

19、不受输入样本数据值的影响;而且计算出的凝聚中心更具有代表性将基于动态数据窗口的聚类分析方法用于故障检测中的数据选择,可以有效的滤除系统虚警现象,减少误报警次数,实验结果验证了算法的有效性参 考 文 献13 Wang X ZData mining and knowledge discovery forprocess monitoring and controlMLondon:Spring-Verlag,199923 Engel A C,van Den BroeckStatistical mechanics oflearningMCambridge:Cambridge UniversityPres

20、s,2001。33 Hand DMannila H,Smyth PPrinciples of dataminingMCambridge:MIT Dress,200143 Seongkyu Yoon,MacGregor J FStatistical and caus-al model。based approaches to fault detection and isola-tioni-JA1ChEJS00011541,2000,46(9):1 8131 82453安若铭,姜兴渭基于参数估计的层次诊断模型研究及应用J系统仿真学报,2006,18(4):1 0781 08063 Johnson R

21、 A,Wichern D WApplied multivariatestatistical analysisM4 Editions1:Prentice-Hall。20017Clatworthy J,Buick D,Hankins M,et a1The useand reporting of cluster analysis in health psychology:a reviewJBritish Journal of Health Psychology,2005,10:329-35883王天真。郝瑞吉,汤天浩一种基于数据挖掘的GIS及在航海中的应用J中国航海,2003(3):1493 Wang Tianzhen,Tang TianhaoA fusion clusteringanalysis algorithm and its application in marine engineeringJAdvances in Syudies on Risk Analysisand Crisis Response,2007,21(2):400-407Do王天真,汤天浩,文成林,等相对主元分析方法及其在故障检测中的应用口系统仿真学报,2007,19(13):2 8892 894

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报