1、基于时序数据相关性挖掘的 WAMS/SCADA数据融合方法 魏大千 王波 刘涤尘 陈得治 唐飞 郭珂 武汉大学电气工程学院 中国电力科学研究院 摘 要: 在电力系统多运行方式的背景下,研究 WAMS/SCADA 等量测数据融合是解决大电网在线稳定分析的关键点之一。为此,基于理论分析,从 2 者数据相关性角度研究了 WAMS/SCADA 相关性系数,提出了基于时序数据相关性挖掘的 WAMS/SCADA 数据融合方法。通过构建 Pearson 相关性系数,对 WAMS/SCADA 的相关性进行评估;运用广义 EM 算法对量测数据曲线时差问题进行函数模型求解;在考虑量测权值的情况下对量测有效性进行分
2、析。结果表明:对 3 种不同数据进行状态估计后,经过数据融合后的曲线结果在系统稳定时段与出现扰动时段均保持平稳;基于时序数据相关性融合法所得到的状态估计曲线变化趋势与其他算法相同,混合量测状态估计结果误差5%。IEEE 118 节点母线系统算例的仿真结果验证了上述方法的有效性与稳定性。关键词: 时序数据; 相关性挖掘; 曲线排齐; WAMS/SCADA 系统; 数据融合; Pearson 相关系数; 作者简介:魏大千 1990,男,博士生 研究方向为数据挖掘、电力大数据在电力系统中的应用 E-mail:作者简介:王波(通信作者) 1978,男,副教授 研究方向为数据挖掘、计算机技术在电力系统中
3、的应用 E-mail:作者简介:刘涤尘 1953,男,二级教授,博导 研究方向为电力自动监控技术、电力系统稳定与控制等 E-mail:作者简介:唐飞 1982,男,博士(后) 研究方向为电力系统暂态稳定、电力系统紧急控制、智能电网通信技术等 E-mail:作者简介:郭珂 1992,男,硕士生 研究方向为电力系统运行与控制技术 E-mail:收稿日期:2015-07-15基金:国家电网公司大电网重大专项(SGCC-MPLG001-029-2012)WAMS/SCADA Data Fusion Method Based on Time-series Data Correlation MiningW
4、EI Daqian WANG Bo LIU Dichen CHEN Dezhi TANG Fei GUO Ke School of Electrical Engineering, Wuhan University; China Electric Power Research Institute; Abstract: Under the background of multi operation mode of power system, it is one of the key points to solve the online stability analysis of large pow
5、er grid by studying the integration of WAMS/SCADA measurement data. To this end, by the theoretical analysis, we researched the correlation coefficient of WAMS/SCADA from the point of view of the data correlation of two parts,and proposed the WAMS/SCADA data fusion method based on the correlation mi
6、ning of time series data. The correlation of WAMS/SCADA was evaluated by constructing the Pearson correlation coefficient; then we used the generalized EM algorithm to solve the time difference problem of measured data curve. Finally, we analyzed the measurement validity when considering the weight
7、measurement. The results showed that,after the state estimation of three different kinds of data, the curves of the data fusion are kept stable during the period of system stable period and the disturbance period; the variation trend of the time series data correlation is the same as that of the oth
8、er algorithms, and the error of the mixed measurement state estimation is 5%. The simulation results of IEEE 118 bus system have verified the effectiveness and stability of the above methods and conclusions.Keyword: time series data; correlation mining; curve registration; WAMS/SCADA system; data fu
9、sion; Pearson correlation coefficient; Received: 2015-07-150 引言随着现阶段电网智能化、一体化的不断发展,电网中的实时信息传递与分析显得愈发关键。在传统电力系统稳定分析中,监控及数据采集系统(SCADA)在相当一段时间内扮演着重要的角色1-2。广域测量系统(WAMS)的出现与不断完善为电网监测与分析带来了新的手段与技术途径。在不考虑时延的情况下,WAMS 系统本身可以实现实时监测全网的量测量,为电网安全稳定控制带来了前所未有的数据流3-4。而实际中,由于 WAMS 系统部署并不完全,加之高速大容量的数据来源,因此该系统无法在短时间内对
10、电网量测数据进行分析并做出决策,且短时间内无法成为电网安全稳定分析时的单一可靠系统来源。因此,在现阶段,使 2 者组成的混合量测成为基于响应的量测是进行大电网在线安全稳定分析的重要手段。由于 WAMS 系统与 SCADA 系统的技术平台不同,2 者在数据成分、数据精度、数据传输时延以及数据刷新频率上均存在较大差别。目前研究主要集中在建立 2 者数据的相关约束条件,利用非线性状态估计或最小二乘法等方法进行混合量测状态估计5;或是单一的提高测压装置(PMU)测量精度6。此类方法在一定程度上对 2 者数据进行了部分取舍,从而缩小了差异,以提高状态估算精度,这在很大程度上忽略了数据的完整性,并未达到
11、WAMS 与 SCADA 数据的实用最大化。因此,需引入基于时序数据相关性挖掘的方法,对 2 者数据进行相关性评估,在曲线排齐或曲线配准后,根据其相关性进行数据融合,从而实现数据的最大利用。在很多学科的研究领域中,基于时序数据的相关性挖掘均有不少应用,如在进行洪涝灾害的预测时,通过研究河流历史流量、气温和降水量等特征以提高预测精度;通过对消费者物价指数(CPI)和国内生产总值(GDP)等经济指标的分析,可以对货币通胀及经济发展趋势提出参考性意见;根据多地地震波序列,可准确定位震源、震级等7。时序数据相关分析的主要对象是异质数据。对于异质数据,即来源或属性不同的数据,如本文中的 WAMS 与 S
12、CADA 数据,需要判断其相关性,若具有相关性再做回归分析等8-11。本文提出了基于时序数据相关性挖掘的 WAMS/SCADA 数据融合法。该方法首先通过确定相关性系数,对其进行相关性评估;在进一步通过时序数据曲线排齐的基础上,求解模型函数,最后完成混合数据融合。1 WAMS/SCADA 相关性判定评估1.1 相关性系数推导1.1.1 相关性系数上下界在相对较短的时间区域内,2 者系统的量测数据可以认为是相对平稳的。在确定相关系数之前,首先需要得到 2 量测量相关系数的上下界,本文引入的 Pearson相关系数是衡量序列相关性时最常用的度量方式。假定有 2 组对应的异质数据(x i, yi)
13、,i =1,2, ,n (n 为样本量),x i、y i为 2 组异质样本数据, 且满足二元正态总体分布(x i, yi) N (N 为二元正态总体分布),则样本的相关系数为式中: 分别为 X 、Y 的样本均值。当二元正态总体分布相关系数 =0 时,可以得到较为复杂的 的概率密度函数,适当变换后,得到如下渐近分布式中 (x) 为单调增函数,随机变量 x N(0,1) 。 ,当样本量较大时,可由样本相关系数对总体相关系数进行估计,并得到相关系数的上下界,即:式中: z 为标准正态分布的 分位点, 即 P(x z )= ; P 为相关系数的上下界;。1.1.2 WAMS/SCADA 相关性系数的确
14、定根据上文中依据异质数据相关性系数上下界的推导基础,得到 WAMS/SCADA 相关性系数12式中:(S,W) 为 WAMS 量测量 xw与 SCADA 量测量 xs的相关系数; t =1 为 2 量测量一定时域内的初始时刻;t 1为 2 量测量一定时域内的截止时刻; s为 SCADA量测量的样本均值; w为 WAMS 量测量的样本均值。进而可以得到 2 量测量的互协方差函数1.2 相关性判定方法为描述序列的相关性特征,首先给出时移序列的定义。假设 2 时序数据定义如下序列为时移序列:式中 1 m n,mN。由此可以对具有时移序列的时序数据相关性进行判定。(S,W ) 是一系列的相关系数序列,
15、 由 WAMS/SCADA 量测量的相关系数按照时序排列组成,其中 WAMS/SCADA 的 t 达到同步的时刻即是 2 者相关度最高的时刻。2 时序数据曲线排齐方法2.1 基于相关系数的曲线排齐模型第 1 章中已求出关于 WAMS/SCADA 时序数据的相关性系数,通过该系数即可对其相关性进行评估。当 2 序列存在相关性且具有时间偏差时,就需要采用曲线排齐方法将时间轴上的差异去除。而对于异质数据,需要无量纲的准则来排齐异质数据组成的曲线13。Pearson 相关系数是一种描述 2 序列相关性或相似性的无量纲度量方式,但对于连续型函数则需要用其内积来表示。通过构建如下函数以完成异质数据的曲线排
16、齐式中:(x 1, x2) 为 x1(t) 和 x2(t) 的相关系数;x 1(t) 表示排齐后的时间函数,x1(t) =x1(h(t) ;x2(t)为排齐前的时间函数;T 为采样时间点序列;h(t) 为在T 处 x1(t) 相对于 x2(t) 的偏移量2.2 模型求解文献7-8中采用期望最大化算法(EM)求解曲线排齐优化问题,但当参数的维数较高时,难以对其求解。为解决此问题,本文将目标函数作为 EM 算法中的似然函数的期望,使用广义期望最大化算法(GEM)对模型进行求解。其主要步骤如下:1)输入 WAMS/SCADA 在同一时间内的数据;2)初始化时差向量 0,并得到迭代允许误差;3)将 2
17、 者时序数据函数化,具体函数模型如式(10);4)使用广义期望最大化求解时差向量;5)重复步骤 3、4 直到收敛。3 WAMS/SCADA 相关性数据融合第 2 章中,通过对 WAMS/SCADA 相关性系数推导,以及 2 者数据的曲线排齐,完成了对 2 者时序数据的大部分处理。而时序数据所占的权值取决于量测量的精度14。WAMS/SCADA 混合量测状态估计的精度通常由 2 部分因素决定:装置的量测精度和混合量测数据时间同步性15式中: 为量测量的整体误差;r t为时间同步导致的误差;r m为系统本身产生的误差。同步性导致的误差 rt可表示为式中: k 为量测量的变化率;t d为量测时刻与混
18、合量测同步时刻的偏差。在系统误差已知的情况下,只需要求出量测时刻与混合量测同步时刻的偏差即可得到整体误差16-17,从而求出混合量测状态估计的精度。在 2 者时序数据中,WAMS 数据具有较好的时标特性18-19,因此,r t可以通过 WAMS 时标与 2 者相关度最高的时刻进行对比求得,每个量测量对应的时延 td可以认为具有以下概率密度式中: t为 td的方差;t s为 2 者混合量测同步的时间。在精度计算中,装置量测的误差和时间同步的误差是互不影响的20,因此整体误差的方差为式中:E rt为时间同步性误差方差;E rm为装置量测误差方差。考虑时间同步性权值矩阵可以表示为4 仿真算例4.1
19、仿真系统及评价指标本文采用如下指标进行评估验证:式中:z j,k为量测量的基准值;z j ,k和 分别为第 j 个量测在序列 k时刻的真实值和估计值;N 0为量测向量的维数;M 为量测数目; k为在 k 时刻 2者时序数据的相关性融合效果;为在整体时段内 2 者时序数据的相关性融合效果。算例系统采用 IEEE 118 节点母线系统。用于算例的 SCADA 量测量为系统中所有线路两端的有功功率和无功功率、所有母线中的电压幅值。量测量为正态分布,标准差为 0.02,误差均值为 0。算例中分别在母线 2、5、8、11 和 14 配置PMU,其中 PMU 量测量包括配置 PMU 的母线电压相量、所有出
20、线的电流相量。幅值量测服从正态分布,标准差为 0.005,误差均值为 0;相角量测服从正态分布,标准差为 0.002,误差均值为 0。4.2 数据融合仿真实验该仿真中设置以下 3 个算例作为对比,3 个算例均度过系统稳定时段、系统出现扰动时段以及系统回归稳定时段。算例 1:只使用 SCADA 数据进行状态估计。算例 2:在未对 2 者时序数据融合的条件下进行状态估计。算例 3:对 WAMS/SCADA 数据进行相关性融合后的状态估计。在通过对 3 种不同数据进行状态估计后,最后的结果通过估计标准差来表示。其中,算例 3 首先通过上文所述求得 2 者时序数据在某一时段内的相关性系数,以达到同步时
21、刻 t 为基准,在其未达到同步时,通过曲线排齐过程中函数的求解以消除 2 者时间同步性上的差异,仿真结果见图 1 和表 1。从图 1 中可以看出,在 3 个时段中,使用 SCADA 单一量测量进行状态估计时,仿真数据精度较差,且曲线出现了明显起伏,稳定性较差;算例 2 在前一段稳定时间内可以保持较高的估计精度,但当系统出现扰动时,曲线出现了较大的波动,稳定性较算例 1 有所提高;算例 3 为 2 者进行相关性融合后的状态估计,在系统稳定时段与出现扰动时均可以保持较好的精度与稳定性,可以看出经过时序数据相关性融合后的状态估计结果有了较大的改善。由表 1 可知,算例 2 中,当 WAMS 与 SC
22、ADA 量测时差增大时,估计精度呈下降趋势,而算例 3 的估计精度则基本保持不变,且数据变化平稳,具有较好的稳定性。这说明基于时序数据相关性数据融合后,混合量测状态估计结果几乎不受到 2 者量测时间同步性的影响,保持其误差5%。4.3 多算法对比仿真该仿真算例选取了目前研究中的 2 种混合量测估计算法与本文算法进行对比。算例 1:基于非线性的状态估计。算例 2:基于非线性与线性混合状态估计。算例 3:基于时序数据相关性数据融合的状态估计。在该 3 组算例仿真中,最后结果以估计标准差进行表示,仿真结果如图 2 和表 2 所示。由仿真结果可以看出,单一的非线性状态估计的结果在状态估计精度数值上明显
23、低于其他 2 者,且稳定性尚好;在使用混合状态估计后估计结果得到了显著改善,但与基于相关性数据融合相比,其在稳定性上还有明显的不足;而本文提出的算法在精度与稳定性上有较明显的优势。表 1 混合量测状态估计结果 Table 1 State estimation results of mixed measurement 下载原表 图 1 数据融合仿真结果 Fig.1 Data fusion simulation results 下载原图图 2 多算法对比仿真结果 Fig.2 Simulation results of multi-algorithm comparison 下载原图从表 2 可以看出
24、,与其他传统算法相比,不论整个系统处于稳态还是发生扰动,基于时序数据相关性挖掘的数据融合的估计有效性均得到显著提高,估计误差为4.3%。5 结论1)本文首先引入 Pearson 相关性系数函数,通过对相关性系数上下界的确定以及相关性系数的推导,完成了对时序 WAMS/SCADA 数据的相关性评估。2)针对 2 者时序数据曲线存在的时差问题,通过建立相关的模型函数并求解,完成了对 2 者数据融合的进一步优化。3)最后通过对量测有效性的分析,求出时序数据所占权值矩阵,形成有效的基于时序数据相关性的融合方案。4)仿真验证中,采用 IEEE 118 节点母线系统算例,对数据融合方法进行了验证,结果表明
25、该方法在稳定性与有效性上均比其他方案有较大提高。表 2 3 种仿真算例估计标准差值 Table 2 Estimated standard deviation of three kinds of simulation examples 下载原表 参考文献1Phadke A G.Synchronized phasor measurements in power systemsJ.IEEE Computer Applications in Power,1993,6(2):10-15. 2Phadke A G,Pickett B,Adamiak M,et al.Synchronized samplin
26、g and phasor measurements for relay and controlJ.IEEE Transactions on Power Delivery,1994,9(1):442-452. 3虞芹婕,王晓茹,游家训,等.基于相测量量的等式约束二阶段状态估计模型J.电网技术,2007,31(10):84-88.YU Qinjie,WANG Xiaoru,YOU Jiaxun,et al.Equality constraints two-step state estimation model based on phasor measurementsJ.Power System T
27、echnology,2007,31(10):84-88. 4秦晓辉,毕天姝,杨奇逊.计及 PMU 的混合非线性状态估计新方法J.电力系统自动化,2007,31(4):28-32.QIN Xiaohui,BI Tianshu,YANG Qixun.A new method for hybrid nonlinear state estimation with PMUJ.Automation of Electric Power Systems,2007,31(4):28-32. 5丁军策,蔡泽祥,王克英.基于广域测量系统的混合量测状态估计算法J.中国电机工程学报,2006,26(2):58-63.D
28、ING Junce,CAI Zexiang,WANG Keying.Mixed measurements state estimation based on WAMSJ.Proceedings of the CSEE,2006,26(2):58-63. 6Adelfio G,Chiodi M,DAlessandro A,et al.Simultaneous seismic wave clustering and registrationJ.Computers&Geosciences,2012,44(13):60-69. 7Ye L,Keogh E.Time series shapelets:a
29、 new primitive for data miningC15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2009:947-956. 8Liu X,Yang M C K.Simultaneous curve registration and clustering for functional dataJ.Computational Statistics&Data Analysis,2009,53(4):1361-1376. 9于尔铿.电力系统状态估计M.北京:水
30、利电力出版社,1985:62-64.YU Erkeng.Power system state estimationM.Beijing,China:China Water Power Press,1985:62-64. 10国家电网公司.电力系统实时动态监测系统技术规范:Q-GDW131-2006S.北京:国家电网公司,2006:18-19.State Grid Corporation of China.Technical specification for WAMS:Q-GDW 131-2006S.Beijing,China:State Grid Corporation of China,2006:18-19.