1、基于高维随机矩阵分析的窃电识别方法 王颖琛 顾洁 金之俭 上海交通大学 大数据工程技术研究中心 摘 要: 窃电检查是用电检查的重点和难点。本文基于大数据理论, 以电网运行采集参数为元素构建了高维随机矩阵, 通过对矩阵的统计特性进行刻画, 提出基于大数据分析的窃电识别方法, 解决了传统窃电检查方法耗费人力大, 时效性差, 判断不精准的问题, 从而实现了高效反窃电。文章以 33 节点电网运行模型为例, 根据仿真采集到的电网随时间变化的电压电流等运行参数实现了对窃电发生判别、窃电发生时间确定、窃电地点的精确定位、窃电类型的判别。关键词: 窃电识别; 高维随机矩阵; 协方差矩阵; 经验谱密度函数; M
2、-P 律; 作者简介:王颖琛 (1991-) , 女, 硕士研究生, 研究方向为大数据在电力系统中的应用;E-mail:;作者简介:顾洁 (1971-) , 女, 副教授, 硕士生导师, 研究方向为大数据在电力系统中的应用, 智能电网规划与运行等;E-mail:;作者简介:金之俭 (1965-) , 男, 教授, 博士生导师, 研究方向为大数据在电力系统中的应用, 智能电网规划与运行等, E-mail:。收稿日期:2016-08-06基金:国家 863 高技术基金项目 (2015AA050204) Electric Larceny Recognition Method Based on Hig
3、h Dimensional Random Matrix AnalysisWANG Yingchen GU Jie JIN Zhijian Department of Electrical Engineering, Shanghai Jiao Tong University; Abstract: Electric larceny is hard to be checked and is important for power check.Based on big data theories, high dimensional random matrix can be built with par
4、ameters collected from the power grid as elements.Through characterizing statistical properties of the matrix, electric larceny recognition method based on big data analysis is proposed, which solves such problems existed in the traditional electric larceny recognition method as high cost of manpowe
5、r, time lag and low accuracy.Therefore, an efficient anti-electric larceny is realized.Taking a33-bus power grid as anexample, occurrence recognizing, the time determining, the precise locating and the type of electric larceny are realized based on such operation data collected from the grid as volt
6、age and current that vary with time.Keyword: recognition of electric larceny; high dimensional random matrix; covariance matrix; empirical spectral density function; M-P law; Received: 2016-08-060 引言现代社会上的窃电现象日益严重, 窃电手法也越来越多样。窃电行为严重影响了电网的安全经济运行, 并破坏了电力市场的经济秩序和公平性。虽然各供电公司积极探索反窃电技术与手段已久, 但现有的窃电稽查方法大多基
7、于用电检查人员的定期实施与现场检查1, 该方法缺少有效的信息支撑, 不仅时效性较差, 准确率低, 而且工作量巨大效率不高。随着智能电表的推广以及电力用户用电信息采集系统的完善, 电力数据资源开始急剧增长2。目前的用电信息采集系统已具备了一定的线损管理功能, 通过线损管理功能可以识别窃电的存在与否, 但该方法无法定位至具体窃电用户, 也无法判断窃电用户的窃电手法3。如何利用用电信息采集系统的用电信息进行数据挖掘, 从而实现全面、智能且准确的窃电分析并提高窃电识别的准确率和覆盖率是大数据时代下反窃电管理极具现实意义的研究课题4。鉴于此, 本文将基于大数据的相关理论框架对电网运营数据进行挖掘与分析,
8、 提出以数据驱动的窃电判别方法, 以较为准确地识别窃电嫌疑、判断窃电发生起始时间和终止时间、精确定位窃电地点及辨识窃电类型, 对高维随机矩阵理论在窃电分析中的应用进行探讨。1 高维随机矩阵理论简介电力系统运行时, 各节点实时产生大量的运行数据, 例如节点电压、节点电流、节点有功功率、节点无功功率等。这些随时间变化的量反映了电网运行状态, 将电网运行参量抽象为一个大型的随机矩阵, 并构建该随机矩阵的样本协方差矩阵。协方差矩阵的特征值分布与经验特征值谱密度函数反映了系统运行特征的变化规律, 可以据此确定窃电发生的相关信息。1.1 基于高维随机矩阵的电网运营大数据建模电网运行过程中会实时产生如节点电
9、压, 节点电流, 节点有功等运行参数, 这些运行参数在电力用户用电信息采集系统中一般以时间序列的形式进行储存, 且在没有异常的情况下变化平稳, 不会有突变点。结合电网运行参数的这些特性, 对电网运营大数据进行如下建模:(1) 构建电网运营时间序列数据的高维随机矩阵;(2) 求取该高维随机矩阵的协方差矩阵;(3) 求取该协方差矩阵的特征值, 应用 M-P 律, 单环率等经典随机分析理论, 对电网运行特征进行分析判断。1.2 基于高维随机矩阵理论的电网运营数据的大数据表征方法随机矩阵是指矩阵中至少有一个元素为随机变量所构成的矩阵。行数和列数都趋于无穷的随机矩阵称之为高维随机矩阵。在实际应用中, 一
10、般将行数和列数均超过 100 的矩阵视作高维矩阵5-6。高维随机矩阵理论中表示大数据结构的形式不一, 随机矩阵中的元素可以是确定的数据, 也可以是遵循某些分布的随机数。假设电网中设有 n 个观测点, 每一个观测点可以得到一个电网运行参数在观测时间点 t 的一个时间序列向量 xiC t1, i=1, 2, , n, 由观测点采集到的运行参数数据可以构成一个 nt 维的时间序列矩阵:常规的统计方法处理该矩阵的适用范围为维数小于 10 且为固定值的数据集6。当矩阵维数大于 10 时, 常规的统计方法将不再适用。大数据理论表明, 当数据集数据量和维度都非常大, 且有可比性时, 高维随机矩阵理论可用于该
11、类数据集的分析处理。当 (1) 式中行数 n 比列数 t 小得多时, 将 xi按顺序拆分成 m 段, 即 xi= (x1i, x2i, , xmi) , xmiC (t/m) 1, 并将拆分成的 m 段逐行叠加, 生成如 (2) 所示的高维随机矩阵 X, 原测量数据集 nt 维矩阵转化为 (nm) (t/m) 维随机矩阵。在变化为式 (2) 的高维矩阵后, 对矩阵进行归一化处理, 并在归一化后的矩阵中加入很小的随机矩阵作为白噪声, 能在不破坏原始矩阵随机性的前提下防止矩阵中全零行的存在。1.3 高维样本协方差矩阵经验谱分布对于已构建好的 MN 维的高维随机矩阵, 记为 XMN= (xab) M
12、N, a=1, 2, , M;b=1, 2, , N。将该矩阵 XMN的各列视为从总体中提取的维数为 N 的单个个体。即 xb= (x1b, , xMb) 表示从矩阵 XMN中提取的第 b 列, 则 XMN的样本协方差矩阵如式 (3) 所示:当观测时间延长或采集的电网运行参数增加时, 所构建的随机矩阵 XMN的维数巨大, 求取该矩阵的协方差矩阵将变得非常困难。此时可采取文献5中所述的用最大似然估计的方法对高维协方差矩阵进行近似。1.3.1 M-P 律 (The Marchenko-Pastur Law) 根据随机矩阵理论, M-P 律近似描述了行数和列数不同的随机矩阵的奇异值特征情况。当矩阵
13、XMN的所有元素为独立同分布的复随机变量, 且满足均值为 0, 方差为 , MN, 且 M/N=c, c (0, 1, 则该矩阵的样本协方差矩阵 SN的特征值分布满足 Marcenko-Pastur (M-P) 律8, 即1.3.2 单环律 (Single Ring Law) 当 M, N, 且 M/N=c (0, 1。则特征值复平面上内环半径随着随机矩阵XMN的行数列数确定而确定。2 基于高维随机矩阵理论的窃电识别高维样本协方差随机矩阵的谱分布以及谱半径变化规律结合特征值谱密度函数与 M-P 律曲线的重合度可用于对电网运行数据进行分析, 从而实现窃电识别。基于高维随机矩阵分析理论的窃电识别流
14、程如图 1 所示, 具体步骤如下:图 1 基于协方差特征值谱分布的窃电识别流程图 下载原图(1) 采集已设定时间段内电网各节点的运行参数如:电流、电压、有功功率、无功功率和全网总线损数据等。(2) 选取适当的运行参数, 将该参数数据按式 (1) 至 (3) 构建协方差矩阵, 通过谱分布规律以及特征值密度函数判别窃电发生与否。(3) 若确定窃电发生, 通过所选取的运行参数矩阵平均谱半径变化规律判定窃电起始和终止时间以及窃电地点。(4) 根据不同的窃电机理, 通过参考不同数据的平均谱半径变化规律确定窃电类型。3 算例分析基于上述窃电识别方法, 本文采用图 2 所示的 33 节点 10kV 配电网络
15、模型进行仿真。全网共有 4 条分支线, 节点 1 为电源节点, 电压为 10.6kV, 全网额定电压为 10.0kV, 节点电压上下限分别为 10.7kV 和 9.3kV。各节点负荷参数如文献10所示。线路最大输送容量为 10.5MVA。总有功负荷为 8.71MW, 总无功负荷为 5.86Mvar。图 2 33 节点模型拓扑 下载原图3.1 窃电发生判断依据无表法窃电的原理, 在节点 20 处增加一个接地电感来模拟在第 10 000s 到第 50 000s 间在第 20 节点处发生的窃电现象。仿真计算得到该系统 1d 内共 86 000s 的所有节点的各运行参数, 仿真步长为 1s。节点 1
16、的有功输入与输出之差即为全网线损, 故全网网损时间序列将形成 86 0001 维的矩阵, 经式 (2) 变换并归一化后转变为 100860 维的高维随机矩阵。该高维随机矩阵的协方差矩阵在系统正常运行和发生窃电时的统计性质如图 3 和图 4 所示。图 3 窃电发生前后协方差特征值谱分布图比较 下载原图(1) 对比图 3 (a) 和 (b) 可知, 当系统正常运行无窃电行为发生时, 全网线损协方差矩阵的特征值集中分布在圆环内, 且特征值谱半径平均值介于内环半径和外环半径之间。当窃电发生后, 全网线损协方差矩阵的特征值集中分布在圆环环心, 且特征值谱半径平均值小于内环半径。(2) 对比图 4 (a)
17、 和 (b) 可知, 当系统正常运行无窃电行为发生时, 矩阵的特征值谱密度函数遵循 M-P 律。当窃电发生后, 由于构成矩阵的数据出现异常, 不再满足独立同分布, 故矩阵的特征值谱密度函数偏离 M-P 律。通过全网线损随机矩阵特征值谱分布的变化规律以及特征值谱密度函数与 M-P律曲线的重合度可以判别是否有窃电发生。当电网发生故障或其他除窃电以外的非正常运行时, 仅从谱密度函数无法分辨, 但可以结合其他的电气特征进行识别。由于本文侧重研究窃电与否及窃电类型等识别, 暂不对故障等其他非正常运行进行分析。图 4 窃电发生前后协方差特征值谱密度函数图比较 下载原图3.2 窃电时间确定当原矩阵转化为 1
18、00860 维的高维随机矩阵后, 便可进行以每 100 次采样数据 (100s) 为一个单位的分析, 即单位时间为 100s。由图 5 可知, 当电网正常运行时无窃电发生, 全网线损协方差矩阵的特征值平均谱半径在整个观测时间段内变化平稳, 该平均谱半径波动由于正常用电的负荷变化所致。当窃电发生后, 全网线损协方差矩阵的特征值平均谱半径分别在第 10 000s 和第 55 000s 时分别有两个显著的突变点, 对应窃电的起始时间和终止时间, 窃电总时长为 45 000s 与模拟场景基本相符。采样数据构成的随机矩阵平均谱半径值的变化律反映了系统的运行特性。通过观测平均谱半径变化是否有显著突变点,
19、可以确定系统运行出现异常的时间点。3.3 窃电地点确定支路 1 到支路 4 中各节点有功功率原矩阵维数和经式 (2) 变换并归一化后形成的高维随机矩阵维数如表 1 所示。各参数高维随机矩阵的协方差矩阵特征值谱分布情况由图 6 所示。从图中可知, 支路 1 和支路 2 的有功功率协方差矩阵特征值集中分布于环内, 满足独立同分布, 故没有窃电行为。支路 3 和支路 4 的数据不再满足独立同分布, 或将存在窃电行为。图 5 窃电发生前后协方差特征值平均谱半径随时间变化图比较 下载原图表 1 各参数的高维矩阵维数 下载原表 由于谱半径平均值反映了数据偏离正常值的程度大小, 谱半径平均值越小, 数据偏离
20、正常值的程度越大, 可以判断窃电点位于支路 4 上11。由于支路 3 与支路 4 相连, 故也出现了有功功率数据异常的现象。据此可以实现窃电点的大致方位确定。支路 4 由节点 19 至节点 22 共 4 个节点组成。各节点有功时间序列数据所形成的 86 0001 维矩阵, 经转换与归一化后, 得到 100860 维高维随机矩阵。该矩阵的有功协方差特征值平均谱半径随时间的变化情况如图 7 所示。图 6 各支路总有功协方差特征值谱分布随时间变化图比较 下载原图图 7 支路 4 各节点有功协方差特征值平均谱半径随时间变化图比较 下载原图节点 21 与节点 22 的平均谱半径在观测时间段内的变化平稳。
21、在窃电起始时间第 10 000s 时, 节点 19 的平均谱半径变化率为 68.75%, 节点 20 的平均谱半径变化率为 81.25%;在窃电终止时间第 55 000s 时, 节点 19 的平均谱半径变化率为 65%, 节点 20 的平均谱半径变化率为 71.25%。由于节点 19 与节点 20 相连, 故均出现了平均谱半径变化有突变点的情况。由于平均谱半径的变化率越大, 系统稳定性越差, 系统数据偏离原始值的程度越大, 故可以判定窃电点在节点20, 从而实现了窃电点的精确定位。3.4 窃电类型确定根据窃电方式及窃电原理的不同, 常见的窃电方法有欠电流法窃电, 欠电压法窃电, 移相法窃电和无
22、表法窃电等12。文献13详细描述了上述各窃电方法的原理。本文依据各窃电方法的不同原理, 通过对窃电点窃电仿真, 得到的各节点运行参数进行分析, 以辨识不同窃电行为。本文分别选取观测窃电点的节点电压, 节点电流, 支路总有功功率和节点有功功率与无功功率的比值 4 个参数分别构成的协方差矩阵特征值平均谱半径随时间的变化规律, 判断窃电点的窃电类型。经变换后, 窃电点各参数时间序列数据将得到均为 86 0001 维的矩阵, 可构成 100860 维的高维随机矩阵。图 8 为模拟移相法窃电时所观测得的 4 个参数谱半径随时间变化规律。当窃电点节点电流和节点电压平均谱半径在观测时间内波动平稳, 没有出现
23、明显突变点;支路总有功功率的平均谱半径在窃电起始时间与终止时间均有显著的突变点;节点有功与无功之比的平均谱半径变化率在观测时间段内有多个变化率不一的突变点, 此时可判断窃电点发生移相法窃电。由于篇幅所限, 表 2 列出了其他各窃电类型在观测时间内协方差特征值平均谱半径在观测时间内有无突变点的情况, 可得如下结论:表 2 各窃电类型参数协方差特征值平均谱半径有无突变点情况 下载原表 (1) 当窃电点节点电压和节点有功与无功之比的平均谱半径未出现明显突变点;节点电流和支路总有功功率的平均谱半径在窃电起始时间与终止时间均有突变点, 此时可判断窃电点发生欠电流法窃电。(2) 当窃电点节点电流和节点有功
24、与无功之比的平均谱半径没有出现明显突变点;节点电压和支路总有功功率的平均谱半径在窃电起始时间与终止时间均有突变点, 此时可判断窃电点发生欠电压法窃电。图 8 移相法窃电各参数特征值平均谱半径随时间变化图 下载原图(3) 当窃电点节点电流, 节点电压和节点有功与无功之比的平均谱半径变化率均没有出现异常波动点;只有该节点所属支路总有功功率在窃电起始时间与终止时间出现突变点, 此时可判断窃电点发生无表法窃电。常用的无表法窃电判断方法为利用线路总电表所测得的总用电量与所连各支路上电表测得的用电量之和作比较, 从而判断是否有该类型的窃电发生14。此判断方法已经能较为精准且实时地识别出该窃电类型的发生与否
25、, 故利用大数据分析方法判断是否为无表法窃电仅供参考。3.5 数据缺失时的窃电发生判断传统窃电识别方法需要完整电网运行数据基础来保证窃电识别的准确性。采用本文所述基于高维随机矩阵分析的窃电识别方法, 当电网运行数据有部分缺失时, 仍能对窃电发生与否做出准确判断。由图 9 所示, 当窃电发生时, 图 9 (a) 为全网各节点有功功率数据采集完整时的协方差特征值谱分布图。图 9 (b) 为除去窃电发生支路所含节点的有功功率数据构成的协方差特征值谱分布图。当数据缺失时, 节点有功协方差矩阵的特征值集中分布在圆环环心, 且特征值谱半径平均值仍然小于内环半径, 亦可判断出窃电发生。图 9 不同数据情况下
26、协方差特征值谱密度函数图比较 下载原图类似地, 在进行窃电类型识别中, 当窃电节点所在支路相关数据缺失时采用本文方法仍然能够有效地辨识, 增强了识别方法的鲁棒性。4 总结与展望本文采用了大数据技术中高维随机矩阵理论模型, 基于电网运行参数构建高维随机矩阵, 通过观测协方差矩阵特征值谱分布和平均谱半径随时间的变化规律, 结合矩阵的经验谱密度函数与 M-P 律, 提出了判别窃电发生与否的方法, 并确定了窃电发生的起始与终止时间, 窃电发生的精确地点定位以及窃电类型的判断。将本算法应用于 33 节点 10kV 配电网络模型算例, 算例显示:(1) 该方法能精准地实现窃电发生与否的判断, 窃电时间段的
27、确定, 窃电地点的定位以及窃电类型的识别。符合智能电网中对窃电判断实时性和可靠性的要求。(2) 本文提出的判别方法都基于随机矩阵特征值的谱分布图和特征值平均谱半径随时间变化图, 能更为直接地展示从电网中采集到的海量运营数据的变化规律。该方法有易于确定电网窃电情况且具有可视化效果好的优点。(3) 由本文提出的窃电判别方法在采集数据部分缺失时仍能对窃电发生与否做出准确判别, 较传统窃电识别方法而言, 降低了对数据完整性的要求。随着信息时代来临和智能电网的发展, 电网可利用数据量将激增, 数据维度将不断增大。传统窃电识别方法运用采集到的各电表电量值加减来进行判别, 工程量巨大且判断准确率不高的问题将
28、愈发凸显。大数据分析方法的数据可拓展性广, 可视化性强, 数据完整性要求低, 判断精准等特点将成为窃电识别的主要研究方向, 并为未来电力系统精益化管理奠定基础。未来大数据技术在反窃电的研究将结合高维可视化技术, 能实时且形象地展现窃电点的窃电情况, 并发出窃电警告, 从而真正实现智能电网的精益化管理15。参考文献1唐国良, 陈建良.窃电的查处及防范J.大众用电, 2011 (10) :8-9. 2黄文思, 许元斌, 邹保平, 等.基于大数据的线损计算分析研究J.电气应用, 2015 (20) :79-84. 3胡江溢, 祝恩国, 杜新纲, 等.用电信息采集系统应用现状及发展趋势J.电力系统自动
29、化, 2014 (2) :131-135. 4宋亚奇, 周国亮, 朱永利, 等.智能电网大数据处理技术现状与挑战J.电网技术, 2013, 37 (4) :927-935. 5QIU R, ANTONIK P.Smart Grid and Big DataM.New York:John Wiley and Sons, 2014. 6严英杰, 盛戈皞, 王辉, 等.基于高维随机矩阵大数据分析模型的输变电设备关键性能评估方法J.中国电机工程学报, 2016 (2) :435-445. 7赵晓芳.大维随机矩阵极限谱分布理论研究及其在 AR (1) 模型中的应用D.合肥:中国科学技术大学, 2011. 8GUIONNET A, KRISHNAPUR M, ZEITOUNI O.The single ring theoremJ.Ann of Math, 2011, 174 (2) :1189-1217. 9魏大千, 王波, 刘涤尘, 等.高维随机矩阵描述下的量测大数据建模与异常数据检测方法J.中国电机工程学报, 2015 (S1) :59-66. 10文升.分布式电源的优化配置与优化调度研究D.上海:上海交通大学, 2012.