1、基于矩阵补全的无线传感器网络收集数据重建方法 陈正宇 胡国兵 姜志鹏 金陵科技学院电子信息工程学院 摘 要: 许多自然科学研究都利用无线传感器网络收集环境数据。收集数据的完整性和准确性决定科研结果的可靠性。然而, 数据收集过程中通常会出现数据丢失和数据错误等问题。为提升收集数据的可用性, 需要从含有错误元素的不完整数据集中恢复丢失的数据。利用环境数据的低秩特性, 提出一种基于弹性网正则化的结构化噪声矩阵补全算法 (En RMC) , 既能实现丢失数据的有效恢复, 也能精确判断收集到错误数据的传感器节点。利用真实数据进行仿真, 实验结果表明算法性能优于现有算法, 能以较高的精度重建环境数据。关键
2、词: 感器网络; 数据收集; 矩阵补全; 数据重建; 作者简介:陈正宇 (1978-) , 男, 江苏淮安人, 汉族, 博士, 副教授, 金陵科技学院电子信息工程学院副院长, 研究领域为无线传感器网络数据收集与管理, 。收稿日期:2017-07-09基金:江苏省基础研究计划 (自然科学基金) 项目 (BK20130096, BK20161516, BK20161104) Data Reconstruction in Wireless Sensor Networks Based on Matrix CompletionCHEN Zhengyu HU Guobing JIANG Zhipeng S
3、chool of Electronic and Information Engineering, Jinling Institute of Technology; Abstract: Many natural science researches use Wireless Sensor Networks (WSNs) to collect environmental data, and use it for scientific research.The integrity and accuracy of the collected data determine the reliability
4、 of the results.However, data loss and error usually occur during the process of data collection.Therefore, it is necessary to design an effective method to recover the missing data from the incomplete and erroneous sensory data.Based on the low-rank feature of environmental data, we design an Elast
5、ic-net Regularization based on Matrix Completion with Structural Noise (En RMC) algorithm for reconstructing data.The proposed approach can not only effectively recover the missing data, but also exactly detect the sensor nodes with erroneous data.The simulation results show that the proposed algori
6、thm is superior to the existing algorithms, and can reconstruct the environmental data with high precision.Keyword: wireless sensor networks; data collection; matrix completion; data reconstruction; Received: 2017-07-09在环境、农作物生长和生物习性监测等科学研究中, 通常需要利用无线传感器网络收集的感知数据来开展科学研究1-2。相关研究和决策的准确性依赖于收集数据的完整性和正确性
7、3。然而, 由于无线传感器网络的固有特性, 数据收集过程中会出现数据丢失和数据错误4。例如, 在伯克利 Intel 项目5中, 通过 3 个星期的观察, 发现接近 40%的数据丢失和 8%的数据错误6。因此, 利用收集到的含有错误元素的不完整数据集重建环境数据具有重要的意义。传统的缺失数据恢复方法是利用收集数据之间的时空相关性实现缺失数据的恢复, 如各类插值算法等。这些算法在数据丢失率较低的情况下效果较好, 当数据丢失率升高时, 恢复性能急剧下降7。近几年, 随着矩阵补全理论的广泛应用, 文献8首次提出利用矩阵补全技术进行数据收集, 将数据恢复问题建模成缺失数据矩阵的补全问题, 实现较小的恢复
8、误差。在文献8基础上, 文献9提出空时压缩数据收集方法 STCDG, 利用数据的瞬时稳定性, 在求解矩阵补全的最优解时提供稳定性约束, 实现更低的恢复误差。文献10分析了无线传感器网络收集数据丢失模式, 利用收集数据的低秩特性、时间和空间相关性等特征, 提出一种缺失数据恢复方法。文献11提出联合矩阵补全和稀疏限定的数据恢复方法 DRMCSC, 将传感器网络数据稀疏约束和矩阵补全结合在一个优化问题中, 并设计交替最小化算法, 实现缺失数据的恢复。以上这些算法仅考虑丢失数据的恢复问题, 对于无线传感器网络收集数据的错误问题, 以及数据错误对缺失数据恢复精度的影响均没有考虑。对于错误数据的检测问题,
9、 已有研究通常利用数据相关性和统计特性来检测错误数据。文献12-13分别提出基于直方图和基于收集数据统计特性的 Outlier 数据检测方法。文献14提出利用序列检测方法来发现传感器网络中的错误数据。文献15研究异常收集数据和链路中断的存在对数据收集精确度的影响, 并基于压缩感知理论辨别和纠正异常收集数据, 从而推断中断链路。上述这些算法都没有考虑数据丢失对于错误数据检测的影响。本文利用无线传感器网络收集环境数据矩阵的低秩特性, 将含有错误收集数据情况下缺失数据恢复问题建模为结构化噪声矩阵补全问题, 并提出一种基于弹性网正则化的结构化噪声矩阵补全算法 (Elastic-net Regulari
10、zation based Matrix Completion with Structral Noise, En RMC) 。En RMC 算法能以较高的精度恢复缺失数据, 同时能辨识出含有错误数据的传感器节点。1 系统模型与问题描述1.1 系统模型假设监测区域内有 N 个传感器节点v 1, v2, , vN, 用于感知不同类型的环境数据。采用周期性数据收集策略。每个收集时间间隔为 s, 也称为一个时隙。假设监测总时间为 T 个时隙, 则对于某一类环境数据, 总的数据量为 NT 个。用 X 表示收集的环境数据矩阵, 即式中:X (i, j) , i=1, 2, N, j=1, 2, T, 表示节
11、点 vi, 在第 j 个时隙收集到的某一类环境数据。由于存在数据丢失, Sink 节点得到的是一个有很多元素丢失的不完全矩阵, 称为采样矩阵, 用 S 表示。该矩阵的任意元素可以表示为:我们定义 为采样元素在采样矩阵中的下标索引集合。P () 为正交投影算子, 表示当 (i, j) 时, S ij为采样元素, 即有:除数据丢失外, 某些传感器节点收集的数据容易出现错误, 也就是收集数据矩阵某些行的数据元素容易发生错误。可将错误数据表示为原始环境数据叠加上噪声值。假设第 i 个传感器, 在第 j 个时隙收集的数据发生错误, 设这个错误值为 Rij, 可以表示为:式中:X ij为原始环境数据, Z
12、 ij为噪声值。对于这类行元素的错误问题, 可视为采样矩阵受到行形式的结构化噪声污染。将 Sink 节点最终收集的数据矩阵称为收集数据矩阵, 记为 R, 则有:式中:Z 为行形式的结构化噪声矩阵。1.2 问题描述数据重建就是利用 Sink 节点收集到的数据矩阵 R 来重建环境数据矩阵 X。基于文献9-10分析的环境数据矩阵的低秩特性, 将数据重建问题建模为矩阵补全问题16。为了有效地平滑结构化噪声, 将其带来的不利影响尽可能降到最低, 引入矩阵 L2, 1 范数正则化参数到标准矩阵补全问题。对目标函数施加正则化约束, 从而将含有错误数据条件下的无线传感器网络缺失数据恢复问题建模为基于 L2,
13、1 范数正则化的结构化噪声矩阵补全问题:式中: 为收集数据, X 为优化矩阵, Z 为噪声矩阵, X *为 X 的核范数, Z 2, 1为矩阵 Z 的 L2, 1 范数, 用来平滑结构化噪声; 是一个用来平衡结构化噪声和矩阵低秩程度的可调参数。2 算法设计为了增加结构化噪声矩阵补全问题式 (6) 求解的稳定性, 引入弹性网正则化技术17到矩阵补全问题中, 提出一种基于弹性网正则化的结构化噪声矩阵补全算法 (En RMC) 。En RMC 算法采用 Frobenius 范数正则化控制解的稳定性, 首先将问题 (6) 松弛为如下近似问题 (7) :式中: F为矩阵 Frobenius 范数, 参数
14、 用来调整弹性网正则化项对原问题的扰动程度。易知该问题的 Lagrangian 函数为:进一步, 由于该问题为凸集合上的凸优化问题且满足 Slater 条件, 因此强对偶性成立, 其全局最优解 (X, Y, Z) 满足:可采用如下交替迭代方法求解 (X, Y, Z) :于函数 L (X, Y, Z) 关于变量 (X, Z) 可分离, 因此, 问题 (7) 的求解步骤可进一步表示为迭代求解以下 3 个子问题:下面依次给出计算 X, Z 和 Y 的具体步骤:(1) 子问题 1 计算在求解子问题 1 之前先给出如下定义和定理:假设矩阵 的奇异值分解 (SVD) 为 X=UV, =diag ( i|1
15、imin (n 1, n2) ) , 若矩阵 X 的秩为 r, 即 =diag ( i|1ir 且 1 2 r0) , 如果 0, 则 对应的奇异值阈值算子定义为:D (X) =US () V, 其中 S () =diag (max (0, i-) |i=1, 2, , r) 18。证明略, 详见文献18.将式 (8) 代入子问题 1 得到:根据定理 1 可得:X=D (P (Y) ) 。显然, 子问题 2 可以一般化为如下优化问题:函数Z 2, 1的不可微性质导致该问题无法直接求解。但是, 对于矩阵 Z, 如果令 , 构建新的对角矩阵 D=diag (dii) , 则显然有:Z 2, 1=2
16、tr (ZDZ) , 为此构建如下优化问题:求解优化上述问题时, 由于矩阵 D 依赖于目标变量 Z, 因此 D 也是未知变量, 从而导致函数 tr (ZDZ) 仍然不可微。因此, 提出一种交替更新算法来求解该问题, 即:在每一次迭代中, 首先固定变量 D 求目标变量 Z, 然后再根据求得的Z 更新 D, 直到算法收敛时迭代结束。应用梯度下降法可得:基于上述 3 个子问题的求解, 将这些子问题求解算法归纳起来, 整理得到求解结构化噪声矩阵补全问题 (6) 的迭代算法 En RMC。En RMC 的详细步骤如算法1 所述。算法 1 的输入为收集数据矩阵 R, 参数 , 和 , 最大迭代次数max_
17、K, max_T。输出为恢复数据矩阵X 和恢复噪声矩阵Z。在算法 1 中, 第45 行实现子问题 1 求解;第 611 行实现子问题 2 求解;第 12 行实现子问题 3求解。3 仿真实验3.1 实验条件为了便于阐述, 给出一些基本定义。设 n 为收集数据矩阵中丢失的数据元素个数, 则 pn=n/ (NT) 为数据丢失率。未丢失数据的比例为 ps=1-pn, 也称为数据采样率。m 表示存在错误收集数据的传感器节点数。将存在错误收集数据的传感器节点占所有传感器节点的比例称为传感器节点故障率, 记 pm=m/N。为了评估算法性能, 采用 Intel 室内项目5的真实数据进行算法验证。采用温度数据作
18、为实验数据, 收集 52 个传感器节点在连续 300 个时隙中采集的数据, 即N=52, T=300, 环境数据矩阵为 XNT。利用 XNT合成得到收集数据矩阵 RNT。具体过程为:步骤 1 根据数据采样率 ps, 随机产生采样元素的下标索引集合 。依据 从环境数据矩阵 XNT中采样元素, 得到合成数据矩阵 RNT, 满足:步骤 2 基于传感器节点故障率 pm, 确定存在错误收集数据的传感器节点数m=|pmN|, 从 RNT中随机选取 m 行, 并将这 m 行中 50%的非零元素叠加随机噪声 Zij。假设错误数据的下标索引集合为 。得到最终的合成数据矩阵 RNT, 满足:式中:Z ij是均值为
19、 0, 方差为 的正态分布随机变量, 即 ZijN (0, ) 。通过上述两个步骤可以得到用于实验的收集数据矩阵 RNT。执行算法后, 将恢复的数据矩阵和环境数据矩阵 XNT进行对比, 来衡量算法性能。对于 , 和 等可调参数自适应设置的理论研究还没有展开, 本文依据所处理问题的先验知识对可调参数进行交叉验证。3.2 性能参数定义为了衡量算法性能, 给出一些性能参数的定义。(1) 缺失元素恢复误差 M, 表示恢复缺失环境数据的精确程度。其可以表示为:式中: 表示通过算法 1 恢复的环境数据矩阵, 表示缺失数据元素的索引集。(2) 含错数据行整体恢复误差 R, 表示将收集数据矩阵中含有错误数据的
20、行用算法 1 恢复矩阵X 中对应的数据行来替代所产生的恢复误差。该参数反映对错误数据行的恢复精度, 可以表示为:式中:E 表示收集数据矩阵中含有错误数据的行的集合。3.3 仿真结果和分析将本文提出的 En RMC 算法与 DRMCSC11和 STCDG9进行对比分析。对比数据是 15 次随机实验结果的平均值。图 1 给出在不同数据丢失率的情况下, 算法恢复性能对比。设置传感器节点故障率 15%, 数据丢失率 pn在 10%到 95%之间。为了便于观察算法性能, 将恢复误差通过两张图片显示。图 1 (a) 设置数据丢失率从 10%到 80%, 以 10%递增。图 2 (b) 设置数据丢失率从 8
21、0%到 95%, 以 5%递增。如图 1 所示, 所有算法对缺失元素的恢复误差随着数据丢失率的增加而增加, 但 En RMC 算法对缺失元素恢复误差明显低于其他算法。在数据丢失率比较低的情况下, 几种算法恢复误差都较小;当数据丢失率超过 85%时, 恢复误差急剧增加。在数据丢失率比较高的时候, En RMC 相比于其他算法有着更明显的优势。图 1 不同数据丢失率下的缺失元素恢复误差 下载原图图 2 给出不同传感器节点故障率的情况下, 算法性能对比。图 2 中, 设置数据丢失率 pn=50%, 传感器节点故障率从 5%到 50%, 每次递增 5%。随着含有错误数据传感器节点数量的增加, 所有算法
22、对缺失元素的恢复误差也随之增加, 但 En RMC 始终优于其他算法, 并且当传感器节点故障率增加时, En RMC 的优越性更加明显。图 2 不同故障率下缺失元素恢复误差 下载原图算法 STCDG 和 DRMCSC 只具有恢复缺失数据的功能, 不能辨别含有错误数据的传感器节点, 而 En RMC 算法通过对恢复噪声矩阵Z 的分析能识别含有错误数据的传感器节点。Z 中所有元素为 0 的行所对应的传感器节点为不含错误数据的传感器节点, 其余传感器节点均为含有错误数据的传感器节点。在识别出错误传感器节点后, 可将收集数据矩阵中含错数据的行用恢复数据矩阵X 对应的行替代, 以提升数据恢复质量。含错数
23、据行整体恢复误差性能对比如图 3 所示, 由于 STCDG 和 DRMCSC 算法不具有错误节点的识别能力, 对应的恢复误差大, 而 En RMC 算法性能明显优于其他算法。图 3 不同故障率下含错数据行整体恢复误差 下载原图4 结论针对无线传感器网络数据收集过程中出现的数据丢失和数据错误等问题, 提出一种存在数据错误和缺失的无线传感器网络收集数据重建方法。该方法利用环境数据矩阵低秩特性, 将无线传感器网络收集数据重建问题建模为结构化噪声矩阵补全问题, 并设计一种基于弹性网正则化的结构化噪声矩阵补全算法, 实现缺失数据的恢复和含错误数据传感器节点的识别。实验结果表明, 该方法可以显著提高环境数
24、据的重建精度。本文后续工作将包括利用收集数据矩阵的时间和空间相关性进一步提升数据恢复精度。参考文献1Gao Hong, Fang Xiaolin, Li Jianzhong, et al.Data Collection in Multi-Application Sharing Wireless Sensor NetworksJ.IEEE Transactions on Parallel and Distributed Systems, 2015, 26 (2) :403-412. 2Habib C, Makhoul A, Darazi R, et al.Self-Adaptive Data C
25、ollection and Fusion for Health Monitoring Based on Body Sensor NetworksJ.IEEE Transactions on Industrial Informatics, 2016, 12 (6) :2342-2352. 3Xiang L, Luo J, Rosenberg C.Compressed Data Aggregation:EnergyEfficient and High-Fidelity Data CollectionJ.IEEE/ACM Transaction on Networking, 2013, 21 (6)
26、 :1722-1735. 4Kamal A R M, Bleakley C, Dobson S.Packet-Level Attestation (PLA) :a Framework for in-Network Sensor Data ReliabilityJ.ACM Transaction on Sensor Networks, 2013, 9 (2) :1-19. 5Intel 室内项目.http:/www.select.cs.cmu.edu/data/labapp3/index.html. 6Koushanfar F, Potkonjak M.Markov Chain-Based Mo
27、dels for Missing and Faulty Data in MICA2 Sensor MotesC/The 4th IEEE Conference on Sensors, Irvine, California, USA, 2005:1430-1434. 7Kong Linghe, Xia Mingyuan, Liu Xiaoyang, et al.Data Loss and Reconstruction in Wireless Sensor NetworksJ.IEEE Transactions on Parallel and Distributed Systems, 2014,
28、25 (11) :2818-2828. 8Cheng Jie, Jiang Hongbo, Ma Xiaoqiang, et al.Efficient Data Collection with Sampling in WSNs:Making Use of Matrix Completion TechniquesC/2010 IEEE Global Communications Conference, Miami, Florida, USA, 2010:1-5. 9Cheng Jie, Ye Qiang, Jiang Hongbo, et al.STCDG:An Efficient Data G
29、athering Algorithm Based on Matrix Completion for Wireless Sensor NetworksJ.IEEE Transaction on Wireless Communication, 2013, 12 (2) :850-861. 10Kong Linghe, Xia Mingyuan, Liu Xiaoyang, et al.Data Loss and Reconstruction in Sensor NetworksC/IEEE INFOCOM 2013, Turin, Italy, 2013:1654-1662. 11He Jingf
30、ei, Sun Guiling, Zhang Ying, et al.Data Recovery in Wireless Sensor Networks with Joint Matrix Completion and Sparsity ConstraintsJ.IEEE Communications Letters, 2015, 19 (12) :2230-2233. 12Sheng Bo, Li Qun, Mao Weizhen, et al.Outlier Detection in Sensor NetworksC/The 8th ACM International Symposium
31、on Mobile Ad Hoc Networking and Computing (Mobi Hoc) Montreal, Quebec, Canada, 2007:219-228. 13Ding Min, Cheng Xiuzhen.Robust Event Boundary Detection in Sensor NetworksA Mixture Model Based ApproachC/IEEE INFOCOM 2013, Rio de Janeiro, Brazil, 2013:2991-2995. 14Guo Shuo, Zhong Ziguo, Chen Jiming, et
32、 al.Detecting Faulty Nodes with Data Errors for Wireless Sensor NetworksJ.ACM Transactions on Sensor Networks, 2014, 10 (3) :1-27. 15Tang Yu, Zhang Bowu, Jing Tao, et al.Robust Compressive Data Gathering in Wireless Sensor NetworksJ.IEEE Transactions on Wireless Communications, 2013, 12 (6) :2754-2761.