1、一种利用虚拟数据学习的电力部件识别方法 吴亮 谢予星 邹鹏飞 武汉大学遥感信息工程学院 克莱姆森大学计算学院 摘 要: 针对电力领域高质量标记数据不足的情况, 提出了一种虚拟电力场景的搭建及相应的数据和标记的快速生成方法。并且本文通过虚拟数据集, 以防振锤作为主要对象, 经过 3 种基于机器学习的目标检测方法的实验比较与理论分析, 得出可变部件模型 (Deformable Parts Model, DPM) 在虚拟数据集上训练后, 能够在真实数据集取得了最好结果的结论。通过本文方法, 可以快速得到针对电力线路部件的训练样本, 并可以得到相对较好的初始分类结果, 以进一步扩充样本以获得更精确的检
2、测模型。同时本文的方法还可以方便的应用到其他电力场景与其他电力部件中去。关键词: 虚拟影像; 合成样本; 电力部件; 目标识别; 机器学习; 作者简介:吴亮 (1989) , 男, 山西运城人, 硕士研究生。研究方向:图像处理与识别。收稿日期:2017-02-17基金:国家自然基金 (青年科学基金项目) (41301518) A method for power line facility detection with virtual data learningWU Liang XIE Yu-xing ZOU Peng-fei School of Remote Sensing and Info
3、rmation Engineering, Wuhan University; School of Computing, Clemson University; Abstract: To cope with the problem of lack of labled image dataset in power line facility, this paperproposed a simple way to produce virtual image data and lable for power line scenario. This paper hasexperimented 3 dif
4、ferent methods in machine learning object detection based on virtual dataset ofdamper, and the result shows that Deformable Parts Model (DPM) yield the best performance. With themethod this paper presented, a training dataset and a detector can be easily obtained. Thus the primaryresult produced by
5、the detector with a relatively good performance can help expand the training set andachieve a better detection model. Moreover, this method can be smoothly transferred to another powerline facility and another power line scenario.Keyword: virtual image; synthesis sample; power line facility; object
6、detection; machine learning; Received: 2017-02-17近年来, 随着电力线路智能巡检的发展, 采用直升机、无人机等收集影像越来越多的代替了人工攀塔勘察, 因此相应的关于电力设备的图像数据量也越来越大。同时, 通过使用基于机器学习的方法来自动总结归纳特征, 目标检测问题越来受益于日渐丰富的图像数据。但是由于电力方面的应用专业性强、使用范围窄而没有公开的相对完善标注的电力设备影像数据集, 因此在影像目标检测越来越受到数据驱动的今天, 电力设备的检测一直受数据不足或者标记数据质量不高的制约而发展较为缓慢。虚拟数据具有获取相对方便, 可自动生成标注等的优点,
7、 研究虚拟数据的生成、虚拟数据在机器学习中的使用对解决上述问题具有重要意义。在前人研究的基础上, 本文旨在解决在电力设备实拍数据以及相应标注信息数量较少或没有的情况下, 得到相对准确的检测结果的问题。因此本文先通过通用虚拟场景生成引擎, 模拟出防振锤可能存在的场景以及电塔等容易对防振锤造成遮挡的物体, 再将防振锤虚拟模型放入场景中通过一定的策略获取虚拟样本集, 并以该虚拟样本集作为训练样本, 实验了 HOG7特征、类 Haar 特征8与卷积神经网络 (Convolutional Neural Network, CNN) 10, 并通过对实验结果以及理论进行分析, 得出比较可靠的防振锤检测结果,
8、 以作为之后深度学习的初始标注, 或者在不能得到实拍训练数据的特殊情况下的使用。1 虚拟数据集构建1.1 利用虚拟引擎构建目标和场景模型在本文实验中, 待训练和识别的目标以防振锤为例, 配套设备主要包括高压电塔和电线。这类设备均是按照实物的相关参数和剖面图在 3DS Max 软件中人工建模而成。其尺寸可人为根据所处的虚拟场景进行参数上的调整和控制, 以保证虚拟物件与虚拟场景具有合适的比例关系。本文实验所选用的防振锤是最常见的两种型号FD 型和 FR 型, 如图 1 所示。图 1 防振锤模型 下载原图1.2 虚拟样本数据生成虚拟影像数据的获取, 是借助游戏引擎中的相机 (Camera) 功能,
9、对待获取目标 (本实验中为防振锤) 进行模拟拍照并将拍照结果实时渲染输出成通用的图片影像格式。其主要流程如图 2 所示, 其中 N 表示拍摄的影像张数, n 表示当前已拍摄影像数目, W 表示影像的宽度 (像素为单位) , H 表示影像的高度 (像素为单位) , X max表示待摄目标在影像水平方向上的最大像素坐标, X min表示待摄目标在影像水平方向上的最小像素坐标, Y max表示待摄目标在影像竖直方向上的最大像素坐标, Y min表示待摄目标在影像竖直方向上的最小像素坐标。在获取虚拟影像的过程中, 还需要考虑如下几个方面:1) 保证训练的有效性, 虚拟数据集应避免相机位置、摄影姿态、拍
10、摄视场角等摄影要素过于单一。本文设置了两个矩形区域作为相机的随机运动区域。2) 保证目标样本影像成像角度的多样性, 可以目标为中心设置一长方体或立方体区域并随机运动。3) 减少人工标注的工作量, 在虚拟场景中可以对兴趣结构预设最小外接长方体。本文的防振锤 3 个部分的外包围盒。图 2 虚拟样本生成流程 下载原图4) 进行拍照之前, 还应判断待拍摄目标是否完整位于影像中。5) 在游戏 3D 虚拟引擎中, 事件的进行通常以帧为单位。因此在完成 1) -3) 所述准备工作后, 按帧执行相应的函数功能, 每一帧获取一张影像并输出。按照本节所阐述方法, 本文实验共产生了 7 062 张防振锤目标样本,
11、其中 FD型 3 529 张, FR 型 3 533 张, 如图 3 所示为 5 种典型的防振锤及其背景。图 3 虚拟样本示例 下载原图2 基于机器学习的目标检测在本文实验中, 采用的是 Faster R-CNN、DPM 以及组合类 Haar 级联分类器 3 种方法进行检测试验。Faster R-CNN10是一种用于目标检测的多层深度网络, 由共享权值层以及其后连接的两个并行网络区域提取网络 (Region proposal network, RPN) 和目标检测网络 (Fast R-CNN) 所组成。其中 RPN向 Fast R-CNN 网络提供候选区以供目标检测, Fast R-CNN 又
12、可以分为两个并行的外接框回归网络和目标类别分值网络, 因此网络输出是被检测图像中可能含有防振锤的区域位置坐标和可能性得分值。DPM9通过提取 HOG 特征得到目标的轮廓信息, 建立目标整体与各部件间在一定程度上可变的相对位置关系来检测目标物体。DPM 可以在没有使用防振锤部件标注的情况下, 分别使用大小两个分辨率的图像来获得防振锤整体和部分的HOG 特征, 用多模型来表达防振锤的不同视角, 最后通过 latent-svm 方法学习得到防振锤各个模型、子模型以及模型和子模型之前的位置关系。在检测的阶段, 则通过与训练得到的模型、子模型以及相互之前的位置关系来判断一个区域是否是防振锤, 给出可能性
13、分值以及防振锤的外接矩形。虚拟仿真场景在拍摄时可以精确的知道目标物体及其各部件的位置, 在训练类haar 特征的级联分类器时可以分别对防振锤整体、连接器与两边的锤体建立 3个级联分类器。在用 adaboost 计算训练分类器时都是用统一大小的正方形样本作为输入数据集以及级联分类器的特性, 类 haar 特征的级联分类器的输出结果分别是防振锤整体、连接器与锤体的外接正方形。但是这些分类器单独使用由于特征较少而不能产生很好的分类效果, 本文采用将整体与部件分类器根据其几何位置组合起来的方法进行实验。3 检测实验与分析文中针对实际拍摄的防振锤影像用第二章所提到的方法对训练得到的分类器进行结合, 来得
14、到最终的检测结果。3.1 分类器的训练本文实验了 3 种分类器, 分别为 Faster R-CNN 分类器、DPM 分类器以及基于类Haar 特征的级联分类器。其中, 基于类 haar 特征的级联分类器又分别由防振锤整体、连接器以及锤体分类器所组成。对于 Faster R-CNN 分类器, 本文采用了两种 CNN 网络结构作为对比试验, 第一种是在论文11中所提出较浅的 ZF 网络, 除了输入输出层共有 5 层共享权值层;另一种是论文12中提出的 VGG16 网络, 共有 13 层共享权值层。由于 Faster R-CNN 自动选择候选区域作为负样本, 因此其所有样本均是用第 1 节方法生成的
15、虚拟样本, 为 7062 张虚拟影像样本。DPM 分类器中, 对于训练用的正样本与上述相同, 使用虚拟影像。负样本不需要进行标注, 本实验使用了 50 幅从 1 500 万像素到 2 400 万像素不等的负样本。本实验采用的模型数为 3, 同时训练了两种子模型数分别为 3 个与 8 个的分类器来做比较。类 haar 级联分类器的训练使用的是 Open CV 中所提供的 Adaboost 级联分类器的训练方法。虚拟影像可以提供包括防振锤整体和其各部件在图像上的精确位置, 对于防振锤整体与连接器的训练, 其样本与 DPM 分类器相同。最终, 防振锤整体分类器共使用了 2 064 个特征;连接器分类
16、器共用了 1 181 个特征;锤体分类器共包含 1 623 个特征。3.2 检测及结果分析本文的检测实验是在 19 幅没有参与训练的含有防振锤的实拍电力场景影像上进行, 影像中总共包含有 88 个人眼可辨别或者人工可根据场景上下文推断出的防振锤。在本文的检测实验中, 本文将与图像上的真实防振锤矩形区域交集与并集之比大于 0.5 的检测矩形框视为正确的检测结果。表 1 为使用 3 种方法所得的实验结果, 检测精度使用的是平均精度, 表中加粗的部分是最好结果项。图 4 是与表 1 相对应的接收者操作特征 (Receiver Operating Characteristic, ROC) 曲线。其中,
17、 组合 Haar 指的是将防振锤整体与连接器、锤体分类器根据几何位置组合起来的检测器。从表中与图中可以看出, DPM 取得了最好的结果, 其次是 Faster R-CNN, 而组合 Haar 检测器则得到了较差的检测结果。虽然 Faster R-CNN 具有检测速度快, 准确率高等的优点, 但是虚拟防振锤与真实拍摄的防振锤在特征表达上还具有一定的差异性。因此只用虚拟仿真模型生成的图像样本训练得到的深度模型对实际目标物体的预测能力并不十分理想。而 DPM 由于其主要代表的是梯度也即目标的轮廓特征, 从而避免了虚拟数据对颜色、纹理等特征模拟的不足, 因而能够得到最好的效果。组合类 Haar 检测器
18、则因为模拟数据中的矩形类 Haar 特征并不能很好的代表真实世界中防振锤与背景环境的复杂相对关系, 所以即使采用组合的分类器也不能得到很好的效果。图 4 检测结果 ROC 曲线 下载原图表 1 检测结果 下载原表 如图 5 所示为 DPM 所学习到的防振锤特征图, 可以看出 DPM 特征与防振锤内部纹理相关性较小, 体现的主要是其轮廓信息。从表 1 检测结果可以看出, 具有3 个子模型的分类器比有 8 个子模型的分类器有着更好的表现, 这表明了在训练 DPM 时, 根据目标物体本身的特征先验知识选择模型数与子模型数是非常必要的, 而不是模型数越多越好。如图 5 (a) 与图 5 (b) 所示,
19、 防振锤可分解为三个部分, 那么 3 个子模型已经可以较好的表达出防振锤的各部件特征关系, 而且与我们对防振锤的先验知识相近, 但 8 个子模型则略显冗余。另外, 3 个子模型的 DPM 也具有较为明显的速度优势, 相比于 8 个子模型的 DPM 可节省近40%的检测时间。根据 Faster R-CNN 检测器的结果可以看出, 虽然有着更深层网络的 VGG16 在训练时有更低的损失值, 但是在检测时相对于 ZF 网络不论对前景防振锤还是对背景防振锤都只得到了较低的 AP。同时基于 ZF 网络的 Faster R-CNN 分类器检测出了更多的防振锤, 这是因为 VGG16 网络虽然有着更为强大的
20、拟合能力, 可对训练集进行更精确的学习和描述, 但是作为训练集的虚拟样本与真实样本还存在一定的数据域偏置, 而对训练域出现了一定程度的过拟合, 导致检测效果不如 ZF 网络。另外可以看到使用了 VGG16 网络的虽然 AP 较低, 但这主要是由于VGG16 检测出的防振锤较少造成的, 由 ROC 曲线可以看到, 基于 VGG16 的Faster R-CNN 在得分较高的区域具有较好的精度, 也即对与训练集更相像的目标有着更好的表现。这也说明了如果在后续训练中如果能够加入实拍数据集, 如利用 DPM 在实拍数据集上检测结果再加上少量的人工筛选, 那么更深的网络就会得到更好的表现。图 5 防振锤
21、DPM 特征图 下载原图4 结束语文中针对电力设备影像及可靠标记数据缺乏的问题, 提出了一种电力设备虚拟场景生成、虚拟影像及标记的获取方法, 并基于虚拟样本集在没有迁移学习的情况下实验了一系列不同的目标检测方法, 并以防振锤为对象证明了 DPM 在虚拟数据集上有着最好的效果。通过实验, 本文还得到以下两个结论:由于虚拟样本的数据域偏置, 较浅的 ZF 网络相对于较深 VGG16 取得了更好的效果。但是 VGG16 由于有较强的拟合能力, 在对防振锤成像质量较好的部分可以得到更高的分值, 因此当通过本文的方法在实拍影像上进行检测, 并以检测结果作为补充样本对基于更深层网络的 Faster R-C
22、NN 进行迁移学习时, 将会得到更好的表现。通过防振锤的检测说明, 基于先验知识选择 DPM 分类器的模型数与子模型数可以得到更好的效果。因此在训练其他电力设备分类器时, 要合理利用相应电力设备的先验拍摄与结构知识, 并对复杂结构的电力设备进行适当的分解, 才会在 DPM 分类器上得到较好的结果。参考文献1于旭, 杨静, 谢志强.虚拟样本生成技术研究J.计算机科学, 2011, 38 (3) :16-19. 2Pishchulin L, Jain A, Andriluka M, et al.Articulated people detection and pose estimation:Res
23、haping the futureC/Computer Vision andPattern Recognition (CVPR) , 2012 IEEEConference on.IEEE, 2012:3178-3185. 3余萍, 董保国.基于 SIFT 特征匹配的电力设备图像变化参数识别J.中国电力, 2012, 45 (11) :60-64. 4张宏钊, 黄荣辉, 姚森敬, 等.对嵌入式系统的电力设备紫外监测系统设计的分析J.电子设计工程, 2016, 24 (11) :112-114. 5翟永杰, 伍洋.基于 3D 模型和 Ada Boost 算法的绝缘子检测J.传感器世界, 2014
24、 (10) :11-14. 6翟荔婷, 张冰怡, 冯志勇, 等.基于 3D 塔架配准的绝缘子自爆缺陷检测J.计算机工程与科学, 2016, 38 (8) :1688-1694. 7Dalal N, Triggs B.Histograms of oriented gradientsfor human detectionC/2005 IEEE ComputerSociety Conference on Computer Vision andPattern Recognition (CVPR05) .IEEE, 2005, 1:886-893. 8Viola P, Jones M.Rapid obj
25、ect detection using aboosted cascade of simple featuresC/International Conference on Computer Vision andPattern Recognition, Kauai, USA:IEEE, 2001:511-518. 9Felzenszwalb P F, Girshick R B, Mcallester D, etal.Object detection with discriminatively trainedpart-based modelsJ.IEEE Transactions onPattern
26、 Analysis and Machine Intelligence, 2010, 32 (9) :1627-1645. 10Ren S, He K, Girshick R, et al.Faster R-CNN:Towards real-time object detection with regionproposal networksC/Advances in NeuralInformation Processing Systems.2015:91-99. 11Zeiler M D, Fergus R.Visualizing and understan-dingconvolutionaln
27、etworksC/European Conferen-ce on Computer Vision.Springer InternationalPublishing, 2014:818-833. 12Simonyan K, Zisserman A.Very deep convolu-tional networks for large-scale image recognitionJ.ar Xiv preprint ar Xiv:1409.1556, 2014. 13Marin J, VZquez D, GerNimo D, et al.Learningappearance in virtual
28、scenarios for pedestriandetectionC/Computer Vision and PatternRecognition (CVPR) , 2010 IEEE Conference on.IEEE, 2010:137-144. 14Aubry M, Maturana D, Efros A A, et al.Seeing 3dchairs:exemplar part-based 2d-3d alignmentusing a large dataset of cad modelsC/Proceedingsof the IEEE Conference on Computer
29、 Vision andPattern Recognition, 2014:3762-3769. 15Girshick r, Donahue j, Darrell T, et al.Richfeature hierarchies for accurate object detectionand semantic segmentationC/Proceedings of theIEEE Conference on Computer Vision and PatternRecognition.2014:580-587. 16Girshick R.Fast r-cnnC/Proceedings of the IEEEInternational Conference on Computer Vision, 2015:1440-1448.