基于深度残差网络的高光谱遥感数据霾监测.doc-道客多多

资源描述

1、基于深度残差网络的高光谱遥感数据霾监测陆永帅李元祥刘波刘辉崔林丽上海交通大学航空航天学院上海卫星工程研究所十五室上海市气象科学研究所卫星遥感应用技术研究室摘要：霾监测是环境治理中的关键技术之一。目前地面观测站进行霾监测的耗费较大, 基于多光谱遥感的霾识别精度较低。将深度学习用于高光谱遥感数据的霾监测, 提出一种基于深度残差网络的高光谱霾监测方法, 利用深度网络提取霾光谱曲线特征, 再使用残差学习等方法降低网络训练难度, 得到了霾监测模型。苏州地区 Hyperion 高光谱数据集上的实验表明, 与其他遥感霾监测方法相比, 所提方法的霾识别精度更高。关键词：遥感; 大气污染

2、监测; 霾监测; 深度残差网络; 高光谱遥感; 深度学习; 机器学习; 作者简介：陆永帅 (1991) , 男, 硕士研究生, 主要从事图像处理与机器学习的理论和应用方面的研究。E-mail:lys_作者简介：李元祥 (1967) , 男, 博士, 副教授, 主要从事遥感图像解译、图像识别、图像重构与评估方面的研究。E-mail: (通信联系人) 收稿日期：2017-03-16基金：国家自然科学基金 (U1406404) Hyperspectral Data Haze Monitoring Based on Deep Residual NetworkLu Yongshuai Li Yuanxi

3、ang Liu Bo Liu Hui Cui Linli School of Aeronautics and Astronautics, Shanghai Jiao Tong University; Room 15, Institute of Shanghai Satellite Engineering; Satellite Remote Sensing Application Technology Laboratory, Shanghai Institute of Meteorological Science; Abstract： Haze monitoring is one of the

4、key technologies for environmental governance.At present, the cost of the ground haze monitoring is very high and the accuracy of the multispectral remote sensing haze monitoring is low.The hyperspectral sensing data haze monitoring is studied by deep learning.A hyperspectral haze monitoring algorit

5、hm based on deep residual network is presented.The features of haze hyperspectral curves are obtained with the deep network.The difficulty of the network training is decreased with the residual leaning method, and a haze monitoring model is achieved.The experimental results of the Suzhou Hyperion hy

6、perspectral data sets show that, compared with other methods of remote haze monitoring, the proposed method has higher recognition accuracy in haze monitoring.Keyword： remote sensing; air pollution monitoring; haze monitoring; deep residual network; hyperspectral remote sensing; deep learning; machi

7、ne learning; Received： 2017-03-161 引言霾是指大量极细微的干尘粒等均匀地漂浮在空中, 使水平能见度小于 10km 的空气普遍浑浊现象1。当前, 我国的大气污染越发严重。在中国气象行业标准霾的观测和预报等级中将霾的预报等级进行了定义。大气霾污染已经成为了亟待解决的重大环境问题之一2, 而霾的监测是霾污染治理中重要的一环。近期, 国外对霾的研究主要集中在亚洲地区, Lee 等3利用地基数据对韩国发生的两次霾进行了分析;Ghauri4利用 K 均值和国际标准化组织 (ISO) 数据聚类的方法研究了印度的霾面积。欧美等发达地区近年来少有霾污染, 因此鲜有这方面的研究成

8、果。当前用于遥感霾监测的数据主要有两种:一种是多波段遥感数据, 包括 36 通道中分辨率成像光谱仪 (MODIS) 数据5、4 通道的 HJ-1A 电荷耦合器件 (CCD) 相机数据6、5 通道的先进高分辨率辐射计 (AVHRR) 数据7等;另一种是MODIS 气溶胶产品8。MODIS 气溶胶产品在中国区域存在较大误差, 缺乏普遍的适用性。而多波段遥感数据由于波段数量有限, 无法很好地通过光谱区分霾与其他物质。高光谱遥感数据作为一种较新型的遥感数据, 具有波段多、光谱范围窄、波段连续等特点。利用高光谱遥感数据可以得到拍摄地更为详细的地表信息和大气信息, 为高精度霾识别和霾等级划分提供基础。目前

9、尚且没有将高光谱数据用于霾监测的研究。遥感数据霾监测的传统方法有两种:一种是气溶胶反演法, 其原理是通过遥感数据反演气溶胶厚度 (或者直接使用气溶胶产品) , 找到气溶胶厚度与能见度的对应关系, 再进行霾识别;另一种是光谱分析法, 该方法通过直接分析霾光谱与无霾光谱之间的差异进行霾识别。第一种方法中, 气溶胶厚度的反演会产生误差, 而通过气溶胶厚度反推地面能见度会再次产生误差, 导致霾识别的精度较差。第二种方法需事先提取霾的特征, 提取到的特征好坏对模型的性能有直接的影响, 因此需要研究人员对霾的遥感数据特性进行深入研究, 以设计出适应性更好的特征, 从而提高模型的性能。而高光谱数据波段数量庞

10、大, 人工特征筛选难度较大, 利用机器学习的方法来提取图像特征更为合适。近年来, 深度学习在语音识别、图像识别9、目标检测10、遥感图像分类11等领域获得了很大进展, 成为当前的研究热点之一。深度学习, 即通过卷积等操作, 将样本在原空间的特征变换到新的特征空间, 自动学习并得到层次化的特征表示12。含更多隐含层的深度卷积神经网络 (CNN) 具有更复杂的网络结构, 与传统模式的识别方法相比具有更强大的特征学习和特征表达能力。CNN 随着网络层数的增加, 训练难度不断加大, 很难保证模型可训练得到一个理想结果。2016 年, He 等13提出了残差学习的思想, 很好地解决了深度网络训练难的问题

11、, 使得网络层数达到了一个新的高度。为利用高光谱数据监测霾, 在深度卷积网络的基础上, 引入了残差学习的思想, 提出一种基于深度残差网络的高光谱数据霾监测方法。针对苏州地区 2015 年 1月至 2016 年 3 月的 Hyperion 高光谱数据进行实验, 检验了算法的有效性。2 霾高光谱特性分析2.1 数据以及地面观测值来源介绍研究数据为 2015 年 1 月至 2016 年 3 月期间苏州地区的 Hyperion 观测数据 17景, 来源于美国地质勘探局 (USGS) 网站, 图 1 为苏州地区高光谱数据和站点位置示意图。Hyperion 数据有 242 个波段, 光谱覆盖范围为 355

12、2577nm, 空间分辨率为 30m。每景高光谱图上有常熟、吴江和吴中 3 个气象观测点。将每个气象观测点周围约 3km3km 区域 (图像大小约 100pixel100pixel) 的所有像元作为实验数据。图 1 苏州地区高光谱数据和站点位置示意图。 (a) 站点位置示意图; (b) 2015 年 2 月 28 日 150 通道; (c) 2015 年 3 月 18 日 179 通道 Fig.1 Diagrams of hyperspectral data and site location of Suzhou. (a) Diagram of station location; (b) Fe

13、bruary 28, 2015, passage 150; (c) March 18, 2015, passage 179 下载原图以地面气象观测站的记录数据作为图像的真值, 数据来源为上海市气象局。数据以文本文档格式记录, 每个站点数据一行包括 26 个字段。从 26 个字段中把经度、纬度、能见度、现在天气 4 个有用的字段提取出来, 并将地理位置坐标转换为图片坐标。将经纬度在图片范围内具有有效现在天气的记录提取出来, 作为有效地面观测数据。结合能见度数据和天气数据得到霾的等级。按照中华人民共和国气象行业标准霾的观测和预报等级标准进行霾的等级划分, 将其分为无霾、轻霾、中霾和重霾 4 个等级

14、。其中现在天气用气象编码表示, 需要根据气象局提供的电码表查询对应的天气, 在确认天气状况是霾 (在电码表中表示为 05 电码) 之后, 再根据能见度信息确认霾的等级。2.2 光谱特性分析对苏州地区的城市下垫面下的光谱曲线进行分析。不论是霾天还是非霾天, 在城市下垫面下, 光谱反射强度都随着波长的增加呈下降趋势。对于平均光谱曲线, 霾天尤其是重霾的情况下, 卫星传感器接收到的辐射强度会略微高于正常天气, 苏州城区下垫面下不同霾状况平均光谱曲线如图 2 所示。图 2 苏州城区下垫面下不同霾状况平均光谱曲线 Fig.2 Average spectral curves at underlying s

15、urface of Suzhou under different haze conditions 下载原图在霾污染发生的时候, 外部的太阳辐射能量会分出 3 条路径:一部分能量被霾层阻挡, 向后散射;另一部分能量在穿越霾层时被霾层吸收;还有少量一部分能量穿透霾层到达地面。穿透霾层到达地面的辐射能量经过地表反射后开始向上传播, 传播过程同样受到霾层的阻挡, 其中一部分能量再次被霾散射回地面重新继续循环, 另一部分能量在传播过程中被吸收, 还有少部分能量可以重新穿越大气层回到太空中并被卫星上的高光谱传感器接收。因此可以说卫星传感器所接收到的光谱数据包含了大气成分和地面成分的混合信息。浓厚的霾层会对

16、外部能量辐射产生很强的后向散射, 产生类似于云的效果, 使卫星遥感图像上呈现出亮斑。因此, 尽管在地面上观测到霾污染产生时的能见度明显低于无霾时, 但在卫星遥感数据中, 由于霾的强后向散射, 霾天的平均辐射强度高于非霾天气。当然, 不同时期、不同种类、不同成因的霾粒子对辐射能量的吸收各有差异, 因此实际情况较为复杂。实际中, 由于下垫面和霾颗粒的复杂性, 各种霾的光谱曲线很难通过特定的阈值算法进行线性分割。因此需对霾和非霾光谱曲线进行随机抽样, 得到霾与非霾的随机抽样光谱曲线如图 3 所示。红色曲线为霾天气的光谱曲线, 蓝色曲线为非霾天气的光谱曲线。由图可以看出, 两种不同颜色的曲线相互重叠,

17、难以通过肉眼进行区分。即使通过简单的主成分分析 (PCA) 方法可将特征维度降至 3 维, 也很难用一个平面区分霾和非霾, PCA 特征下的霾 (红色) 与非霾 (蓝色) 散点图如图 4 所示。为了更好地识别霾, 需要借助深度学习的方法, 让计算机自动学习霾光谱曲线所包含的深层特征, 再进行区分。图 3 霾 (红色) 与非霾 (蓝色) 的随机抽样光谱曲线 Fig.3 Random sampling spectral curves of haze (red) and non-haze (blue) 下载原图图 4 PCA 特征下的霾 (红色) 与非霾 (蓝色) 散点图 Fig.4 Scatte

18、r plots of haze (red) and non-haze (blue) with PCA characteristics 下载原图3 深度残差网络高光谱霾监测算法3.1 残差学习简介训练深层次的神经网络是非常困难的, 而使用残差学习可以很好地减轻深层网络训练的负担并增加网络层数13。图 5 为残差学习示意图, 残差学习模块可以作为神经网络的一部分或多部分。假设该部分神经网络的输入为 x, 要拟合的函数映射 (即输出) 为 H (x) , 可以定义另外一个残差映射 F (x) 为 H (x) -x, 则原始的函数映射 H (x) 可以表示为 F (x) +x。He 通过实验证明, 优

19、化残差映射 F (x) 比优化原始映射 H (x) 容易得多13。F (x) +x 在前馈神经网络中可以理解为捷径 x 与主径 F (x) 的和。捷径并没有引入额外的参数, 不影响原始网络的复杂度, 整体网络依然可使用现有的深度学习反馈训练求解。图 5 残差学习示意图 Fig.5 Schematic of residual learning 下载原图简单地说, 残差学习是在传统的线性网络结构基础上引入一条捷径, 跳跃绕过一些层的连接;捷径通过相加融合的方法与主径汇合。加入了捷径后, 训练过程中底层的误差可以通过捷径向上一层传播, 减弱了层数过多造成的梯度消失现象, 达到了提高训练精度的效果。3

20、.2 霾监测模型针对高光谱数据的光谱曲线输入和霾监测的实际问题, 利用一维卷积, 提出了深度残差网络高光谱霾监测算法。该算法涉及的高光谱霾监测深度残差网络整体框架如图 6 所示。图中输入层、一维卷积层和 3 个残差模块后方的数字表示该模块输出特征的层数和维度。全连接层和输出层后方的数字是各层节点数。整个网络共有 13 层, 包括 10 层卷积层和 3 层全连接层。第 1 层卷积层之后分成 3 个残差模块。每个残差模块在一开始分为一条主径和一条捷径, 主径上有3 个卷积层用于提取高光谱曲线中的深层特征, 捷径上只有一个卷积层, 方便训练时残差向上传播。主径和捷径得到的特征在残差模块结束时重新叠加

21、会合, 进入下一个阶段。对于 3 个全连接层, 将之前得到的卷积特征进行分类, 最终通过 softmax 得到识别结果。以下对本模型各部分的具体设置与参数分别进行介绍。图 6 高光谱霾监测深度残差网络整体框架 Fig.6 Framework of deep residual network for hyperspectral haze monitoring 下载原图3.2.1 输入层输入层为高光谱图像单个空间像元波长在 4002500nm 之间的光谱反射强度。原始数据为一个 242 维的列向量, 经过损坏波段去除等预处理14之后, 剩下198 个波段。将此 198 个波段作为网络的输入层。3.

22、2.2 残差模块每个残差模块在池化层之后分为一条主径和一条捷径, 主径上有 3 个卷积层用于提取高光谱曲线中的深层特征, 主径的前两层采用与上一层相同数量的卷积核, 在第 3 层将卷积核数量翻倍;捷径上只有一个卷积层, 直接将卷积核数量翻倍。主径和捷径最后得到的特征层数和特征维度都是一致的, 在模块的最后进行加和融合, 之后进入下一个阶段, 残差模块内部结构示意图如图 7 所示。关于捷径的设置, 一方面捷径可使训练时底层残差得以向上反馈;另一方面, 两条路径的融合相当于深层特征和浅层特征的融合, 可以得到更有效的特征。3.2.3 批归一化层Ioffe 等15提出了批归一化方法, 该方法使得卷积

23、提取后特征的均值为 0、方差为 1, 可用于加速训练和优化结果。为了优化深度残差网络的训练过程, 提出的模型也在每个卷积层和池化层之后进行批归一化操作。3.2.4 全连接层在第 3 个残差模块之后, 将所有特征层压扁为列向量, 输入全连接层。最后一层是分类的类别数, 分为无霾、轻霾、中霾、重霾 4 类。在全连接层中加入了随机隐退操作16, 以提高模型的稳健性, 防止过拟合。3.2.5 激活函数除了最后一层使用 softmax 以外, 其余每个卷积层和全连接层之后都采用矫正线性单元 (ReLU) 作为激活函数。ReLU 激活函数具有更快的训练速度, 并且使用 ReLU 的网络在一些情况下比预处理

24、过的网络表现更为优异17。3.2.6 其他参数训练时的代价函数选为交叉熵, 采用随机梯度下降18的方法训练网络, 学习率设置为 110, 最大训练迭代次数为 1000 次。所使用的网络相对于传统的神经网络算法, 已经达到了一个很大的数量级, 而深度网络最大的问题就是训练难度大, 因此很多参数的选择, 包括捷径的设置、批归一化层的加入、ReLU 激活函数的选择等, 都要考虑尽量降低网络的训练难度。图 7 残差模块内部结构示意图 Fig.7 Schematic of internal structure of residual block 下载原图4 霾监测实验结合高光谱数据进行实验以验证网络的性

25、能。4.1 实验数据第 2.1 节的数据中, 有带标签的空间像元数据 517667 个, 预处理后每个像元数据有 198 个通道, 表示该像元地点此时的光谱曲线。标签分为无霾、轻霾、中霾、重霾 4 类。随机选取其中 5000 个像元数据作为训练集, 其余数据作为测试集。4.2 网络参数选择实验网络的深度对于识别的结果是有一定影响的。一般来说, 在充分训练的情况下, 网络深度越深越可以学习得到样本更本质的特征, 识别的结果应该更好。但网络深度加深之后, 训练难度加大, 及时加大训练次数也一直处于欠拟合的状态, 造成传统的堆砌网络 (比如传统的 CNN) 在网络深度到某个值之后, 性能反而随着层数

26、的增加而下降。因此, 探究网络深度对 ResNet 和 CNN 性能的影响是十分有必要的。第 3.2 节中提到, 用于霾监测的深度残差网络有 13 层, 以下对选择 13 层的原因及层数的改变对识别精度的影响进行讨论。由图 6 所示的高光谱霾监测深度残差网络整体框架可以看到, 整个网络中使用了 3 个残差模块。下面构建 3 个残差网络, 分别使用 1, 2, 3 个残差模块, 因为一个残差模块的主径包括了 3 个一维卷积层, 因此加上了初始的卷积层和最后的全连接层, 这 3 个残差网络分别有 7, 10, 13 层, 将其分别命名为ResNet-7、ResNet-10 和 ResNet-13。

27、将对应层数的深度卷积网络 (没有残差捷径) 用于对比实验, 并将其分别命名为 CNN-7、CNN-10 和 CNN-13。图 8 为不同网络深度下的 CNN 和 ResNet 性能对比图, 展示了上述 6 个网络在测试集上的霾识别错误率随着训练迭代次数的变化曲线。同样, 随着迭代次数的增加, 两种模型的训练错误率和测试错误率都呈下降趋势, 并且一开始下降迅速, 而后趋于平稳。不论是 CNN 还是 ResNet, 随着网络深度的增加, 由 7 层到10 层再到 13 层, 错误率呈递减的趋势, 即网络深度越深则模型的性能越好。深层的网络可以提取更深层的特征, 而且在加入了批归一化层且使用 ReL

28、U 激活函数之后, 已在一定程度上降低了训练难度, 因此训练都比较充分。在深层网络中 (10 层和 13 层) 使用残差捷径可以进一步提高模型的精度, 而浅层网络精度的提高不明显, 甚至还会降低。因此, 残差学习一般要结合深层网络才能发挥作用体现优势。图 8 不同网络深度下的 CNN 和 ResNet 性能对比图 Fig.8 Comparison of performance of CNN and ResNet with different network depths 下载原图4.3 不同方法霾识别性能对比在之前的数据上进行支持向量机 (SVM) 、浅层反向传播 (BP) 神经网络、深度置信

29、网络 (DBN) 、CNNs 和深度残差网络 (ResNet) 的识别对比实验。SVM 采用径向基函数作为核函数, 参数 g 和惩罚因子 C 采用五折交叉验证的方法进行寻优得到。浅层 BP 神经网络采用 198-50-4 的网络结构, 学习率设为0.01, 迭代次数为 1000。DBN 采用网格搜索的方法寻优, DBN 结构分析如图 9所示, 最后采用 198-60-60-60-4 的网络结构, RBM 预训练和 BP 微调的学习率均为 0.01, RBM 预训练迭代次数为 100, 微调迭代次数为 1000。深度卷积网络与深度残差网络的参数与上部分相同。评价指标采用总体精度和卡帕系数。实验重

30、复 3 次, 不同霾识别方法的对比实验结果如表 1 所示。由表 1 可以看出, ResNet 霾检测算法不论在总体精度上还是卡帕系数上都优于其他算法。SVM 和 BP 表现几乎一致, 而 DBN 方法在 BP 的基础上加入了限制玻尔兹曼机 (RBM) 的预训练过程, 使得网络的权值在一开始就初始化为一个较好的值, 从而使精度有了一定提高。CNNs 因为提取了更深层的特征, 略微优于SVM 和 BP, 但因为网络加深, 训练一致处于欠拟合状态, 无法得到精确的模型, 而深度残差网络残差捷径的加入, 避免了训练欠拟合的问题, 从而可得到较好的结果。图 9 DBN 结构分析 Fig.9 Struct

31、ure analysis of DBN 下载原图表 1 不同霾识别方法的对比实验结果 Table 1 Experimental results of haze recognition with different methods 下载原表表 2 为霾分类混淆矩阵, 给出了某次实验中深度残差网络和深度卷积网络得到的混淆矩阵。从表中可以看出:深度残差网络在无霾和中霾的判断中精度明显优于深度卷积网络, 在轻霾的判断中精度也有所提高;在重霾识别中, 深度残差网络和深度卷积网络几乎可以达到一样的水平。因为无霾的样本数据过于庞大, 加上地表类别比较复杂, 因此会有部分无霾像元被误报为重霾的状况, 这些情

32、况可以通过简单的后处理去除, 不影响实际的应用。表 2 霾分类混淆矩阵 Table 2 Confusion matrix of haze classification 下载原表 4.4 大训练样本比例下霾识别性能对比4.4.1 CNN-13 与 ResNet-13 的大样本对比实验第 4.2、4.3 节的实验都是基于训练样本数为 5000 得到的结果, 但整个数据集共有 517667 的样本点, 5000 的样本数只是占了很小的比例, 不到 1%。本节讨论深度残差网络和卷积神经网络在大训练样本情况下的表现。本节研究中将训练样本数增加到 2.510, 约为总数据量的 48.3%, 其余的 267

33、667 个样本为测试样本。图 10 为在大训练样本下网络性能对比结果, 结果与前面的实验结果基本一致, 错误率随着迭代次数而降低。大样本与小样本的区别主要有以下几点:1) 在加大训练样本比例的情况下, 模型趋于稳定所需要的训练次数更少。在样本数为 5000 的情况下, 需要近 200 次迭代才能达到 0.1 的识别错误率;而在训练样本数为 2.510 下, 只需要不到 5 次迭代就达到了相同的识别错误率, 并且总共需要不到 40 次迭代就可使错误率趋于稳定, 完成建模过程。当然, 随着训练集的增大, 单次迭代所需要花费的时间也大大增加, 因此总训练时间相对于样本数为 5000 的情况的训练时间

34、更长。2) 大训练样本的错误率随迭代次数变化的曲线更平滑, 不会出现小样本中剧烈振荡的状况。特别是训练误差曲线, 几乎都是光滑的。因为训练样本的增大, 一次迭代过程的权值调整可以根据大量的数据进行, 因此随机性更小。而网络的调整目的是最小化训练集的代价函数, 因此训练集平稳地持续下降。3) 大训练样本最终可以获得更高的识别精度。在训练样本数为 2.510 的情况下, ResNet 最终可以达到 0.981 的精度, 而 CNN 也可以达到 0.977 的精度, 相对于小样本要高出许多。4.4.2 浅层网络与深层网络的对比实验进行训练样本数为 2.510 时 BP (198-50-4) 网络与

35、CNN-13、ResNEt-13 的对比实验, 前者为 3 层的浅层网络, 后两者为 13 层的深层网络。图 11 为 BP 与CNN-13、Resnet-13 的大样本的对比实验结果。深层网络的学习率都设为 110, BP 的学习率设为 0.01。由图可以明显看出, 在迭代次数为 120 次以下时, 浅层BP 网络的错误率远高于深层网络。图 8 也得出了同样迭代次数下网络越浅错误率越高的结论。为了加快收敛, 让 BP 选取了相对较大的一个学习率, 还产生了不稳定结果, 如在迭代 24 次、53 次的时候出现了错误率的激增。结果稳定后, 错误率收敛在 0.960, 也低于 CNN-13 和 ResNet-13。

展开阅读全文