“地理空间智能技术及应用”专题

采用双注意力机制Deeplabv3+算法的遥感影像语义分割

  • 刘文祥 ,
  • 舒远仲 ,
  • 唐小敏 ,
  • 刘金梅
展开
  • 南昌航空大学 信息工程学院图像处理省重点实验室,南昌 330063
舒远仲(1965—),男,江西南昌人,教授,主要研究方向:计算机网络、信息安全、物联网技术等,(E-mail)

刘文祥(1994—),男,江西高安人,硕士,主要研究方向为机器视觉和人工智能算法应用,(E-mail) 1609192581@qq.com。

收稿日期: 2019-10-11

  要求修回日期: 2020-02-17

  网络出版日期: 2020-05-15

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Remote Sensing Image Segmentation Using Dual Attention Mechanism Deeplabv3+ Algorithm

  • Wenxiang Liu ,
  • Yuanzhong Shu ,
  • Xiaomin Tang ,
  • Jinmei Liu
Expand
  • School of Information Engineering, Nanchang Hangkong University, Nanchang 330063,China

Received date: 2019-10-11

  Request revised date: 2020-02-17

  Online published: 2020-05-15

Copyright

Copyright reserved © 2020

摘要

针对DeepLabv3+网络在遥感影像上呈现出拟合速度慢,边缘目标分割不精确,大尺度目标分割类内不一致、存在孔洞等缺陷,提出在该网络中引入双注意力机制模块(Dual Attention Mechanism Module, DAMM),设计并实现了将DAMM结构与ASPP(Atous Spatial Pyramid Pooling)层串联或并联的2种不同连接方式网络模型 ,串联连接方式中先将特征图送入DAMM后,再经过ASPP结构;并联连接方式中将双注意力机制层与ASPP层并行连接,网络并行处理主干网提取特征图,再融合两层处理特征信息。将改进的2种方法通过INRIA Aerial Image高分辨率遥感影像数据集验 证,结果表明,串联或并联方式2种网络都能有效改善Deeplabv3+的不足,并联方式网络性能更好,其对原网络缺陷改善效果更明显,并在测试数据集上mIoU达到85.44%,比Deeplabv3+提高了1.8%,而串联方式网络提高了1.12%。并联结构网络更符合本文需求,其形成了一种对DeepLabv3+网络上述问题进行统一改善的方案。

本文引用格式

刘文祥 , 舒远仲 , 唐小敏 , 刘金梅 . 采用双注意力机制Deeplabv3+算法的遥感影像语义分割[J]. 热带地理, 2020 , 40(2) : 303 -313 . DOI: 10.13284/j.cnki.rddl.003229

Abstract

Remote sensing image processing technology based on deep learning can prospectively be used to determine the characteristics of large numbers of remote sensing image data and complex scenes. However, deep-learning algorithms in remote sensing image processing have certain shortcomings, e.g., the popular DeepLabv3+ network has slow fitting speeds, inaccurate edge target segmentation, inconsistencies, and holes in large-scale target segmentation. We therefore proposed a method for introducing a Dual Attention Mechanism Module (DAMM) to DeepLabv3+ to address the above deficiencies. We designed two different network models that connected the DAMM structure to the Atous Spatial Pyramid Pooling (ASPP) layer in series or parallel. In the serial connection method, the feature map was first sent to the DAMM and then passed through the ASPP structure. Furthermore, the feature map was defused with middle-low layer feature information through the decoder layer and restored to the original image resolution. In the parallel connection method, the DAMM and ASPP layers processed the feature map extracted from the backbone network in parallel and subsequently fused the processed feature map information. The mixed feature map was restored to its original resolution by the decoder. The two improved methods were verified by the INRIA Aerial Image high-resolution remote sensing dataset. The results showed that both the series and parallel methods could effectively improve the shortcomings of Deeplabv3+. The experimental results showed that the parallel network had superior performance, and improvements in the original network defects were more obvious. The parallel method achieved a higher score [85.44% Mean Intersection Over Union (MIOU)] in the test dataset, which was 1.8% higher than Deeplabv3+. And the serial network increased by 1.12% compared to Deeplabv3+. The effects of the position and channel attention mechanisms in the DAMM structure were also determined. The ablation study results showed that the channel and position attention mechanisms improved the performance of the Deeplabv3+ model. In the test set, the channel and position attention mechanism mIoU increased by 0.95 and 1.32%, respectively. The experiments revealed that the position attention mechanism had a greater effect on edge target segmentation, the channel attention mechanism had a greater effect on large-scale hole phenomena, and the channel and position attention mechanism promoted network fitting speed in training. The proposed improved DeepLabv3+ algorithm can provide a scientific basis and reference for semantic segmentation of big data remote sensing images.

开放科学(资源服务)标识码(OSID):
近年来,随着计算机基础硬件的快速发展,各种图像处理算法层出不穷。随着实际工作中需求的提升,深度学习算法在图像处理上取得长足发展。其中,深度语义分割算法被广泛用于遥感影像处理,成果丰硕。其中,FCN方法(Huang et al., 2016; Bittner et al., 2017)用于提取高分辨率影像建筑物,但FCN仅使用高级特征图来执行像素分类,具有丰富信息的低级特征图被丢弃,导致FCN处理小型复杂建筑物的能力非常有限,网络最终的分割图像非常粗糙。为了解决这个问题,重用低级特征图已成为一种有效的解决方案,因为低级特征图具有丰富的空间信息和细粒度细节。因此,一些重用低层特征图且优秀的监督语义分割模型应运而生,如U-Net(Ronneberger et al., 2015)、RefineNet(Lin et al., 2016)和Segnet(Badrinarayanan et al., 2019),这些语义分割模型采用了编码-解码结构,编码层用于特征信息提取,解码层将提取特征图恢复成原始图像维度,解码层在恢复特征图过程中为弥补丢失的细节,将融合编码层中的低级特征图,最终分割特征图获取不同层级特征信息,提升网络分割精度。另外,Li等(2017)提出了DeepUNet模型用于遥感影像分割,DeepUNet包含收缩路径和扩展路径,整体遵循U-Net的体系结构;另外,其将2个带有U连接和正连接的新块引入网络,进一步提高了模型分割性能。Pan等(2018)提出了一种新颖的密集金字塔网络(DPN)用于语义分割,网络分别提取每个通道的特征图并进行通道切换操作,以增强网络的表示能力,最终网络在遥感(ISPRS)Vaihingen数据集上表现良好。这些方法证明了深度卷积神经网络对遥感影像分割处理中的优势。
最近,Deeplabv3+语义分割网络(Chen et al.,2018)变得较为流行,该网络由Deeplabv1-3版本发展而来(Chen et al., 2014; 2016; 2017),因而也存在Deeplabv1-3版本的缺陷,如训练速度慢、缘目标分割精度低等问题。为解决Deeplabv存在的缺陷,部分学者进行了相关研究。如陈天华等(2018)利用Inception V2卷积网络改善Deeplabv1网络中的骨干网,减小了网络卷积计算参数,最终加快了网络训练速度,其在INRIA Aerial Image测试集上的房屋分割IoU达到69.42%,但网络分割效果一般。王中宇等(2019)通过在Deeplabv3+中引入卷积块注意模型(Convolutional Block Attention Module, CBAM)得到初步分割图像的方法,完善了原网络在边缘目标分割粗糙的不足,最终将改进网络运用于自动驾驶语义分割场景中,但仍未能解决网络训练速度慢的缺陷。上述方法只是针对某一缺陷进行改进,未能对Deeplabv3+算法的缺陷进行统一完善。
鉴于此,本文针对Deeplabv3+网络在遥感图像语义分割上的缺点,将双注意力机制模块(Dual Attention Mechanism Module, DAMM)引入Deeplabv3+网络,提出2种基于双注意力机制的Deeplabv3+模型,并通过INRIA Aerial Image 高分辨率遥感影像数据集验证其效果,以期DAMM能够达到对Deeplabv3+算法的缺陷进行统一完善目的。

1 网络与算法

1.1 DeepLabv3+网络介绍

DeepLabv3+是Google公司在2018年最新推出的语义分割算法,该算法在DeepLabv1-3基础上发展,首先Deeplabv1提出带孔洞卷积操作,在减少下采样的情况下,扩展了网络感受野,模型获得了更稠密特征图。为进一步增强网络分割能力,网络后续采用全连接CRF操作,进一步增强了分割目标精度,但Deeplabv1对多尺度分割对象处理能力较差。为解决此问题,Deeplabv2在V1版本基础上提出ASPP(Atous Spatial Pyramid Pooling)结构,该结构对输入特征图使用不同采样率的空洞卷积操作并行采样,即对特征图进行多比例捕捉图像上下文信息,Deeplabv2在后续处理中同样采用全连接CRF操作以获取更为精准的分割图像。而当ASPP结构中3×3卷积核的扩张率不断增加,3×3卷积将退化成1×1卷积,为弥补此缺陷并融合全局上下文信息,Deeplabv3将ASPP结构改为3个3×3卷积操作扩张率分别为 {6, 12, 18} 和一个全局平均池化操作,由于ASPP中融合了图像级特征,包含了目标位置信息,因此V3版本去除了全连接CRF操作。而Deeplabv3+网络在Deeplabv3系列算法基础上添加编码-解码结构,使其成为了现阶段最为优秀的语义分割算法之一,DeepLabv3+网络在诸多公共数据集,如PASCAL VOC2012、CitySpaces等,都取得了理想的结果,其结构如图1所示。可以看到,网络由编码器和解码器2部分组成,编码器分为深度扩张卷积神经网络和ASPP层,解码器融合低层特征并进行特征图恢复,具体介绍如下。
图1 Deeplabv3+网络结构

Fig.1 Deeplabv3+ network structure

首先,全卷积深度神经网络利用卷积层对图像中物体或场景进行特征提取,为减轻深度网络的计算量,利用池化层对卷积后的特征图缩减特征图维度,即下采样过程,但多次下采样操作将造成目标的边界信息过多丢失,这对语义分割任务不利。DeepLabv3+在深度特征提取网络中加入扩张卷积(Atrous Convolution),在保证减少下采样操作和不增加网络参数的基础上增加网络感受野,使特征图尽可能不丢失分割目标边界特征信息,从而提升分割效果。
其次,对于多目标分割任务,图像中不同目标具有不同的尺度大小,统一使用同一层特征进行多目标分割,无法保证分割精度。DeepLabv3+网络借鉴SSP-Net(He et al., 2014)中空间金字塔池化(Spatial Pyramid Pooling,SSP)操作并改进成ASPP,以达到对多尺度目标的分割能力。ASPP将输入特征图分别进行1×1卷积,扩张率为6、12、18的3×3卷积以及全局平均池化操作后,将特征图融合并进行1×1卷积将通道数压缩为256个,最终ASPP能够完成不同尺度目标特征信息的提取和区分,很好地实现多尺度目标的分割。
最后,DeepLabv3+网络为充分提取图像中目标物体的高层特征信息,对输入图像进行必要的下采样操作,为弥补下采样操作中丢失的边界信息,DeepLabv3+采用编码-解码结构,在特征图恢复过程中融合低层特征,恢复目标部分边界信息,特征图恢复采用线性插值方法,最终提高了网络分割的精度(见图1)。

1.2 改进的DeepLabv3+算法

自注意力机制近年来不断被运用在深度学习的各个领域,无论在图像处理、语音识别还是自然语言处理上都有不错的表现。其在图像处理中能够模拟长期依赖,建立图像中2个存在一定距离像素之间的联系(Tao et al., 2018)。如Zhang等(2018)将自注意力机制引入到GAN网络的图像生成和评估中,发现在中层次或高层次特征中使用注意力机制使GAN网络图像生成效果显著;Wang等(2018)基于自注意力机制提出在时空维度上的非局部操作,并在图像和视频上取得良好的效果;Fu等(2019)将自注意力机制引入语义分割任务中,并设计了网络模型DANet,证明了自注意力机制在语义分割任务中同样适用,DANet网络中自注意力机制具体介绍如下。
1.2.1 位置注意力模块 判别特征对语义分割任务而言十分重要,一般通过长期上下文信息获取。基于FCNs的语义分割特征提取多以局部特征为主,这不利于长期上下文信息获取,容易造成目标和物体类内的分类错误。位置注意力模块能够模拟出丰富的全局特征间的上下文关系,从而使不同位置同类特征相互增强,提高语义分割能力(Fu et al.,2019),位置注意力模块结构如图2所示。位置通道模块说明如下:
图2 位置注意力模块(Fu et al., 2019

Fig.2 Position attention module

通过主干网络可以得到局部特征 A R C × H × W 矩阵,将特征 A 通过卷积操作得到矩阵 B C D ,其中 B , C , D R C × H × W 。接着将矩阵 B 改变形状成 B' R C × N , N = H × W ,同时将矩阵 B' 转置为 B T ,接着 C 改变为 C' 形状后与 B T 做矩阵乘法,最后使用softmax层计算出位置注意力 S R N × N Fu et al.,2019):
S ji = exp B i C j i = 1 N exp B i C j
式中: B i 表示矩阵 B R N × C i 个位置元素; C j 表示矩阵 C R C × N j 个位置元素; S ji 表示第 i 个位置对第 j 个位置的影响因子; N 为通道中元素个数;公式(1)表明2个不同位置相似的特征之间相关性更大、相互之间更具影响。进一步,将矩阵 D 形状变成 D ´ R C × N ,将矩阵 D ´与 S 的转置矩阵 S ´进行矩阵乘法后重新改变形状成 R C × H × W ,同时将其与缩放参数 α 相乘并与矩阵 A 相加得到最终矩阵 E R C × H × W Fu et al., 2018):
E j = α i = 1 N S ji D i + A j ( 2 )
式中: D i 为矩阵 D R N × C i 个位置元素; α 为可学习参数,初始值为0。由公式(2)可得出,每个位置最终特征E都是所有位置特征与原始特征的加权和,因此位置注意力机制具有全局上下文视图且根据位置注意力图选择性聚合上下文,使相似的语义特征之间相互促进,保持语义之间的一致性。
1.2.2 通道注意力模块 语义分割模型提取的不同通道的高层语义特征图是某个特定类别的预测,且不同类别的语义之间具有特定的联系,通过利用不同通道特征图之间的相互联系,可以突出相互联系的特征图并且使特定的语义特征得到促进,因此探索不同通道的特征很有必要(Fu et al.,2019)。通道注意力模块如图3所示,通道注意力模块说明如下:
图3 通道注意力模块(Fu et al., 2019

Fig.3 Channel attention module

与位置通道注意力模块不同,通道注意力模块直接通过 A R C × H × W 计算出通道注意力图 X R C × C ,首先将特征矩阵 A 形状改变成 A ´ R C × N , N = H × W 后将 A ´与 A ´的转置矩阵做矩阵乘法并通过softmax层得到 X Fu et al.,2019):
x ji = exp A i ' A ' T j i = 1 C exp A i ' A ' T j
式中: A i ' 表示 A ' R C × N 矩阵第 i 个位置元素值; A ' T j 表示 A i ' 转置矩阵的第 j 个元素值; x ji 表示第 i 个通道对第 j 个通道的影响因子。然后对 X 进行转置为 X T 后与 A ´做矩阵乘法,将乘法结果进行形状变换为 R C × H × W 后相乘一个可训练参数 β 再与矩阵 A 相加得到最终结果 E R C × H × W Fu et al.,2019):
E j = β i = 1 C x ji A i + A j
式中: β 初始化为0,从公式(4)可以得出每个通道最终特征都是所有通道特征与原始通道特征的加权和,所以通道注意力模块可以模拟出不同特征图之间的长期语义依赖,加强特征表示。

1.3 基于双注意力机制的DeepLabv3+网络

DeepLabv3+网络是目前最为优秀的语义分割模型之一,其在VOC数据集上取得优异成绩。但DeepLabv3+模型也存在一些不足。首先,DeepLabv3+为增加对多尺度目标的分割能力,在空洞卷积特征提取网络后接入ASPP结构,该结构由扩张率分别为1、6、12、18的3×3空洞卷积以及全局平均池化操作共同组成,过大的扩张率无法较好的对图像边缘目标特征进行准确提取,同时也不能完整地模拟出大尺度目标局部特征间的联系,使大尺度目标分割存在空洞现象,这些导致DeepLabv3+网络对遥感影像边缘目标和大尺度目标分割准确率降低。其次,DeepLabv3+模型从特征提取网络到上采样恢复特征图过程中,模型参数量十分巨大,尤其是在模型的后面卷积层中卷积通道数多达512个,每层参数量多达236万(陈天华 等,2018),庞大的训练参数对网络训练十分不利,在网络反向传播过程中必定存在某些参数不稳定,因此会阻碍网络的训练,使网络收敛较慢。因此本文提出2种基于双注意力机制的Deeplabv3+模型以弥补上述不足,最后将2种网络结构进行实验对比,2种改进后的DeepLabv3+网络结构如图4所示。图4-a为DAMM与ASPP并联情况,使用主干网络先对图像进行特征提取,然后将模型分为2条支路网络分别对主干网提取的特征图进行处理,再将2条分路特征图融合。图中上支路是双注意力机制模块,由通道注意力模块和位置注意力模块组成,这2个模块在双注意力模块中并行操作,具体为:首先,将骨干网提取所得特征图进行扩张率为2的3×3卷积操作,然后将其分别送入通道注意力模块和位置注意力模块中处理,并将处理特征图进行加操作。其中通道注意力模块利用不同通道的相关类别特征间的关联性进行不同类别特征强化,提升分类精度,位置注意力模块通过模拟出不同局部特征间的联系,可相互促进不同局部特征间的分类精度。图中下支路使用DeepLabv3+中ASPP操作,先将特征图送入ASPP处理,再将ASPP处理特征图与双注意力模块处理特征图融合,最终将融合特征图降维至256通道数。网络解码模块沿用DeepLabv3+解码模块操作,最终得出图像分割图。
图4 双注意力机制在deeplabv3+中与ASPP结构并联(a)和串联(b)情况

Fig.4 The dual attention mechanism is paralleled(a) and connected(b) with the ASPP structure in deeplabv3+

图4-b为DAMM与ASPP串联情况,与图4-a并联不同,模型通过深度特征提取网络得到特征图后,先将特征图进行扩张率为2的3×3卷积操作,再将特征图送入DAMM中进行特征图的位置及通道间像素特征强化,然后将特征图输入ASPP模块中进行多尺度目标分割,最后按照原网络方法进行特征图的解码恢复工作。

2 实验分析

2.1 数据集和训练策略

使用INRIA Aerial Image作为改进网络验证数据集,主要用于遥感影像城市建筑物检测,标签类别分别为建筑物和背景,且标注分类为像素级别,主要用于语义分割任务,包含360张5 000×5 000空间分辨率为0.3 m矫正彩色图像,影像从人口稠密地区到高山地区总覆盖面积810 km2(训练405 km2,测试405 km2)。为方便网络训练,将训练集和测试集分割成500×500分辨率影像各18 000张。
为使网络能够较快收敛和稳定训练,先使用ILSVRC-2012-CLS图像分类数据集对特征提取网络进行预训练,再利用该预训练模型对原网络和改进网络进行迁移训练。为保证改进网络的真实性,将原网络和改进网络设置相同超参数,batch size设置为9,初始化学习率设为1e-3,学习率使用多项式衰减方式,总衰减步数40 000步,最终学习率为1e-6,网络优化方法使用momentum,动量为0.9,weight decay设置为3e-4。

2.2 注意力模块嵌入实验

实验环境为Ubuntu16.04系统,硬件参数CPU为酷睿i7-6800k,3.4GHZ×12,内存64G,GPU为GeForce GTX 1080 Ti,显存11G,深度学习框架为Tensorflow1.8.0。IoU(Intersection over Union)作为度量语义分割算法准确性的一个重要标准,反映同类别预测值与真实值之间重合度,IoU值越高,测量值与真实值之间重叠度越高,网络预测越准确,mIoU(Mean Intersection over Union)为所有类别IoU均值。另一个度量标准是PA(Pixel Accuracy)值,反映网络对图像整体预测程度,PA值越大,网络预测越好。
为验证DAMM在Deeplabv3+结构中的有效性,设计了2种不同的DAMM与ASPP的连接结构进行对比(表1)。从结果可以看出,无论DAMM与ASPP是串联还是并联,DAMM在Deeplabv3+中都具有优势,其对Deeplabv3+性能都有促进作用。串联结构中,模型设置stride为16在数据测试集中的识别结果mIoU比基线(82.13%)高出1.38%;在并联结构中,模型识别结果更为精准,mIoU达到84.12%,比基线高出1.99%。当stride设置为8时,DAMM在网络中的优势同样明显,2种结构分割结果都比原网络性能好,在测试集上分割结果mIoU达到85.44%,其中,并联结构性能优于串联结构。
表1 双注意力机制模块与ASPP结构不同连接方式网络实验结果对比

Table 1 Comparison of network experimental results of different connection modes of the Dual Attention Mechanism Module and ASPP structure

网络模型 步数 mIoU/%
Deeplabv3+ 16 82.13
Deeplabv3+ 8 83.64
串联结构网络 16 83.51
串联结构网络 8 84.76
并联结构网络 16 84.12
并联结构网络 8 85.44
通过对比本文设计的2种结构算法与其他经典语义分割网络在数据测试集中的结果,可以看出,设计的双注意力机制的DeepLabv3+网络在INRIA Aerial Image的测试集上分割精度相较于原网络都有所提高,识别时间相较于原DeepLabv3+网络稍有下降(表2)。图4-b串联结构网络比原网络在房屋分割上IoU的最好情况提高了0.92%,mIoU提高了1.12%,而并联结构网络优化更为明显,房屋IoU和mIoU比原网络分别提高了1.48%和1.8%。改进的串联和并联结构2种网络与DANet网络相比,mIoU分别高出2.66%和3.34%。这证明改进网络的先进性。
表2 改进的DeepLabv3+网络与其他网络在INRIA Aerial Imaget的测试集结果对比

Table 2 Comparison of the test set results of the improved DeepLabv3+ network in INRIA Aerial Image compared with other networks

网络模型 mIoU/% 房屋(IoU)/% 精度/% 时间/(FPS)
FCN-8s 78.21 66.95 92.31 7.69
SegNet 79.54 67.65 92.74 9.72
DeepLabv3 81.96 72.10 93.26 5.98
DANet 82.10 72.59 93.14 5.71
陈天华 等(2018) 69.42 95.22
DeepLabv3+ 83.64 74.65 93.94 5.66
串联结构网络 84.76 75.57 94.24 5.38
并联结构网络 85.44 76.13 94.86 5.32
进一步分析改进网络在遥感数据中具体优化情形,一般遥感影像分辨较大,如本文使用的数据集,受硬件资源限制,网络不能对较大分辨率影像进行训练及测试,因此必须将影像切割成较小分辨率图像,而对大分辨率遥感影像切割很容易将同一目标分割到不同图像边缘位置中,因此分割边缘目标成为难题。从图5可看出,边缘房屋由于分割原因被切分成不同部分,房屋特征被破坏,DeepLabv3+网络无法较为准确地推断出破坏的房屋特征,导致边缘目标房屋无法准确地被分割出。双注意力模块利用不同像素间特征,能够有效地加强图像边缘相同目标特征,从而准确分割出边缘目标,图5中2种网络结构都能够有效弥补原网络缺陷,边缘目标分割效果更好。
CNN通过卷积操作提取图像局部特征,然后通过组合局部特征对目标进行分类,而语义分割任务需要确定每个像素的类别并非整体类别,当分割目标过大时,局部特征提取不连贯,容易造成大尺度目标类内不一致,使大尺度目标分割不完整。本文通过添加双注意力机制,能够有效模拟出图像位置间的长期上下文依赖信息,将不同局部特征信息连贯起来,注意力模块可利用不同通道的类内关联性使分割目标类内一致。从图6可以看出,2种网络对大尺度目标分割效果都好于原Deeplabv3+模型,都能有效强化类内特征,DAMM模块可增加同一目标类内一致性。图7显示出串联结构网络对大尺度目标分割不如并联结构网络,原因在于串联结构中ASPP层将DAMM结构中特征重新分布,最终导致网络精度的下降。
图5 提出的两种网络与DeepLabv3+模型在边缘目标分割中效果

注:红色方框中为不同网络的边缘目标分割效果及Groundtruth。

Fig.5 The effect maps of the two proposed networks and DeepLabv3+ model in edge target segmentation.

图6 本文所提出的2种网络与原网络对遥感影像大尺度房屋识别结果

Fig.6 The two kinds of networks proposed in this paper and the original network are used to predict the large-scale buildings recognition results of the image.

由于DeepLabv3+网络较深,在训练时存在不稳定及训练较缓慢等现象,而双注意力机制可有效改善此问题。从图7可以看出,DANet网络在训练前6轮快速收敛,第2轮训练网络对测试集评估mIoU已达到75%,而DeepLabv3+网络只达到52.74%,证明双注意力机制可加速网络收敛。改进的2种DeepLabv3+网络充分发挥了双注意力机制的优点,串联结构网络在第2轮迭代后对测试集评估mIoU达66.39%,较原网络提高了13.65%;并联结构网络在第2轮评估已达75.8%,比串联结构网络收敛速度更快,结果说明DAMM有效地改善了DeepLabv3+网络收敛慢的缺点。同时,改进后的网络保留了DeepLabv3+的强大拟合能力,对DeepLabv3+网络的性能有所提升。因此,改进的网络在遥感影像复杂目标分割上可行,在实际运用中存在一定优势。
图7 四种网络每训练2轮在测试数据集上评估效果对比

Fig.7 The comparison of the effect evaluation of the four networks on the test data set every 2 rounds of the training

2.3 注意模块消融实验

为讨论位置注意力模块与通道注意力模块对Deeplabv3+算法的必要性及各机制在网络中的作用,在并联结构基础上对位置与通道注意力模块设计消融实验,stride设置为8。由表3可知,注意力模块在实验中表现优秀,以Deeplabv3+网络为基线,该模型在INRIA Aerial Image遥感影像的测试数据集上mIoU为83.51%,并行结构网络在只有位置注意力模块时mIoU比基线提高了1.32%,而只有通道注意力模块时提高了0.95%。当将2种注意力模块一同运用时,网络在测试集中精度进一步提升,mIoU达到85.44%,与基线相比提高了1.93%。
表3 注意力机制消融实验结果对比

Table 3 Comparison of experimental results of attention mechanism ablation

网络模型 位置注意力模块 通道注意力模块 mIoU/%
Deeplabv3+ 83.51
并联结构网络 84.83
并联结构网络 84.46
并联结构网络 85.44
通道和位置注意力模块消融实验在INRIA Aerial Image测试集上部分结果可视化如图8所示,可以看出,通道注意力和位置注意力机制都能有效改善大尺度目标孔洞问题。通过比较前2行和第2、3列黄色框中孔洞可以发现,通道注意力机制相比位置注意力对完善大尺度目标孔洞效果更为明显。通过比较第2、3、4行红色框中边缘目标分割情况,位置注意力模块对边缘目标分割更为精准,但通道注意力模块对边缘目标分割与Deeplabv3+算法相比也较为准确,因此2种注意力机制对边缘目标分割精度有所提高。
图8 不同模块实验在INRIA Aerial Image测试集上可视化结果

注:红色框中为边缘目标识别对比;黄色框中为大尺度目标孔洞现象对比;前面2行为不同注意力模块对大尺度目标语义分割情况。

Fig.8 The results of different module experiments are visualized on INRIA Aerial Image test set

在消融实验中,将各个网络每间隔两轮迭代对测试集进行评估(图9),可以明显看出,在2轮迭代后,Deeplabv3+网络对测试mIoU达到52.74%,通道和位置注意力网络mIoU分别达到66.53%和67.45%,与原网络相比分别提高了13.79%和14.71%。因此,通道和位置注意力机制都有效加快了Deeplabv3+网络拟合速度。
图9 消融实验中各注意力网络评估曲线

Fig.9 Evaluation curves of attention networks in ablation study.

3 结论与讨论

采用双注意力机制的Deeplabv3+深度语义分割网络对高分辨率遥感影像进行房屋分割,讨论了DAMM结构与ASPP层在网络中不同连接方式对网络性能的影响,并利用ILSVRC-2012-CLS数据集进行模型预训练,再对遥感影像数据集INRIA Aerial Image进行训练和测试,得到的主要结论为:
1)无论DAMM与ASPP是串联还是并联,最终改进网络与原DeepLabv3+网络相比,在遥感数据训练中收敛速度有明显提升,消融实验结果表明注意力机制可改善训练中拟合缓慢现象,进一步证明了DAMM的有效性。
2)同类目标间存在差异和目标尺度过大,在语义分割任务中容易造成大尺度目标类内分割不一致。消融实验中注意力机制能有效弥补此缺陷,但通道注意力机制对此现象改善效果更为明显,证明了DAMM能够使大尺度目标分割更为完善,能有效去除大尺度目标分割孔洞现象。
3)对于影像边缘目标特征缺失情形,DAMM结构利用通道和位置像素间的特征信息相互增强,使改进网络能够有效推断出边缘特征被破坏目标位置,并能更为精准地分割边缘目标,有效改善Deeplabv3+中边缘目标分割不准确的缺陷。
本研究表明,结合双注意力机制的Deeplabv3+模型在遥感影像分割中存在优势,与缩小骨干网络参数加快网络训练不同(陈天华 等,2018),改进的Deeplabv3+模型骨干网络不变,通过利用DAMM加快了网络拟合速度,同样缩短了网络训练时间,但改进的模型网络参数众多,这对机器运算能力带来一定挑战。在语义分割中边缘目标分割不精准问题一直存在,Deeplabv3+的ASPP结构能够加大网络感受野解决部分此类问题(袁立 等,2019),但对于边缘特征被破坏的目标识别仍然不精准,而结合DAMM的Deeplabv3+模型能够有效改善此缺陷,但对特征被破坏的边缘目标分割精度仍有待提高。此外,在利用INRIA Aerial Image 数据集对Deeplabv3+实验过程中,发现大尺度目标分割类内不一致,但没有对其他公开数据集进行实验,结论仅限于遥感影像中。后期工作将考虑运用模型压缩和网络剪枝技术对改进的Deeplabv3+算法进行优化,保证网络在性能基本不变的情况下轻量化模型,同时,也将增加改进网络在遥感影像其他方面的研究,如路网、水路、农田提取等。
[1]
Badrinarayanan V, Kendall A and Cipolla R . 2019. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12):2481-2495.

DOI PMID

[2]
Bittner K, Cui S and Reinartz P . 2017. Building extraction from Remote Sensing Data Using Fully Convolutional Networks. Hannover, Germany: Proceedings of the International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, ISPRS Hannover Workshop, 481-486.

[3]
陈天华, 郑司群, 于峻川 . 2018. 采用改进DeepLab网络的遥感图像分割. 测控技术, 37(11):40-45.

[ Chen Tianhua, Zhen Siqun and Yu Junchuan . 2018. Remote Sensing Image Segmentation Using Improved DeepLab Network. Measurement & Control Technology, 37(11):40-35. ]

[4]
Chen L C, Papandreou G, Kokkinos I, Murphy K and Yuile A L . 2014. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs. ( 2014-12-22)[2019-09-10]. .

[5]
Chen L C, Papandreou G, Kokkinos I, Murphy K and Yuile A L . 2016. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis & Machine Intelligence, 40(4):834-848.

DOI PMID

[6]
Chen Liang-Chieh, Papandreou George, Schroff Florian and Adam Hartwig . 2017. Rethinking Atrous Convolution for Semantic Image Segmentation. ( 2017-06-17) [2019-09-10]. .

[7]
Chen Liang-Chieh, Zhu Yukun, Papandreou George, Schroff Florian and Adam Hartwig . 2018. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ( 2018-02-07) [2019-09-10]. .

[8]
Fu J, Liu J, Tian H, Tian H, Li Y, Bao Y, Fang Z and Lu H . 2019. Dual Attention Network for Scene Segmentation.( 2019-04-21). [2019-09-10]. .

[9]
He K, Zhang X, Ren S and Sun J . 2014. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis & Machine Intelligence, 37(9):1904-1916.

DOI PMID

[10]
Huang Z, Cheng G, Wang H, Li H, Shi L and Pan C . Building Extraction from Multi-Source Remote Sensing Images via Deep Deconvolution Neural Networks. Beijing: 2016 IEEE International Geoscience and Remote Sensing Symposium ( IGARSS), 1835-1838.

[11]
Li Ruirui, Liu Wenjie, Yang Lei, Sun Shihao, Hu Wei, Zhang Fan and Li Wei . 2017. DeepUNet: A Deep Fully Convolutional Network for Pixel-Level Sea-Land Segmentation. ( 2017-09-01) [2019-09-10]. .

[12]
Lin Guosheng, Milan Anton, Shen Chunhua and Reid Ian . 2016. Refinenet: Multi-path Refinement Networks for High-resolution Semantic Segmentation. ( 2016-11-20) [2019-09-10]. .

[13]
Pan Xuran, Gao Lianru, Zhang Bing, Yang Fan and Liao Wenzhi . 2018. High-Resolution Aerial Imagery Semantic Labeling with Dense Pyramid Network. Sensors, 18(11): 3774. .

DOI PMID

[14]
Ronneberger O, Fischer P and Brox T . 2015. U-Net: Convolutional Networks for Biomedical Image Segmentation. ( 2015-05-19) [2019-09-10]. .

[15]
Shen Tao, Zhou Tianyi, Long Guodong, Jiang Jing, Pan Shirui, Zhang Chengqi . 2017. DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding. ( 2017-09-14) [2019-09-10]. .

[16]
王中宇, 倪显扬, 尚振东 . 2019. 利用卷积神经网络的自动驾驶场景语义分割. 光学精密工程, 27(11):2429-2438.

[ Wang Zhongyu, Ni Xianyang and Shang Zhendong . 2019. Semantic Segmentation of Autonomous Driving Scenes Using Convolutional Neural Networks. Optics and Precision Engineering, 27(11):2429-2438. ]

[17]
Wang X, Girshick R, Gupta A and He K . 2018. Non-Local Neural Networks. New York: CVPR 2018: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 7794-7803.

[18]
袁立, 袁吉收, 张德政 . 2019. 基于DeepLab-V3+的遥感影像分类. 激光与光电子学进展, 56(15):236-243.

[ Yuan Li, Yuan Jishou and Zhang Dezheng . 2019. Classification of Remote Sensing Images Based on DeepLab-V3 +. Laser & Optoelectronics Progress, 56(15):236-243. ]

[19]
Zhang Han, Goodfellow Ian, Metaxas Dimitris, Odena Augustus . 2018. Self-Attention Generative Adversarial Networks. ( 2018-05-21) [2019-09-10]. .

文章导航

/