Water Extraction from Remote Sensing Images: Method Based on Convolutional Neural Networks

Hao Yin; Jinghan Zhang; Chengming Zhang; Yonglan Qian; Yingjuan Han; Yao Ge; Lihua Shuai; Ming Liu

doi:10.13284/j.cnki.rddl.003483

Tropical Geography >

2022 , Vol. 42 >Issue 5: 854 - 866

DOI: https://doi.org/10.13284/j.cnki.rddl.003483

Water Extraction from Remote Sensing Images: Method Based on Convolutional Neural Networks

Hao Yin ^,¹ ,
Jinghan Zhang ¹ ,
Chengming Zhang ^,¹ ,
Yonglan Qian ² ,
Yingjuan Han ³ ,
Yao Ge ¹ ,
Lihua Shuai ¹ ,
Ming Liu ¹

Expand

^1. Shandong Agricultural University, Taian 271018, China
^2. National Meteorological Center, Beijing 100081, China
^3. Key Laboratory for Meteorological Disaster Monitoring and Early Warning and Risk Management of Characteristic Agriculture in Arid Regions, CMA, Yinchuan 750002, China

Received date: 2021-03-09

Revised date: 2021-09-29

Online published: 2022-05-26

Fold

Highlights

Accurate information on the spatial distribution of water is of great significance for monitoring water resources and applications, urban planning, and social and economic development. Remote sensing image segmentation technology based on convolutional neural networks has become an important approach for extracting the spatial distribution of water from remote sensing images. When only convolutional neural networks are used to extract spatial distributions of water from remote sensing images, there are often large differences between the features of edge and internal pixels of water objects, resulting in high noise, fuzzy boundaries, and large differences in the accuracy of extraction of internal and edge pixels. Improving the precision of edge pixel segmentation is the key to improving the precision of the whole extraction result. In this paper, the edge extraction algorithm is used to generate edge images from original images, and remote sensing images and edge images are taken as inputs to establish a water extraction model of high resolution based on semantic feature and edge feature fusion. A semantic and edge feature fusion network, SEF-NET (Semantic Feature and Edge Feature Fusion Network), is used to extract water objects from high-resolution remote sensing images. SEF-NET consists of an encoder, a multi-parallel cavity convolution module, a decoder, and a classifier. The encoder contains a group of semantic feature extraction units and a group of edge feature extraction units, and each group of feature extraction units can extract 4-level features. The multi-parallel cavity convolution module is composed of four extended convolution layers of different cavity sizes in series, which can obtain feature maps at four scales and add them together with the initial input feature maps to obtain multi-scale semantic feature maps. A 4-level decoding unit is set up for the decoder, which splices semantic feature images and edge feature images in series, and then performs feature fusion and upsampling. This strategy can reduce the feature difference between the edge pixel and the inner pixel of the object to obtain high inter-class discrimination and intra-class consistency. SoftMax was used as a classifier to complete pixel classification and generate the final segmentation results. In this paper, the Gaofen Image Dataset, the high-resolution visible light image water object dataset of the 2020 "Xingtucup" High-resolution Remote Sensing Image Interpretation Software Competition, and eight Gaofen-2 images from 2020 were selected for comparative experiments to extract water. SegNet, DeepLabV3, Refinenet and HED-H CNN were the comparison models. The recall rates (91.97%, 92.07%, 93.97%), accuracy rates (91.12%, 98.37%, 97.88%), precision rates (89.56%, 95.07%, 94.06%) and F1 scores (91.54%, 95.12%, 95.88%) were better than those in the comparison models, indicating that the SEF-NET model had greater accuracy and generalization ability in extracting water from high-resolution remote sensing images. Thus, the SEF-NET model served government decision-making and monitoring water pollution better than the comparison models did.

Cite this article

Hao Yin , Jinghan Zhang , Chengming Zhang , Yonglan Qian , Yingjuan Han , Yao Ge , Lihua Shuai , Ming Liu . Water Extraction from Remote Sensing Images: Method Based on Convolutional Neural Networks[J]. Tropical Geography, 2022 , 42(5) : 1 -13 . DOI: 10.13284/j.cnki.rddl.003483

遥感图像分割技术能够根据提出的逐像素特征对图像进行分割，为每个像素分配一个类别标签。以图像分割结果为基础，可以进一步提取出湖泊、河流和水田等水体的空间分布信息（Minaee et al., 2019）。利用遥感图像分割技术提取水体信息，不仅能够节省大量的人力物力，还能极大地提高工作效率。但由于同物异谱、异物同谱、地形复杂、空间分辨率有限、分类方法复杂以及遥感数据本身的原因，对遥感图像进行分割时，如何准确地识别水体边缘，是长期困扰研究者的一个难题。仅利用原始图像和卷积神经网络进行图像分割时，常会出现同类对象像素中，边缘像素的特征值与内部像素的特征值间存在较大差异，如小池塘和狭窄的河流，从而导致对象边缘错误的概率增大。如何针对水体特点，融合语义特征与边缘细节信息生成同时具有较高的类间区分度和类内一致性的逐像素特征，是提升提取结果精度的关键。

目前识别水体的核心思路主要是增强水体信息和抑制非水体信息（Zhou et al., 2014）。遥感图像中提取水体的主要方法有：水体指数法光谱分类（Zhang et al., 2018）、阈值分割方法（Berthon et al., 2010）、机器学习（Karpatne et al., 2016；何海清等，2017）和卷积神经网络（陈坤等，2021）等。多种水体指数被广泛应用于水体提取，如NDWI（Normalized Difference Water Index，归一化水指数）（McFeeters et al., 1996）和MNDWI（Modified NDWI，改进的归一化水指数）（Xu et al., 2006）等，这些方法都是利用不同波段光谱信息的差异来增强水体的信息，然后通过设定阈值对水体进行提取。由于单一的水体指数往往有一定的局限性，如NDWI能够最大程度地抑制植被信息，但在区分水体和建筑物、阴影方面的能力较差；MNDWI利用中红外波段代替近红外波段，提高了建筑物与水体的差异，但仅适用于有中红外波段的影像，且最优阈值的设定具有很强的主观性，需要随着面积和时间的变化而变化（王帆等，2021）。这些方法过多依赖专家知识，需要经过多次实验才可能得到较理想的提取结果。此外，上述方法多针对于某一特定区域的遥感图像源，当用于处理不同地区、不同时期的影像时，往往需要重新进行参数率定，泛化能力较差。

随着机器学习技术的发展，研究者开始将其应用到遥感图像分割任务中，支持向量机（Zhang et al., 2017；单治彬等，2018）、决策树（Al-Obeidat et al., 2015）、随机森林（王一帆等，2020）等都在遥感图像分割领域取得了优异的表现。如常文涛等（2020）根据面向对象原理，采用随机森林算法，以红边波段和雷达波段影像数据为数据源进行了湿地提取。但这些方法生成的特征信息多是以单个像素为基础，未能充分利用相邻像素之间的信息，因此提取的水体对象边缘处的精度仍不够理想。

卷积神经网络不仅能够提取简单特征，也能够提取出表达能力较强的语义特征，鲁棒性强，在遥感信息提取中得到广泛应用，该方法虽然需要一定数量的人工标记图，但标记图制作简单且可以作为数据积累。训练成功的模型在应用于不同地区时，使用者可在已有数据集的基础上补充部分标记图，模型仍然能成功地完成提取工作。因此，利用卷积神经网络提取水体具有较强的优势。

全卷积网络（Long et al., 2015）是首个在相机图像分割任务中取得成功的卷积神经网络，但随着网络层数的增加，不同结构之间的差异也在扩大（Ioffe et al., 2015）。以全卷积网络为基础，研究者进一步提出了更多的网络结构，以提高图像语义分割的质量，这些新的网络结构大多数属编码器－解码器结构（Noh et al., 2015），其中编码器用于图像特征提取和降维，解码器用于恢复特征图的大小和细节。基于全卷积网络结构发展起来的模型多以感受野较小3×3型卷积核为基础，当将这类模型应用于细节丰富图像时，往往会因感受野内像素区分度较小而导致提取的特征质量较差。针对这一现象，研究者提出了一种新型的以空洞卷积结构为基础的模型，其典型代表是DeepLab系列的模型（Chen et al., 2019），该模型以ResNet（Residual Network）（He et al., 2016）作为其骨干网络。空洞卷积可以增加输入域尺寸，通过等权融合等方式融合不同尺度不同层次的语义特征，提高最终语义特征的质量。

与相机图像相比，遥感图像的细节信息要少得多，卷积神经网络应用于遥感图像分割时，所建立的模型结构需要充分考虑遥感图像特点才能取得较好的效果。如刘文祥等（2020）针对遥感影像上呈现出拟合速度慢、边缘目标分割不精确、大尺度目标分割类内不一致、存在孔洞等缺陷，在Deeplabv3+中引入双注意力机制模块，有效改善了提取效果；何红术等（2020）在扩张路径中对低维特征信息进行加强，并引入条件随机场，实现了基于改进U-Net网络的高分遥感影像水体提取；Wang等（2020）提出了一种基于多维密集连接卷积神经网络，对高分辨率遥感图像水体进行识别，模型泛化性较好，但深层语义特征丢失了部分边缘细节信息，使得水体提取结果的边缘处精度不理想。

边缘检测方法可以得到局部像素灰度的突变，获得封闭或者开放的边缘，提取边缘像素的点集，提供丰富的低层边缘信息（Shrivakshan et al., 2012）。结合边缘检测的方法进行语义分割，能够有效解决分割结果中存在的边缘模糊、分割不准确等问题（Chen et al., 2016；黄巍等，2018；王囡等，2021）。Lyu等（2019）发现将高分辨率的全局边缘信息与低分辨率的分类级语义信息结合在一起，可以有效弥补语义分割中的边缘信息丢失问题。HED-H CNN（Marmanis et al., 2018）利用双分支的网络结构同时提取边缘图与分割图，并利用边缘特征对整个提取网络进行优化，使分割结果中各地物边界明确，结合边缘特征提高分割结果精度。因此，边缘特征与语义特征有效融合可以提高特征质量，有助于精确恢复分割区域的边界，得到更好的遥感图像分割结果（Cheng et al., 2017; Liu et al., 2018）。

鉴于此，本文提出一种融合语义特征与边缘特征的遥感图像分割模型SEF-Net（Semantic Feature and Edge Feature Fusion Network），该模型利用一个边缘特征与语义特征的融合模块进行多尺度特征融合，提取出具有较高的类间区分度和类内一致性的高质量的逐像素级特征，试图提升水体边缘处提取结果的精度，以达到获取高精度水体空间分布的目标。以期为从遥感图像中提取高精度的土地利用信息提供新思路。

1 数据集

目前，高分2号遥感影像（Gaofen 2，GF-2）已被用于土地调查、环境监测、作物估算、建设规划等方面。每幅GF-2影像由多光谱影像和全色影像组成，多光谱影像的空间分辨率为4 m，包括蓝、绿、红、近红外4个光谱波段，全色影像的空间分辨率为1 m。选择Gaofen Image Dataset（GID）数据集^{1 1 http://captain.whu.edu.cn/GID/}、2020年“中科星图杯”高分遥感图像解译+软件大赛的高分辨率可见光图像水体目标自动提取数据集（高分水体数据集），以及8幅广东省广州市部分地区2020年的GF2影像人工标注制作的数据集作为验证数据集进行实验^{2 2 http://www.cresda.com/CN}。

其中，GID数据集是用于土地利用和土地覆盖分类的大型数据集，包含中国60多个不同城市的150幅高质量GF-2图像，像素为7 200×6 800，覆盖的地理区域超过5万km²。数据集对农田、林地、建筑物、水体和草地5种土地利用类型进行标注（图1）。

显示原图|下载原图ZIP|生成PPT

图1 GID数据集图像块组示例

Fig.1 Example of GID data set image block group

高分水体数据集由高分二号光学数据组成，分辨率为1~4 m，包含中国不同城市的1 000幅高质量GF-2裁剪图像，像素为492×492。每幅图像按照像素级别分别进行江、河、湖、海等场景像素级标注（图2）。

显示原图|下载原图ZIP|生成PPT

图2 高分水体数据集图像块组示例

Fig.2 Example of high-resolution water data set

广东省广州市部分地区的GF-2遥感影像利用航天宏图信息技术股份有限公司自主研发的PIE遥感图像处理软件对所有图像进行预处理，主要包括大气校正、几何校正、正射校正和图像融合等步骤。融合得到的图像包含红、蓝、绿、近红外4个波段，空间分辨率为1 m。

由于水体同其他土地利用类型具有较明显的视觉差异，人工使用遥感图像处理软件的视觉解译功能标记水体，再将图像分割为尺寸为512×512像素的图像块，从中选取包含水体的236幅进行人工标注。

2 方法

2.1　模型输入

利用改进的Canny算法对遥感图像的数据集进行边缘提取，以获取的边缘位置信息为基础，利用边缘位置像素的信息值生成边缘图像。利用原始图像（图3-a）、人工标记图（图3-b）、边缘图像（图3-c）构成图像组，作为模型的输入，用于对SEF-Net模型进行训练和测试。

显示原图|下载原图ZIP|生成PPT

图3 图像块组示例（a. 原始影像；b. 人工标记图；c. 边缘图像）

Fig.3 Example image block group (a. original image; b. manual marking map; c. edge diagram)

2.2　SEF-Net模型结构

SEF-Net模型使用遥感图像及相应的边缘图像作为输入，由1个编码器、1个解码器、1个多平行扩张卷积块和1个分类器组成（图4）。编码器包含2组特征提取单元，一组直接从遥感图像中提取语义特征，一组从遥感图像和边缘图中提取边缘特征；解码器使用分级融合策略对编码器生成的特征图进行融合和解码，以降低对象边缘像素与对象内部像素的特征差异；分类器根据编码器输出的特征图完成逐像素分类。

显示原图|下载原图ZIP|生成PPT

图4 SEF-Net网络结构

Fig.4 SEF-Net network structure diagram

在训练模型时，需要同时使用遥感图像块及其对应的标记图像块作为输入，标记图像块作为参考图像，计算本次训练的损失值；使用训练成功的模型进行分割时，仅需要使用遥感图像作为输入。在训练阶段和分割阶段，模型输出均为逐像素的标注结果。

2.2.1　编码器

编码器包括语义特征提取组和边缘特征提取组。语义特征提取组由4级提取单元组成，除第1级语义特征提取单元以遥感图像作为输入外，其余各级语义特征提取单元以上一级特征图作为输入（图5）。每级语义特征提取单元均包含2个卷积层、1个BN层（Batch Normalization）、1个激活层和1个池化层，2个卷积层的卷积核均为3×3，采用嵌套结构，这种结构设计的优势在于充分考虑了高分辨率遥感图像结构变化对卷积计算的影响，有利于编码器为同类像素生成稳定性好的特征。

显示原图|下载原图ZIP|生成PPT

图5 感受野示意图

Fig.5 Schematic diagram of receptive field

与语义特征提取组相似，边缘特征提取组也是由4级提取单元组成，每级边缘特征提取单元的结构与同级的语义特征提取单元结构一致。4级单元首先进行特征提取，再使用线性融合模型对边缘特征图和语义特征图进行融合。使用的线性融合模型公式为：

f e d g e (n) = f e d g e (n) + f s e m a n t i c (n) × γ

（1）

式中：

f s e m a n t i c

为语义特征图；

f e d g e

为边缘特征图；

γ

为权重系数向量，每级

γ

的取值可随模型训练进行自动调整，最终达到两类特征图的自适应结合。

激活层使用卷积神经网络中应用较广的ReLU函数（Rectified Linear Unit）作为激活函数。

池化运算具有加速特征聚集的作用，能淘汰掉区分度差的特征值，有利于生成一致性好的特征。但池化运算一般会降低特征图的尺寸，可能会导致部分特征值不具有代表性，在SEF-Net模型中使用最大池化策略。经过线性融合后的边缘特征，边缘附近的像素特征值增大，增加了特征的区分能力。

2.2.2　多并行空洞卷积模块

为了对水体对象进行更精细地分割，构建了一个并行空洞卷积模块，将多个具有不同接受域的、不同空洞参数的空洞卷积并行合并，这样模型能够实现不同尺度的特征的融合（图6）。

显示原图|下载原图ZIP|生成PPT

图6 多并行空洞卷积模块结构

Fig.6 Structure diagram of multi-parallel void convolution module

2.2.3　解码器

解码器设置了4级解码层，用于对编码器提取到的特征图融合后进行上采样处理，以获取兼有较高的类间区分度和类内一致性的逐像素特征向量（图7）。可以看出，每级解码层包括一个串接层和一个解码单元，串接层将输入的m层尺寸为w×h的两组特征图进行串接，得到尺寸不变的2 m层特征图组，再输入到解码单元对特征图组进行融合并提升特征图尺寸。

显示原图|下载原图ZIP|生成PPT

图7 特征融合模块

Fig.7 Feature fusion module

每个解码单元包括1个特征融合层，1个上采样层、1个激活层和1个调整层。特征融合层为1×1型卷积层，将两类串联连接后的特征进行特征值融合。上采样层是一个反卷积层，用于恢复特征图的尺寸，SEF-Net模型采用逐步恢复的策略，每次调整时行数和列数分别扩大1倍，最后将特征图的尺寸恢复到与原图像一致。调整层为1×1型卷积层，其作用是对上采样后的特征值进行调整。解码器最后能为每个像素生成一个长度为32的特征向量。

2.2.4　分类器

SEF-Net模型使用一层卷积核为3的卷积层和Sigmoid（Little, 1974）作为分类器，分类器使用解码器输出的32层的特征图作为输入，卷积层将输入特征图数量调整为1，Sigmoid逐像素计算归属于水体的概率作为输出，最后以0.5作为阈值判断各像素的类别。Sigmoid计算公式为：

f (x) = 1 1 + e - x

（2）

2.3　损失函数

SEF-Net以交叉熵作为基础定义损失函数，计算预测值与真值的误差，并通过反向传播更新权值。样本的交叉熵（Rubinstein, 1999）定义为：

H (p, q) = - ∑ i = 1 8 q i l o g (p i)

（3）

式中：

p

为SEF-Net模型输出的类别概率向量；

q

为根据人工标记生成的真实概率分布，在

q

中，除像素所属类别对应的分量为1外，其余分量为0。

对于SEF-Net模型而言，每个像素均可看作一个独立样本，在此基础上，将损失函数（Liu et al., 2016）定义为：

l o s s (x, l a b e l) = - l o g e x [l a b e l] ∑ j = 1 N e x j = - x [l a b e l] + l o g (∑ j = 1 N e x j)

（4）

式中：

x

为Sigmoid的输出；

l a b e l

为训练的遥感影像块对应的标记图。

2.3　实验设计

选择SegNet、Refinenet、Deeplabv3和HED-H CNN作为对比模型设计对比实验。SegNet采用经典的编解码结构，用于比较经典编解码结构模型与SEF-Net的结构对提取效果的影响；Refinenet利用池化与卷积操作提取影像的不同尺度的特征信息，使用远程残差连接实现高分辨率的预测，浅层的完善特征直接用于强化高级的语义特征，用于比较解码器融合浅层语义特征的多尺度模型与融合边缘特征模型之间的效果差异；Deeplabv3采用基于空洞卷积的空间金字塔池化，能有效地捕获多尺度信息，用于比较融合边缘特征的模型与多尺度大范围语义特征的模型间效果差异。

图8比较了5种不同的边缘检测算法，可以看出，除Canny之外，其他4种算法均生成了许多水体内部的边缘点，而Canny检测由于极大值抑制展现出的优势，得到的边缘与实际水体地块的边缘高度重合，且没有很多细碎的噪声边缘。另外，使用边缘检测图与高分辨率遥感图像一同提取得到的边缘特征在边缘处具有更好的区分度，因此选择Canny边缘检测算法取水体边缘。

显示原图|下载原图ZIP|生成PPT

图8 图像块组示例（a. 原始图像；b. Canny边缘检测图；c. Laplacian边缘检测图；d. Roberts 边缘检测图；e. Prewitt边缘检测图；f. Sobel边缘检测图）

Fig.8 Example of image block groups (a. original image; b. Canny edge detection diagram; c. Laplacian edge detection diagram; d. Roberts edge detection diagram; e. Prewitt edge detection diagram; f. Sobel edge detection diagram)

以PyTorch为基础，使用Python语言开发了SEF-Net模型。SEF-Net模型采用端对端的方式，使用SGD（Stochastic Gradient Descent，随机梯度下降）算法作为训练算法。利用一台图形工作站开展对比实验，该图形工作站安装了一个容量为12GB的Titan X显卡，实验所用的操作系统为Linux Ubuntu 16.04。为了增加样本的数量和多样性，对训练数据集中的每一张图像均进行了颜色调整、水平翻转、垂直翻转等处理，色彩调整因素包括亮度、饱和度、色调和对比度。经过增强得到的图像仅用于模型训练，测试所使用的图像均为原始图像。

使用交叉验证法开展对比实验，每次实验均从数据集中选择80%的图像块组作为训练数据，其他20%的图像块组作为测试数据。共组织了5轮测试，保证每张遥感图像块均被测试1次。

2.4　评价指标

为了便于评价各个模型的提取结果，将结果图中的像素分为4种类别：被正确识别成水体的像素（TP）、被正确识别成其他类的像素（TN）、被错误识别成水体的像素（FP）和被错误识别成其他类的像素（FN）。在此基础上，选择Acc（Accuracy，准确率）、精确率（Precision）、召回率（Recall）、F1（F1 Score，F1分数）作为评价指标（汤涌等，2020）。

Accuracy表示正确分类的水体像素数在所有像素数中所占的比例，计算方法为：

A c c = T P + T N T P + T N + F N + F P

（5）

Precision用来表示正确分类的水体像素数在所有被分类成水体的像素数所占比例，计算方法为：

P r e c i s i o n = T P / (T P + F P)

（6）

Recall用来表示正确分类的水体像素数在全部实际为水体的像素数中所占比例，计算方法为：

R e c a l l = T P / (T P + F N)

（7）

F1同时兼顾了模型的准确率和召回率，计算方法为：

F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l

（8）

3 结果分析

3.1　不同方法的测试结果

图9给出了GID数据集中4个典型区域及所有对比模型的测试结果。与其他4个方法相比，SEF-Net提取出的水体目标噪声更小，边缘更光滑，极少出现将其他类像素错误识别为水体的情况，对于光谱信息相差较大的水体像素也可以实现有效区分，对河、湖等水体目标提取结果均较为理想。

显示原图|下载原图ZIP|生成PPT

图9 GID数据集水体结果（a. 原始图像；b. 与图a相对应的人工标记图像；c. SegNet；d. Deeplabv3；e. Refinenet；f. HED-H CNN；g. SEF-Net）

Fig.9 Water result diagram of GID dataset (a. original images; b. manually labeled images corresponding to figure a; c. SegNet; d. Deeplabv3; e. Refinenet; f. HED-H CNN; g. SEF-Net)

从表1可以看出，SEF-Net结果的4项评价指标均优于对比模型。SEF-Net的精确率为98.37%，说明SEF-Net分类为水体的像素精确率非常高，比HED-H CNN模型高1.25%；召回率比Refinenet高2.80%，比Deeplabv3高6.23%；F1分数也达到了95.12%。

表1 对比模型在3种数据集的结果比较

Table 1 Comparison result of different model on three datasets %

数据集	模型名	F1分数	召回率	精确率	准确率
GID数据集	SegNet	88.19	80.88	96.95	87.52
	Deeplabv3	91.15	85.84	97.15	89.29
	Refinenet	93.34	89.27	96.80	92.79
	HED-H CNN	93. 91	90.06	97.12	93.57
	SEF-Net	95.12	92.07	98.37	95.07
广州地区数据集	SegNet	88.53	85.74	91.52	88.12
	Deeplabv3	91.19	89.57	92.89	89.96
	Refinenet	92.35	90.25	94.56	91.88
	SEF-Net	95.88	93.97	97.88	94.06
高分水体数据集	Deeplabv3	85.86	84.83	86.91	82.90
	Refinenet	88.88	87.52	90.28	86.01
	SEF-Net	91.54	91.97	91.12	89.56

3.2　广州地区数据集实验结果

从对比模型在2020年广州地区GF-2测试中4个典型区域的测试结果（图10）可发现，SEF-Net相较于SegNet和Deeplabv3，可以对面积较大的水体提取出边缘细粒度良好的结果，也没有将个别建筑物错误识别为水体；SEF-Net相较于Refinenet，可以将小面积的水体对象进行有效分割；SEF-Net在复杂的环境中也可以有效地提取检测建筑物的阴影下的水，能够将水中的船与水有效区分出来。

显示原图|下载原图ZIP|生成PPT

图10 广州GF-2影像水体结果（a. 原始图像；b. 与图a相对应的人工标记图像；c. Refinenet；d. Deeplabv3；e. SegNet；f. SEF-Net）

Fig.10 Water results of GF-2 image in Guangzhou (a. original images; b. manually labeled images corresponding to figure a; c. Refinenet; d. Deeplabv3; e. SegNet; f. SEF-Net)

从表1可以看出，SEF-Net结果的4项评价指标均优于对比模型，SEF-Net的准确率最高，为94.06%；精确率优于第二准确的Refinenet模型3.32%；召回率比Refinenet高3.72%，比Deeplabv3高4.4%；F1分数也达到了最高的95.88%，比SegNet高7.35%。

3.3　高分水体数据集实验结果

图11给出了高分水体数据集中6个典型区域及所有对比模型在各个区域上的测试结果。可以发现，在地形较为复杂的地块中，水体的边缘十分曲折，提取得到的结果往往比较破碎，针对较窄的河流，SEF-Net明显优于2个对比模型；在遇到多块小面积水田时，SEF-Net引入边缘特征后可以得到更为精细的结果。

显示原图|下载原图ZIP|生成PPT

图11 高分水体数据集结果（a. 原始图像； b. 与图a相对应的人工标记图像；c. Deeplabv3；d. Refinenet；e. SEF-Net）

Fig.11 Results of high-resolution water body dataset(a. original images; b. manually labeled images corresponding to figure a; c. Deeplabv3; d. Refinenet; e. SEF-Net)

从表1可以看出，SEF-Net结果的4项评价指标均优于对比模型，SEF-Net准确率最高，为89.56%；F1分数也达到了最高，为91.54%；精确率比Deeplabv3高4.21%；召回率比Refinenet高4.45%。说明引入边缘特征能够有效地提高卷积神经网络分割结果，同时也说明通过增强边缘特征对于小数据集的水体提取问题也是有效的。

4 讨论

4.1　引入边缘特征的优势

光谱特征、纹理特征和语义特征是目前遥感图像分割工作中广泛使用的3种特征，其中光谱特征主要表达像素自身信息的联系；纹理特征主要表达相邻像素间的空间相关性；语义特征主要表达特定区域内像素间的关联，是一种抽象性较强的信息。与光谱特征和纹理特征相比，语义特征具有更强的表达能力，用于分类时具有较强的优势。

卷积神经网络通过合理组织卷积核，能够同时提取到这三类特征，如使用1×1型卷积核能够提取到的特征相当于光谱特征，通过浅层获得的特征可以看作纹理特征，不同深度的卷积层可以获取不同级别的语义特征。因而，可以认为高级的语义特征包含光谱特征、纹理特征和语义特征的信息。从对比实验结果看，所有卷积神经网络模型的精度都在87%以上，远高于利用遥感指数等传统方法的结果，证明了卷积神经网络在提取特征方面的优势。

进一步分析图10、11两组实验结果可以发现，SegNet、Deeplabv3、Refinenet、SEF-Net模型所提取的结果中，对象内部像素的分类结果都比较理想，差异主要在于水体的边缘处。由于SEF-Net引入了边缘信息对语义特征进行改善，提高了水体边缘像素的特征区分能力，使得对象边缘的提取结果明显得到优化，证明了引入边缘信息策略的合理性。

4.2　多尺度特征的优势

除SegNet模型是仅利用逐级解码方法生成逐像素特征外，Deeplabv3、Refinenet和SEF-Net模型均采用了融合策略，通过对不同尺度的特征进行融合生成用于分类的逐像素特征。根据对比实验，SegNet模型所得到结果的各项指标均不如其他模型，证明了通过融合多尺度特征能有效提高特征质量。

虽然Deeplabv3模型和Refinenet模型采用的具体融合过程有所不同，但这两种模型均采用了定权融合策略，其优势在于简化了融合过程，不需要通过训练确定融合参数，但由于不同级别的语义特征所代表的信息存在较大差异，从而对最终特征的贡献也有所不同，采用定权融合策略可能会掩盖不同级别的语义特征间的这种差异，不能达到有效提高同一对象像素间特征一致性的目的。而SEF-Net采用的是变权融合策略，虽然需要增加额外的网络参数，但有助于表达不同级别语义的特征，可以提高同一对象像素特征间的一致性。

5 结论

针对从遥感影像中提取高精度水体空间分布的需要，本文在分析高分辨率遥感影像上水体对象数据特点的基础上，充分利用语义特征与边缘特征各自的优势，建立了SEF-Net模型以实现水体提取。SEF-Net首先对语义特征与边缘特征进行融合，以生成兼有高类内一致性和高类间区分度的精细特征，然后利用获取的精细特征从遥感影像中提取水体精细空间分布，与现有方法相比，SEF-Net提取结果的最高精度达到95.07%，即使在小数集中，SEF-Net的精度也达到了89.56%，说明SEF-Net模型不仅具有比同类模型更强的提取能力，同时也具有较强的适应能力，为大范围、精细化、自动化的水体信息提取工作提供了一定的思路。通过更换样本数据集，SEF-Net可直接应用于从遥感图像中提取农作物、居民地、林地等面状对象空间分布信息。

本文的主要贡献有：1）利用Canny算法从原始遥感图像生成边缘图像，并将其作为辅助数据源改善特征提取过程。实验证明，利用从边缘图像中提取出的边缘特征信息，能够有效提高对象边缘处像素语义特征的区分能力；2）针对融合多尺度特征的需要，利用空洞卷积来扩大感受野，利用1×1卷积对权重进行自适应调整，从而有效地改善了融合效果，提高了对象边缘像素与内部像素的特征一致性。

本文方法需要较高精度的标记数据构建训练数据集，工作量较大，未来可考虑引入半监督训练方法，降低模型训练对标记工作的要求，以便将模型应用于生产实践。

1 http://captain.whu.edu.cn/GID/

2 http://www.cresda.com/CN

尹昊：完成了算法流程设计、算法实现、数据实验、论文撰写等工作；

张景涵：协助完成了算法实现、数据实验、初稿撰写等工作；

张承明：提出了算法思想并进行了算法设计、论文修改等工作；

钱永兰、韩颖娟：参与了论文修改工作；

葛瑶、帅丽华、刘铭：协助完成了数据实验。

References

Publishing order | Descend order by publishing year | Descend order by cited within

Al-Obeidat F, Al-Taani A T, Belacel N, Feltrin L and Banerjee N. 2015. A Fuzzy Decision Tree for Processing Satellite Images and Landsat Data. Procedia Computer Science, 52: 1192-1197.

Badrinarayanan V, Kendall A and Cipolla R. 2017. Segnet: A deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495.

Berthon J F and Zibordi G. 2010. Optically Black Waters in the Northern Baltic Sea. Geophysical Research Letters, 37: 232-256.

常文涛，王浩，宁晓刚，张翰超. 2020. 融合Sentinel-2红边波段和Sentinel-1雷达波段影像的扎龙湿地信息提取. 湿地科学, 18（1）：10-19.

Chang Wentao, Wang Hao, Ning Xiaogang and Zhang Hanchao. 2020. Extraction of Zhalong Wetland Information Based on Images of Sentinel-2 Red-Edge Bands and Sentinel-1 Radar Bands. Wetland Science, 18(1): 10-19.

陈坤，郝明，庄龙，谢聪. 2021. 基于卷积神经网络的SAR图像水体提取. 电子测量技术，44（3）：125-131.

Chen Kun, Hao Ming, Zhuang Long and Xie Cong. 2021. Water Extraction from SAR Image Based on Convolutional Neural Network. Electronic Measurement Technology, 44(3): 125-131.

Chen L C, Papandreou G, Kokkinos I, Murphy K and Yuille A L. 2019. Deeplab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848.

Cheng Dongcai, Meng Gaofeng, Xiang Shiming and Pan Chunhong. 2017. Fusionnet: Edge Aware Deep Convolutional Networks for Semantic Segmentation of Remote Sensing Harbor Images. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 10(12): 5769-5783.

何海清，杜敬，陈婷，陈晓勇．2017. 结合水体指数与卷积神经网络的遥感水体提取. 遥感信息，32（5）：82-86.

He Haiqing, Du Jing, Chen Ting and Chen Xiaoyong. 2017. Remote Sensing Image Water Body Extraction Combing NDWI with Convolutional Neural Network. Remote Sensing Information, 32(5): 82-86.

何红术，黄晓霞，李红旮，倪凌佳，王新歌，陈崇，柳泽. 2020. 基于改进U-Net网络的高分遥感影像水体提取. 地球信息科学学报，22（10）：2010-2022.

He Hongshu, Huang Xiaoxia, Li Hongga, Ni Lingjia, Wang Xinge, Chen Chong and Liu Ze. 2020. Water Body Extraction of High Resolution Remote Sensing Image Based on Improved U-Net Network. Journal of Geo-Information Science, 22(10): 2010-2022.

He K, Zhang X, Ren S and Sun J. 2016. Deep Residual Learning for Image Recognition. Las Vegas: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770-778.

黄巍，黄辉先，徐建闽，刘嘉婷. 2019. 基于Canny边缘检测思想的改进遥感影像道路提取方法. 国土资源遥感，31（1）：65-70.

Huang Wei, Huang Huixian, Xu Jianmin and Liu Jiating. 2019. An Improved Road Extraction Method for Remote Sensing Images Based on Canny Edge Detection. Remote Sensing for Natural Resources, 31(1): 65-70.

Ioffe S and Szegedy C. 2015. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. Lille:International Conference on Machine Learning, 448-456.

Karpatne A, Khandelwal A, Chen X, Mithal V, Faghmous J and Kumar V. 2016. Global Monitoring of Inland Water Dynamics: State-of-the-Art, Challenges, and Opportunities. In: Lässig Jörg, Kersting Kristian and Morik Katharina. Computational Sustainability.Cham, Switzerland: Springer, 121-147.

Lin Guosheng, Milan A, Shen C and Reid I. 2017. Refinenet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation. Honolulu: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1925-1934.

Little W A. 1974. The Existence of Persistent States in the Brain. Mathematical Biosciences, 19(1/2): 101-120.

Liu Shuo, Ding Wenrui, Liu Chunhui, Liu Yu, Wang Yufeng and Li Hongguang. 2018. ERN: Edge Loss Reinforced Semantic Segmentation Network for Remote Sensing Images. Remote Sensing, 10(9): 1339.

Liu W, Wen Y, Yu Z and Yang M. 2016. Large-Margin Softmax Loss for Convolutional Neural Networks. Lille: Proceedings of the 33rd International Conference on Machine Learning, 507-516.

刘文祥，舒远仲，唐小敏，刘金梅. 2020. 采用双注意力机制Deeplabv3+算法的遥感影像语义分割. 热带地理，40（2）：303-313.

Liu Wenxiang, Shu Yuanzhong, Tang Xiaomin and Liu Jinmei. 2020. Remote Sensing Image Segmentation Using Dual Attention Mechanism Deeplabv3+ Algorithm. Tropical Geography, 40(2): 303-313.

Long J, Shelhamer E and Darrell T. 2015. Fully Convolutional Networks for Semantic Segmentation. Boston: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 3431-3440.

Lyu H, Fu H, Hu X and Liu L. 2019. Esnet: Edge-Based Segmentation Network for Real-Time Semantic Segmentation in Traffic Scenes. Taipei:2019 IEEE International Conference on Image Processing (ICIP), 1855-1859.

Marmanis D, Schindler K, Wegner J D, Galliani S, Datcu M and Stilla U. 2018. Classification with an Edge: Improving Semantic Image Segmentation with Boundary Detection. ISPRS Journal of Photogrammetry and Remote Sensing, 135: 158-172.

McFeeters S K. 1996. The Use of the Normalized Difference Water Index (NDWI) in the Delineation of Open Water Features. International Journal of Remote Sensing, 17(7): 1425-1432.

Minaee Shervin and Wang Yao. 2019. An ADMM Approach to Masked Signal Decomposition Using Subspace Representation. IEEE Transactions on Image Processing, 28(7): 3192-3204.

Noh H, Hong S and Han B. 2015. Learning Deconvolution Network for Semantic Segmentation. Santiago:Proceedings of the IEEE International Conference on Computer Vision, 1520-1528.

Rubinstein R. 1999. The Cross-Entropy Method for Combinatorial and Continuous Optimization. Methodology & Computing in Applied Probability, 1(2): 127-190.

单治彬，孔金玲，张永庭，李欢，关红，胡永新，李健锋，张文博. 2018. 面向对象的特色农作物种植遥感调查方法研究. 地球信息科学学报，20（10）：1509-1519.

Shan Zhibing, Kong Jinling, Zhang Yongting, Li Huan, Guan Hong, Hu Yongxin, Li Jianfeng and Zhang Wenbo. 2018. Remote Sensing Investigation Method of Object-Oriented Crops with Special Charateristics. Journal of Geo-Information Science, 20(10): 1509-1519.

Shrivakshan G T and Chandrasekar C. 2012. A Comparison of Various Edge Detection Techniques Used in Image Processing. International Journal of Computer Science Issues, 9(5): 269-276.

汤涌，项铮，蒋腾平. 2020. 基于三维激光点云的复杂道路场景杆状交通设施语义分类. 热带地理，40（5）：893-902.

Tang Yong, Xiang Zheng and Jiang Tengping. 2020. Semantic Classification of Rod-Shaped Traffic Facilities in Complex Road Scenes Based on 3D Laser Point Cloud. Tropical Geography, 40(5): 893-902.

Xu Hanqiu. 2006. Modification of Normalised Difference Water Index (NDWI) to Enhance Open Water Features in Remotely Sensed Imagery. International Journal of Remote Sensing, 27(14): 3025-3033.

Wang Guojie, Wu Mengjuan, Wei Xikun and Song Huihui. 2020. Water Identification from High-Resolution Remote Sensing Images Based on Multidimensional Densely Connected Convolutional Neural Networks. Remote Sensing, 12(5): 795.

王囡，侯志强，赵梦琦，余旺盛，马素刚. 2021. 结合边缘检测的语义分割算法. 计算机工程，47（7）：257-265.

Wang Nan, Hou Zhiqiang, Zhao Mengqi, Yu Wangsheng and Ma Sugang. 2020. Semantic Segmentation Algorithm Combined with Edge Detection. Computer Engineering, 47(7): 257-265.

王帆，李崇贵，马婷，刘梦霞，张志超. 2021. 一种改进的遥感影像水体信息快速提取方法. 人民长江，52（6）：223-228.

Wang Fan, Li Chonggui, Ma Ting, Liu Mengxia and Zhang Zhichao. 2021. A Modified Method for Water Body Information Rapid Extracting from Remote Sensing Images. Yangtze River, 52(6): 223-228.

王一帆，徐涵秋. 2020. 基于客观阈值与随机森林Gini指标的水体遥感指数对比. 遥感技术与应用，35（5）：1089-1098.

Wang Yifan and Xu Hanqiu. 2020. Comparison of Remote Sensing Water Indices Based on Objective Threshold Value and the Random Forest Gini Coefficient. Remote Sensing Technology and Application, 35(5): 1089-1098.

Zhang Yongjun, Liu Xinyi, Zhang Yi, Ling Xiao and Huang Xu. 2018. Automatic and Unsupervised Water Body Extraction Based on Spectral-Spatial Features Using GF-1 Satellite Imagery. IEEE Geoscience and Remote Sensing Letters, 16(6): 927-931.

Zhang Fan, Ni Jun, Yin Qiang, Li Wei, Li Zheng, Liu Yifan and Hong Wen. 2017. Nearest-Regularized Subspace Classification for PolSAR Imagery Using Polarimetric Feature Vector and Spatial Information. Remote Sensing, 9(11): 1114.

Zhou Ya'nan, Luo Jiancheng, Shen Zhanfeng, Hu Xiaodong and Yang Haiping. 2014. Multiscale Water Body Extraction in Urban Environments from Satellite Images. IEEE Journal of Selectied Topics in Applied Earth Observations and Remote Sensing, 7(10): 4301-4312.

Options

Outlines

模态框（Modal）标题

Highlights

Cite this article

1 数据集

图1 GID数据集图像块组示例

图2 高分水体数据集图像块组示例

2 方法

2.1 模型输入

图3 图像块组示例（a. 原始影像；b. 人工标记图；c. 边缘图像）

2.2 SEF-Net模型结构

图4 SEF-Net网络结构

2.2.1 编码器

图5 感受野示意图

2.2.2 多并行空洞卷积模块

图6 多并行空洞卷积模块结构

2.2.3 解码器

图7 特征融合模块

2.2.4 分类器

2.3 损失函数

2.3 实验设计

图8 图像块组示例（a. 原始图像；b. Canny边缘检测图；c. Laplacian边缘检测图；d. Roberts 边缘检测图；e. Prewitt边缘检测图；f. Sobel边缘检测图）

2.4 评价指标

3 结果分析

3.1 不同方法的测试结果

图9 GID数据集水体结果（a. 原始图像；b. 与图a相对应的人工标记图像；c. SegNet；d. Deeplabv3；e. Refinenet；f. HED-H CNN；g. SEF-Net）

表1 对比模型在3种数据集的结果比较

3.2 广州地区数据集实验结果

图10 广州GF-2影像水体结果（a. 原始图像；b. 与图a相对应的人工标记图像；c. Refinenet；d. Deeplabv3；e. SegNet；f. SEF-Net）

3.3 高分水体数据集实验结果

图11 高分水体数据集结果（a. 原始图像； b. 与图a相对应的人工标记图像；c. Deeplabv3；d. Refinenet；e. SEF-Net）

4 讨论

4.1 引入边缘特征的优势

4.2 多尺度特征的优势

5 结论

References

2.1　模型输入

2.2　SEF-Net模型结构

2.2.1　编码器

2.2.2　多并行空洞卷积模块

2.2.3　解码器

2.2.4　分类器

2.3　损失函数

2.3　实验设计

2.4　评价指标

3.1　不同方法的测试结果

3.2　广州地区数据集实验结果

3.3　高分水体数据集实验结果

4.1　引入边缘特征的优势

4.2　多尺度特征的优势