1 引言

建筑物是城乡建设中最突出的地理特征,承载着人们生产生活的基本需求,同时也是城乡发展和经济建设的重要指标之一。遥感影像建筑物提取被广泛应用于城市建设、工程规划、人口预测等方面,在城市发展中发挥着重要作用。

早期遥感影像建筑物提取主要依赖于传统的图像处理方法,如基于边缘检测算子、角点检测算子和阈值的方法。这些方法在逐渐多样化的遥感图像中难以有效地分离建筑物和背景,且受制于噪声和背景复杂度,导致提取的建筑物边界出现断裂和缺失的情况。

近年来深度学习已成为主流特征学习方法,其强大的特征提取能力为遥感影像建筑物提取提供了更多可能性。例如FCN、UNet、SegNet、DeepLabV3+、MAPNet等模型在遥感影像建筑物提取中取得了一定成效,但因其本身存在的一些局限性,仍然不能满足下游任务的需要。

现有方法的主要问题

特征表示能力差

现有网络中包含大量冗余信息,有效信息和冗余信息被混淆在一起,导致计算效率大大降低,特征表示能力受限。

建筑物边界不清晰

不同形状的建筑物很难被完整地提取出来,现有方法未考虑到特征推导过程中的像素聚类关系,对建筑物边界的提升有限。

微小建筑物丢失

重复的卷积和下采样操作在提取语义信息的同时,容易丢失像素占比较低的微小型建筑物,影响提取准确度。

本文提出一种用于遥感影像建筑物提取的细节增强与跨尺度几何特征融合网络(Detail Enhancement and Cross-Scale Geometric Feature Sharing Network for Remote Sensing Building Extraction, DCS-Net)。网络首先利用信息解耦与聚合模块(IRDM),对编码层中的空间通道冗余和有效信息进行整合,获得细化的强交互性特征,增强模型的特征表示。其次,使用局部互相似性细节增强模块(LMSE)对局部互相似性进行建模,增强模型对建筑物边缘信息的捕捉能力。最后,引入引导小目标推理的跨尺度几何特征融合模块(CGFF),通过计算特征层之间的互相关矩阵来表征建筑物之间的几何相似性,以补偿微小型建筑物的信息损失。

2 模型结构及方法

2.1 网络整体结构

DCS-Net的整体框架如图1所示,网络采用编码-解码结构,包含了IDRM、LMSE和CGFF共3个模块。在编码阶段,主干网络利用多层卷积操作对输入遥感图像进行特征提取,在相邻两级编码层中间加入IDRM模块对有效特征和冗余特征解耦重构并重新组合,提高计算效率增强特征表示。在解码阶段利用4个LMSE模块借助编码层中的信息引导,实现空间关联式推断,提升对建筑物边缘角点等细节部位的分割效果。此外在编码器和解码器之间插入Atrous空间金字塔池化(ASPP)以更好地利用遥感图像中的多尺度信息。最后利用CGFF补偿特征提取阶段微小型建筑物的信息损失,加强建筑物提取的完整性。

网络模型结构示意图

图1 网络模型结构示意图

2.2 信息解耦与聚合模块

IRDM模块

信息解耦与聚合模块IDRM由2个单元构成:信息解耦单元IDU和重组聚合单元RAU。对于特征图Xp,首先通过IDU对输入特征图进行特征分离,然后利用RAU运算对分离出的两组特征进行重构、融合,最终得到细化特征Xs。该模块利用了特征映射中的空间和通道冗余,提高了特征映射内的信息交互性。

2.2.1 信息解耦单元

为了利用特征的空间冗余使用组归一化GN层中的比例因子来评估不同特征图的信息内容。在组归一化中比例因子可以动态地调整每个特征图的重要性,较大的比例因子通常对应包含更多有用信息的特征图,而较小的比例因子则可能对应着包含较少信息或者冗余的特征图。这种调整机制能使网络在训练过程中更加关注具有较高信息量的特征,从而增强特征提取的有效性。

2.2.2 重组聚合单元

以往的提取模型通常使用重复的k×k卷积来提取特征,这样生成的特征图中包含的信息模式会变得极为相似,从而导致冗余限制了模型的特征表示能力。为了提高特征映射中的信息交互性增强特征表示,使用重组聚合单元RAU,利用交叉重构-变换的策略以生成信息更丰富的特征图。

信息解耦与聚合模块IDRM结构示意图

图2 信息解耦与聚合模块IDRM结构示意图

2.3 局部互相似性细节增强模块

LMSE模块

LMSE模块结构如图4所示,分为3个部分:空间关联点选择,像素相似性计算及引导推理。

2.3.1 空间关联点选择

当将解码器中的某一级特征上采样至目标特征时,对于编码特征中的每一个像素,不利用已知像素点的灰度值或RGB值推导未知像素,而是从邻域中选择相同语义聚类的S个点。一般的动态上采样方法使用固定的方形采样邻域选取这些点,本文将这个固定邻域拓展至任意形状,并从拓展后的邻域中以特征内容为条件进行动态选择。

2.3.2 像素相似性评估

在空间关联点选择完成后,模型会计算每个编码器特征点和所选解码器特征点之间的相似度得分。首先对编码器特征点进行局部线性嵌入,将提取像素集合转换为低维样本集矩阵。同样对候选点进行线性嵌入,然后对集合进行相似度计算。使用对分割边界较为敏感的Harsdorff距离对2组提取出的特征点进行计算。

2.3.3 引导推理

将权重组合成上采样的特征,通过逐一对每个目标位置进行特征推理,从而能够成功地获取到上采样的特征图。这种方法能够更精确地引导解码器进行特征推理,提升对建筑物边缘信息的捕捉能力。

局部互相似性细节增强模块LMSE结构示意图

图3 局部互相似性细节增强模块LMSE结构示意图

2.4 引导小目标推理的跨尺度几何特征融合模块

CGFF模块

提出的CGFF旨在对大小目标之间的几何特征关系进行建模,具体来说,该模块计算原始图像的特征分块和编码器中特征图的特征分块之间的相互关系,从而捕获多尺度的几何特征关联,通过补偿连续特征提取过程中的信息损失来提高对微小目标的分割性能。

2.4.1 跨尺度几何相似性建模

编码器第四、五层特征经过多次卷积后已经高度抽象化,故模块将原始图片和第三层编码特征作为输入,生成具有加强几何特征的注意力图,并将其与解码器结合。使用卷积将原始图像嵌入至第一级特征图,同样对第三级特征图进行1×1卷积使其转化为相同尺寸的特征图。随后将特征图划分为若干个特征分块,对特征分块进行点积运算,以此来确定原始图像的每个特征分块与相关的特征图之间的关系。

2.4.2 输出补偿

为了使提取到的特征分块关系映射到网络输出中,要将获得的注意力图用于引导解码器的输出,从而增强对小目标的提取。使用固定大小的平均池化层将掩码压缩至相同的大小,将注意力映射应用于输出概率进行调制得到几何相似性特征图。这进一步体现了大对象在输出过程中对小对象的调制与影响,从而确保了空间信息的精确传递与调整。

跨尺度几何特征融合模块CGFF结构示意图

图4 跨尺度几何特征融合模块CGFF结构示意图

3 实验设计与结果分析

3.1 实验设计

实验数据集

本文使用WHU建筑物检测数据集和Massachusetts建筑物检测数据集进行了实验:

  • WHU数据集:涵盖各种城市及郊区建筑物,航拍子集共6,549张图像,每张图像大小为512×512像素,包含220,000多座独立建筑物,地面分辨率为0.3 m
  • Massachusetts数据集:由波士顿地区的151张航拍图像组成,每张图像大小为1,500×1,500像素,覆盖面积约340 km²,空间分辨率为1 m

实验环境

实验平台搭载Intel Xeon E5-2650处理器(376GB)、4块NVIDIA 2080Ti-12GB显卡,实验环境采用Ubuntu16.04系统,环境配置为CUDA10.2+anaconda3+python3.8+pytorch-1.12.0。

训练参数:Adam优化器,动量0.9,权重衰减0.00001,初始学习率0.001,训练200代,每批次12张图像。

评价指标

为便于定量分析所提方法的性能,本文采用以下评价指标:

  • 准确率(Pre): TP/(FP+TP)
  • 召回率(Rec): TP/(FN+TP)
  • 交并比(IoU): TP/(FN+FP+TP)
  • F1值: 2×TP/(2×TP+FN+FP)
  • 95%HD: 用于评估模型对边界的约束能力

3.2 实验结果分析

3.2.1 WHU建筑物检测数据集实验结果分析

为了验证所提模型的有效性,本文将其与最近的遥感影像建筑物提取方法进行比较,这些方法包括UNet、Deeplabv3+、PSPNet、MAPNet、DR-Net、MBR-HRNet、CFENet、SDSNet、HDNet、DFFNet、BuildFormer、UANet网络。

在WHU数据集上不同方法提取结果比较

图5 在WHU数据集上不同方法提取结果比较

通过对比图中多个网络的预测结果,可以明显看到各方法在提取建筑物边界和分割微小建筑物方面的差异。本文方法能够更加清晰地还原建筑物边界,尤其是微小型建筑物,能够很好地捕捉到小目标建筑物的特征并将其轮廓完整提取出来,边缘的平滑性和连续性显著优于其他方法。其余提取网络预测结果均出现建筑物提取不完整,复杂结构建筑物的边界混淆且不规则。

提取方法 IoU/% Pre/% Rec/% F1/% 95%HD Params/M
UNet 84.15 90.72 92.41 91.24 82.13 17.26
PSPNet 85.51 92.32 92.52 92.39 83.61 53.58
DeeplabV3+ 85.43 91.96 92.31 92.13 81.23 15.31
MAPNet 89.94 95.59 93.84 94.70 85.18 24.00
DR-Net 88.30 94.31 94.31 94.38 88.56 10.00
MBR-HRNet 91.31 95.48 94.88 95.18 80.02 31.02
BuildFormer 91.44 95.65 95.40 95.53 79.37 40.52
UANet 92.15 95.96 95.86 95.91 77.69 38.15
DCS-Net (本文) 92.94 96.37 96.33 96.35 75.79 28.50

表1 WHU遥感建筑物数据集定量评估结果

在WHU遥感建筑物检测数据集上的定量评估结果如表1所示,本文方法在交并比、精确率、召回率和F1分数分别达到92.94%,96.37%,96.33%与96.35%,各项指标均优于其他方法,表明本文方法能够精确地提取出建筑物,即使在较为复杂的背景下也能克服噪声对模型的干扰并有效避免误判及丢失等情况。边界评价指标95%HD达到75.79,表明本文方法能够提取出完整清晰的建筑物边界,并且分割边界更逼近于真实建筑物的边界。

3.2.2 Massachusetts建筑物检测数据集实验结果分析

Massachusetts建筑物检测数据集主要包含了3种建筑物类型:密集分布的微小型建筑物、受阴影遮挡的大型复杂结构建筑物和沿海码头。

Massachusetts建筑物检测数据集上不同方法结果比较

图6 Massachusetts建筑物检测数据集上不同方法结果比较

对于复杂建筑物,受阴影及复杂背景影响,UNet、PSPNet及DeepLabV3+出现了严重的误判现象,这些模型将地面错误地识别为建筑物,降低了模型的准确性。对于微小型建筑物,这些模型出现了丢失现象。MAPNet、HDNet、MBR-HRNet、BuildFormer和UANet在提取过程中避免了误判情况,但丢失和粘连现象仍然存在,且提取出的建筑物边界不平坦。本文方法DCS-Net能更好地处理边界细节以及阴影等复杂环境干扰因素,这使得本文方法在面对多样化、复杂的建筑物类型和环境条件时,仍能表现出较强的适应能力和准确性。

提取方法 IoU/% Pre/% Rec/% F1/% 95%HD
UNet 71.55 83.50 83.20 83.35 289.54
PSPNet 72.15 84.03 83.76 83.89 267.89
DeeplabV3+ 72.29 84.12 83.89 84.00 265.36
BuildFormer 75.32 86.22 85.44 85.83 234.15
UANet 76.41 86.62 96.56 86.63 219.10
DCS-Net (本文) 77.13 87.71 96.42 87.06 205.26

表2 Massachusetts建筑物检测数据集定量评估结果

如表2所示为定量分析结果,与其他方法相比,本文方法具有最高的交并比、精确率和F1分数,分别达到77.13%、87.71%、87.06%,展现了其优异的建筑物提取能力及准确性。召回率为96.42%,尽管略低于UANet,但仍能有效避免丢失现象或漏检现象,在复杂背景下依然能保持较高的提取率。边界评价指标95%HD达到205.26,表明本文方法在提取细化边缘方面表现出色,能够精确地分割出建筑物的轮廓,避免了以往模型常见的模糊边界和不规则形状。

3.2.3 消融实验分析

为了评估DCS-Net中各个模块对实验结果的影响,本文在WHU遥感建筑物检测数据集上进行了消融实验。实验时除模块变化外其余参数均保持一致。

消融实验结果可视化

图7 消融实验结果可视化

模块贡献分析
  • Baseline:已具备基本的从遥感图像中提取建筑物的能力,但在建筑物边界和微小型建筑物方面仍然薄弱
  • +ASPP:网络能利用遥感图像中的多尺度信息,使得在建筑物边缘区域不规则情况得到改善,但提升有限
  • +IRDM:减弱了冗余信息对网络模型的影响,加强了建筑物特征的表示能力,显著降低了错误提取的现象
  • +LMSE:建筑物的边界更加规范,同时避免了因建筑物之间距离过近或环境因素影响而导致的粘连现象
  • +CGFF:微小型建筑物丢失情况得到了有效改善,完整性大幅提升
定量分析结果
模型 IoU/% F1/% 95%HD
Baseline 87.25 93.17 84.32
+ASPP 89.12 94.26 82.15
+IRDM 90.87 95.21 79.64
+LMSE 91.96 95.81 77.32
+CGFF (完整) 92.94 96.35 75.79

4 结论

本文针对现有遥感影像建筑物提取模型中因冗余导致的特征表示能力差、建筑物边界不清晰及微小建筑物丢失问题,提出了一种细节增强与跨尺度几何特征融合网络DCS-Net。该网络包含三个核心模块:信息解耦与聚合模块IRDM、局部互相似性细节增强模块LMSE和引导小目标推理的跨尺度几何特征融合模块CGFF。

主要贡献

有效信息提取

IRDM模块通过分配权重将冗余特征分离并重构,从空间和通道两个维度抑制冗余,促进有效特征学习,增强模型的特征表示能力。

边界细节增强

LMSE模块通过动态选择窗格以及编-解码特征之间的局部互相似性指定像素聚类,提升建筑物边缘信息的准确性和完整性。

微小建筑物提取

CGFF模块计算原始图像与不同语义级特征图间的特征分块关系,补偿信息损失以提升微小建筑物的提取性能。

实验结果表明,DCS-Net在WHU数据集上的交并比、F1值和95%HD达到92.94%、96.35%和75.79,对比现有最佳算法分别提升了0.79%、0.44%和1.90;在Massachusetts数据集上的指标为77.13%、87.06%和205.26,分别提升了0.72%、0.43%和13.84。这些结果验证了所提方法的有效性,DCS-Net能更为准确完整地提取出遥感影像中的建筑物,并显著缓解微小建筑物丢失的问题。

未来工作将进一步探索如何在保持高精度的同时降低模型复杂度,以及如何更好地处理极端天气条件下的遥感影像建筑物提取问题。