DMFPNet: 增强多尺度目标感知的双路径高分辨率遥感图像分割算法

1. 引言

随着遥感技术的发展，获取高分辨率遥感图像越来越容易，这为土地测量、环境监测、城市规划等领域提供了丰富的数据资源。然而，高分辨率遥感图像普遍存在类内方差大、类间方差小，同一类别目标尺度变化显著等问题，如何从这些复杂的遥感图像中准确提取有用的信息，已成为推动遥感图像处理技术发展的核心挑战。

遥感图像语义分割是遥感图像技术最重要的进步之一，其目标是将遥感图像中的每个像素进行语义分类，从而提供对遥感图像中不同元素的空间布局和范围的透彻理解，并促进遥感应用的发展。传统的遥感图像语义分割主要采用阈值分割、像素聚类、人工神经网络（ANNs）等方法，其鲁棒性较差，严重依赖人类的先验知识，并且需要大量的处理时间，这使得它们在面对复杂的多分类任务时效率低下。

随着深度卷积神经网络（Deep Convolutional Neural Networks, DCNNs）在图像分割领域的突破性进展，其层级特征提取与复杂结构的设计显著提升了遥感图像解析能力。早期工作如FCN首次实现端到端像素级预测，U-Net通过跳跃连接保留细节特征，而ResNet的残差结构则解决了深层网络梯度退化问题。

基于DCNNs的多尺度建模方法进一步推动了该领域发展：DeepLab系列创新性提出Atrous Spatial Pyramid Pooling（ASPP）模块，通过空洞卷积扩大感受野以捕获多尺度上下文；BiSeNetV2则采用双分支结构分离空间细节与语义上下文。但随着遥感技术的进步，遥感图像的多尺度特性日益显著，现有DCNNs模型在处理这些图像时仍存在跨层级特征交互不足以及长距离信息建模局限等问题。

2. 研究方法及原理

DMFPNet编码部分由两条分支构成，其中，细节分支（Detail Branch）由ResNet-18卷积网络和双边特征引导融合模块（BFGF）组成；语义分支（Semantic Branch）由特征融合模块（Bilateral Feature Aggregation，BFA），DSBlock和MFE-Transformer模块组成；解码部分则由特征聚合模块（Bilateral Guided Aggregation，BGA）和分割头（SegHead）构成。

BFA模块

为了提高网络的特征表达能力，本文设计了BFA模块，对细节分支第一部分输出和原始输入进行处理融合。其中，对原始输入进行最大池化和平均池化，从而使语义分支的浅层输入包含更多细节信息，进一步增加特征的层次性。

SCSP模块

可变通道空间金字塔模块（SCSP）采用了一种综合策略，不仅增强了对空间维度的感知能力，还强化了通道维度上的信息整合。通过设置3种不同参数的卷积层，使模块能够提取并融合不同通道的特征，提高了特征提取的多样性，并且由于将分组数与通道数相关联，模块能够根据输入特征的通道数，自适应调整组数，提高了模块的灵活性及泛化能力。

MFE-Transformer模块

多尺度特征增强Transformer模块(MFE-Transformer)通过特征锚点预处理，为模块提供空间归纳偏置信息。在自注意力机制中引入可学习余弦加权操作，通过计算自注意力机制中每个头与可学习矩阵的余弦相似度，为特征进行加权处理，引导模块关注更有价值的目标特征，同时也能提高对小尺度特征的关注度。

DMFPNet整体架构

图1 DMFPNet整体架构

3. 实验结果分析

3.1 数据集

为了衡量本文提出的模型的有效性，在Vaihingen和Potsdam 2个公共数据集上进行了对比实验。

Vaihingen数据集

由33张平均2,496像素×2,064像素的高分辨率多光谱图像组成，涵盖近红外、红色、绿色3个波段，以及DSM和nDSM。它分为5个前景类别（低矮植被、树木、不透水表面、汽车、建筑物）和一个背景类别（杂波）。

Potsdam数据集

包含38张6,000像素×6,000像素的高分辨率图像，每个图像有4个多光谱波段（近红外、红色、绿色、蓝色）和DSM、nDSM。它包含6个类别（低矮植被、树木、不透水表面、汽车、建筑物、杂波）。

3.2 对比实验

为了对提出的DMFPNet模型和现有方法进行充分的比较，本文选择了3类模型进行实验。第一类是基于CNN的语义分割模型：U-Net、PSPNet、BiSeNetV2、DeepLabV3+和EIGNet；第二类是基于Transformer的语义分割模型：SegFormer和SwinUnet；第三类是CNN与Transformer结合的分割模型：TransUnet、UNetFormer、CMLFormer和CTCFNet。

Vaihingen数据集上不同网络模型下的验证结果(%)

模型	不透水表面	建筑物	低矮植被	树木	汽车	mIoU	mF1	OA
U-Net	85.26	92.65	78.59	85.64	57.80	66.58	79.97	85.66
DMFPNet	89.99	96.38	88.67	91.51	81.24	83.29	90.65	91.69

Vaihingen数据集分割图

图2 Vaihingen数据集分割图

3.3 消融实验

为了验证所提出模型中各模块的有效性，本节将在Potsdam数据集上进行消融实验，逐步分解DMFPNet以揭示每个模块的重要性。

各个模块的消融实验

模型	BFA	SCSP	FA	CW	BFGF	mIoU(%)	mF1(%)	Params(M)
Baseline						71.90	82.92	16.30
DMFPNet-5	✓	✓	✓	✓	✓	73.29	83.98	21.69

不同模块的可视化对比结果

图3 不同模块的可视化对比结果

4. 结论与讨论

4.1 结论

针对目前高分辨率遥感影像分割领域中双框架融合网络普遍存在的结合浅显、多尺度特征提取融合不充分等问题，本文提出了一种双分支语义分割模型DMFPNet，将DCNN与Transformer作为模型的编码器，通过3个关键创新模块——SCSP模块，MFE-Transformer模块以及BFGF模块，在与CTCFNet、CMLFormer、EIGNet等先进网络的对比中，实现了性能的领先。

在Vaihingen数据集上实现了83.29%的最高mIoU，90.65%的最高mF1，相较于比较的最优方法分别提高0.76%和0.52%；在Potsdam数据集上实现了最高73.29%的最高mIoU和83.98%的最高mF1，相较于比较的最优方法提高1.42%和0.9%。

SCSP模块

通过并联的深度可分离膨胀卷积架构和自适应通道调整策略，使模型能够自适应地处理不同深度的空间、通道特征信息，实现了多尺度特征提取能力的提升。

MFE-Transformer

通过特征锚点预处理，为全局特征感知提供空间归纳偏置信息，同时在自注意力机制中引入可学习的余弦加权操作，引导模型关注图像中的有效特征。

BFGF模块

通过多级跨尺度特征交互，促进了局部分支和全局分支的信息融合，实现了局部与全局特征的互补增强。

4.2 讨论

本文基于Vaihingen和Potsdam数据集开展了一系列实验论证，二者作为高分辨率遥感图像分割领域中应用频率极高的数据集，具有独特的协同验证价值。然而本文提出的算法也存在一定的不确定性：

数据集的规模及类别分布会影响模型的训练效果
模型分割性能受输入分辨率的影响
随着遥感分割领域的快速发展，针对成熟架构的改进与创新开始出现边际效益递减的现象

在未来的工作中还需进行更加深入的研究，例如增加其他遥感数据集的使用，以提高数据的丰富度；增加更多元的对比消融实验，从更多维度验证模型的有效性；拓展模型的应用场景，针对具体场景进行更细致化的模块设计，从而实现更好的性能提升。