随着遥感卫星和高空平台的快速发展,高空间分辨率遥感图像的应用也变得越来越普遍。遥感影像的语义分割在地貌特征的像素级分类方面具有重要意义,该技术已经在许多工业级图像中得到广泛应用。
随着人工智能技术的不断发展,全卷积神经网络(FCN)将端到端的学习思想应用于图像分割。基于FCN的方法同样借助卷积来提取物体特征,例如,Unet使用U型对称网络结构和多个跳跃连接;SegNet提出了一种编码器-解码器结构;Deeplabv3+利用级联解码器结构和空洞卷积来提取多尺度特征。
在多模态高分辨率遥感图像分割研究领域,遥感图像的双模态包括近红外、红、绿IRRG图像和数字表面模型DSM图像,其中IRRG图像具有纹理、颜色、形状等语义信息,语义信息一般指的是目标区域像素和周围区域像素之间的关联性。DSM图像包含了三维空间的栅格化数据,以灰度图的形式体现不同物体的高度信息,高度信息差可以体现物体类别间的差异,可以作为IRRG图像的补充。
本文提出的MFEHPNet模型结构如图1所示。采用了编解码器结构,编码器部分为多模态特征提取模块(MEM)和抽象特征提取模块,模型输入的数据源采用IRRG和DSM图像,用于分别提取不同模态的特征信息。
图1 MFEHPNet模型结构
多模态特征提取模块的结构如图2所示。利用不同模态的互补特性,减少图像分割过程中因同物异谱造成的分割边界模糊的问题。
图2 多模态特征提取模块
坐标注意力机制如图3所示。可将任何中间特征张量作为输入并通过转换输出了相同大小同时具有增强表征。
图3 坐标注意力机制
主干网络的输出特征需要通过多尺度抽象特征提取模块进一步映射为物体层面的抽象语义特征。为了降低网络参数,提高网路的推理速度,采用了具有双路径瓶颈块(DBB)的MobileNetV3作为该模型的主干网络。
图4 双路径瓶颈块结构
本文提出的基于MobileNetV3的详细网络结构如表1所示:
输入 | 操作 | 拓展大小 | #out | k | SE | NL | S |
---|---|---|---|---|---|---|---|
2242×3 | conv2d | - | 16 | - | - | HS | 2 |
1122×16 | bneck,3×3 | 16 | 16 | - | √ | RE | 1 |
1122×16 | DBB,3×3 | 64 | 24 | - | - | RE | 2 |
遥感图像具有背景复杂、同物异谱的特点,而传统的注意机制由于密集的亲和操作过多地引入了背景噪声,难以处理相似光谱类别。考虑像素的全局背景以及其在注意力中的相对位置,可以促进相应物体的特征提取,本文提出层级感知网络如图7所示。
图5 层级感知网络
在解码模块中,一般使用4倍上采样直接恢复特征图以获得高级语义特征,但对于遥感图像容易丢失许多边界和细节信息。因此本文设计了双重融合结构,如图8所示。
图6 双重融合结构
为了改善编码器-解码器结构中空间等低级特征与高级抽象语义特征的融合效果,本文提出了一个多尺度特征聚合(MSA)模块,如图9所示,该模块用于处理主干网络输出的F2、F3和F4特征。
图7 多尺度特征聚合模块
为了提高模型的计算速度,本文采用随机梯度下降法(SGD)进行训练。初始学习率设置为0.01,并使用动量衰减系数0.9和重量衰减系数0.0001,每次训练使用的批量大小为16。实验环境的配置信息如表2所示。
配置名称 | 参数 |
---|---|
CPU | Intel(R) Core(TM) i9-12900KF |
GPU | NVIDIA GeForce RTX3090 |
操作系统 | Windows 10 |
框架 | Pytorch1.12.0 |
Memory | 32 G |
Video Memory | 24 G |
本文实验数据采用了ISPRS Vaihingen和Potsdam的高分辨率遥感图像进行验证。这些数据集涵盖了5个不同的语义类别,分别为建筑物、低矮植被、树木、汽车和不透明表面。
在遥感图像中,当某些场景中的目标具有相似的光谱特征时,如图10所示,光谱特征相似的蓝色框和黄色框对应"树木"和"低矮植被"这2个不同的类别。而在DSM图像中,高程信息可以更好地区分类别间的差异。
图10 遥感图像分割的难点
为了验证MFEHPNet对遥感图像分割的有效性,本文在ISPRS Vaihingen和Potsdam数据集上进行实验。实验中采用总体精确率(OA)、精确率(P)、召回率(R)、F1指数(F1)、平均交并比(MIoU)、Kappa和频率加权交并比(FWIoU)、时间(Time)和每秒帧数(FPS)作为评价指标。
为了验证所提出的多模态结构中特征融合的效果,该模块与不同的融合方式进行了实验对比。在多模态提取模块基础上,本文坐标注意力机制(CA)与相加融合(Add)、Concat拼接操作和Weighted Sum(WS)的方法进行对比。
融合方式 | OA | P | R | F1 | MIoU |
---|---|---|---|---|---|
Add | 88.74 | 89.06 | 82.42 | 85.91 | 80.97 |
Concat | 90.21 | 89.78 | 86.16 | 87.63 | 82.66 |
WS | 90.85 | 90.69 | 87.35 | 91.82 | 82.42 |
CA | 91.66 | 92.14 | 89.83 | 92.55 | 82.89 |
为了验证输入DSM的效果,实验的数值结果如表4所示。DSM通过高度信息使得分割算法可以更准确地理解和划分不同地物的边界和结构。
为了应对高分辨率遥感图像多尺度、物体特征模糊和同物异谱的问题,本文提出了一种基于多模态特征提取与层级感知的遥感图像分割模型MFEHPNet。
在ISPRS Vaihingen和Potsdam数据集上进行的实验表明,MFEHPNet在各种评价指标上优于其他模型。能够有效区分物体视觉特征模糊的地物和改善同物异谱的问题,如建筑物和背景、低矮植被和树木,并细化地物之间的区域边界,显著提高了高分辨率遥感图像语义分割的性能。
未来工作:
在研究中发现,虽然本文提出的MFEHPNet获得良好的分割性能。但仍存在一些不足。遥感分割的性能主要包括特征分割精度和模型的推理速度2个方面。目前改进的方法主要集中在调整模型架构上,然而在实际运用中,遥感数据类型和规模多样,因此模型可能无法完全适应所有复杂变化的情况,其在公开数据集上的测试结果可能不具有普适性。未来需进一步探索更具普适性的模型方法。在推理速度和模型鲁棒性方面还有进一步改进的空间。因此MFEHPNet还可以应用于其他机器视觉任务,未来还需继续改进模型,以处理更复杂的场景和高光谱图像。