研究背景与意义

遥感技术的发展与挑战

遥感技术的飞速发展产生了海量的对地观测数据,如何将不同平台、不同传感器的遥感数据相结合进行匹配,并开展目标信息的深层挖掘显得尤为重要。

可见光影像通常具有较高的空间分辨率,能够清晰显示地表特征和细节;红外波段则具有较强的穿透云雾、抗大气干扰能力。可见光和红外波段影像各自反映的地表信息不同,结合二者可以获得更加全面的地表特征和信息,进而提高遥感影像的解译精度,为环境保护和资源管理提供更准确的数据支持。

异源影像匹配的难点

由于可见光和红外遥感影像在成像机理、时相上的不同,二者之间存在的非线性辐射和图像灰度差异较大,给可见光和红外遥感影像的匹配带来了困难。

传统的基于特征的匹配方法如SIFT、SURF等会受热红外影像存在的梯度模糊和纹理降解现象的影响,导致匹配效果不理想。而基于模板的匹配方法虽然在一定程度上克服了非线性辐射差异对特征检测与描述的制约,但这些方法都依赖人工设计的描述符,无法充分捕捉到异源影像的复杂特征信息,在沙漠、戈壁等场景下的匹配效果较差,甚至出现无法匹配的问题。

研究意义

灾害预警与应急响应

红外遥感影像能够快速检测到火灾、地震等灾害的发生,并实时获取灾区的温度分布和热源位置,与可见光影像匹配后,可以更准确地判断灾害范围和影响区域,优化救援资源的配置。

环境保护与资源管理

结合可见光和红外波段影像可以获得更加全面的地表特征和信息,进而提高遥感影像的解译精度,为环境保护和资源管理提供更准确的数据支持。

辅助无人机定位

在夜间和恶劣天气条件下,红外遥感影像能够提供可靠的监视和目标检测信息,与可见光影像匹配后,能够更精确地辅助无人机定位和识别目标,提高军事行动的准确性和安全性。

相关研究进展

近年来,基于深度学习的匹配方法取得了显著的进展,可以对影像的深层次特征和语义信息进行深入挖掘。Yi等提出了学习不变特征变换(LIFT)模型,对存在光照和季节变化的图像具有很强的鲁棒性。Detone等提出了自监督兴趣点检测和描述(SuperPoint)模型,采用的单应性估计技术大大加强了特征点提取场景适应性。

其他基于深度学习的高效准确的图像特征点检测和匹配方法还包括D2-Net、SuperGlue、DELF等,这些方法虽然在多种场景下表现出色,但并非针对可见光与红外遥感影像匹配进行设计,在异源遥感影像匹配方面仍有较大的提升空间。

方法原理

算法总体流程

可见光与红外遥感影像匹配算法流程
可见光与红外遥感影像匹配算法流程

本文提出的融合跳跃连接网络与双重注意力机制的可见光与红外遥感影像匹配方法(CSDA-VIRSMatching)包括特征点检测模块、描述符构建模块和局部特征匹配模块,算法总体流程如下:

特征点检测

多尺度特征提取与可微分关键点检测

描述符构建

跳跃连接深度卷积网络生成256维特征描述符

特征匹配

双重注意力机制图神经网络实现准确匹配

误匹配剔除

RANSAC方法筛选最终匹配点对

特征点检测网络

实现异源遥感影像的稳健匹配,准确的、有效性高的特征点提取是首要前提。特征点提取网络结构由特征编码器、特征聚合器、特征提取头、可微分关键点检测4个模块构成。

特征编码器

特征编码器包含4个编码块:第一个编码块是一个卷积块,由激活函数ReLU和2个3×3的卷积层组成,用于提取大小和原始输入图像一致的且特征通道为32维的特征图X1,这一尺度特征图感受野较小,提取的是相对底层的边缘、角点等局部特征。

第二、三、四编码块分别各由包含一个最大池化层和一个3×3卷积的基本残差块组成。随着网络层次的加深,图像上感受野变大,特征图X2、X3、X4可以更好表达图像的高层次语义信息和结构特征,有利于抵抗异源影像灰度差异带来的干扰,提高网络泛化能力。

特征聚合器

特征聚合器对特征X1、X2、X3、X4分别进行1×1的卷积操作,将不同维度特征的通道数统一为128维度。之后,再对特征X2、X3、X4进行双线性上采样操作,将三者的大小都恢复到原始图像大小。最后将4个特征图进行连接,通过一个1×1的卷积操作实现特征融合,得到最终的特征图X。特征聚合器将不同尺度、不同层次的图像特征信息相结合,在保留了图像高级语义信息的同时又恢复了图像的分辨率,保证了特征点的提取精度。

关键点检测模块

特征检测头用一个1×1的卷积操作对特征X的维度进行扩充,得到129维的影像特征图,之后对最后一维特征采用Sigmoid函数处理得到影像关键点得分图S ∈ RH × W × 1

本文采用了一种部分可微分的关键点检测模块,使用softargmax方法从局部窗口中提取可微分的关键点。相比传统的非极大值抑制(NMS)方法,该方法是可微分的,能够利用深度学习的优势进行端到端训练,提高特征点检测的精度。

描述符构建模块

描述符构建模块采用跳跃连接的深度卷积神经网络,对以关键点为中心的64像素×64像素大小的图像块构建256维局部深度特征描述符。

跳跃连接网络的主要特点是在不同层之间建立直接连接,使得网络能够同时利用低层的细节特征和高层的语义特征,这对于异源影像匹配尤为重要。该网络结构具有以下优势:

  • 通过多层网络结构学习到异源影像从简单到复杂的特征
  • 跳跃连接保留了低层次的细节信息,有助于精确定位特征点
  • 生成的256维描述符能更全面地捕捉并表达异源影像上的局部特征
  • 弥补传统手工描述符无法表达异源影像在视觉差异的弱点

描述符构建模块首先将以关键点为中心的64×64图像块输入网络,经过多层卷积、池化和跳跃连接操作,最终输出256维的特征描述符。这些描述符包含了丰富的局部特征信息,为后续的特征匹配提供了可靠的基础。

局部特征匹配模块

局部特征描述符匹配部分,使用融合自注意力与交叉注意力机制的图神经网络,通过综合考虑全局信息,精确调整每个匹配对的权重,减少误匹配的发生。

自注意力机制

自注意力机制使网络能够在单个图像内部进行深入特征分析,加强局部特征之间的联系和区分度。通过计算同一影像内不同特征点之间的相关性,突出重要特征,抑制不重要特征,提高特征表达的一致性。

交叉注意力机制

交叉注意力机制通过在两种模态影像间建立直接关联,减少不同成像特性给匹配带来的困难。它计算可见光影像和红外影像特征之间的相关性,找出最可能匹配的特征点对,有效应对异源影像之间的灰度差异和非线性辐射畸变。

融合自注意力和交叉注意力机制的图神经网络通过对全局信息的综合考虑,精确调整每个匹配对的权重,减少误匹配的发生,确保最终匹配结果准确性。具体步骤如下:

  1. 将影像特征点位置及对应描述符作为输入
  2. 经过多层感知机形成局部深度描述符
  3. 通过自注意力机制增强单一影像内部特征的一致性
  4. 通过交叉注意力机制建立两种影像特征之间的关联
  5. 生成匹配概率矩阵,确定最佳匹配点对
  6. 采用RANSAC方法进行误匹配剔除

这种双重注意力机制的设计使得网络能够同时考虑单一影像内部的特征关系和不同影像之间的特征对应关系,大大提高了异源影像匹配的准确性和鲁棒性,特别是在处理具有显著灰度差异和非线性辐射畸变的可见光与红外遥感影像时表现出色。

实验与结果

实验数据集

Five-Billion-Pixels数据集

Five-Billion-Pixels是一个大规模的高分辨率遥感影像数据集,包含多种地表覆盖类型,如城市、农田、森林、水体等。本研究从中选取了部分可见光影像用于模型训练和测试。

自制可见光与红外遥感影像数据集

为了验证方法在异源影像匹配中的有效性,本研究还构建了一个自制的可见光与红外遥感影像配对数据集,包含城市、农田、沙漠、戈壁等不同场景的影像对。

实验设置

本研究在Five-Billion-Pixels数据集与自制数据集上进行联合训练,并在城市、农田、沙漠、戈壁四种典型场景下开展了异源遥感影像匹配实验。为了全面评估所提方法的性能,将其与以下代表性方法进行了对比:

  • SURF+暴力匹配方法:传统的基于特征的匹配方法
  • D2-Net:基于多通道特征描述符的关键点检测描述网络
  • SuperPoint+SuperGlue:结合自监督兴趣点检测和图神经网络的匹配方法
  • RIFT:基于相位一致性和最大索引图的辐射不变特征匹配方法
  • CNN-Matching:基于卷积神经网络的影像匹配方法

评价指标采用匹配正确率,即正确匹配点对数量与总匹配点对数量的比值。对于每个场景,随机选取10对影像进行测试,取平均值作为最终结果。

实验结果

总体匹配性能

在城市、农田、沙漠、戈壁四种场景下,本文方法的平均正确匹配率达到85.95%,显著优于其他对比方法。

方法 城市场景 农田场景 沙漠场景 戈壁场景 平均
SURF+BF 62.14% 57.32% 43.25% 46.18% 52.22%
D2-Net 74.83% 78.65% 68.42% 72.14% 73.51%
SuperPoint+SuperGlue 81.76% 76.24% 79.51% 80.16% 79.42%
RIFT 80.83% 75.18% 72.36% 75.42% 75.95%
CNN-Matching 76.54% 72.65% 69.87% 71.23% 72.57%
本文方法 86.75% 86.75% 82.85% 83.95% 85.95%

结果分析

城市场景

在纹理丰富的城市场景下,本文方法的平均匹配正确率达到86.75%,比效果较好的RIFT和SuperPoint+SuperGlue方法分别提高了5.92%、4.99%。城市场景中建筑物边缘和角点丰富,本方法的多尺度特征提取和跳跃连接网络能够有效捕捉这些特征。

农田场景

在农田场景下,本文方法的匹配正确率为86.75%,较第二名D2-Net方法提升了8.1%。农田场景中纹理相对单一,但本方法通过双重注意力机制能够有效捕捉田块边界和道路等线性特征,提高匹配准确性。

沙漠场景

在纹理极为稀疏的沙漠场景下,本文方法的匹配准确率达到82.85%,较第二名SuperPoint+SuperGlue提升了3.34%。沙漠场景中特征点稀少,传统方法往往难以找到足够的匹配点,而本方法通过深度学习能够挖掘更多有效特征。

戈壁场景

在戈壁场景下,本文方法的匹配准确率为83.95%,较第二名SuperPoint+SuperGlue提升了3.79%。戈壁场景中地表覆盖复杂,可见光与红外影像差异较大,本方法通过跳跃连接网络和双重注意力机制能够有效应对这种复杂情况。

实验结果表明,本文提出的融合跳跃连接网络与双重注意力机制的可见光与红外遥感影像匹配方法在各种场景下都表现出色,特别是在纹理稀疏的沙漠和戈壁场景中,相比其他方法具有明显优势。这主要得益于多尺度特征提取、跳跃连接网络和双重注意力机制的有效结合,使得网络能够同时考虑局部特征和全局上下文信息,提高异源影像匹配的准确性和鲁棒性。

创新点与结论

主要创新点

多尺度特征提取

通过卷积神经网络提取异源影像的多尺度特征,并进行特征聚合,增强了算法对不同分辨率、不同视角和成像时间的异源影像的适应性。

跳跃连接网络

采用跳跃连接的深度卷积网络构建描述符,通过多层网络结构学习到异源影像从简单到复杂的特征,生成更全面的256维描述符。

双重注意力机制

融合自注意力与交叉注意力机制的图神经网络,通过对全局信息的综合考虑,精确调整每个匹配对的权重,减少误匹配。

可微分关键点检测

采用部分可微分的关键点检测模块实现亚像素级别的关键点定位,克服由于红外影像固有的灰度模糊以及与可见光影像中存在的光照变化和对比度差异所导致的关键点检测不准确问题。

多场景适应性

通过在城市、农田、沙漠、戈壁等不同场景下的实验验证,证明了所提方法在各种复杂场景下的鲁棒性和适应性,特别是在纹理稀疏的沙漠和戈壁场景中表现出色。

结论

本文针对可见光和红外遥感影像之间因灰度差异大、存在非线性辐射畸变等原因所造成的二者匹配困难问题,设计了一种融合跳跃连接网络与双重注意力机制的可见光与红外遥感影像匹配方法。通过大量实验验证,得出以下结论:

1

所提方法在城市、农田、沙漠、戈壁场景下的平均正确匹配率达到85.95%,显著优于现有的异源影像匹配方法。

2

多尺度特征提取和特征聚合能够有效捕捉异源影像的不同层次特征,提高特征点检测的准确性和鲁棒性。

3

跳跃连接网络生成的256维局部深度特征描述符能够更全面地表达异源影像的局部特征,弥补传统手工描述符的不足。

4

融合自注意力与交叉注意力机制的图神经网络能够同时考虑单一影像内部的特征关系和不同影像之间的特征对应关系,大大提高了异源影像匹配的准确性。

5

所提方法在纹理稀疏的沙漠和戈壁场景中表现尤为出色,为解决复杂场景下的异源影像匹配问题提供了有效解决方案。

本文提出的方法在可见光与红外遥感影像上匹配正确率较高,为二者在灾害预警、环境监测及辅助无人机定位等方面的实际应用提供了技术支持。未来的研究方向将进一步探索轻量级网络结构,以降低计算复杂度,提高算法的实时性,并扩展到更多类型的异源遥感影像匹配中。

应用前景

灾害预警与应急响应

结合可见光与红外遥感影像,实时监测火灾、洪水等自然灾害,为应急决策提供精准的空间信息支持。

环境监测与资源管理

通过异源影像匹配,实现对植被覆盖、土地利用变化、水资源分布等环境要素的全天候监测。

智能无人系统定位

为无人机、无人车等智能系统提供全天候、全天时的精准定位服务,提升其在复杂环境下的作业能力。