DINO-MSRA: 跨视角图像检索定位的新型网络架构

研究概述

研究背景

跨视角图像地理定位技术作为GNSS之外的第二个精确位置信息来源，在无人机导航、目标定位等现实任务中发挥重要作用。然而，现有方法面临高质量标注样本稀缺和空间布局特征建模缺失的挑战。

视觉基础模型参数高效微调

核心创新

采用Conv-LoRA微调的DINOv2大模型作为特征编码器
设计基于Mamba的空间关系感知特征聚合器(MSRA)
采用InfoNCE损失函数优化对比学习

网络架构

图1 DINO-MSRA网络架构

特征编码器

基于DINOv2大模型，通过Conv-LoRA微调策略实现参数高效的特征提取，仅需19.2%的参数量即可达到优异性能。

MSRA聚合器

基于Mamba模块设计的空间关系感知特征聚合器，有效捕捉特征间的几何空间配置信息。

损失函数

采用InfoNCE损失函数，充分利用批次内所有负样本，提升模型泛化性和整体性能。

实验结果

University-1652数据集

任务类型	R@1精度	AP精度	相比CAMP提升
无人机定位 (无人机→卫星)	95.14%	95.92%	+0.68%
无人机导航 (卫星→无人机)	97.29%	93.81%	+1.14%

SUES-200数据集 (150m高度)

无人机定位任务

R@1精度: 97.2%

相比CAMP: +1.8%

无人机导航任务

R@1精度: 98.75%

相比CAMP: +2.5%

Conv-LoRA微调策略

图2 Dinov2-CL架构

结合卷积神经网络和低秩自适应技术

通过局部空间操作引入图像相关的局部先验知识

多个并行卷积专家模块实现多尺度特征表达

MSRA特征聚合器

图3 基于Mamba的空间关系感知特征聚合器

基于Mamba模块构建，继承长序列数据建模优势

通过索引感知位置嵌入增强空间配置关系

有效捕捉特征间相关性，提供轻量化高效处理

图4 各算法在SUES-200数据集上的对比实验

检索结果可视化

图5 检索结果可视化

Top1准确率

大部分查询影像都可以在Top1检索到正确影像

Top5覆盖率

所有查询影像都可以在Top5检索到正确影像

多高度适应

在不同飞行高度下均能提供稳健的检索定位能力

主要贡献与优势

技术创新

首次将视觉基础模型DINOv2应用于跨视角图像检索定位
创新性地设计了基于Mamba的空间关系感知特征聚合器
有效解决了高质量标注样本稀缺的问题

性能优势

参数量仅为Sample4Geo的19.2%，显著降低计算成本
在多个数据集上均达到当前最优性能
具有良好的泛化能力和实际应用潜力

* 以上内容由AI自动生成，内容仅供参考。对于因使用本网站以上内容产生的相关后果，本网站不承担任何商业和法律责任。