研究概述

研究背景

跨视角图像地理定位技术作为GNSS之外的第二个精确位置信息来源,在无人机导航、目标定位等现实任务中发挥重要作用。然而,现有方法面临高质量标注样本稀缺和空间布局特征建模缺失的挑战。

视觉基础模型 参数高效微调

核心创新

  • 采用Conv-LoRA微调的DINOv2大模型作为特征编码器
  • 设计基于Mamba的空间关系感知特征聚合器(MSRA)
  • 采用InfoNCE损失函数优化对比学习

网络架构

DINO-MSRA网络架构图

图1 DINO-MSRA网络架构

特征编码器

基于DINOv2大模型,通过Conv-LoRA微调策略实现参数高效的特征提取,仅需19.2%的参数量即可达到优异性能。

MSRA聚合器

基于Mamba模块设计的空间关系感知特征聚合器,有效捕捉特征间的几何空间配置信息。

损失函数

采用InfoNCE损失函数,充分利用批次内所有负样本,提升模型泛化性和整体性能。

实验结果

University-1652数据集

任务类型 R@1精度 AP精度 相比CAMP提升
无人机定位 (无人机→卫星) 95.14% 95.92% +0.68%
无人机导航 (卫星→无人机) 97.29% 93.81% +1.14%

SUES-200数据集 (150m高度)

无人机定位任务

R@1精度: 97.2%
相比CAMP: +1.8%

无人机导航任务

R@1精度: 98.75%
相比CAMP: +2.5%

Conv-LoRA微调策略

Dinov2-CL架构图

图2 Dinov2-CL架构

结合卷积神经网络和低秩自适应技术
通过局部空间操作引入图像相关的局部先验知识
多个并行卷积专家模块实现多尺度特征表达

MSRA特征聚合器

基于Mamba的空间关系感知特征聚合器

图3 基于Mamba的空间关系感知特征聚合器

基于Mamba模块构建,继承长序列数据建模优势
通过索引感知位置嵌入增强空间配置关系
有效捕捉特征间相关性,提供轻量化高效处理
SUES-200数据集对比实验结果

图4 各算法在SUES-200数据集上的对比实验

检索结果可视化

检索结果可视化

图5 检索结果可视化

Top1准确率

大部分查询影像都可以在Top1检索到正确影像

Top5覆盖率

所有查询影像都可以在Top5检索到正确影像

多高度适应

在不同飞行高度下均能提供稳健的检索定位能力

主要贡献与优势

技术创新

  • 首次将视觉基础模型DINOv2应用于跨视角图像检索定位
  • 创新性地设计了基于Mamba的空间关系感知特征聚合器
  • 有效解决了高质量标注样本稀缺的问题

性能优势

  • 参数量仅为Sample4Geo的19.2%,显著降低计算成本
  • 在多个数据集上均达到当前最优性能
  • 具有良好的泛化能力和实际应用潜力

* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。