视觉位置识别(VPR)是基于先前访问过的图像地理位置来估计目标图像地理位置的任务。传统方法采用手工特征表征图像,无法有效应对图像视角、光照、季节等复杂外观环境变化。
本文提出MRGA-Mix方法,融合多级特征与关系感知全局注意力,构造鲁棒性强且泛化性好的图像全局描述符。
Pittsburgh250k
Recall@1最高精度
Tokyo 24/7
复杂光照变化场景
Nordland
季节变化场景
本文VPR方法技术流程
不同VPR方法召回率比较
数据集 | MRGA-Mix | MixVPR | ConvAP | CosPlace | 提升幅度 |
---|---|---|---|---|---|
Pittsburgh250k | 94.20% | 91.75% | 91.52% | 89.89% | +2.45% |
Pittsburgh30k | 91.56% | 89.30% | 88.84% | 87.45% | +2.26% |
SF-XL-Val | 85.15% | 82.70% | 81.25% | 79.80% | +2.45% |
Tokyo 24/7 | 83.81% | 80.00% | 72.06% | 63.17% | +3.81% |
Nordland | 75.43% | 72.15% | 68.90% | 65.20% | +3.28% |
SF-XL-Testv1 | 73.60% | 70.25% | 67.80% | 64.15% | +3.35% |
尺寸大、分辨率高、感受野小,空间细节信息丰富
包含较多几何信息,对光照变化具有较好鲁棒性
语义信息丰富,能有效克服视角变化
学习空间位置之间的依赖关系,获取空间注意力权重
建模通道间关系,增强重要特征通道
从全局结构中挖掘特征间空间依赖关系
320×320像素
480
0.05 (初始)
为自动驾驶车辆提供精确的视觉定位能力,增强在复杂环境下的导航性能
提升服务机器人和无人机的室外环境感知与定位精度
支持智慧城市建设中的视觉监控和位置服务应用
本文提出的MRGA-Mix方法通过融合多级特征与关系感知全局注意力,成功解决了现有视觉位置识别方法在复杂环境变化下鲁棒性不足的问题。实验结果表明,该方法在6个公开数据集上均取得了最优性能,特别是在具有光照、季节变化的复杂场景中表现突出。
在所有测试数据集上达到最佳召回精度
对复杂环境变化具有良好适应性
在不同场景下均保持稳定性能