研究目标与核心问题
跨视角图像地理定位技术能够建立起图像与现实地理空间的关联映射, 对进一步挖掘图像背后蕴含的多种属性具有重要研究价值。
现有算法存在的问题
过分关注影像内容
导致网络对低级细节过度拟合
缺乏几何空间布局提取
在评估数据集上精度不佳
方法概述与技术架构
算法整体架构
采用孪生神经网络架构, 基于几何关系约束的跨视角图像检索定位算法
几何映射转换
CNN-Transformer
特征自交互
特征聚合
几何映射创新
球形坐标映射
利用球形坐标系与平面直角坐标系映射关系, 实现地面影像视角转换
几何对齐
达到跨域匹配影像之间初步的几何相似性对齐
混合特征提取
CNN+Transformer
提取视觉内容特征的同时, 挖掘局部特征间几何空间配置信息
约束机制
约束视角变化带来的内容、尺度等差异
几何映射理论基础
地面全景影像成像原理
成像方式
- • 球形投影平面捕获360°视图
- • 等矩圆柱形投影展示
- • 球面坐标系参数化
坐标转换
- • 摄影机坐标系 → 球面坐标
- • 球面坐标 → 等矩形坐标
- • 等矩形坐标 → 全景影像坐标
数学公式体系
球面坐标计算
θ = atan2(√(x₁²+y₁²), z₁)
ψ = atan2(x₁, y₁)
坐标映射
x₂ = -ψ/π
y₂ = 2θ/π
焦距计算
f = 0.5Wb/tan(fov)
fov = 85°
几何映射效果
优势特点
- • 地平面道路设施得到较好恢复
- • 与真实卫星影像具有较大外观相似性
- • 提升特征提取网络辨别力
- • 增强图像匹配可解释性
存在问题
- • 高于地平面像素点产生畸变
- • 存在细节缺失和空间错位
- • 仅实现基本几何对齐
- • 需要进一步特征处理
网络架构设计
跨域视觉内容特征提取器
D-LinkNet选择理由
- • 道路特征细长复杂,覆盖面积小
- • 具有天然连通性和长跨度特性
- • 需要大感受野覆盖整个图像
- • 兼具保留特征细节能力
网络特点
- • 基于LinkNet的语义分割网络
- • 使用ResNet50作为骨干网络
- • 编解码结构中心采用空洞卷积
- • 去除上采样模块适配任务
CNN联合Transformer架构
设计理念
集合CNN网络对关键图像内容细节的把握能力以及 Transformer架构对全局特征的建模能力, 为全局特征描述符的生成提供鲁棒的特征。
CNN部分功能
- • 提取关键道路信息
- • 提供视觉内容特征
- • 保持局部细节信息
Transformer部分功能
- • 提取全局几何布局特征
- • 建立局部特征长程依赖
- • 约束背景信息剧烈变化
特征自交互模块
设计目的
- • 抑制几何映射转换后的畸变信息
- • 基于关系亲和矩阵设计
- • 计算局部特征间相关性
- • 实现前景与背景信息分离
实现效果
- • 突出关键前景信息
- • 去除几何变换产生的背景噪声
- • 提升关键特征鲁棒性
- • 增强模型提取关键特征能力
特征聚合与训练
MixVPR聚合器
引入特征聚合器MixVPR聚合全局描述符, 完成最终的特征表征生成
损失函数
利用加权软边距三元组损失进行训练, 优化特征匹配性能
实验结果与性能评估
数据集性能表现
CVACT_val
Top1影像召回率
CVUSA
Top1影像召回率
VIGOR
Top1影像召回率
与GeoDTR算法对比
CVACT_val
精度提升
CVUSA
精度提升
VIGOR
精度提升
算法优势特点
适应性强
- • 多种场景下跨视角定位任务适应性
- • 地面全景影像不符合几何映射时仍可使用
- • 可作为预处理操作应用于其他算法
性能优异
- • 在多个公开数据集上取得优异结果
- • 相比同类算法有显著精度提升
- • 证明了算法的优越性和实用性
研究团队信息
主要作者
侯青峰
硕士生,遥感图像智能解译研究
Hou12103850hh@163.com
卢俊(通讯作者)
副教授,遥感图像智能解译研究
Ljhb45@126.com
研究机构
信息工程大学
地理空间信息学院
智慧地球重点实验室
北京 100020
自然资源部
时空感知与智能处理重点实验室
应用场景与发展前景
遥感信息利用
建立图像与地理空间关联
无人驾驶
精确定位与导航支撑
增强现实
虚实融合定位技术
技术优势总结
几何约束创新
- • 利用几何关系约束视角差异
- • 球形坐标映射实现域对齐
- • 有效缓解匹配困难问题
混合架构优势
- • CNN细节把握 + Transformer全局建模
- • 特征自交互抑制噪声
- • 多层次特征融合