几何关系约束条件下的跨视角图像检索定位

研究目标与核心问题

跨视角图像地理定位技术能够建立起图像与现实地理空间的关联映射，对进一步挖掘图像背后蕴含的多种属性具有重要研究价值。

现有算法存在的问题

过分关注影像内容

导致网络对低级细节过度拟合

缺乏几何空间布局提取

在评估数据集上精度不佳

方法概述与技术架构

算法整体架构

采用孪生神经网络架构，基于几何关系约束的跨视角图像检索定位算法

几何映射转换

CNN-Transformer

特征自交互

特征聚合

几何映射创新

球形坐标映射

利用球形坐标系与平面直角坐标系映射关系，实现地面影像视角转换

几何对齐

达到跨域匹配影像之间初步的几何相似性对齐

混合特征提取

CNN+Transformer

提取视觉内容特征的同时，挖掘局部特征间几何空间配置信息

约束机制

约束视角变化带来的内容、尺度等差异

几何映射理论基础

地面全景影像成像原理

成像方式

• 球形投影平面捕获360°视图
• 等矩圆柱形投影展示
• 球面坐标系参数化

坐标转换

• 摄影机坐标系 → 球面坐标
• 球面坐标 → 等矩形坐标
• 等矩形坐标 → 全景影像坐标

数学公式体系

球面坐标计算

θ = atan2(√(x₁²+y₁²), z₁)

ψ = atan2(x₁, y₁)

坐标映射

x₂ = -ψ/π

y₂ = 2θ/π

焦距计算

f = 0.5Wb/tan(fov)

fov = 85°

几何映射效果

优势特点

• 地平面道路设施得到较好恢复
• 与真实卫星影像具有较大外观相似性
• 提升特征提取网络辨别力
• 增强图像匹配可解释性

存在问题

• 高于地平面像素点产生畸变
• 存在细节缺失和空间错位
• 仅实现基本几何对齐
• 需要进一步特征处理

网络架构设计

跨域视觉内容特征提取器

D-LinkNet选择理由

• 道路特征细长复杂，覆盖面积小
• 具有天然连通性和长跨度特性
• 需要大感受野覆盖整个图像
• 兼具保留特征细节能力

网络特点

• 基于LinkNet的语义分割网络
• 使用ResNet50作为骨干网络
• 编解码结构中心采用空洞卷积
• 去除上采样模块适配任务

CNN联合Transformer架构

设计理念

集合CNN网络对关键图像内容细节的把握能力以及 Transformer架构对全局特征的建模能力，为全局特征描述符的生成提供鲁棒的特征。

CNN部分功能

• 提取关键道路信息
• 提供视觉内容特征
• 保持局部细节信息

Transformer部分功能

• 提取全局几何布局特征
• 建立局部特征长程依赖
• 约束背景信息剧烈变化

特征自交互模块

设计目的

• 抑制几何映射转换后的畸变信息
• 基于关系亲和矩阵设计
• 计算局部特征间相关性
• 实现前景与背景信息分离

实现效果

• 突出关键前景信息
• 去除几何变换产生的背景噪声
• 提升关键特征鲁棒性
• 增强模型提取关键特征能力

特征聚合与训练

MixVPR聚合器

引入特征聚合器MixVPR聚合全局描述符，完成最终的特征表征生成

损失函数

利用加权软边距三元组损失进行训练，优化特征匹配性能

实验结果与性能评估

数据集性能表现

89.28%

CVACT_val

Top1影像召回率

96.42%

CVUSA

Top1影像召回率

62.21%

VIGOR

Top1影像召回率

与GeoDTR算法对比

+3.07%

CVACT_val

精度提升

+1.04%

CVUSA

精度提升

+3.2%

VIGOR

精度提升

算法优势特点

适应性强

• 多种场景下跨视角定位任务适应性
• 地面全景影像不符合几何映射时仍可使用
• 可作为预处理操作应用于其他算法

性能优异

• 在多个公开数据集上取得优异结果
• 相比同类算法有显著精度提升
• 证明了算法的优越性和实用性

研究团队信息

主要作者

侯青峰

硕士生，遥感图像智能解译研究

Hou12103850hh@163.com

卢俊（通讯作者）

副教授，遥感图像智能解译研究

Ljhb45@126.com

研究机构

信息工程大学

地理空间信息学院

智慧地球重点实验室

北京 100020

自然资源部

时空感知与智能处理重点实验室

应用场景与发展前景

遥感信息利用

建立图像与地理空间关联

无人驾驶

精确定位与导航支撑

增强现实

虚实融合定位技术

技术优势总结

几何约束创新

• 利用几何关系约束视角差异
• 球形坐标映射实现域对齐
• 有效缓解匹配困难问题

混合架构优势

• CNN细节把握 + Transformer全局建模
• 特征自交互抑制噪声
• 多层次特征融合

研究目标与核心问题

现有算法存在的问题

过分关注影像内容

缺乏几何空间布局提取

方法概述与技术架构

算法整体架构

几何映射创新

球形坐标映射

几何对齐

混合特征提取

CNN+Transformer

约束机制

几何映射理论基础

地面全景影像成像原理

成像方式

坐标转换

数学公式体系

球面坐标计算

坐标映射

焦距计算

几何映射效果

优势特点

存在问题

网络架构设计

跨域视觉内容特征提取器

D-LinkNet选择理由

网络特点

CNN联合Transformer架构

设计理念

CNN部分功能

Transformer部分功能

特征自交互模块

设计目的

实现效果

特征聚合与训练

MixVPR聚合器

损失函数

实验结果与性能评估

数据集性能表现

CVACT_val

CVUSA

VIGOR

与GeoDTR算法对比

CVACT_val

CVUSA

VIGOR

算法优势特点

适应性强

性能优异

研究团队信息

主要作者

侯青峰

卢俊（通讯作者）

研究机构

信息工程大学

智慧地球重点实验室

自然资源部

应用场景与发展前景

遥感信息利用

无人驾驶

增强现实

技术优势总结

几何约束创新

混合架构优势

几何约束的三大核心创新

几何映射

混合架构

特征自交互

几何约束：跨视角定位的新突破