传统3D目标检测方法在多尺度场景中的技术瓶颈
双重Transformer架构的创新融合
图1 VoxTNT总体框架
三大创新突破,重新定义点云3D检测
摒弃传统体素方法的填充或降采样缺陷,支持不同体素点数的并行化计算,保留原始空间拓扑结构
构建跨体素交叉注意力,实现长程上下文信息传递,动态聚焦关键区域以提升多尺度目标鉴别力
通过编码器-解码器框架串联模块,在解码阶段融合局部细节与全局语义,抑制背景干扰
KITTI与WOD数据集上的卓越性能表现
验证均衡化感受野机制的关键作用
针对不同检测目标的差异化参数设置
检测类别 | 体素大小 | 局部/全局隐藏码 | 点云范围(m) |
---|---|---|---|
汽车 | 0.32 | (8, 16) | X:[0,69.12] Y:[-39.68,39.68] Z:[-3,1] |
行人 | KITTI:0.16 WOD:0.32 | (8, 8) | X:[0,69.12] Y:[-39.68,39.68] Z:[-3,1] |
骑行者 | 0.32 | (16, 16) | X:[0,69.12] Y:[-39.68,39.68] Z:[-3,1] |
检测类型 | GPU硬件 | 训练周期 | 学习率 | 批大小 |
---|---|---|---|---|
单阶段检测 | 1×RTX 4090 | 120 epochs | 0.015(单周期衰减) | 2 |
两阶段检测 | 1×RTX 4090 | 100-110 epochs | 0.015(单周期衰减) | 2 |
为自动驾驶多尺度目标检测提供新范式
VoxTNT为解决自动驾驶多尺度目标检测难题提供了新思路,通过均衡化感受野和局部-全局协同注意力机制, 实现了跨尺度表征一致性的重大突破。未来将进一步优化模型结构,提升计算效率, 推动点云3D目标检测技术在更广泛场景中的应用。