研究背景与挑战

应用领域重要性

军事侦察

无人机军事侦察中的远距离目标识别

安防监控

监控视频中远处行人和异常行为检测

智能交通

自动驾驶系统中交通标志识别

无人机航拍

航拍图像中微小物体的精确定位

技术挑战

低分辨率:目标所占像素面积小,特征信息不足
高噪声环境:背景噪声干扰严重
目标遮挡:部分遮挡导致特征缺失
复杂背景:多变的环境条件
光照变化:不同时间和天气条件

核心技术创新

HCTB模块

混合特征提取

核心思想

结合CNN局部特征提取与Transformer全局信息捕捉能力

技术特点

  • • 通道分组:1/4通道用于Transformer分支
  • • CGSA模块:结合MHSA和CGLU
  • • 残差连接:缓解梯度消失问题
  • • DropPath正则化:提升模型鲁棒性

MDSKC模块

多膨胀率共享卷积

核心思想

共享卷积核进行不同尺度处理,减少参数冗余

膨胀率设置

W₁ = f³ˣ³(dilation=1)[f¹ˣ¹(F)]
W₂ = f³ˣ³(dilation=3){W₁}
W₃ = f³ˣ³(dilation=5){W₂}
Y = f¹ˣ¹[Cat(W₁,W₂,W₃,f¹ˣ¹(F))]

OKCSM模块

全核跨阶段融合

核心思想

基于Omni-Kernel和CSP思想的特征融合

三分支结构

  • • 局部分支:细节特征提取
  • • 大分支:中尺度特征捕捉
  • • 全局分支:上下文信息整合
  • • 优化:卷积核从63调整至31

算法整体架构

本文算法整体框架

图1: 本文算法整体框架

① 主干网络特征提取

采用HCTB模块替换原有特征提取单元,通过CNN和Transformer混合架构增强特征表达能力

② 多尺度特征提取

在主干末端构建MDSKC模块,利用多膨胀率空洞卷积扩展感受野获取多尺度信息

③ 小目标特征增强

从P2层延伸小目标分支与P3融合,使用OKCSM模块优化特征金字塔网络

技术细节深度解析

混合特征提取详解

混合特征提取模块

CGSA模块组成

  • 多头自注意力机制(MHSA):并行计算多个注意力头,提升特征捕捉灵活性
  • 卷积线性门控单元(CGLU):替代传统FFN,增强非线性特征表达
  • 层归一化:两次规范化操作确保训练稳定性
  • 残差连接:促进信息流动,防止梯度消失

通道分配策略

1/4

Transformer分支

3/4

CNN分支

多膨胀率共享卷积核模块详解

多膨胀率共享卷积核模块

膨胀率设计原理

  • 膨胀率=1:捕捉局部细节特征,保持原始分辨率
  • 膨胀率=3:扩展感受野至中等范围,获取中尺度上下文
  • 膨胀率=5:大范围感受野,捕捉全局上下文信息
  • 参数共享:同一卷积核处理不同尺度,减少冗余参数

相比SPPF的优势

保留细节信息,避免池化操作的信息丢失
更高的特征提取灵活性和表达能力
更好地捕捉图像中的复杂模式

小目标特征增强策略

传统方法 vs 本文方法

传统方法问题
  • • 直接添加P2检测层增加计算量
  • • 后处理更加耗时
  • • 参数量大幅增加
本文创新方案
  • • P2分支延伸至P3融合
  • • SPDConv处理保留小目标信息
  • • OKCSM模块优化特征融合
全核跨阶段特征融合模块

图4: 全核跨阶段特征融合模块

实验设计与数据集

数据集详细信息

VisDrone2019数据集

10,209

静态图像

260万

目标实例

  • • 14个中国城市无人机拍摄
  • • 涵盖不同场景、高度、天气条件
  • • 10种目标类别(行人、汽车等)
  • • 小目标数量和尺度差异显著

TinyPerson数据集

1,610

图像数量

72,651

标注框

  • • 专注小尺度目标检测
  • • 绝对尺度36像素以下
  • • 平均尺度18像素
  • • 密集场景每张图片>200个目标

实验配置与参数

硬件环境

  • 操作系统:Ubuntu 18.04
  • GPU:NVIDIA GeForce RTX 4090
  • Python:3.8.10
  • PyTorch:2.0.0
  • CUDA:11.8

训练参数设置

8/4

批量大小

VisDrone/TinyPerson

270

训练轮数

0.01

学习率

1024²

输入尺寸

评估指标

精确率:P = TP/(TP+FP) × 100%
召回率:R = TP/(TP+FN) × 100%
平均精度:AP = ∫P(R)dR × 100%
均值精度:mAP = Σ AP(j)/N

消融实验与性能分析

VisDrone2019数据集消融实验结果
模块组合 P/% R/% mAP₅₀/% mAP₅₀:₉₅/% 模型/MB
YOLOv8n 56.2 43.0 45.7 28.2 6.3
+HCTB 55.8 44.2 46.2 28.5 5.5
+HCTB+OKCSM 58.2 45.2 48.2 29.7 6.1
完整算法 57.5 46.1 48.7 30.1 6.3
TinyPerson数据集消融实验结果
模块组合 P/% R/% mAP₅₀/% mAP₅₀:₉₅/% 模型/MB
YOLOv8n 51.5 35.6 36.3 15.7 6.3
+HCTB 53.6 35.9 36.6 16.0 5.5
+HCTB+OKCSM 53.7 36.4 37.0 15.8 6.1
完整算法 55.1 36.9 38.4 16.4 6.3

消融实验关键发现

HCTB模块效果

召回率显著提升
模型大小减少13%

混合架构在保持精度的同时有效降低了参数量

OKCSM模块效果

精确率大幅提升
mAP₅₀提升2.5%

特征融合优化显著改善了小目标检测性能

MDSKC模块效果

综合性能最优
参数量控制良好

多尺度特征提取进一步完善了算法性能

综合性能对比分析

VisDrone2019数据集完整对比结果
算法 P/% R/% mAP₅₀/% mAP₅₀:₉₅/% 大小/MB GFLOPs
YOLOv3-tiny 46.3 34.8 34.9 20.4 19.2 14.3
YOLOv5s 56.9 45.0 46.8 28.1 14.6 16.0
YOLOv6n 49.1 39.6 40.4 28.1 8.6 11.5
YOLOv7-tiny 56.7 47.8 47.3 28.8 12.1 13.2
YOLOv8n 56.2 43.0 45.7 28.2 6.3 8.7
HIC-YOLOv5n 51.0 43.5 43.5 26.8 6.6 9.1
Drone-YOLO 54.3 43.7 45.1 27.9 6.5 8.9
本文算法 57.5 46.1 48.7 30.1 6.3 11.3
TinyPerson数据集完整对比结果
算法 P/% R/% mAP₅₀/% mAP₅₀:₉₅/% 大小/MB GFLOPs
YOLOv3-tiny 46.8 32.1 32.4 13.8 19.2 14.3
YOLOv5s 52.3 36.8 37.2 15.9 14.6 16.0
YOLOv6n 49.7 34.2 34.8 14.6 8.6 11.5
YOLOv7-tiny 51.8 35.4 36.1 15.2 12.1 13.2
YOLOv8n 51.5 35.6 36.3 15.7 6.3 8.7
HIC-YOLOv5n 52.0 38.5 36.9 15.4 6.6 9.1
Drone-YOLO 52.5 37.2 36.6 15.3 6.5 8.9
本文算法 55.1 36.9 38.4 16.4 6.3 11.3

性能优势总结

+3.0%

mAP₅₀提升

相比YOLOv8n基线

+1.9%

mAP₅₀:₉₅提升

高精度阈值下表现优异

6.3MB

模型大小

轻量化设计保持不变

11.3G

计算复杂度

适中的计算开销

结论与展望

主要贡献总结

① 混合特征提取创新

提出HCTB模块,有效结合CNN局部特征提取与Transformer全局建模能力,在减少参数量的同时提升了特征表达能力

② 多尺度特征融合优化

设计MDSKC模块,通过共享卷积核的多膨胀率处理,高效获取多尺度上下文信息,相比传统池化方法保留更多细节

③ 小目标检测增强

构建P2-P3融合分支并引入OKCSM模块,在不增加检测头的情况下显著提升小目标检测性能

④ 综合性能提升

在VisDrone2019和TinyPerson数据集上验证了算法的有效性,mAP₅₀分别提升3.0%和2.1%

未来研究方向

🔬 算法优化方向

  • • 进一步优化Transformer分支的计算效率
  • • 探索更高效的多尺度特征融合策略
  • • 研究自适应膨胀率选择机制

🌐 应用拓展方向

  • • 扩展到视频序列中的小目标跟踪
  • • 适配更多类型的小目标检测任务
  • • 结合边缘计算进行实时部署

⚡ 技术融合方向

  • • 集成更先进的注意力机制
  • • 探索神经架构搜索(NAS)优化
  • • 结合知识蒸馏进一步压缩模型

📊 评估完善方向

  • • 在更多数据集上验证算法泛化性
  • • 建立更全面的小目标检测评估体系
  • • 分析不同场景下的性能表现

研究成果亮点

创新性

三个核心模块协同工作,形成完整的小目标检测解决方案

实用性

轻量化设计适合实际部署,计算开销合理可控

有效性

在多个数据集上验证了算法的优越性和泛化能力

本研究通过混合特征提取与多尺度融合的创新设计,为光学小目标检测提供了一种高效可行的解决方案, 在保持轻量化特性的同时显著提升了检测精度,
为相关领域的实际应用奠定了坚实基础。