无人机军事侦察中的远距离目标识别
监控视频中远处行人和异常行为检测
自动驾驶系统中交通标志识别
航拍图像中微小物体的精确定位
混合特征提取
核心思想
结合CNN局部特征提取与Transformer全局信息捕捉能力
技术特点
多膨胀率共享卷积
核心思想
共享卷积核进行不同尺度处理,减少参数冗余
膨胀率设置
全核跨阶段融合
核心思想
基于Omni-Kernel和CSP思想的特征融合
三分支结构
图1: 本文算法整体框架
采用HCTB模块替换原有特征提取单元,通过CNN和Transformer混合架构增强特征表达能力
在主干末端构建MDSKC模块,利用多膨胀率空洞卷积扩展感受野获取多尺度信息
从P2层延伸小目标分支与P3融合,使用OKCSM模块优化特征金字塔网络
Transformer分支
CNN分支
图4: 全核跨阶段特征融合模块
静态图像
目标实例
图像数量
标注框
批量大小
VisDrone/TinyPerson
训练轮数
学习率
输入尺寸
模块组合 | P/% | R/% | mAP₅₀/% | mAP₅₀:₉₅/% | 模型/MB |
---|---|---|---|---|---|
YOLOv8n | 56.2 | 43.0 | 45.7 | 28.2 | 6.3 |
+HCTB | 55.8 | 44.2 | 46.2 | 28.5 | 5.5 |
+HCTB+OKCSM | 58.2 | 45.2 | 48.2 | 29.7 | 6.1 |
完整算法 | 57.5 | 46.1 | 48.7 | 30.1 | 6.3 |
模块组合 | P/% | R/% | mAP₅₀/% | mAP₅₀:₉₅/% | 模型/MB |
---|---|---|---|---|---|
YOLOv8n | 51.5 | 35.6 | 36.3 | 15.7 | 6.3 |
+HCTB | 53.6 | 35.9 | 36.6 | 16.0 | 5.5 |
+HCTB+OKCSM | 53.7 | 36.4 | 37.0 | 15.8 | 6.1 |
完整算法 | 55.1 | 36.9 | 38.4 | 16.4 | 6.3 |
混合架构在保持精度的同时有效降低了参数量
特征融合优化显著改善了小目标检测性能
多尺度特征提取进一步完善了算法性能
算法 | P/% | R/% | mAP₅₀/% | mAP₅₀:₉₅/% | 大小/MB | GFLOPs |
---|---|---|---|---|---|---|
YOLOv3-tiny | 46.3 | 34.8 | 34.9 | 20.4 | 19.2 | 14.3 |
YOLOv5s | 56.9 | 45.0 | 46.8 | 28.1 | 14.6 | 16.0 |
YOLOv6n | 49.1 | 39.6 | 40.4 | 28.1 | 8.6 | 11.5 |
YOLOv7-tiny | 56.7 | 47.8 | 47.3 | 28.8 | 12.1 | 13.2 |
YOLOv8n | 56.2 | 43.0 | 45.7 | 28.2 | 6.3 | 8.7 |
HIC-YOLOv5n | 51.0 | 43.5 | 43.5 | 26.8 | 6.6 | 9.1 |
Drone-YOLO | 54.3 | 43.7 | 45.1 | 27.9 | 6.5 | 8.9 |
本文算法 | 57.5 | 46.1 | 48.7 | 30.1 | 6.3 | 11.3 |
算法 | P/% | R/% | mAP₅₀/% | mAP₅₀:₉₅/% | 大小/MB | GFLOPs |
---|---|---|---|---|---|---|
YOLOv3-tiny | 46.8 | 32.1 | 32.4 | 13.8 | 19.2 | 14.3 |
YOLOv5s | 52.3 | 36.8 | 37.2 | 15.9 | 14.6 | 16.0 |
YOLOv6n | 49.7 | 34.2 | 34.8 | 14.6 | 8.6 | 11.5 |
YOLOv7-tiny | 51.8 | 35.4 | 36.1 | 15.2 | 12.1 | 13.2 |
YOLOv8n | 51.5 | 35.6 | 36.3 | 15.7 | 6.3 | 8.7 |
HIC-YOLOv5n | 52.0 | 38.5 | 36.9 | 15.4 | 6.6 | 9.1 |
Drone-YOLO | 52.5 | 37.2 | 36.6 | 15.3 | 6.5 | 8.9 |
本文算法 | 55.1 | 36.9 | 38.4 | 16.4 | 6.3 | 11.3 |
mAP₅₀提升
相比YOLOv8n基线
mAP₅₀:₉₅提升
高精度阈值下表现优异
模型大小
轻量化设计保持不变
计算复杂度
适中的计算开销
提出HCTB模块,有效结合CNN局部特征提取与Transformer全局建模能力,在减少参数量的同时提升了特征表达能力
设计MDSKC模块,通过共享卷积核的多膨胀率处理,高效获取多尺度上下文信息,相比传统池化方法保留更多细节
构建P2-P3融合分支并引入OKCSM模块,在不增加检测头的情况下显著提升小目标检测性能
在VisDrone2019和TinyPerson数据集上验证了算法的有效性,mAP₅₀分别提升3.0%和2.1%
三个核心模块协同工作,形成完整的小目标检测解决方案
轻量化设计适合实际部署,计算开销合理可控
在多个数据集上验证了算法的优越性和泛化能力
本研究通过混合特征提取与多尺度融合的创新设计,为光学小目标检测提供了一种高效可行的解决方案,
在保持轻量化特性的同时显著提升了检测精度,
为相关领域的实际应用奠定了坚实基础。