应用多尺度融合策略和改进YOLOV5的道路病害无人机检测

摘要

结合无人机和深度学习目标检测算法自动检测道路病害具有范围广、成本效益高等优势。然而，道路病害的形状和大小变化剧烈，很难完整检测它们。此外，受限于计算资源，通用的目标检测算法只适用于小尺寸影像（512像素×512像素或640像素×640像素），很难直接应用于大尺寸的无人机影像（5 472像素×3 648像素或7 952像素×5 304像素）。使用传统方法检测大尺寸影像中的多尺度目标会出现大尺寸目标切分、小尺寸目标漏检等问题。

针对上述问题，本文提出了一种结合全局-局部多尺度融合策略和YOLOv5-RDD的创新解决方案：

构建了YOLOv5-RDD模型，在现有YOLOv5模型的基础上，设计多尺度C3（MSC3）模块和上下文特征金字塔网络（CFPN），增强了对多尺度目标的检测能力。
提出了一种全局-局部多尺度融合策略，利用下采样和切分手段获取大尺寸无人机影像的全局和局部信息，然后叠加全局和局部多尺度信息以获取整个大尺寸影像的多尺度信息，并采用中心非极大值抑制算法优化检测结果。
为验证所提方法的有效性，创建了一个专门用于无人机道路病害检测的UAV-RDD数据集。

实验结果显示，与原始的YOLOv5模型相比，新模型YOLOv5-RDD在mAP上提升了5.8%，而全局-局部多尺度融合策略相比传统方法在mAP上提升了9.73%，充分证明了本文方法的有效性和优越性。

关键词

道路病害检测 YOLOv5 无人机影像目标检测大尺寸影像多尺度特征融合非极大值抑制

1. 引言

道路经常受到恶劣环境和重载车辆的影响，从而产生各种道路病害。市政部门为了延长公路的使用寿命，需要快速获取道路病害信息，以便及时采取维护措施。无人机遥感平台具有易操作和成本效益高的特点，可以采集大范围高分辨率的影像数据，被广泛应用于道路病害检测。此外，基于深度学习的目标检测算法不仅能自动定位和分类图像中感兴趣的目标，还具有高精度和鲁棒性，被广泛应用于遥感影像目标检测。许多研究人员已经结合无人机影像和目标检测算法自动提取道路病害信息。

                    
                        研究挑战
                    
                    无人机影像中不同的道路病害目标大小和形状变化剧烈。由于深度学习模型中卷积层感受野有限，无法获取全局多尺度目标特征，难以同时检测极小和极大目标。
无人机影像尺寸较大。通用的目标检测算法训练和测试数据以小尺寸影像为主，很难直接应用于大尺寸的无人机影像。
缺乏满足实际要求的数据集。现有的无人机道路病害检测数据集都是由原始影像切分之后的小尺寸影像组成，没有考虑大尺寸无人机影像多尺度道路病害检测问题。

2. 本文方法

2.1 总体流程

图1 方法流程

本文方法的总体流程如图1所示。输入原始无人机影像，首先，基于影像的全局下采样与局部切片方式获取多尺度训练样本；其次，将多尺度训练样本输入YOLOv5-RDD模型，对应生成多尺度预测结果，并进行预测结果的叠加融合；最后，基于中心非极大值抑制算法，消除叠加结果中的冗余检测框，进一步优化道路病害的检测结果。

2.2 YOLOv5-RDD

图2 YOLOv5-RDD模型结构

YOLOv5是目标检测领域较为常用的一种单阶段网络结构，能有效平衡检测效率与精度。本文在YOLOv5s6的基础上改进网络结构，形成YOLOv5-RDD模型。如图2所示，在原有YOLOv5s6网络的基础上，嵌入适用于大尺寸无人机影像道路病害检测任务的新模块，主要包括多尺度C3模块和上下文特征金字塔网络。此外，还引入了一个额外的预测层（P7），用来检测极大尺寸的目标。

2.2.1 多尺度C3模块

图3 MSC3结构

在无人机影像中，不同道路病害目标之间的尺寸差异明显，而YOLOv5主干网络的多尺度特征提取能力不足，无法有效提取多尺度特征。受Res2Net和高效多尺度注意力机制的启发，本文设计了一个多尺度C3模块（Multiscale C3，MSC3），用于提取多尺度特征。

2.2.2 上下文特征金字塔网络

图4 CFPN结构

道路病害形状和大小各不相同，提高检测精度的有效方法是多尺度特征融合。YOLOv5使用路径聚合特征金字塔网络实现多尺度特征融合。然而，它只通过简单的自下而上地方式进行特征融合，多尺度特征融合能力不足。为提高YOLOv5的多尺度特征融合能力，本文设计了一种上下文特征金字塔网络（Context Feature Pyramid Network，CFPN）。

2.3 全局-局部多尺度融合策略

为辅助YOLOv5-RDD检测大尺寸无人机图像中的多尺度道路病害，提出了一种全局-局部多尺度融合策略。该策略通过切分方式捕获局部细节特征，同时采用下采样技术获取全局宏观信息，实现了不同尺寸目标的精准定位与识别。具体而言，该策略主要包括多尺度训练策略、多尺度预测策略和中心非极大值抑制算法3个关键步骤。

2.3.1 多尺度训练和预测策略

多尺度训练和预测策略是通过3种不同分辨率的影像块实现的，每种影像块都包含不同尺寸目标的细节：

小尺寸切分影像块（1 280像素×1 280像素）：将大尺寸无人机影像按一定的重叠度切分成较小的影像块，这些影像块专为局部小尺寸的道路病害而设计。
大尺寸下采样影像块：将原始大尺寸无人机影像等比例下采样并填充到1 280像素×1 280像素，用来预测全局大尺寸目标。
中等尺寸切分影像块（2 560像素×2 560像素）：将大尺寸无人机影像按一定比率切分并下采样到1 280像素×1 280像素大小，用来预测局部中等尺寸目标。

2.3.2 中心非极大值抑制算法

虽然叠加的全局-局部多尺度检测结果包含整张大尺寸无人机影像的道路病害信息，但也包括冗余目标检测框。为提高检测精度，本文基于非极大值抑制算法提出了一种中心非极大值抑制算法。

中心非极大值抑制算法使用多尺度评分（Multiscale Score, MS）作为排序依据，它同时考虑了检测框的面积和置信度分数。MS的计算公式如下：

MS = μ·(area/area_max) + λ·Score

式中：μ表示面积的权重；Score表示置信度分数；λ表示置信度分数的权重，它们的和为1；area表示所有检测框中任意一个检测框的面积；area_max表示所有检测框中面积最大的检测框的面积。

3. 试验结果与分析

3.1 试验数据(UAV-RDD)

图5 UAV-RDD数据集

为全面覆盖各种尺寸和典型的道路病害，本文选取河南省平顶山市区的4条主干道作为实验场地。使用大疆Mavic Air 2无人机搭载L1D-20c数字相机采集路面影像，单张道路表面影像尺寸是5 472像素×3 648像素。依据前人研究，将路面损坏类型定义为6类：龟裂、纵向裂缝、倾斜裂缝、块裂、横向裂缝和修补。

表1 无人机获取道路表面影像的航摄参数

参数	数值
影像尺寸/(像素×像素)	5 472×3 648
传感器尺寸/(mm×mm)	12.7×9.6
焦距/mm	35
曝光时间/s	1/320
重叠率/%	70
飞行高度/m	30~50
飞行速度/(m/s)	8

3.2 评价指标

为定量评估YOLOv5-RDD的性能，本文采用以下评价指标：

精确率(Precision，P)
召回率(Recall，R)
精度(Average Precision，AP)
平均精度(mean Average Precision，mAP)
参数量（Parameters）
每秒帧数(FPS)
浮点运算数(FLOPs)

计算公式

精确率：

P = TP / (TP + FP)

召回率：

R = TP / (TP + FN)

平均精度：

mAP = (1/C) × ΣAP_i

3.3 YOLOv5-RDD的性能评估

3.3.1 对比实验

表2 YOLOv5-RDD对比实验

方法	参数量/M	FLOPs/G	精确率	召回率	mAP@0.5	mAP@0.5:0.95	FPS
YOLOv7	71.5	103.2	0.490	0.565	0.480	0.272	25.7
YOLOv8	83.7	164.8	0.564	0.484	0.509	0.263	27.5
YOLOR	71.0	80.2	0.532	0.539	0.516	0.316	30.8
YOLOv7-tiny	11.7	13.1	0.454	0.433	0.405	0.217	58.8
本文方法	32.9	24.9	0.592	0.593	0.585	0.355	49.7

注：加粗数值表示其在所有方法中效果最好。

3.3.2 消融实验

表3 YOLOv5-RDD消融实验

方法	参数量/M	FLOPs/G	mAP@0.5	mAP@0.5:0.95
YOLOv5s6(基础网络)	24.6	16.2	0.527	0.320
+P7 检测头	46.5	16.9	0.538	0.319
+CFPN	16.6	14.6	0.529	0.320
+MSC3	25.4	15.8	0.553	0.335
YOLOv5-RDD	32.9	24.9	0.585	0.355

注：加粗方法表示它在所有方法中效果最好。

3.3.3 可视化分析

图6 不同方法在同一区域的检测结果

3.4 多尺度切片融合策略的性能评估

3.4.1 对比实验

表4 全局-局部多尺度融合策略的对比实验

方法	mAP@0.5
切分	26.89
多分辨率图像联合检测	39.09
下采样	25.25
本文方法	48.82

3.4.2 消融实验

表5 全局-局部多尺度融合策略的消融实验

案列	非极大值抑制算法	中心非极大值抑制算法	尺度1	尺度2	尺度3	多尺度训练策略	mAP@0.5
案例1	√		√				36.11
案例16		√	√	√	√	√	48.82

3.4.3 可视化分析

图7 多尺度切片融合策略在UAV-RDD测试集上的效果

如图7所示，道路中出现了大面积的块状裂缝，在1 280像素×1 280像素和2 560像素×2 560像素的影像切片中不能完整预测该目标，但在原始影像下采样的影像中却能完整预测该目标。与之相反，道路中的小尺寸裂缝在原始影像下采样的影像块中不能被准确检测，在1 280像素×1 280像素的切分影像块中可以准确检测这些目标。

4. 结论与讨论

4.1 结论

为自动检测大尺寸无人机影像中的多尺度道路病害，本文提出了一种结合YOLOv5-RDD和全局-局部多尺度融合策略的方法，相较于其他的道路病害检测算法，本文的创新性如下：

本文的研究对象是大尺寸无人机影像，而不是切片之后的小尺寸无人机影像，因此更适合实际的应用。实验结果证明，结合全局-局部多尺度融合策略和YOLOv5-RDD可以准确检测大尺寸无人机影像中的多尺度道路病害。
本文提出的YOLOv5-RDD模型能在复杂环境中准确检测多尺度道路病害，mAP提升了5.8%。它不仅能兼顾检测精度和速度，并且参数较小，易于部署，更适合道路病害检测任务。
本文提出的全局-局部多尺度融合策略可辅助目标检测算法准确检测大尺寸无人机影像中的多尺度道路病害，mAP提升了9.73%。
本文提供了一个开源的大尺寸无人机影像道路病害检测数据集，供其他研究者深入研究无人机道路病害检测任务。(https://github.com/hn-ccx/UAV-RDD)

4.2 讨论

本文构建的UAV-RDD数据集存在若干限制，包括不同类别实例之间的分布不均衡，影像资料覆盖区域有限等，这些因素都会影响模型最终的精度。例如，倾斜裂缝在所有裂缝种类中比较少见，因此在UAV-RDD数据集中样本数较少。由于倾斜裂缝没有被模型充分学习，因此在测试集中倾斜裂缝类别的AP@0.5仅有29.9%，而总体的AP@0.5是58.5%，倾斜裂缝的识别精度拉低了模型总体的识别精度。

此外，不同道路所处的环境不同，所使用的建筑材料也不尽相同，其存在的道路病害在图像上的特征各异。如果仅针对一条道路采集数据训练模型，那么最终模型可能仅对该条道路中的病害识别精度高。因此，理论上数据集影响资料覆盖区域越广越好，然而本文采集的数据局限于河南省平顶山市的4条道路。

未来，计划开展一个更为广泛和大规模的数据集构建工作。