结合无人机和深度学习目标检测算法自动检测道路病害具有范围广、成本效益高等优势。然而,道路病害的形状和大小变化剧烈,很难完整检测它们。此外,受限于计算资源,通用的目标检测算法只适用于小尺寸影像(512像素×512像素或640像素×640像素),很难直接应用于大尺寸的无人机影像(5 472像素×3 648像素或7 952像素×5 304像素)。使用传统方法检测大尺寸影像中的多尺度目标会出现大尺寸目标切分、小尺寸目标漏检等问题。
针对上述问题,本文提出了一种结合全局-局部多尺度融合策略和YOLOv5-RDD的创新解决方案:
实验结果显示,与原始的YOLOv5模型相比,新模型YOLOv5-RDD在mAP上提升了5.8%,而全局-局部多尺度融合策略相比传统方法在mAP上提升了9.73%,充分证明了本文方法的有效性和优越性。
道路经常受到恶劣环境和重载车辆的影响,从而产生各种道路病害。市政部门为了延长公路的使用寿命,需要快速获取道路病害信息,以便及时采取维护措施。无人机遥感平台具有易操作和成本效益高的特点,可以采集大范围高分辨率的影像数据,被广泛应用于道路病害检测。此外,基于深度学习的目标检测算法不仅能自动定位和分类图像中感兴趣的目标,还具有高精度和鲁棒性,被广泛应用于遥感影像目标检测。许多研究人员已经结合无人机影像和目标检测算法自动提取道路病害信息。
图1 方法流程
本文方法的总体流程如图1所示。输入原始无人机影像,首先,基于影像的全局下采样与局部切片方式获取多尺度训练样本;其次,将多尺度训练样本输入YOLOv5-RDD模型,对应生成多尺度预测结果,并进行预测结果的叠加融合;最后,基于中心非极大值抑制算法,消除叠加结果中的冗余检测框,进一步优化道路病害的检测结果。
图2 YOLOv5-RDD模型结构
YOLOv5是目标检测领域较为常用的一种单阶段网络结构,能有效平衡检测效率与精度。本文在YOLOv5s6的基础上改进网络结构,形成YOLOv5-RDD模型。如图2所示,在原有YOLOv5s6网络的基础上,嵌入适用于大尺寸无人机影像道路病害检测任务的新模块,主要包括多尺度C3模块和上下文特征金字塔网络。此外,还引入了一个额外的预测层(P7),用来检测极大尺寸的目标。
图3 MSC3结构
在无人机影像中,不同道路病害目标之间的尺寸差异明显,而YOLOv5主干网络的多尺度特征提取能力不足,无法有效提取多尺度特征。受Res2Net和高效多尺度注意力机制的启发,本文设计了一个多尺度C3模块(Multiscale C3,MSC3),用于提取多尺度特征。
图4 CFPN结构
道路病害形状和大小各不相同,提高检测精度的有效方法是多尺度特征融合。YOLOv5使用路径聚合特征金字塔网络实现多尺度特征融合。然而,它只通过简单的自下而上地方式进行特征融合,多尺度特征融合能力不足。为提高YOLOv5的多尺度特征融合能力,本文设计了一种上下文特征金字塔网络(Context Feature Pyramid Network,CFPN)。
为辅助YOLOv5-RDD检测大尺寸无人机图像中的多尺度道路病害,提出了一种全局-局部多尺度融合策略。该策略通过切分方式捕获局部细节特征,同时采用下采样技术获取全局宏观信息,实现了不同尺寸目标的精准定位与识别。具体而言,该策略主要包括多尺度训练策略、多尺度预测策略和中心非极大值抑制算法3个关键步骤。
多尺度训练和预测策略是通过3种不同分辨率的影像块实现的,每种影像块都包含不同尺寸目标的细节:
虽然叠加的全局-局部多尺度检测结果包含整张大尺寸无人机影像的道路病害信息,但也包括冗余目标检测框。为提高检测精度,本文基于非极大值抑制算法提出了一种中心非极大值抑制算法。
中心非极大值抑制算法使用多尺度评分(Multiscale Score, MS)作为排序依据,它同时考虑了检测框的面积和置信度分数。MS的计算公式如下:
式中:μ表示面积的权重;Score表示置信度分数;λ表示置信度分数的权重,它们的和为1;area表示所有检测框中任意一个检测框的面积;areamax表示所有检测框中面积最大的检测框的面积。
图5 UAV-RDD数据集
为全面覆盖各种尺寸和典型的道路病害,本文选取河南省平顶山市区的4条主干道作为实验场地。使用大疆Mavic Air 2无人机搭载L1D-20c数字相机采集路面影像,单张道路表面影像尺寸是5 472像素×3 648像素。依据前人研究,将路面损坏类型定义为6类:龟裂、纵向裂缝、倾斜裂缝、块裂、横向裂缝和修补。
参数 | 数值 |
---|---|
影像尺寸/(像素×像素) | 5 472×3 648 |
传感器尺寸/(mm×mm) | 12.7×9.6 |
焦距/mm | 35 |
曝光时间/s | 1/320 |
重叠率/% | 70 |
飞行高度/m | 30~50 |
飞行速度/(m/s) | 8 |
为定量评估YOLOv5-RDD的性能,本文采用以下评价指标:
精确率:
召回率:
平均精度:
方法 | 参数量/M | FLOPs/G | 精确率 | 召回率 | mAP@0.5 | mAP@0.5:0.95 | FPS |
---|---|---|---|---|---|---|---|
YOLOv7 | 71.5 | 103.2 | 0.490 | 0.565 | 0.480 | 0.272 | 25.7 |
YOLOv8 | 83.7 | 164.8 | 0.564 | 0.484 | 0.509 | 0.263 | 27.5 |
YOLOR | 71.0 | 80.2 | 0.532 | 0.539 | 0.516 | 0.316 | 30.8 |
YOLOv7-tiny | 11.7 | 13.1 | 0.454 | 0.433 | 0.405 | 0.217 | 58.8 |
本文方法 | 32.9 | 24.9 | 0.592 | 0.593 | 0.585 | 0.355 | 49.7 |
注:加粗数值表示其在所有方法中效果最好。
方法 | 参数量/M | FLOPs/G | mAP@0.5 | mAP@0.5:0.95 |
---|---|---|---|---|
YOLOv5s6(基础网络) | 24.6 | 16.2 | 0.527 | 0.320 |
+P7 检测头 | 46.5 | 16.9 | 0.538 | 0.319 |
+CFPN | 16.6 | 14.6 | 0.529 | 0.320 |
+MSC3 | 25.4 | 15.8 | 0.553 | 0.335 |
YOLOv5-RDD | 32.9 | 24.9 | 0.585 | 0.355 |
注:加粗方法表示它在所有方法中效果最好。
图6 不同方法在同一区域的检测结果
方法 | mAP@0.5 |
---|---|
切分 | 26.89 |
多分辨率图像联合检测 | 39.09 |
下采样 | 25.25 |
本文方法 | 48.82 |
案列 | 非极大值抑制算法 | 中心非极大值抑制算法 | 尺度1 | 尺度2 | 尺度3 | 多尺度训练策略 | mAP@0.5 |
---|---|---|---|---|---|---|---|
案例1 | √ | √ | 36.11 | ||||
案例16 | √ | √ | √ | √ | √ | 48.82 |
图7 多尺度切片融合策略在UAV-RDD测试集上的效果
如图7所示,道路中出现了大面积的块状裂缝,在1 280像素×1 280像素和2 560像素×2 560像素的影像切片中不能完整预测该目标,但在原始影像下采样的影像中却能完整预测该目标。与之相反,道路中的小尺寸裂缝在原始影像下采样的影像块中不能被准确检测,在1 280像素×1 280像素的切分影像块中可以准确检测这些目标。
为自动检测大尺寸无人机影像中的多尺度道路病害,本文提出了一种结合YOLOv5-RDD和全局-局部多尺度融合策略的方法,相较于其他的道路病害检测算法,本文的创新性如下:
本文构建的UAV-RDD数据集存在若干限制,包括不同类别实例之间的分布不均衡,影像资料覆盖区域有限等,这些因素都会影响模型最终的精度。例如,倾斜裂缝在所有裂缝种类中比较少见,因此在UAV-RDD数据集中样本数较少。由于倾斜裂缝没有被模型充分学习,因此在测试集中倾斜裂缝类别的AP@0.5仅有29.9%,而总体的AP@0.5是58.5%,倾斜裂缝的识别精度拉低了模型总体的识别精度。
此外,不同道路所处的环境不同,所使用的建筑材料也不尽相同,其存在的道路病害在图像上的特征各异。如果仅针对一条道路采集数据训练模型,那么最终模型可能仅对该条道路中的病害识别精度高。因此,理论上数据集影响资料覆盖区域越广越好,然而本文采集的数据局限于河南省平顶山市的4条道路。
未来,计划开展一个更为广泛和大规模的数据集构建工作。