融合多要素特征的城市驾驶场景显著性建模方法

Method for Modeling Visual Saliency in Urban Driving Scenarios by Fusing Multi-factor Features

研究目标与应用价值

建模城市驾驶场景显著性是提高驾驶系统智能化水平的重要研究方向。 视觉显著性模型能够模拟驾驶员视觉注意机制,为驾驶系统提供可靠的先验信息。

SLAM优化

引导关注重要区域特征

风险检测

关注潜在风险区域

导航规划

基于显著性的地标设计

驾驶预警

提高预测突发事件能力

现有方法存在的问题

核心问题分析

特征融合框架缺失

缺乏统一的多要素特征融合框架, 不同要素特征数据结构存在差异, 导致融合效率较低

组合对象特征不足

现有方法大多针对单一对象设计, 忽略了不同对象间的关联性, 难以提取组合对象特征

动态适应性较差

连续帧之间时空特征未能有效利用, 与视觉特征的耦合度较低, 动态场景适应性差

基于认知视角的方法

特点
  • • 结合主观感受和眼动数据规律
  • • 提取颜色、纹理、形状等视觉特征
  • • 构建加权模型
局限性
  • • 依赖主观感受量化评价
  • • 人为设计特征描述子
  • • 不同场景适用性较差

基于深度学习的方法

优势
  • • 自动提取关键区域特征
  • • 计算过程客观,预测精度高
  • • 通过网络层实现特征融合
问题
  • • 网络架构复杂,参数量大
  • • 消耗计算资源高
  • • 难以满足低延迟决策需求

本文提出的解决方案

方法总体架构

基于多要素特征融合思想, 提出一种针对驾驶场景视觉显著性的预测和建模方法。 架构基于ConvLSTM, 通过替换特征层方式实现多要素特征动态耦合。

颜色纹理特征

计算机视觉提取

形状特征

组合对象关注

时空特征

三维卷积提取

显著性融合

LSTM网络融合

组合对象特征创新

技术手段
  • • 高差阈值比
  • • 胡矩描述
  • • 傅里叶描述
提取内容

重点关注组合对象并提取其形状特征, 描述组合对象外接轮廓和边缘细节

特征融合策略

融合方式

通过替换ConvLSTM顶层特征, 直接融合颜色、纹理、形状和时空特征

优势

避免深度网络重复提取, 降低模型复杂度与计算量

性能优化

计算效率

相比SCAFNet参数量降低22.9%, 满足计算实时性要求

预测精度

预测精度提升8%, 充分体现特征融合方法优越性

多要素特征提取详解

颜色特征提取

RGB空间

映射到RGB空间获取通道特征图, 增强颜色特征表达细节

HSV空间

计算色调、饱和度和亮度, 克服光照、遮挡和阴影影响

灰度空间

灰度空间变换特征融入, 提高图像质量增强对比度

纹理特征提取

纹理特征表现为图像中不同对象外观材质和结构, 由灰度共生矩阵提取特征组成

0.4
对比度

反映图像清晰度和纹理深度

0.3

衡量纹理复杂性和随机性

0.2
能量

衡量纹理灰度变化稳定性

0.1
同质性

反映纹理局部均匀性

形状特征提取(组合对象)

形状特征面向组合对象设计, 主要描述组合对象外接轮廓和边缘细节, 可以为下游SLAM等任务提供鲁棒性特征描述子

高差阈值比

组合对象内部个体高度差值在图像中 表现为轮廓质心像素差

胡矩

描述对象形状的不变矩特征, 对旋转、缩放、平移具有不变性

傅里叶描述

通过傅里叶变换描述对象边界, 提供频域形状特征表示

时空特征提取

三维卷积网络

利用三维卷积网络提取连续场景图像中 包含的时空特征,捕获动态变化信息

动态建模

将视觉特征嵌入时空序列建模过程, 实现多要素特征动态耦合

实验结果与性能评估

郑州市驾驶场景数据集结果

91.12%
AUC预测精度

明显优于其他5种对比方法

与SCAFNet对比
  • • 参数量降低:22.9%
  • • 预测精度提升:8%
  • • 满足计算实时性要求
验证数据集
  • • DADA数据集有效验证
  • • Dr(eye)ve数据集验证
  • • Deng数据集验证

性能优势分析

计算效率

在提高预测精度的同时保持计算效率, 满足驾驶系统实时性需求

精度提升

有效捕获组合对象分布和 时空变化细节,显著提升预测精度

泛化能力

在多个公开数据集上得到有效验证, 具有良好的泛化能力

技术创新点总结

多要素特征融合
  • • 颜色、纹理、形状、时空特征统一融合
  • • 基于ConvLSTM的融合框架
  • • 替换特征层避免重复提取
组合对象关注
  • • 高差阈值比、胡矩、傅里叶描述
  • • 重点关注对象间关联性
  • • 提供鲁棒性特征描述子

研究意义与发展前景

研究意义

本研究有助于推动感知技术从独立任务模型认知耦合系统转变, 为基于视觉显著性的地标设计、导航规划、驾驶预警等任务奠定了坚实的研究基础。

地标设计

基于视觉显著性的智能地标设计

导航规划

优化路径规划和导航策略

驾驶预警

提升驾驶安全预警系统

技术发展方向

认知耦合系统

从单一任务模型向多任务协同的 认知耦合系统发展,提升系统整体智能水平

实时性优化

进一步优化计算效率, 满足更高实时性要求的应用场景

多要素特征融合的四大创新

颜色纹理

RGB+HSV+灰度多空间融合

组合对象

高差阈值+胡矩+傅里叶描述

时空特征

三维卷积捕获动态变化

智能融合

ConvLSTM替换特征层

视觉显著性:智能驾驶的认知之眼

本研究通过多要素特征融合,创新性地解决了城市驾驶场景显著性建模的关键问题。 从传统的单一特征提取到多要素协同建模,从独立任务处理到认知耦合系统, 本方法不仅在预测精度上取得显著提升,更在计算效率上实现了重要突破。 通过引入组合对象特征提取和时空动态建模, 为智能驾驶系统提供了更加精准和高效的视觉注意机制, 推动了感知技术向认知智能的重要转变。