CATrans整体框架
803张影像
2448×2448像素
50cm分辨率
7个土地覆盖类别
180张影像
5000×5000像素
30cm分辨率
建筑物分割
2600张影像
1024×1024像素
30cm分辨率
城乡场景分割
方法 | mIoU | mF1 | FPS | 内存(MB) |
---|---|---|---|---|
U-Net | 38.4 | 50.1 | 3.5 | 5507 |
WSDNet | 74.1 | 85.2 | 30.3 | 1876 |
CATrans | 76.2 | 86.5 | 38.1 | 1256 |
通过多分支并行结构,有效整合不同尺度的语义信息,提升模型对多粒度对象的识别能力。
采用自注意力机制捕获上下文依赖关系,生成更清晰的局部特征表示。
引入全局上下文信息辅助局部块分析,增强特征交互能力。
实现精度与效率的平衡,在保持高分割性能的同时显著提升推理速度。
跨尺度注意力 | 语义视觉Transformer | mIoU | 提升 |
---|---|---|---|
❌ | ❌ | 48.5% | 基准 |
✅ | ❌ | 49.9% | +1.4% |
❌ | ✅ | 50.2% | +1.7% |
✅ | ✅ | 54.2% | +5.7% |
CATrans在三个主流数据集上均取得显著性能提升,相较于最佳对比方法WSDNet, 在mIoU指标上分别提升2.1%、4.0%、5.3%,在mF1指标上分别提升1.3%、1.8%、5.6%。
在保持高精度的同时显著提升推理速度,在DeepGlobe、Inria Aerial和LoveDA数据集上 分别达到38.1 FPS、13.2 FPS和95.22 FPS,内存占用大幅降低。
该方法在城市建筑、农田、草地等多种地物类型的分割中表现优异, 为城市规划、土地利用分析和地理空间信息提取提供了有效的技术支撑。