基于卷积神经网络的遥感影像建筑物提取方法综述

1. 引言

遥感影像中的建筑物信息对于土地资源利用、智慧城市建设、灾害应急响应等诸多领域都具有广泛的应用价值。图1展示了从遥感影像中提取建筑物的过程，其本质是一个语义分割问题，通过遍历整张遥感影像所有像素并分类，最终得到只包含建筑物和非建筑物的二值图像。

图1 高分辨率遥感影像建筑物提取的示意图

随着深度学习技术的快速发展，卷积神经网络（Convolutional Neural Network, CNN）、图卷积神经网络（Graph Convolutional Network, GCN）、长短时记忆网络（Long Short-Term Memory, LSTM）以及Transformer等技术开始受到广泛关注。这些技术以其独特的特点，在各个领域中展现出了巨大的潜力。其中卷积神经网络因其强大的特征捕捉能力而被广泛应用于计算机视觉领域的各种任务，如图像分类、目标检测、语义分割、实例分割等。近年来，也有学者开始将其应用于建筑物提取任务中，并取得了显著的成果。

图2 2016-2023年基于卷积神经网络的建筑物提取相关论文收录数量

通过分析所检索文献，将目前应用于建筑物提取的卷积神经网络根据针对模型结构、多尺度特征差异性、边界信息缺失以及模型复杂度这4个方面的优化策略分为以下4个类别：

非对称网络结构：不同于常见的U型结构，非对称结构具有高度的灵活性，可以根据需要堆叠具备不同特点的模块，以提取不同类型的特征。
多尺度特征融合：针对建筑物之间尺度、形态、纹理等差异，学者们通过多尺度融合策略使网络能同时感知全局和局部特征并加以融合，从而得到更全面的特征表示。
边界优化：边界不完整一直是建筑物提取所面临的挑战之一，国内外学者为此进行了大量的研究，通过设计提取边界信息的模块或施加边界约束等方式，使建筑物边界轮廓更加清晰。
轻量化网络结构：个别应用场景会受到硬件设备的限制并对推理速度有所要求，轻量化网络应运而生。其能在保持较高性能表现的同时，大幅减少模型复杂度，对推动建筑物提取算法的实际应用至关重要。

2. 基于卷积神经网络的建筑物提取方法

全卷积神经网络（Fully Convolutional Networks，FCN）作为一个具有里程碑意义的分割方法，其"全卷积"的思想为学者利用卷积神经网络进行建筑物提取的研究推开了大门。

2.1 非对称网络结构

非对称网络结构是一种与对称结构（如U型结构）不同的网络结构。在对称结构中，网络的编解码器2个部分相似，通常具有相同的模块和跳跃连接。而在非对称结构中，网络的不同部分可以具有不同的模块、连接方式，通过引入不同层级的信息交互和特征变换，增强模型对于图像细节、形状等特征的感知能力，进而创建出一种多样化和灵活性更高的结构。

2.2 多尺度特征融合

多尺度特征融合方法通过聚合不同层级的多尺度特征，显著增强了网络对尺度差异较大的建筑物特征的捕捉能力，使其在建筑物尺度变化较大、复杂区域下执行建筑物提取任务时表现出卓越的性能。尽管这类方法提升了算法对于复杂场景的适应性，但多尺度特征融合策略也不可避免地增加了参数量及运算量。此外，在算法设计过程中需要着重考虑平衡不同尺度特征的权重以及如何有效地将其融合。

2.3 边界优化

边界优化方法的优势在于其有效解决了建筑物提取结果中存在的边界信息缺失等问题，从而实现了更为精确的边界定位，显著提升了建筑物提取结果的质量。然而，边界优化方法往往需要与传统图像处理技术（如Sobel算子、Canny算子、建筑物角点、分水岭算法等）结合使用，这将导致算法复杂度的增加。因此，尽管该类方法适用于对建筑物边界准确性要求较高的提取任务，但在实现过程中需要注意如何平衡边界优化和计算效率之间的关系。

2.4 轻量化网络结构

在轻量化网络的设计中，研究者们普遍采用深度可分离卷积、组卷积、非对称卷积以及网络剪枝等策略，旨在提高网络运行效率并减少模型的复杂性。具体而言，深度可分离卷积通过将标准卷积分解为深度卷积和逐点卷积，显著减少了参数量和计算量，使得网络轻量化。组卷积将输入特征图和输出特征图分为n组，每个组只处理特征通道的一个子集，由于参数和计算分布在n组中，因此参数量减少为原来的1/n。而非对称卷积则通过将n×n的卷积核分解为n×1和1×n共2个卷积核，将乘法运算的数量从n×n降低至2×n，从而在保持性能的同时大幅降低卷积操作的运算量。网络剪枝技术则通过移除神经网络中权重较小的通道或神经元节点，减少了网络的冗余，实现了网络稀疏化，进而达到轻量化的效果。

尽管轻量化网络结构具备较快的推理速度，十分适用于对计算资源和推理速度要求较高的建筑物提取场景，但在追求网络轻量化的过程中，往往会面临一定精度和泛化能力的牺牲。因此在设计轻量化网络时，如何平衡模型轻量化和精度之间的关系才是重中之重。

3. 典型建筑物数据集

在深度学习中，数据集对于模型的训练、验证和测试都起着关键作用，它帮助模型理解任务、提高泛化能力并获得更好的性能。在本节，将介绍建筑物提取领域常用的3个数据集（马萨诸塞州建筑物数据集、WHU建筑物数据集、Inria航空图像标注数据集）以及2个覆盖区域均为中国地区图像的数据集。

表1 建筑物提取数据集

数据集	分辨率/m	大小/像素×像素	图片数量/张
马萨诸塞州数据集	1.0	1500×1500	151
WHU航空影像数据集	0.3	512×512	8189
Inria航空图像标注数据集	0.3	5000×5000	180
中国典型城市建筑物实例数据集	0.29	500×500	7260
中国农村地区建筑物样本及标注无人机影像数据集	0.0102~0.0776	256×256	6060

图3 马萨诸塞州数据集的示例

图4 WHU建筑物数据集的示例

3.6 建筑物提取数据集现状分析

除上述几个数据集之外，当前还存在许多用于遥感影像建筑物提取的数据集，但这些数据集在实际应用中仍然存在一些问题。

首先，现有数据集的覆盖范围和样本数量有限，无法完全涵盖全球各个地区的建筑物特征。从通用性和多样性来看，受地理、经济、宗教、文化等因素影响，全球各地区建筑物存在较大特征差异，且建筑物数据样本在全球空间范围内主要分布在中国、欧洲、新西兰、美国等国家和地区。特别是针对发展中国家和偏远地区的建筑物，数据集的覆盖程度相对较低，这导致在这些地区的建筑物提取任务中，模型的泛化能力和性能可能受到限制。因此，进一步构建大规模且具有代表性的建筑物数据集对该领域发展具有重要意义。

其次，现有数据集中的标注质量和准确性也是一个重要问题。标注人员的主观认知差异可能导致不同标注者对同一建筑物的标注结果存在差异，这种数据标注过程中存在的主观误差和不一致性，将会影响模型的训练效果和性能评估结果的准确性。因此，领域内需建立更加全面和准确的标注标准，以提高数据集的标注质量，从而为建筑物提取算法的研究和应用提供更可靠的数据基础。

另外，当前的建筑物提取数据集多数为RGB影像，但对于某些场景或特定对象，RGB3个波段可能无法提供足够的信息来进行准确识别，且容易受到阴影遮挡及地物相似性的困扰。随着遥感技术的发展和数据获取手段的多样化，将RGB影像与红外影像、雷达影像、数字表面模型、数字高程模型等多模态数据进行结合，可以提供更丰富的信息来辅助建筑物提取，将有助于提高建筑物提取的准确性和鲁棒性。

综上所述，未来建筑物提取数据集的发展方向应该是大规模、高精度、多样化。通过不断地完善数据集的规模和质量，可以进一步推动建筑物提取技术的发展及应用。

4. 实验结果分析

在前面的章节对一些提取方法的优化策略进行了描述，但是并没有直观地对比这些方法的实验结果，在这一部分把以上所描述的提取方法在数据集上的实验结果以及模型复杂度以表格的形式汇总起来，并进行了分析。

4.1 实验精度分析

通过对近年来所发表文献的广泛调研，我们发现虽然大部分方法是在已公开的数据集上进行测试的，但是也有很多方法是在非公开的数据集上进行测试的，这就给不同方法之间的比较增加了困难，并且由于每位研究者所使用的实验设备有所差异，导致超参数的设置（如批次大小、迭代轮次等）也有所不同，即使使用相同的数据集，实验结果之间也会存在差异。不过这些方法在原论文中都与U-Net、SegNet、DeepLabv3+等方法进行了比较，这给我们的实验精度分析增加了一定的可参考性。本文选取了马萨诸塞州数据集、WHU数据集、Inria数据集上的总体准确率（Overall Accuracy，OA）、精确率（Precision）、召回率（Recall）、F1得分（F1- score，F1）、交并比（Intersection over Union，IoU）5项评价指标来进行实验结果的汇总，每种方法的各项精度结果均引自原论文。

表2 马萨诸塞州数据集实验结果(%)

类别	方法	准确率	精确率	召回率	F1-score	IoU
A	CFENet	96.26	82.77	87.10	83.04	74.86
A	SCGFA-Net	-	83.20	82.70	85.00	74.10
B	SA-Net	-	86.78	-	84.69	73.45
B	BRRNet	-	82.45	83.27	85.36	74.46
B	C³Net	-	82.10	82.50	82.86	70.74
C	VAF-Net	94.71	86.64	83.68	82.30	-
C	BOMSC-Net	96.61	93.16	91.41	85.13	74.71
D	IRU-Net	93.60	81.90	84.10	83.00	70.90
D	MSL-Net	-	95.10	89.90	89.60	81.10

4.2 模型复杂度分析

考虑到建筑物提取算法的应用场景有时会受硬件设备等计算资源的限制，所以在顾及精度的同时还需要考虑模型复杂度。模型复杂度是指模型所需的计算资源和内存需求，包括浮点运算量（FLOPs）和参数量（Parameters）。在建筑物提取任务中，过大的模型会消耗过多的计算资源，导致运行速度缓慢，甚至无法在资源有限的环境中运行,因此模型复杂度对于实际应用非常重要。在此将文中所涉及的一些方法的浮点运算量以及参数量进行汇总并分析，值得一提的是，为了更直观地观察模型的复杂度以及精度的平衡性，选取了这些方法在WHU数据集上的IoU作为精度指标来评价模型。

表3 模型复杂度对比结果

类别	方法	影像尺寸/(像元×像元)	FLOPs/G	Parameters/M	IoU/%
A	MPRSU-Net	512×512	81.60	13.80	91.17
A	MAP-Net	512×512	48.09	24.00	90.86
A	SER-UNet	512×512	135.00	72.05	91.46
B	SA-Net	256×256	-	7.13	89.62
B	AFP-Net	256×256	-	48.76	87.02
B	BRRNet	256×256	-	17.30	90.15
C	BOMSC-Net	256×256	-	129.32	91.14
C	MMB-Net	512×512	-	54.46	85.34
D	ESFNet	512×512	2.51	0.18	85.34
D	IRU-Net	256×256	11.11	6.01	90.40
D	MSL-Net	512×512	-	6.00	90.40

注：G和M分别代表计算机的计量单位，G=10⁹，M=10⁶

4.3 不同方法优缺点

通过对不同方法的精度及模型复杂度进行分析，可以发现，每种方法都有其独特的优点和缺点，这些特点也决定了它们适用的场景和条件。例如，SER-UNet在提取准确率方面表现出色，但模型复杂度较高，需要更多的计算资源和时间来训练和推理；而ESFNet则能够在计算资源有限的情况下表现出更快的推理速度，但可能会牺牲一定的准确性。因此，了解不同方法的优缺点对于后续开展相关研究和应用至关重要。

表4 不同方法优缺点比较

类别	优点	缺点	适用场景	参考文献
非对称网络结构	结构灵活、自由堆叠模块	过度堆叠导致模型复杂度可能较高	对准确率要求高	[39],[41]-[45]
多尺度特征融合	特征捕捉能力强、鲁棒性较好	需要平衡不同特征权重	建筑物尺度差异大的复杂区域	[50]-[55]
边界优化	边界信息较为完整、边界定位准确	需要与其他算法结合、运算量较大	对边界准确性要求较高	[58]-[64]
轻量化网络结构	推理速度快、模型参数较少、部署成本低	精度可能较低、特征表达能力受限	计算资源有限、对实时性要求较高	[71]-[75]

5. 展望

近年来，国内外学者针对基于卷积神经网络的高分辨率遥感影像建筑物提取方法进行了大量的研究与实验，且取得了许多重要的研究成果。尽管目前的建筑物提取方法已经取得了很好的效果，但阴影或树木的遮挡、形状或尺度的变化等因素仍会对解译影像中的纹理及光谱特征造成阻碍，因此仍需进行更加深入的研究。为此，本文尝试展望了未来可能的发展趋势：

Transformer与CNN的结合

CNN虽然具有强大的图像特征提取能力，可以捕捉图像中的各种细节和纹理信息，但是在提取局部特征时可能忽略像素之间的相关性，而Transformer则可以通过自注意力机制来捕捉长距离依赖关系，将二者结合，可以相互取长补短，有助于提高建筑物提取准确性。

深度学习与强化学习的结合

深度学习已经在图像识别和分类任务中取得了显著的成果，但在建筑物提取任务中，由于其复杂性和不确定性，仍然存在一些挑战。因此，将深度学习与强化学习相结合，利用强化学习的策略优化和决策过程帮助算法在不同场景下学习适应性策略，以提高建筑物提取的鲁棒性和泛化能力，这将是未来的一个重要研究方向。

跨模态数据融合

现阶段大多数数据集都仅包含RGB影像，而将RGB影像与激光雷达、合成孔径雷达、数字表面模型等多模态的数据进行融合可以更好地识别和提取建筑物，因为跨模态数据可以为遥感影像提供光谱、形状、纹理等补充信息，但跨模态数据融合仍存在噪声较多、难以配准的问题，因此，探索一种高效、稳定的跨模态遥感数据建筑物提取方法尤为重要。

无监督或半监督学习方法

由于遥感影像数据通常具有高维度和大规模的特点，标注这些数据需要大量的人力和时间成本。相对于传统的有监督学习方法，无监督或半监督学习可以更好地利用数据本身的特征和结构，提高分割精度和效率，此外，还可大大减少对大量有标签数据的需求，从而降低了数据标注成本，这也更符合遥感影像处理中的实际应用情况。因此，在建筑物提取中应用无监督或半监督学习方法将是未来一个重要的研究方向。

基于大规模遥感模型的实时提取

随着自动驾驶、灾害监测和城市规划等领域对实时遥感信息的需求增加，建筑物提取算法需要更快的处理速度和实时性。研究人员需要利用数据融合、多任务学习等技术开发出能够满足多项下游遥感任务的大规模遥感基础模型。在未来的研究中，希望可以涌现出更多基于大规模遥感模型的实时建筑物提取方法。

建筑物实例分割

建筑物实例分割是将建筑物提取与建筑物目标检测相结合，将不同建筑物视为独立的实例，并通过为每个实例分配不同的颜色或标识来进行区分。这种分割结果可以使后续的分析和处理更加高效，从而极大地提升了模型的应用价值。尽管目前建筑物实例分割的研究相对较少，但这一领域仍然具有巨大的潜力和广泛的应用前景。

建筑物轮廓矢量提取

建筑物轮廓矢量提取旨在获取每栋建筑物的轮廓矢量信息。目前，主流的轮廓矢量提取方法是对建筑物语义分割结果的轮廓进行矢量化，而端到端生成建筑物轮廓矢量的方法相对匮乏，且准确率较低，无法满足地图制作等领域需求。因此，探索利用深度学习技术进一步提高端到端提取建筑物轮廓矢量的精度，对于地图制作等领域的蓬勃发展具有重要意义。

综上所述，遥感影像建筑物提取是一个充满挑战的研究领域，未来的研究应将继续致力于提高准确性、鲁棒性、推理速度以及自适应性。值得注意的是，当前人工智能已成为建筑物提取方法的关键技术支撑，而随着新一轮科技革命的突飞猛进，遥感影像建筑物提取必将迎来新的发展契机。结合更加前沿人工智能技术，开发出更加高效可行的建筑物提取方法，以满足日益增长的应用需求，将成为未来的重要研究方向。

6. 结论

从遥感影像中提取建筑物是一个具有重要应用价值的研究课题。本文聚焦于基于卷积神经网络的遥感影像建筑物提取方法，将相关研究依据非对称网络结构、多尺度特征融合、边界优化、轻量化网络结构进行了分类。同时，介绍了该领域典型的数据集，并指出当前数据集存在的问题。随后深入分析了相关方法在典型数据集的实验结果。最后探讨了遥感影像建筑物提取未来的发展趋势，旨在为该领域的进一步发展提供有益的参考和启示。

回顾过往几十年的发展历程，建筑物提取技术的演进不仅是技术层面的发展，更是地理信息科学和遥感技术在实践中持续探索与应用的成果。从最初的目视解译到手工设计特征方法，再到如今基于深度学习的高度自动化方法，每一次技术的飞跃都标志着科技的不断进步和上游产业对数据需求的激增。随着卷积神经网络等深度学习技术的广泛应用，建筑物提取的精度和效率得到了极大的提升，使得在大规模遥感影像数据中进行建筑物提取变得更加可行和可靠。这种技术演进不仅对地图制作和城市规划等传统领域产生了深远影响，同时也为智慧城市建设等领域提供了强有力的数据支撑。可以预见，在未来几年内，随着技术的不断革新和数据处理能力的提升，建筑物提取将为城市的高质量发展和可持续发展带来更多创新和应用。