XGBoost和DSCGAN模型协同的SMAP土壤水分降尺度方法

引言

土壤水分（Soil Moisture, SM）是生态系统水循环和能量预算的关键参数，影响着陆地表面和大气之间的水、能量和碳通量的交换。SM的时空分布及变化是许多主要地表过程的基础数据，在诸如干旱监测、农业管理、农业估产、水文和水资源管理以及自然灾害监测等方面有着广泛应用。

目前获取土壤水分的方法主要有传统的站点观测、卫星监测、数据同化3种。被动微波遥感技术是目前监测大尺度范围土壤水分变化最成熟的技术手段，现有的土壤水分产品多数来自被动微波遥感，例如AMSR-E、SMOS，SMAP，这些产品已经被广泛应用于大陆和全球尺度的研究，如大尺度干旱监测和气候模型评估。然而，这些产品虽然具有精细时间分辨率（每日），但其空间分辨率较粗，往往不适用于区域水文和农业应用等需求。因此，空间降尺度方法逐渐成为被动微波土壤水分研究的方向之一。

土壤水分对不同的相关水文变量和地表条件具有复杂依赖性，这些变量和条件被称为降尺度因子，往往具有较强的空间异质性，能够间接或直接表达土壤和大气之间的交互作用。降尺度方法的核心是利用高分辨率降尺度因子的空间差异性，通过关系模型提高被动微波土壤水分空间分辨率。这些降尺度模型主要分为经验性、半经验性和基于物理机理3类。

研究方法

技术路线

图1 时空连续土壤水分降尺度技术路线

机器学习降尺度模型

比较了3种当前普遍应用的机器学习算法：随机森林（Random Forest）、XGBoost、LightGBM（Light Gradient Boosting Machine）。XGBoost模型是一种高效、灵活、可扩展的梯度提升决策树集成算法，通过迭代将少量"弱"学习器的预测组合成"强"学习器以优化损失函数。

DSCGAN降尺度模型

DSCGAN是一种对抗神经网络（GAN），基于CGAN网络构建，关键思想是使用低分辨率和高分辨率数据来训练神经网络从而从前者映射到后者实现降尺度。采用了4个分支结构以获得更加细致的特征，共使用了1×1、3×3、5×5共3个大小的卷积核以及一个3×3的池化层。

DSCGAN模型架构

DSCGAN是一种对抗神经网络（GAN），GAN通常由2个网络的组合：生成网络（Generator）负责生成模拟数据；判别网络（Discriminator）负责判断输入的数据是真实的还是生成的。生成器和判别器二者相互对抗，其最优结果为判别网络判断数据真假的概率各为0.5。

Wang等设计了CGAN用于降水降尺度，其关键思想是使用低分辨率和高分辨率数据来训练神经网络从而从前者映射到后者实现降尺度。在CGAN的基础上，构建了DSCGAN：

特征提取模块保持不变，特征提取模块采取了4个分支结构以获得更加细致的特征
保留注意力机制，注意力机制可用于重新调整由神经网络的某些层生成的特征图
将CGAN网络上采样部分换为亚像素卷积层，亚像素卷积是一种用于图像超分辨率的技术

图2 DSCGAN生成器模型

研究数据

研究数据包括遥感数据、土壤水分数据、高程数据及土壤质地数据：

表1 研究数据

类型	产品	变量	空间分辨率	时间分辨率
遥感数据	MCD43A3	反照率	500 m	16-day
	MOD09GA	地表反射率	500 m	daily
	MCD12Q1	土地覆盖类型	500 m	yearly
	MOD11A1	地表温度	1 km	daily
其他数据	HWSD	土壤质地	1 km	—
其他数据	GMTED2010	高程	7.5"	—
土壤水分数据	SMAP L4	土壤水分	9 km	3-hour

实验区概况

闪电河位于滦河上游流经中国北部的河北和内蒙古，发源于河北，最后注入渤海，全长877 km。闪电河流域属半干旱大陆性气候，年平均降雨量大概375 mm，年蒸发量约1 188 mm。流域地形平坦，以平原、丘陵和洼地为主，南部地势偏高，南北相对高差约400 m，海拔约为1 260~1 680 m。主要土壤类型为风沙土和草甸土。

地表类型包括耕地、林地、草地、灌木地、湿地、水体、人造地表和裸地，分布多为耕地和草地，其次是林地和湿地，其他类型较少。流域内属于大陆性季风气候，四季分明，早晚温差大，夏季降水较为充沛。春季受季风影响，土壤较干燥，而夏季由于雨水充足，土壤较为湿润，因此研究区土壤水分时间变化较为明显。

图3 闪电河流域土地覆盖类型及实测站点分布

结果与分析

机器学习降尺度模型效果对比

图5 Random Forest、LightGBM和XGBoost模型精度对比

XGBoost模型表现最优

在与原始SMAP产品数据对比中，XGBoost模型精度为：R为0.861，RMSE为0.045 m³/m³，Bias为-0.004 m³/m³，ubRMSE为0.045 m³/m³，相较于其他3种模型，4种评价指标都是最优的。

降尺度因子重要性

最终筛选的降尺度因子为LSTD、LSTN、ΔLST、NDVI、BSA_VIS、BSA_NIR、DEM、Aspect、Clay、Sand、Silt。其中Clay、ΔLST、DEM、Silt、LSTD、NDVI在小尺度土壤水分降尺度中起到重要作用。

降尺度因子筛选

选取了LST、NDVI、反照率、DEM、坡度、坡向、土壤质地和土地覆盖作为降尺度因子。利用SHAP(Shapley Additive exPlanations)方法对其重要性进行评估、筛选，寻求在精度和复杂度之间的折衷方案。

图6 不同特征的SHAP值平均绝对值

图7 每次去除一种因子前后降尺度结果精度比较

降尺度结果

图8 SMAP L4土壤水分和降尺度土壤水分

图9 降尺度土壤水分与SMAP原数据及实测数据的比较

表2 降尺度结果比较

指标	降尺度结果与SMAP原数据对比	降尺度结果与实测数据对比	SMAP原数据与实测数据对比
R	0.960	0.696	0.691
RMSE/(m³/m³)	0.034	0.169	0.192
Bias/(m³/m³)	0.011	0.149	0.171
ubRMSE/(m³/m³)	0.034	0.079	0.089

结论与讨论

为了满足区域中小尺度应用需求，本文综合利用机器学习模型XGBoost和超分辨率模型DSCGAN对闪电河流域的土壤水分进行了降尺度研究。比较了研究区域内3种机器学习，研究分析了在闪电河流域不同降尺度因子对土壤水分降尺度的影响。在无云情况下构建了基于机器学习模型的经验降尺度模型，依赖于降尺度因子完成降尺度，构建了适用于云雾覆盖情况下降尺度方法DSCGAN，弥补了经验降尺度方法因降尺度因子难以获取导致失效的情形。

由此获得了研究区域时间连续的高分辨率（1 km）的土壤水分分布这是目前为止，首次将超分辨率模型应用于土壤水分降尺度的研究。降尺度获得的土壤水分与SMAP土壤水分产品数据在空间分布上高度一致，两者之间的相关系数R为0.960，RMSE为0.034 m³/m³，bias为0.011 m³/m³，ubRMSE为0.034 m³/m³。与SMN-SDR实测站点数据对比的R为0.696，RMSE为0.169 m³/m³，bias为-0.149 m³/m³，ubRMSE为0.079 m³/m³。研究表明，通过使用超分辨率模型与机器学习模型相结合，可以完成时间连续的土壤水分反演，为降尺度研究提供了一个新的思路。

用于经验性降尺度的机器学习算法适于处理海量数据，但是训练数据的选取及算法对降尺度结果有着直接的影响，故而在不同区域内选择的不同降尺度因子可能会导致不同机器算法的精度各有优劣，XGBoost在其他研究区域是否保持其鲁棒性和泛化性需要进一步探究。此外，DSCGAN模型是基于局域尺度数据训练得到的，它在多大的时空尺度上会保持稳定性是值得进一步研究的问题。