研究方法

SRF-MF方法流程

多源数据融合流程

图1 多源数据融合流程

为充分利用不同遥感降水产品和雨量计的降水信息和空间分布特征,本文构建了一种顾及空间自相关性的多源遥感日降水数据融合方法来生成高质量的降水数据。该方法包括3个主要阶段:数据预处理、降尺度和多源降水数据融合。

空间随机森林(SRF)模型

经典随机森林(RF)是一种用于空间预测的统计方法,但未考虑采样数据之间的空间自相关性。因此,当相邻数据具有高度空间自相关性时,可能会导致结果存在偏差。

z(p₀) = f(XNS(p₀),XS(p₀))

式中:XS表示克里金插值结果;XNS表示非空间协变量;f(·)是描述p₀点建模时因变量(z)和自变量(如XS和XNS)之间关系的函数。

SRF-MF实现步骤

  1. 数据预处理:将站点观测数据、遥感降水数据和环境因子累加到月尺度
  2. 降尺度模型构建:利用SRF在月尺度上建立环境因子、插值结果和原始降水数据之间的关系
  3. 降水数据降尺度:将高分辨率的环境因子和插值结果输入到SRF降尺度模型
  4. 月尺度分解为日尺度:通过日比率数据将月尺度的降尺度结果分解为日尺度结果
  5. 融合模型构建:利用SRF构建站点观测数据、降尺度日降水数据、插值数据和环境因子之间的关系
  6. 多源日降水数据融合:将所有数据输入到多源遥感数据融合模型中,实现高分辨率的多源降水数据融合

研究数据

研究区概况

四川省位于中国西南腹地(97°21'E—108°31'E,26°03'N—34°19'N),地处长江上游,总面积48.6km²,地势介于第一阶梯青藏高原与第二阶梯长江中下游平原,是二者的过渡地带。

研究区地跨青藏高原、横断山脉、云贵高原、秦巴山地、四川盆地等单元地貌,地势西高东低,由西北向东南倾斜。受地貌因素和地理纬度的影响,气候的地带性和垂直方向变化十分明显,区域可分为三大气候带。

四川省气象站分布

图2 四川省气象站分布

卫星降水数据

表1 卫星降水产品基本信息

数据 分辨率 时段/年
IMERG_Final 0.1°/d 2015—2019
GSMaP_Gauge 0.1°/h 2015—2019
CMORPH 0.25°/d 2015—2019
CHIRPS 0.05°/d 2015—2019
PERSIANN 0.25°/d 2015—2019

研究结果

整体评价

2015-2019年日尺度精度指标箱线图

图3 2015-2019年日尺度精度指标箱线图

不同降水强度统计指标

图4 不同降水强度统计指标

SRF-MF与5种卫星降水产品和5种机器学习方法在日尺度上的精度表明,GSMaP在RMSE和MAE方面的表现略好于其他原始卫星降水数据,而CHIRPS的表现最差。与原始卫星降水数据相比,经过机器学习方法校正的降水产品,误差明显降低,每种方法的RMSE和MAE中值分别都至少降低了23.6%和11.7%,而SRF-MF产品是表现最好,其RMSE和MAE中值分别降低了41.5%和16.4%。

所有原始卫星降水数据的CC中值介于0.2到0.5之间,KGE中值均小于0.1,其中最高的GSMaP相关系数中值为0.42,说明原始降水产品对实际降水情况解释程度低。相比之下,除RF-MEP产品外,其他机器学习方法的精度都有很大提升,CC中值均大于0.45,KGE中值均大于0.25,并且SRF-MF的CC中值为0.68,KGE中值为0.51,表现最好,说明本文提出的多源融合方法是有效的。

多时间尺度分析

不同月份各降水产品的CC与RMSE指标对比

图5 不同月份各降水产品的CC与RMSE指标对比

2015-2019年降水产品的季节指标

图6 2015-2019年降水产品的季节指标

在不同时间尺度上,SRF-MF的精度最好。具体而言,在日尺度上相对于原始卫星降水产品,SRF-MF的RMSE中值和MAE中值分别至少降低了41.5%和16.4%,在月尺度上,SRF-MF的相关系数至少提高5.1%,RMSE误差至少降低6%;对于季节尺度,SRF-MF在夏季、秋季和冬季的相关系数最高,并且RMSE至少降低4.5%;在年尺度上,SRF-MF误差至少降低27.09%,与机器学习方法相比误差也至少降低6.48%。

原始卫星降水产品IMERG有效捕捉到了降水的空间分布,但其空间纹理太粗糙,无法表达降水的空间细节信息。而SRF-MF、RF-RF和RF降水产品在空间分辨率上都得到明显提升,但RF-RF和RF降水产品可以明显看出"牛眼"现象,不符合降水的空间分布特征。本文方法在降尺度和融合过程中都加入环境信息和降水空间信息,融合后的产品增加了降水的空间细节信息,改善了空间纹理特征,提高了降水空间分布的准确性。

不同站点密度的影响

不同密度指标

图7 不同密度指标

随着站点密度从100%降至10%,每种方法的性能都出现下降趋势。其中,相较于其他2种插值方法,在相同站点密度内,SRF-MF方法精度最优,OK插值方法次之,IDW法最差,说明SRF-MF对空间自相关信息的捕捉能力最强。尤其当站点密度从50%降至10%时,SRF-MF方法的KGE值下降趋势更为缓和,表明相对于仅插值方法,SRF-MF方法的性能在数据稀缺的情况下更加优秀。

环境因子重要性排序

环境因子重要性排序

图8 环境因子重要性排序

本文采用的环境因子对提升降水质量都具一定的贡献性。其中,OK因子的降水的空间信息值重要性最为显著,重要性值高达0.64,说明区域降水间存在较强的空间自相关性。在众多降水产品中,IMERG重要性最高,重要性为0.30;GSMaP次之,重要性为0.23;CHIRPS最差,重要性为0.10,表明精度更高的降水产品在融合过程中起到决定作用。地理位置因子同样具有较高的重要性,经度和纬度的重要性均在0.20以上,这与研究区所处的气候带和季风带有很大关系。

研究结论

为了提高降水产品的空间分辨率和准确性,本文提出一种顾及空间自相关的随机森林方法,用于多源遥感降水产品融合(SRF-MF)。该方法利用多种遥感卫星降水产品独特的空间分布信息和准确的站点数据信息加以融合,并在降尺度和融合过程中考虑降水的空间自相关信息以获得高质量的降水数据。

主要结论

  1. SRF-MF降水分布图在空间分辨率和细节特征上明显优于原始降水产品和其他机器学习方法。
  2. 不同降水强度下对降水事件的探测能力,各降水产品都具有相似性能,在[5,20)mm/d降水强度下具有更好的降水探测能力,而在[20,40)mm/d降水强度下对降水的探测能力最差,误报率最高,而SRF-MF在降水强度大于5mm/day时,对降水事件的探测能力明显优于其他方法。
  3. 在不同时间尺度上,SRF-MF的精度最好。具体而言,在日尺度上相对于原始卫星降水产品,SRF-MF的RMSE中值和MAE中值分别至少降低了41.5%和16.4%,在月尺度上,SRF-MF的相关系数至少提高5.1%,RMSE误差至少降低6%。
  4. 随着站点密度的下降,SRF-MF和各插值产品精度逐渐下降。但在不同的站点密度下,SRF-MF方法的性能均优于其他插值产品。
  5. 环境环境因子中,OK因子和降尺度后的降水因子对SRF-DM模型起主要作用,这说明在降水估计中应该充分利用降水之间的空间自相关信息。

本文研究结果将为提高卫星降水数据质量,以及扩大应用领域提供研究思路。