滑坡灾害突发性强、分布范围广,对当地基础设施、生态环境和居民生命财产安全造成了巨大威胁。我国西部山区地形起伏较大、地质构造活跃、季节性降雨集中,滑坡灾害频发。国家减灾委员发布的《"十四五"国家综合防灾减灾规划》中提到,我国亟需提高灾害风险管理水平,提升防灾减灾科技支撑能力。
滑坡易发性评价是地质灾害风险防治的重要组成部分,通过准确、可靠的评价技术,识别滑坡高易发性区域,可为防灾减灾工作提供科学依据。目前,滑坡易发性评价理论方法主要分成知识驱动和数据驱动。
研究目的:本文提出一种将统计方法、机器学习模型和聚类算法结合的滑坡易发性综合评价方法。选用众多学者使用较多的IV、CF和FR统计方法,分别与RF进行结合,引入ISO聚类分级方法,得到3种耦合模型(IV-RF-ISO、CF-RF-ISO、FR-RF-ISO),并与自然断点法和Kmeans聚类进行对比,探究不同聚类方法对易发性评价结果的影响。
基于专家经验的主观判断和定性分析评价方法
基于统计分析和机器学习等技术,从大量数据中挖掘滑坡发生的规律
将统计方法与机器学习模型结合,创建混合评价模型
图1 耦合统计方法、机器学习模型与聚类算法的滑坡易发性评价技术路线
首先,在研究区内初选13种易发性评价指标并分级,通过皮尔逊相关性系数法对初选指标进行相关性检验,剔除强相关性因子,建立滑坡易发性评价指标体系。其次,将研究区376个滑坡点作为正样本,在滑坡点一公里缓冲区外选取376个随机点作为负样本,选取70%样本点作为训练样本,30%样本点作为验证样本,提取各影响因子的IV、CF和FR值,在R软件中构建RF滑坡易发性评价模型,对研究区1 865 178个格网进行预测,得到基于IV-RF、CF-RF和FR-RF 3种集成模型的宁南县滑坡易发性结果,再通过绘制ROC曲线使用准确率、精确率、召回率和F1分数对模型预测性能进行精度验证。最后,使用ISO聚类、自然断点法和Kmeans聚类对易发性进行分级,使用SCAI指数评估耦合模型的分级效果。
一种集成学习模型,由多个分类与回归树(CART)组成,可以应对高维数据和大量特征的情况,能够评估特征的重要性,具有良好的泛化能力和鲁棒性。
宁南县地处于四川省西南部,位于102°27′44″E—102°55′09″E,26°50′12″N—27°18′34″N之间,总面积为1 670 km²,地形以山地为主,海拔高度531~3 865 m。气候类型为亚热带季风气候,季节干湿明显,年均降雨量约为1 074 mm。
宁南县地质环境十分复杂,地形地貌条件多变,地处于横断山东北部和青藏高原东南边缘,地势特点为两山夹一槽,地势西北高、东南低,沟壑纵横,崇山峻岭连绵不断。
研究区内断裂带主要包括则木河断裂、宁南-会理断裂、大桥河断裂、迴龙弯断裂等。宁南县2022年地质灾害普适型项目调查结果显示,宁南县地质灾害以滑坡为主,自然和人为因素导致的滑坡地质灾害隐患点高达376处。
图2 宁南县地理概况
本文以30 m×30 m的栅格作为基础评价单元,从以下五个方面选取了13个滑坡影响因子:
地层、断裂带
高程、坡度、坡向、剖面曲率、平面曲率
年降水量、距水系距离
NDVI、土壤质地
距道路距离、土地利用
对于连续性因子距道路距离、距水系距离、距断层距离、高程按等间距进行分级,离散型因子按实际状态分级,其余因子按自然断点法分级。
在进行滑坡易发性评价时,需考虑滑坡影响因子之间的相关性,影响因子的相关性过强时会造成数据的冗余,从而对评价模型的准确性造成影响。本文使用皮尔逊相关性系数(r)确定影响因子之间的相关程度,r的取值在-1~1之间,r的绝对值越接近1,影响因子的相关性越强;若r的绝对值大于0.5,表明影响因子具有强相关性。
图3 相关性系数矩阵
相关系数计算结果显示,平面曲率和坡度的相关性系数为0.54,具有较强相关性,故在后续滑坡易发性建模过程中剔除平面曲率。
结果分析:统计方法耦合随机森林后的评价精度各方面表现均优于单一模型,准确率和F1分数均大于0.85,AUC值均大于0.9,表明3种集成模型具有良好的拟合精度和预测性能,均有效的评价了宁南县滑坡易发性。且IV模型和CF模型的精确率明显小于召回率,即预测正确的非滑坡样本比例明显小于预测正确的滑坡样本比例,说明模型对非滑坡样本进行了较多的错误分类,此情况在耦合随机森林模型后,得到较好解决。3种集成模型的准确率、F1分数和AUC值的大小排序均为FR-RF>IV-RF>CF-RF,其中FR-RF模型表现最优,其准确率、F1分数和AUC值分别为0.911、0.912和0.965,较单一模型分别提升了0.095、0.096和0.074。
集成模型由统计方法和机器学习模型耦合构成,统计方法能够定量计算影响因子对滑坡易发性的空间影响,将其作为机器学习模型的输入条件。不同统计方法中,CF比IV和FR预测精度更高(AUC=0.895),更能反映影响因子对滑坡发育的空间信息差异。
自然断点法是使用最多的易发性分级方法,它基于数据的分布特点,将数据按照自然分界点分成不同的组,本研究中SCAI值结果显示,它的分级效果具有较好的精度。ISO聚类算法表现出最优秀的分级能力,SCAI值的高低易发性等级差异最显著。
由于滑坡的演化机制复杂,影响滑坡的因素众多,相关数据获取困难,本文所使用的易发性评价指标可能并不全面,后期可考虑气象、地下水、岩性、气温、地震等因子,建立更全面的指标体系,提高评价结果准确性。
未来的研究可以考虑引入更多种类的统计方法、聚类方法和机器学习模型,如证据权法、信息熵、回归模型、支持向量机、深度学习、期望最大化(EM)聚类、高斯混合模型(GMM)聚类等,开展相关模型对比研究。