研究背景与目的

滑坡灾害突发性强、分布范围广,对当地基础设施、生态环境和居民生命财产安全造成了巨大威胁。我国西部山区地形起伏较大、地质构造活跃、季节性降雨集中,滑坡灾害频发。国家减灾委员发布的《"十四五"国家综合防灾减灾规划》中提到,我国亟需提高灾害风险管理水平,提升防灾减灾科技支撑能力。

滑坡易发性评价是地质灾害风险防治的重要组成部分,通过准确、可靠的评价技术,识别滑坡高易发性区域,可为防灾减灾工作提供科学依据。目前,滑坡易发性评价理论方法主要分成知识驱动和数据驱动。

研究目的:本文提出一种将统计方法、机器学习模型和聚类算法结合的滑坡易发性综合评价方法。选用众多学者使用较多的IV、CF和FR统计方法,分别与RF进行结合,引入ISO聚类分级方法,得到3种耦合模型(IV-RF-ISO、CF-RF-ISO、FR-RF-ISO),并与自然断点法和Kmeans聚类进行对比,探究不同聚类方法对易发性评价结果的影响。

研究方法分类

知识驱动法

基于专家经验的主观判断和定性分析评价方法

数据驱动法

基于统计分析和机器学习等技术,从大量数据中挖掘滑坡发生的规律

集成模型

将统计方法与机器学习模型结合,创建混合评价模型

研究方法

技术路线

技术路线图

图1 耦合统计方法、机器学习模型与聚类算法的滑坡易发性评价技术路线

首先,在研究区内初选13种易发性评价指标并分级,通过皮尔逊相关性系数法对初选指标进行相关性检验,剔除强相关性因子,建立滑坡易发性评价指标体系。其次,将研究区376个滑坡点作为正样本,在滑坡点一公里缓冲区外选取376个随机点作为负样本,选取70%样本点作为训练样本,30%样本点作为验证样本,提取各影响因子的IV、CF和FR值,在R软件中构建RF滑坡易发性评价模型,对研究区1 865 178个格网进行预测,得到基于IV-RF、CF-RF和FR-RF 3种集成模型的宁南县滑坡易发性结果,再通过绘制ROC曲线使用准确率、精确率、召回率和F1分数对模型预测性能进行精度验证。最后,使用ISO聚类、自然断点法和Kmeans聚类对易发性进行分级,使用SCAI指数评估耦合模型的分级效果。

统计方法

  • 信息量法(IV):以信息论为基础计算研究区内影响滑坡的各因子信息量值
  • 确定性系数法(CF):根据滑坡点数据计算不同指标因子状态下滑坡发生的先验概率
  • 频率比法(FR):计算评价因子对滑坡发生的相对影响程度

随机森林模型(RF)

一种集成学习模型,由多个分类与回归树(CART)组成,可以应对高维数据和大量特征的情况,能够评估特征的重要性,具有良好的泛化能力和鲁棒性。

聚类算法

  • K-means聚类:将数据集划分为K个不同的簇
  • ISO聚类:基于自组织数据分析技术的聚类方法
  • 自然断点法:根据数据分布特点进行分类

精度评价

混淆矩阵指标

  • 准确率(Accuracy):正确预测的样本比例
  • 精确率(Precision):正确预测的滑坡样本占所有预测为滑坡样本的比例
  • 召回率(Recall):正确预测的滑坡样本占所有实际滑坡样本的比例
  • F1分数:精确率和召回率的调和平均值

其他评价指标

  • ROC曲线:评价模型的分类性能
  • AUC值:ROC曲线下的面积,值越大模型性能越好
  • 种子单元面积指数(SCAI):评估滑坡灾害易发性评价精度

研究区概况

宁南县地处于四川省西南部,位于102°27′44″E—102°55′09″E,26°50′12″N—27°18′34″N之间,总面积为1 670 km²,地形以山地为主,海拔高度531~3 865 m。气候类型为亚热带季风气候,季节干湿明显,年均降雨量约为1 074 mm。

宁南县地质环境十分复杂,地形地貌条件多变,地处于横断山东北部和青藏高原东南边缘,地势特点为两山夹一槽,地势西北高、东南低,沟壑纵横,崇山峻岭连绵不断。

研究区内断裂带主要包括则木河断裂、宁南-会理断裂、大桥河断裂、迴龙弯断裂等。宁南县2022年地质灾害普适型项目调查结果显示,宁南县地质灾害以滑坡为主,自然和人为因素导致的滑坡地质灾害隐患点高达376处。

宁南县地理概况

图2 宁南县地理概况

评价指标体系

本文以30 m×30 m的栅格作为基础评价单元,从以下五个方面选取了13个滑坡影响因子:

地质环境

地层、断裂带

地形地貌

高程、坡度、坡向、剖面曲率、平面曲率

气象水文

年降水量、距水系距离

植被土壤

NDVI、土壤质地

人类工程活动

距道路距离、土地利用

对于连续性因子距道路距离、距水系距离、距断层距离、高程按等间距进行分级,离散型因子按实际状态分级,其余因子按自然断点法分级。

研究结果

在进行滑坡易发性评价时,需考虑滑坡影响因子之间的相关性,影响因子的相关性过强时会造成数据的冗余,从而对评价模型的准确性造成影响。本文使用皮尔逊相关性系数(r)确定影响因子之间的相关程度,r的取值在-1~1之间,r的绝对值越接近1,影响因子的相关性越强;若r的绝对值大于0.5,表明影响因子具有强相关性。

相关性系数矩阵

图3 相关性系数矩阵

相关系数计算结果显示,平面曲率和坡度的相关性系数为0.54,具有较强相关性,故在后续滑坡易发性建模过程中剔除平面曲率。

结果分析:统计方法耦合随机森林后的评价精度各方面表现均优于单一模型,准确率和F1分数均大于0.85,AUC值均大于0.9,表明3种集成模型具有良好的拟合精度和预测性能,均有效的评价了宁南县滑坡易发性。且IV模型和CF模型的精确率明显小于召回率,即预测正确的非滑坡样本比例明显小于预测正确的滑坡样本比例,说明模型对非滑坡样本进行了较多的错误分类,此情况在耦合随机森林模型后,得到较好解决。3种集成模型的准确率、F1分数和AUC值的大小排序均为FR-RF>IV-RF>CF-RF,其中FR-RF模型表现最优,其准确率、F1分数和AUC值分别为0.911、0.912和0.965,较单一模型分别提升了0.095、0.096和0.074。

结论

  1. 集成模型性能优势: IV-RF、CF-RF和FR-RF 3种集成模型性能均优于单一模型,其准确率和F1分数均大于0.85,AUC值均大于0.9,集成模型较好的解决了IV模型和CF模型对非滑坡样本进行了较多的错误分类问题。3种集成模型的综合性能排序为FR-RF>IV-RF>CF-RF,FR-RF模型预测效果最优,其准确率、F1分数和AUC值分别为0.911、0.912和0.965,较单一模型分别提升了0.095、0.096和0.074。
  2. 聚类算法优势: ISO聚类法的高低易发区SCAI值的比值更大,差异更为显著,综合分级效果优于自然断点法和Kmeans聚类法,其中FR-RF-ISO模型分级效果最好。
  3. 空间分布特征: IV-RF-ISO、CF-RF-ISO和FR-RF-ISO模型的评价结果在空间分布上大体类似,极高和高易发性区域主要集中在宁南县南部、东部和中部部分区域。评价结果可以为当地滑坡防治和灾害管理提供科学依据。

讨论

不确定性分析

集成模型由统计方法和机器学习模型耦合构成,统计方法能够定量计算影响因子对滑坡易发性的空间影响,将其作为机器学习模型的输入条件。不同统计方法中,CF比IV和FR预测精度更高(AUC=0.895),更能反映影响因子对滑坡发育的空间信息差异。

自然断点法是使用最多的易发性分级方法,它基于数据的分布特点,将数据按照自然分界点分成不同的组,本研究中SCAI值结果显示,它的分级效果具有较好的精度。ISO聚类算法表现出最优秀的分级能力,SCAI值的高低易发性等级差异最显著。

研究存在的问题及展望

由于滑坡的演化机制复杂,影响滑坡的因素众多,相关数据获取困难,本文所使用的易发性评价指标可能并不全面,后期可考虑气象、地下水、岩性、气温、地震等因子,建立更全面的指标体系,提高评价结果准确性。

未来的研究可以考虑引入更多种类的统计方法、聚类方法和机器学习模型,如证据权法、信息熵、回归模型、支持向量机、深度学习、期望最大化(EM)聚类、高斯混合模型(GMM)聚类等,开展相关模型对比研究。

* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。