城市暴雨级联事件(Urban Rainstorm Cascading Events, URCE)侧重于描述暴雨及其次生致灾事件造成的后果,如基础设施破坏、居民被困、交通拥堵和建筑损毁等。
要求承灾体具有同质性,小粒度多点位的URCE风险评估所需数据通常十分庞大,难以获得。
在指标体系设置和专家打分方面具有一定主观性,尤其是面临多样化异类型URCE风险,难以确保评估的客观有效。
图1 基于空间特征挖掘和机器学习的URCE风险评估模型构建方法流程
根据基层官员巡查、公民上报和社交媒体所得现实事件记录,完成风险样本数据准备及相关风险特征的提取。
图2 基于URCE事件记录的风险样本生成示例
结合可获取的多源空间数据,共提炼了八类空间特征,并通过聚类转化为文本特征:
表1 空间特征示例
空间特征类别 | 空间特征 |
---|---|
地形特征 | 地面高程/m |
地质特征 | 是否存在临近山体 |
排水能力特征 | 排水管排水能力/(mm/s) |
水系特征 | 是否存在临近水库 |
道路特征 | 车流量/(辆/h) |
电网特征 | 电力设施类型 |
建筑特征 | 建筑年龄/年 |
人口热力特征 | 区域人口热力/(人/km²) |
采用改进的边际Fisher方法从前述空间特征中自适应地选择高价值风险特征,以提高风险特征完备性。
M = argminM Sc/Sp
式中:
该目标函数在本文特征融合中的含义是:为多个空间特征赋权重,通过自适应调整空间特征权重,使得不同种类样本的区分性最优,从而帮助提高URCE风险评估的分类器效果。
采取随机欠采样(Random under Sampling, RUS)方法,从低风险样本中选择与风险样本量相平衡的样本,用于风险评估模型构建。为提高风险样本与低风险样本的对比性,优先选择与风险样本空间距离较近的低风险样本。
采用支持向量机(Support Vector Machine, SVM)这一基准机器学习算法进行分类训练。SVM具有高准确率、泛化能力强、能够处理高维特征数据等优点,相比于深度学习算法具有更快的处理速度和更低的运行成本。
武汉东湖新技术开发区(又名:中国光谷)位于武汉市东南,占地518 km²,是我国国家级高新区和国家光电子产业基地。
图3 研究区域位置
表2 风险样本分布
URCE风险 | 符号 | 高风险样本数 | 中风险样本数 | 低风险样本数 |
---|---|---|---|---|
内涝→交通瘫痪 | #a | 965 | 1,953 | 999 |
内涝→电网损毁 | #b | 614 | 1,627 | 1,049 |
内涝→居民受困 | #c | 556 | 1,304 | 746 |
泥石流→建筑损毁 | #d | 162 | 350 | 161 |
泥石流→交通拥堵 | #e | 177 | 465 | 204 |
洪水→建筑损毁 | #f | 438 | 1,006 | 572 |
图4 总体URCE风险评估效果及其与未融合多源空间特征时的效果对比
可以发现,在融合多源空间特征后,各类URCE风险评估的模型效果得到大幅度提升,总体准确率、F1得分以及AUC分别提升了23%、24%以及25%,部分类别(如#c和#d)的准确率提升了30%以上。
图5 不同方法应用下的URCE风险评估效果
本文所提方法在模型效果上优于其他方法;在未融合风险特征和空间特征时,深度学习方法(FastText和ERNIE)的效果优于SMOTE和L-SVM等机器学习方法;在利用本文方法融合空间特征后,风险评估效果显著增加。
图6 不同种类原始特征下的URCE风险评估效果
巡检记录对风险评估模型构建的特征贡献最大,其次是公民上报文本,最后是社交媒体,追根溯源,是基层官员相对公民而言具有更多的工作经验和风险知识,提供的风险特征更为可靠。
管理启示:
管理部门应强化对事件内容的规范化管理,同时加强对公民和社交媒体信息贡献的激励,提高多主体信息在暴雨灾害管理中的有效性。
图8 部分URCE类型的风险评估结果
利用构建的URCE风险评估模型,可以生成各类URCE的风险评估结果,藉此服务于URCE的事前预防与管理,实现风险管控。不同类型风险的空间分布具有显著差异,体现出URCE风险的复杂性。
模型耗时:
本文所提模型构建方法利用SVM做分类器,具有计算效率高、计算成本低的优势;就本文实验中的6类事件的风险评估而言,模型的总运行时间(包括模型训练和风险评估结果生成)平均仅需7.2秒。
本研究提出一种融合风险特征和空间特征的URCE风险评估模型构建方法,尝试通过融合多源空间特征,突破因原始风险样本特征不完备带来的URCE风险评估模型效果约束。