因区域发展不平衡,部分区域存在数据稀缺问题,一定程度上限制了空间预测研究的进展。跨区域知识迁移的引入为在少样本地区开展空间预测提供了重要方法。
随着技术进步,基于迁移学习技术和地理学第三定律的空间预测方法分别成为计算机领域和地学领域的主流方法。本文对2018年以来国内外基于以上两大类方法开展的相关跨区域空间预测研究进行了系统综述。
分析基于地理相似性和基于迁移学习进行空间预测的基本原理及二者的技术流程异同。
总结2类方法在相似性表征指标及相似性度量方法方面的差异。
梳理2类不同预测方法在常用的辅助数据、空间分析单元、模型方法与评价指标选取方面的差异。
探讨2类跨区域知识迁移的空间预测方法面临的问题及挑战。
以Web of Science、谷歌学术和中国知网数据库作为主要资料来源,对2018年以来跨区域空间预测相关中英文文献进行筛选。
地理学第三定律认为:"两个地点(区域)的地理环境配置越相似,地理特征就越相近"。该方法通过度量2个区域间地理环境相似性,将从样本区学习到的知识迁移至未知区。
迁移学习通过转移不同但相关的源领域中所包含的知识,以提高学习对象在目标领域中的表现。该方法将基于源域海量数据训练好的模型、参数等知识,迁移应用至目标域。
对比维度 | 地理相似性方法 | 迁移学习方法 |
---|---|---|
研究区选择 | 通常选择一个研究区,划分为样本区与未知区 | 至少选择2个及以上的研究区,跨省、市、县等 |
迁移方向 | 从样本区(源域)迁移至未知区(目标域) | 从数据丰富的源域迁移至数据稀缺的目标域 |
理论依据 | 基于地理学第三定律进行相似性假设 | 无明确理论依据 |
辅助数据 | 采用地理环境数据进行相似性度量 | 分为不使用辅助数据和使用辅助数据两种方法 |
模型构建 | 方法简单且对样本量需求较少 | 需要源域有大量样本数据支持 |
精度评价 | 通常只评价自身预测精度 | 常与多个现有模型进行比较 |
研究方法 | 应用方向 | 常用辅助数据 |
---|---|---|
地理相似性 | 土壤预测制图 | 地形因子、气候数据、生物因子、地质因子 | 负样本生成 | 海拔、坡度、温度、降水量、植被类型 |
生物分布预测 | 高程、温度、相对湿度、日照时数 | |
迁移学习 | 交通预测 | POI数据、路网结构、天气特征、日历数据 |
人群流量预测 | 签到数据、人口数据、卫星灯光数据 | |
犯罪预测 | 警察局分布、出租车移动性、建筑类型 |
Vij = (∑Sij,kVk)/(∑Sij,k)
基础预测模型函数,广泛应用于土壤空间推测制图研究(如SoLIM模型框架和iPSM模型框架)。
将地理相似性与随机森林等机器学习模型联合使用,提升预测精度:
SAM-CNN-Transformer结合地理环境相似性,将空气质量预测RMSE从2.505降至2.168。
应用方向 | 代表性模型 | 创新点 | 预测精度提升 |
---|---|---|---|
人群流量预测 | RegionTrans | 最早量化区域相似性的迁移学习模型 | 减小10.7%预测误差 |
人群流量预测 | ST-DAAN | 融合注意力机制的时空深度域适应网络 | 较RegionTrans减少35.8%误差 |
交通预测 | ST-GFSL | 时空图少样本学习框架 | 减小3.4%预测误差 |
交通预测 | CARPG | 基于区域参数生成的交通事故预测模型 | 减小11.97%预测误差 |
犯罪预测 | Gradient Boosting | 首次将迁移学习用于犯罪预测 | AUC提升4% |
空间分析单元适用性
多采用公里格网,未考虑数据空间异质性,不利于精细决策
数据分类不足
未考虑不同类型数据时空分布及影响因素的差异性
辅助数据合理性
常选取普适性数据,忽略与目标变量的相关性验证
人文地理因子验证
跨地域共性影响因子有待进一步研究与验证
离散变量度量
现有离散变量相似性度量方法解释力有限
多源数据整合
不同层次、级别、量纲因子的综合测度难题
加强地理相似性在人文地理领域的因子表征、测度方法和空间推测模型研究
探索地理相似性与迁移学习方法的融合,发挥各自在因子选择和特征捕捉方面的优势
以犯罪空间预测为突破点,开展跨区域知识迁移在人文地理领域的应用探索