【意义】预测是地理空间人工智能(Geospatial Artificial Intelligence, GeoAI)重要研究方向,也是测绘地理信息技术与人工智能技术深度融合、智能化创新的关键,支撑空间智能技术走向广域多样化应用场景落地应用。
【进展】本文回顾了地理空间智能预测的技术发展历史,综述了基于统计学习、深度学习及生成式大模型的智能预测模型,阐述了智能预测模型中的时空依赖关系嵌入机制,解耦了时间关系建模、空间关系建模及时空关系建模等通用计算算子。
【挑战与展望】本文总结归纳了智能预测模型在标注数据稀疏、可解释性缺失、泛化能力匮乏、模型压缩轻量化及模型高可靠性不足等挑战,思考并提出了地理空间智能预测技术未来4个发展趋势与研究方向:耦合多算子的可配置通用空间智能预测平台、融合多模态知识的生成式预测模型、先验指导的深度学习智能预测模型,以及地理空间智能预测模型拓展地球系统深度预测应用领域。
地理空间智能预测基于空间对象的历史高维属性,预测其在未来的属性或状态值。作为地理信息科学与人工智能深度融合的典型技术,地理空间智能预测目前已成为地理空间人工智能(Geospatial Artificial Intelligence,GeoAI)的前沿研究主题。同时,在泛在地理信息时代,交通、空气质量、气象等高动态非结构化地理空间数据的爆发式增长,也为智能预测模型的实际应用提供了丰富的时空数据源和宝贵的发展机遇。
目前地理空间智能预测已在多个领域取得重要进展,如图1所示,根据地理空间对象的类型,预测任务可分为面向点状、线状、面状和体状要素的智能预测。顾名思义,点状地理空间对象指的是其空间形态可抽象为零维点的对象,而线状、面状和体状对象则分别指其空间形态可抽象为一维线、二维面和三维体的对象。
图1 地理空间智能预测技术
根据预测结果时间尺度的不同,地理空间智能预测又可以分为:
除上述分类体系外,基于算法原理的分类体系也是国内外学者广泛采用的常见分类方式。究其原因,地理空间智能预测的核心任务是建模地理空间数据中的复杂时空依赖关系,面向算法原理的分类体系则有助于剖析预测任务中的全过程协同作用机制,理解地球系统的运行模式与规律。
鉴于此,本文综述了基于统计学习、深度学习和深度生成模型的3类智能预测模型,系统梳理了智能预测模型中时空依赖的建模机制,提出了"地理空间智能预测基础算子"的概念,厘清了复杂模型的内在结构与功能关系,分析了地理空间智能预测模型面临挑战与未来发展趋势。
基于经典统计学的预测方法和浅层机器学习模型,如克里金插值、ARIMA、SVM、随机森林等
基于深度神经网络的预测方法,如CNN、RNN、GCN等,能够自动学习复杂的非线性时空关系
基于VAE、GAN、扩散模型等的概率性预测方法,能够输出预测值的潜在分布范围
融合多源异构数据和先验知识的预测方法,如PINN等,提高模型可解释性和泛化能力
基于统计学习的空间智能预测可分为2类:一类是基于经典统计学的预测,另一类是基于浅层机器学习的智能预测。需要注意的是,浅层机器学习同样依赖于概率论和统计推断,因此实际上也是统计学习的一种扩展。
鉴于统计学习模型具有明确的数学表达式,这类智能预测方法在计算效率和泛化能力等方面往往表现出一定的优势,但也面临着预测精度较低的挑战。究其原因,统计学习模型遵循严格的数学法则,而实际的时空环境往往难以满足这些前提假设;此外,统计学习模型是一种参数模型,参数模型难以有效捕捉地理要素状态中蕴含的复杂非线性时空关系。
随着计算架构的革命性进展和并行计算能力的突破,深度学习模型呈现出前所未有的精度和广泛的跨领域应用潜力。与经典统计学习和浅层机器学习相比,深度学习模型凭借其卓越的复杂非线性关系捕捉能力、自动特征学习能力和多层次数据抽象能力,已成为当前地理空间智能预测领域的主流方法。
从空间视角来看,地理空间智能预测模型可分为基于格网的智能预测模型和基于图的智能预测模型:
从时间视角来看,地理空间智能预测模型可分为迭代型智能预测模型和非迭代型智能预测模型:
此外,许多学者引入了协变量,通过挖掘协变量与目标变量之间的关系进一步提升智能预测模型的预测精度和适应性。常见的协变量包括天气、兴趣点、土地利用、人口密度和交通基础设施等。近年来,集成先验知识的深度学习也逐渐应用到智能预测模型去改善模型的预测精度、鲁棒性和可解释性。
基于深度生成式模型的空间智能预测主要通过学习数据的概率分布来输出预测值的潜在范围,而非单纯的数据拟合输出单一的估计值。因此,这种方法也可称为概率性智能预测或不确定性智能预测。凭借在概率预测方面的优势,基于深度生成式模型的空间智能预测能够有效应对复杂场景中的不确定性,为决策者提供更加全面和丰富的信息支持。
模型类型 | 基本原理 | 主要优势 | 典型应用 |
---|---|---|---|
变分自编码器 (VAE) | 通过引入潜在变量并结合变分推断方法,高效地逼近数据的后验分布 | 能够处理高维和时序数据的生成 | 变分递归自编码器 (VRAE) |
生成对抗网络 (GAN) | 通过生成器和判别器之间的对抗学习,逼真地生成数据样本 | 生成结果质量高,能够捕捉数据的分布特征 | 门控注意力生成对抗网络 (GaGAN) |
扩散模型 | 通过逐步向数据中添加噪声并反向去噪的过程生成数据 | 生成过程可控,生成质量高且稳定 | 扩散时空图网络模型 (DiffSTG) |
归一化流模型 | 利用一系列可逆变换将简单分布映射到复杂数据的真实分布 | 精确的概率建模能力,能够计算数据的对数似然 | 时空图归一化流模型 (STGNF) |
总的来说,基于深度生成式模型的智能预测具备较强的灵活性与可扩展性,能够提供多样化的预测结果,更好地揭示数据中的变动性与不确定性。在面对高度复杂且动态变化的现实问题时,深度生成模型通过生成多种可能的预测分布,为决策者提供更为全面的决策依据,从而降低了单一预测值可能带来的风险。
正如前文所述,深度学习模型已经成为当前地理空间智能预测的主流方法。在复杂多样的深度学习智能预测模型中,建模数据中的时间依赖关系和空间依赖关系是不可或缺的关键环节。因此,本小节深入探讨了地理空间智能预测时空依赖建模机制,并提出了"地理空间智能预测基础算子"的概念。
图2 地理空间智能预测基础算子的分类
"地理空间智能预测基础算子"依赖于地理空间数据的组织形式。因此,本小节首先介绍了深度学习中常用的2种数据组织结构——格网结构和图结构,并在此基础上给出了不同数学结构下智能预测任务的数学定义。
在规则格网结构中,研究区域被划分为均匀的网格单元,每个单元代表一个固定的空间区域,并存储该区域的属性值(如温度值)。
数学表示:三维张量 X̆ = {X̆t}Tt=1 ∈ RP×Q×T
其中,X̆t ∈ RP×Q 表示第t个时间窗口的地理空间数据,P和Q表示格网数据结构的空间尺寸,T表示格网结构的时间尺寸。
在图结构中,每个地理空间对象(如传感器)可抽象为图节点,节点之间的关系可抽象为边。
数学表示:图G = (V, A) = ({vi}Ni=1, A),数据矩阵 X ∈ RN×T
其中,N表示图节点的总数,T表示时间窗口总数,xt = {xit}Ni=1 ∈ RN×1 表示所有图节点在特定时间窗口下采集的地理空间数据。
时间关系建模基础算子主要面向"单个"地理空间对象的时间序列数据,捕捉时间序列数据的时间依赖关系,揭示数据在不同时间窗口之间的内在关联性。在复杂多样的地理空间智能预测模型中,时间关系建模基础算子通常分为迭代型算子和非迭代型算子2大类。
通过递归机制在多个时间窗口之间进行信息传递和状态更新,从而能够捕捉时间序列中的动态变化与依赖关系。
不依赖递归机制在时间维度上传递信息或更新状态,而是通过一次性的处理或变换来更新系统状态。
空间关系建模基础算子主要面向所有地理空间对象在"单个时间窗口"下采集的地理空间数据,捕捉地理空间对象之间的空间依赖关系,揭示数据在不同空间位置之间的内在关联性。在复杂多样的地理空间智能预测模型中,空间关系建模基础算子通常分为基于格网结构的算子和基于图结构的算子。
通过相邻格网单元之间的邻接关系实现信息在空间维度上的传递,从而捕捉地理实体之间的空间依赖模式。
优点:结构简洁、计算效率高,易于并行处理,具有较好的灵活性和可扩展性
缺点:难以有效处理不规则地理空间数据,无法捕捉复杂拓扑或不规则分布的空间特征
利用图结构来表示地理实体的连接关系或依赖关系,从而完成地理实体之间的信息传递。
优点:能够很好地处理不规则、稀疏或异构的地理空间数据,灵活地刻画复杂交互关系
缺点:计算复杂度较高,尤其是在大规模图数据的处理中需要大量计算资源
时空关系建模基础算子主要面向所有地理空间对象在"所有时间窗口"下采集的地理空间数据,旨在捕捉地理空间对象在时间和空间2个维度上的动态依赖关系,揭示数据在不同时间点和空间位置之间的内在演变规律。在复杂多样的地理空间智能预测模型中,时空关系建模基础算子可粗略分为时空一体化算子和非时空一体化算子两大类。
能够统一处理空间和时间特征的基础算子,可以连贯和高效地捕捉到数据中的时空依赖关系。
优点:避免了空间和时间特征的割裂,可以更好的捕捉时空依赖关系
缺点:结构较复杂,可解释性较差,难以直观理解空间特征和时间特征的交互作用
将空间特征和时间特征分开建模,然后通过连接、加权或拼接等方式融合中间结果,从而捕捉数据中的时空依赖关系。
优点:结构更简化,计算开销较低,模块化程度高,便于组合和优化
缺点:由于空间和时间特征独立处理,可能导致信息割裂,限制了模型对时空交互的捕捉能力
智能预测模型核心是模型训练,标注数据质量高低直接影响预测模型的精度与准确率,同时标注数据与模型训练也是整个智能预测任务中最为耗时的步骤,且语义标注数据的通用性较差,为了满足不同类型的预测需求,需要针对预测主题进行单独数据标注与处理。
应对策略:
地理空间智能预测模型是一种高效且复杂的深度学习模型,缺乏可解释性是所有深度学习共同面临的挑战,由于参数多、多层网络之间信息传递的非线性等黑盒特征也多次引发领域专家对模型预测准确度与可信度的担忧。
应对策略:
地理空间智能预测模型泛化能力是目前面临的挑战,空间智能预测模型下游任务众多,在特定领域训练好的模型难以在其他领域进行快速部署,需要重新进行模型训练,大大降低了智能预测模型的真正落地。
应对策略:
模型轻量化目标是尽量减少模型参数量和计算量的同时保持模型的高准确率,目前地理空间智能预测模型动辄上亿的巨量参数,大量堆叠卷积层来捕获较大范围内的时空依赖关系,过多的神经网络层数造成模型的应用场景部署困难。
应对策略:
目前空间智能预测模型大多以提升预测精度为目标,模型的可靠性建模严重缺乏,不仅要提高模型的预测准确性,也要预测结果稳健可靠可信赖。空间智能预测模型深入各个领域应用场景进行重要决策时,模型可靠性时亟需解决的问题。
应对策略:
目前地理空间智能预测模型的门槛还是比较高,难以满足广泛的时空预测需求,且预测模型的构建还是需要大量依赖专业领域知识。未来趋势将是构建耦合多时空建模算子的可配置空间智能预测模型,实现无代码/低代码通用地理空间智能预测平台。
需要构建具有任务普适性的空间智能预测"预训练模型",从而实现新数据微调快速构建新预测模型适应新任务,解决领域自适应与迁移学习中冷启动问题。
大量新颖的人工智能与机器学习技术如常微分方程,先验指导的神经网络(Physics-informed Neural Network,PINN)等不断出现,将地理知识与规律直接嵌入地理空间智能预测模型。
目前已有的地理空间智能预测模型大多集中在城市时空数据,如交通流、空气质量、人流位置预测等。随着我国空天地海对地观测技术手段不断丰富,透视地球技术不断进步,地球系统数据爆发式增长,山林田湖草,水土气生人等各类自然资源要素都亟需地理空间智能预测能力。
* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。