人类移动数据对传染病传播预测与防控模拟、交通规划与拥堵治理、犯罪风险评估、人群聚集预警与疏散等诸多应用具有重要意义。人类移动数据可分为个体轨迹数据(Individual Trajectory Data)和群体移动数据(Collective Flow Data)。
进入21世纪以来,传感器、移动定位、移动互联网等现代信息和通信技术(Information and Communication Technology, ICT)的飞速发展使得采集大规模人类定位数据成为易事。然而,尽管当前数据采集手段多样,但由于涉及个人隐私、存在数据安全隐患,真实的个体移动轨迹数据在实际应用中的可得性仍存在很大局限。
研究背景
构建人类移动数据生成模型,产生在统计层面接近并在应用层面可替代真实数据的合成数据(Synthetic Data),是上述问题的有效解决思路之一。
本文梳理了人类移动数据生成的研究框架(如图1所示),对当前人类移动数据生成研究进行系统综述,在此基础上,从机制认知、模型设计和模型评价层面出发探讨其发展趋势。
图1 人类移动数据生成研究框架
当前个体轨迹数据生成研究主要分为基于机理模型的方法和基于机器学习的方法两大类。其中,前者主要集中于统计物理学领域,后者主要集中于计算机科学领域。
通过定量统计大量人类时空行为事件,发现其中隐含的统计规律,进而对个体移动过程建模的方法,可称之为基于机理模型的个体轨迹生成方法。这种方法有助于揭示宏观统计规律背后的微观底层机制。
类型 | 模型名称 | 年份 | 主要建模机制 | 实验数据 |
---|---|---|---|---|
EPR模型及其扩展 | EPR | 2010 | 幂律等待时间、幂律移动步长探索机制、频率偏好返回机制 | CDR、GPS |
r-EPR | 2015 | 幂律等待时间、幂律移动步长探索机制、频率偏好返回机制、最近访问返回机制 | CDR、Brightkite | |
m-EPR | 2018 | 幂律移动步长探索机制、频率偏好返回机制、固定大小的返回地点集 | Mobile Data Challenge (MDC) | |
GeoSim | 2015 | 幂律等待时间、社交偏好探索机制、随机地点探索机制、社交偏好返回机制、频率偏好返回机制 | CDR | |
d-EPR | 2015 | 幂律等待时间、基于距离与静态群体访问频率的探索机制、频率偏好返回机制 | CDR、GPS | |
STS-EPR | 2021 | 幂律等待时间、社交偏好探索机制、基于距离与静态群体访问频率的探索机制、社交偏好返回机制、频率偏好返回机制 | Foursquare | |
DITRAS | 2018 | 活动时序模式、基于距离与静态群体访问频率的探索机制、频率偏好返回机制 | CDR、GPS | |
TimeGeo | 2016 | 昼夜节律及短程活动倾向、基于排序距离衰减函数的探索机制、频率偏好返回机制 | CDR、GPS | |
w-EPR | 2019 | 幂律等待时间、固定每日外出时长、基于排序距离衰减函数的探索机制、频率偏好返回机制 | CDR、Taxi GPS、Travel survey | |
p-EPR | 2021 | 幂律等待时间、偏转角度及幂律移动步长探索机制、频率偏好返回机制 | CDR | |
其他重要模型 | CMM | 2021 | 幂律等待时间、基于距离与动态群体访问频率的探索机制、频率偏好返回机制 | Bank Note Travel Survey |
连续时间随机游走模型(CTRW) | 2006 | 幂律等待时间、幂律移动步长 | GPS | |
Container Model | 2020 | 位置之间的空间尺度层级距离、位置在不同空间尺度层级中的吸引力 | GPS |
利用机器学习模型从大量真实轨迹数据中学习其中隐含的模式和规律,进而对个体移动过程建模的方法,可称之为基于机器学习的个体轨迹生成方法。这种方法通常能生成与真实更接近的轨迹数据。
类型 | 模型名称 | 年份 | 主要模块 | 实验数据 |
---|---|---|---|---|
利用GAN的模型 | OuyangGAN | 2018 | GAN, CNN | MDC |
LSTM-TrajGAN | 2018 | SRNN, RNN-LSTM, RHN, PSMM, SGAN, RGAN | MDC | |
MoveSim | 2020 | LSTM, GAN | Foursquare | |
TSG | 2020 | GAN, Attention, CNN | Mobile phone positioning data, GeoLife | |
TS-TrajGen | 2021 | GAN, LSTM, CNN | Taxi GPS | |
DP-TrajGAN | 2023 | GAN, LSTM, POMDP | GeoLife, Taxi GPS | |
TrajGen | 2022 | DCGAN, GRU | Taxi GPS | |
利用VAE的模型 | SVAE | 2021 | VAE, LSTM | GPS |
TrajSynVAE | 2019 | VAE, LSTM | Mobile phone positioning data, Geolife, Foursquare | |
VOLUNTEER | 2023 | VAE, Transformer, LSTM, MLP | Mobile phone positioning data | |
利用Diffusion的模型 | Diff-Traj | 2023 | Diffusion Model, U-Net | Taxi GPS |
其他模型 | STAR | 2023 | GNN, GRU | Foursquare |
ActSTD | 2023b | NDE, GRU, LSTM | Foursquare, Mobile phone positioning data | |
MTNet, TNet | 2022 | Encoder, Decoder, LSTM | Taxi GPS | |
AttnMove | 2021 | Attention | GeoLife, GPS, Tencent location data |
机理模型与机器学习两类方法各自具有优缺点:
群体移动数据生成一般指给定地理空间单元的社会经济特征(如人口分布、土地利用等)及其交互特征(如距离、空间邻接关系、交通交互关系等),通过(拟合或训练后的)模型生成两两单元之间的群体移动量。
用于群体移动数据生成的机理模型可分为重力模型和介入机会类模型两类。
类比物理学中万有引力定律提出,假设空间单元i和j之间的群体移动量Tij与空间单元的人口数量Pi和Pj成正比,与空间单元之间的距离dij成反比。
形式简单、易于应用,但缺乏理论依据
从个体目的地选择行为的角度建模,将介入机会而不是距离作为影响人类移动的关键因素。包括介入机会模型(IO)、辐射模型(Radiation)、人口权重机会模型(PWO)等。
可反映个体目的地选择的微观机制
基于机理模型的群体移动数据生成方法通常只建模人口和距离特征。与之相比,基于机器学习的群体移动数据生成方法还可纳入土地利用类型、POI类型、交通网络等更丰富的区域特征及区域间交互特征。
基于对人类移动数据生成研究现状的系统梳理,本文进一步结合当前地理信息科学、计算机科学、复杂性科学等多学科理论与技术发展趋势,从机理认知层面、模型设计层面和模型评价层面探讨了人类移动移动数据生成研究所面临的重要挑战。
人类移动数据生成方法的本质是对人类移动行为过程进行建模;揭示人类移动行为的底层机制,是人类移动行为建模的理论驱动引擎。
如何适应性地结合"白箱"机理模型与"黑箱"机器学习,充分发挥二者优势并弥补其缺陷,是推动研究实现跨越的有效思路。
以ChatGPT为代表的大语言模型和生成式人工智能得到飞跃式发展,为人类移动数据生成提供了新机遇。
由于地理空间异质性和可变面元问题存在,模型的空间泛化能力和迁移应用的便利性还存在不足。
当前基于深度学习的方法对计算机硬件和训练数据要求高、训练时间长,使得模型实际的使用成本较高。
现有评价指标主要关注统计分布相似性,但统计分布相似只能在一定程度上说明生成数据的合理性。
本文将人类移动数据生成研究按照研究目的、研究领域、研究方法等进行了分类,面向个体轨迹数据生成和群体移动数据生成两大主题,对当前人类移动数据生成方法进行了系统综述,并探讨了其未来发展趋势。
可以预见,对人类移动行为机制认知的永恒追寻和生成式人工智能等技术的不断突破,会驱动和推动人类移动行为建模与数据生成研究作为前沿热点持续发展。
人类在地理空间中的移动过程是典型的人地交互过程,其空间选择行为受到空间依赖、距离衰减、空间异质性等地理空间效应的影响。地理信息科学应与计算机科学、统计物理学、复杂性科学等多学科理论方法进行深度交叉融合,在人类移动行为建模与数据生成研究领域中发挥本学科特色并占据一席之地。
以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。