人类移动数据生成方法：研究进展与趋势探讨

1. 引言

人类移动数据对传染病传播预测与防控模拟、交通规划与拥堵治理、犯罪风险评估、人群聚集预警与疏散等诸多应用具有重要意义。人类移动数据可分为个体轨迹数据（Individual Trajectory Data）和群体移动数据（Collective Flow Data）。

进入21世纪以来，传感器、移动定位、移动互联网等现代信息和通信技术（Information and Communication Technology, ICT）的飞速发展使得采集大规模人类定位数据成为易事。然而，尽管当前数据采集手段多样，但由于涉及个人隐私、存在数据安全隐患，真实的个体移动轨迹数据在实际应用中的可得性仍存在很大局限。

研究背景

构建人类移动数据生成模型，产生在统计层面接近并在应用层面可替代真实数据的合成数据（Synthetic Data），是上述问题的有效解决思路之一。

本文梳理了人类移动数据生成的研究框架（如图1所示），对当前人类移动数据生成研究进行系统综述，在此基础上，从机制认知、模型设计和模型评价层面出发探讨其发展趋势。

图1 人类移动数据生成研究框架

2. 个体轨迹数据生成方法研究进展

当前个体轨迹数据生成研究主要分为基于机理模型的方法和基于机器学习的方法两大类。其中，前者主要集中于统计物理学领域，后者主要集中于计算机科学领域。

2.1 基于机理模型的个体轨迹生成方法

通过定量统计大量人类时空行为事件，发现其中隐含的统计规律，进而对个体移动过程建模的方法，可称之为基于机理模型的个体轨迹生成方法。这种方法有助于揭示宏观统计规律背后的微观底层机制。

表1 基于机理模型的个体轨迹生成方法
类型	模型名称	年份	主要建模机制	实验数据
EPR模型及其扩展	EPR	2010	幂律等待时间、幂律移动步长探索机制、频率偏好返回机制	CDR、GPS
	r-EPR	2015	幂律等待时间、幂律移动步长探索机制、频率偏好返回机制、最近访问返回机制	CDR、Brightkite
	m-EPR	2018	幂律移动步长探索机制、频率偏好返回机制、固定大小的返回地点集	Mobile Data Challenge (MDC)
	GeoSim	2015	幂律等待时间、社交偏好探索机制、随机地点探索机制、社交偏好返回机制、频率偏好返回机制	CDR
	d-EPR	2015	幂律等待时间、基于距离与静态群体访问频率的探索机制、频率偏好返回机制	CDR、GPS
	STS-EPR	2021	幂律等待时间、社交偏好探索机制、基于距离与静态群体访问频率的探索机制、社交偏好返回机制、频率偏好返回机制	Foursquare
	DITRAS	2018	活动时序模式、基于距离与静态群体访问频率的探索机制、频率偏好返回机制	CDR、GPS
	TimeGeo	2016	昼夜节律及短程活动倾向、基于排序距离衰减函数的探索机制、频率偏好返回机制	CDR、GPS
	w-EPR	2019	幂律等待时间、固定每日外出时长、基于排序距离衰减函数的探索机制、频率偏好返回机制	CDR、Taxi GPS、Travel survey
	p-EPR	2021	幂律等待时间、偏转角度及幂律移动步长探索机制、频率偏好返回机制	CDR
其他重要模型	CMM	2021	幂律等待时间、基于距离与动态群体访问频率的探索机制、频率偏好返回机制	Bank Note Travel Survey
	连续时间随机游走模型(CTRW)	2006	幂律等待时间、幂律移动步长	GPS
	Container Model	2020	位置之间的空间尺度层级距离、位置在不同空间尺度层级中的吸引力	GPS

2.2 基于机器学习的个体轨迹生成方法

利用机器学习模型从大量真实轨迹数据中学习其中隐含的模式和规律，进而对个体移动过程建模的方法，可称之为基于机器学习的个体轨迹生成方法。这种方法通常能生成与真实更接近的轨迹数据。

表2 基于机器学习的个体轨迹生成方法
类型	模型名称	年份	主要模块	实验数据
利用GAN的模型	OuyangGAN	2018	GAN, CNN	MDC
	LSTM-TrajGAN	2018	SRNN, RNN-LSTM, RHN, PSMM, SGAN, RGAN	MDC
	MoveSim	2020	LSTM, GAN	Foursquare
	TSG	2020	GAN, Attention, CNN	Mobile phone positioning data, GeoLife
	TS-TrajGen	2021	GAN, LSTM, CNN	Taxi GPS
	DP-TrajGAN	2023	GAN, LSTM, POMDP	GeoLife, Taxi GPS
	TrajGen	2022	DCGAN, GRU	Taxi GPS
利用VAE的模型	SVAE	2021	VAE, LSTM	GPS
	TrajSynVAE	2019	VAE, LSTM	Mobile phone positioning data, Geolife, Foursquare
	VOLUNTEER	2023	VAE, Transformer, LSTM, MLP	Mobile phone positioning data
利用Diffusion的模型	Diff-Traj	2023	Diffusion Model, U-Net	Taxi GPS
其他模型	STAR	2023	GNN, GRU	Foursquare
	ActSTD	2023b	NDE, GRU, LSTM	Foursquare, Mobile phone positioning data
	MTNet, TNet	2022	Encoder, Decoder, LSTM	Taxi GPS
	AttnMove	2021	Attention	GeoLife, GPS, Tencent location data

方法对比

机理模型与机器学习两类方法各自具有优缺点：

机理模型：可解释性强，对训练数据要求低，外推泛化能力强，但生成数据真实度较低
机器学习：可解释性弱，对训练数据要求高，外推泛化能力弱，但生成数据真实度高

3. 群体移动数据生成方法研究进展

群体移动数据生成一般指给定地理空间单元的社会经济特征（如人口分布、土地利用等）及其交互特征（如距离、空间邻接关系、交通交互关系等），通过（拟合或训练后的）模型生成两两单元之间的群体移动量。

3.1 基于机理模型的群体移动数据生成方法

用于群体移动数据生成的机理模型可分为重力模型和介入机会类模型两类。

重力模型 (Gravity Model)

类比物理学中万有引力定律提出，假设空间单元i和j之间的群体移动量T_ij与空间单元的人口数量P_i和P_j成正比，与空间单元之间的距离d_ij成反比。

T_ij = O_iP_iP_jf(d_ij)

形式简单、易于应用，但缺乏理论依据

介入机会类模型

从个体目的地选择行为的角度建模，将介入机会而不是距离作为影响人类移动的关键因素。包括介入机会模型(IO)、辐射模型(Radiation)、人口权重机会模型(PWO)等。

T_ij = O_iP_j/S_ji

可反映个体目的地选择的微观机制

3.2 基于机器学习的群体移动数据生成方法

基于机理模型的群体移动数据生成方法通常只建模人口和距离特征。与之相比，基于机器学习的群体移动数据生成方法还可纳入土地利用类型、POI类型、交通网络等更丰富的区域特征及区域间交互特征。

4. 人类移动数据生成方法趋势探讨

基于对人类移动数据生成研究现状的系统梳理，本文进一步结合当前地理信息科学、计算机科学、复杂性科学等多学科理论与技术发展趋势，从机理认知层面、模型设计层面和模型评价层面探讨了人类移动移动数据生成研究所面临的重要挑战。

4.1 探索人类移动行为的底层机制

人类移动数据生成方法的本质是对人类移动行为过程进行建模；揭示人类移动行为的底层机制，是人类移动行为建模的理论驱动引擎。

研究人类大脑如何编码空间记忆、构建认知地图和实现空间认知
研究个体的导航与移动选择行为机制
利用所揭示的机理机制构建机理模型或融入机器学习模型

4.2 关注机理模型与机器学习耦合建模

如何适应性地结合"白箱"机理模型与"黑箱"机器学习，充分发挥二者优势并弥补其缺陷，是推动研究实现跨越的有效思路。

物理引导的机器学习/深度学习/神经网络
针对人类移动行为机制，顾及地理空间效应
构建适应性耦合方法

4.3 借助生成式人工智能与大语言模型

以ChatGPT为代表的大语言模型和生成式人工智能得到飞跃式发展，为人类移动数据生成提供了新机遇。

轨迹与自然语言文本具有类比关系
构建轨迹数据编码与符号化方法
开发基于大语言模型的人类移动数据生成方法

4.4 强调模型空间泛化与迁移能力

由于地理空间异质性和可变面元问题存在，模型的空间泛化能力和迁移应用的便利性还存在不足。

设计具备更强空间泛化能力的模型
利用因果不变学习、深度迁移学习与元学习等框架
构建面向人类移动数据的大模型

4.5 控制模型训练与使用成本

当前基于深度学习的方法对计算机硬件和训练数据要求高、训练时间长，使得模型实际的使用成本较高。

在算法设计与评价时考虑训练与使用成本
提出针对人类移动行为建模的高性能计算方法
确保模型可复现和易使用

4.6 设计多角度模型评价方法

现有评价指标主要关注统计分布相似性，但统计分布相似只能在一定程度上说明生成数据的合理性。

轨迹时空形态视角：通过轨迹聚类评估
空间分布与交互视角：分时段人口分布等
应用场景可替代视角：以生成数据替换真实数据测试应用效果

5. 总结

本文将人类移动数据生成研究按照研究目的、研究领域、研究方法等进行了分类，面向个体轨迹数据生成和群体移动数据生成两大主题，对当前人类移动数据生成方法进行了系统综述，并探讨了其未来发展趋势。

可以预见，对人类移动行为机制认知的永恒追寻和生成式人工智能等技术的不断突破，会驱动和推动人类移动行为建模与数据生成研究作为前沿热点持续发展。

人类在地理空间中的移动过程是典型的人地交互过程，其空间选择行为受到空间依赖、距离衰减、空间异质性等地理空间效应的影响。地理信息科学应与计算机科学、统计物理学、复杂性科学等多学科理论方法进行深度交叉融合，在人类移动行为建模与数据生成研究领域中发挥本学科特色并占据一席之地。