1 引言

移动数据蕴含对象行为的时空分布信息,可帮助研究移动对象的个体移动特征、群体模式等,也可解释地理环境特征、社会经济因素等对移动行为的影响。近年来,多源时空大数据的涌现和人工智能等技术的发展为移动数据研究带来了丰富的数据素材和坚实的技术支撑。

OD数据记录了研究对象移动起终点的时空信息,是描述移动过程的重要数据类型。与精确记录位置变化的轨迹数据相比,OD数据的体量更小更利于存储,但也缺乏移动过程的细节,丧失移动上下文信息。这导致现有工作多局限在使用分类、聚类、可视化分析等技术围绕孤立的OD单元展开分析。

随着互联网、物联网技术的发展,近些年出现了基于共享单车、移动电话、公共交通刷卡记录等OD数据的诸多研究,尝试利用数据中记录的用户ID,将同一用户产生的多条OD数据串联,形成用户移动链进而探究用户的出行模式。然而,为了保护隐私,很多数据在记录移动行为时往往不添加用户的身份信息,为移动链相关研究的开展带来不便。

车辆移动链示意图

图1 车辆移动链(TMC)示意图

对于上述问题,本文将研究对象从人转移到出租车这类广泛存在的城市交通工具,基于厦门市巡游车和网约车两类出租车运行产生的订单OD数据,利用其中脱敏的车辆ID信息,如图1所示串联一辆车的连续多次移动,构建了一种研究出租车运营特征的新型数据模型——出租车移动链(Taxi Mobility Chain, TMC)。

  1. 克服了单次移动数据无法展现整体行为的局限性,提供了更丰富的上下文信息
  2. 将研究视角从用户转移至车辆,有助于发现车辆特定时空下的局部移动模式
  3. TMC概念可迁移拓展到其他交通工具,有助于研究城市交通系统的整体运行特征

2 研究框架及方法

研究方法框架图

图2 本研究方法框架

2.1 研究框架

本研究所提出的方法框架由3部分构成(图2):

  1. 从出租车订单OD数据中提取TMC
  2. 设计两类指标分别作为订单OD数据集和TMC素材的量化分析工具
  3. 采用划分研究区的方式,将每条TMC整合为格网单元序列,形成词嵌入模型的输入语料库

2.2 TMC的提取

基于上述介绍,出租车i对应的一条TMC可表示为:

TMC= <Po1, Pd1, Po2, Pd2, ..., Pon, Pdn>

式中:Pon和Pdn分别表示出租车i接到的第n个订单的起点位置和终点位置。

车辆运营状态判别

图3 车辆运营状态判别

2.3 TMC的时空分析

为便于对TMC的特性展开分析,本文从单个出租车及TMC的特性出发设计了两类指标:

指标类型 指标 含义
出租车运营统计 Norder 日均有效订单数
TMC空间形态量化 Lchain TMC的链路长度

2.4 基于区域嵌入的相似上下客车点聚类

TMC描述了出租车在城市中的移动,若将TMC类比为一个完整语句,TMC中的每个位置项类比为语句中的单个字,即可引入自然语言处理技术中的词嵌入模型进一步分析TMCs。

3 出租车运营模式的差异分析

3.1 研究区及数据处理

研究区概况

图4 研究区概况

3.2 不同运营模式下的司机接单行为分析

1巡游车单辆车的日均接单量更高。这一定程度上与大部分巡游车采用"双班"运营的方式有关

2日均接单量在工作日和非工作日区别不大。该现象表明在非工作日,出租车市场仍有一定的刚性需求

相邻订单间隔时间的分布

图5 相邻订单间隔时间的分布

3.3 不同运营模式下的空间聚集特征分析

不同K值下的聚类结果

图6 不同K值下的聚类结果

网约车服务的空间范围明显更广,即"人找车"的运营模式一定程度上保障了偏僻地区人们的出行需求,与"车找人"模式共同在城市交通系统中发挥重要作用。

4 结论

本文基于厦门市巡游车和网约车的订单数据,将单辆出租车的多次连续移动串联得到的TMC作为分析素材,结合指标设计、区域嵌入、聚类分析等多种手段,对比并分析了2种出租车运营模式的差异,得出以下主要结论:

1单个出租车的日均接单量在工作日和非工作日的差异不大,个体利用率相对稳定

2巡游车司机接单的可选择性更强,较之于网约车连续接单量更多,工作强度更大

3"车找人"和"人找车"两种不同的运营模式导致巡游车产生的TMC中位置项分布的聚集性更强

4不同聚类数可发现不同结论,如K=2时对应两类出租车的主次运营区域,K=6时巡游车聚类结果与高密度路网更相关

基于TMC的聚类分析工具能更好识别出租车运营的时空特征,揭示不同类型出租车在城市交通中的地位和作用,为精准预测交通需求、优化调度服务等提供数据支撑。