研究背景

城市交通系统是城市的支柱,人们可以通过工作、学校、购物、休闲等社会活动进行多种类型的互动。从不同角度理解居民的出行行为,提供以人为本的交通服务,提高空间相互作用的效率,是交通规划的主要目标。

网约车业务的增长为城市居民多样化、个性化的出行需求提供了更加舒适、便捷的出行选择,正在颠覆性地改变交通行业,尤其是传统的出租车行业。作为建立高效交通系统的一部分,了解和建模网约车出行行为和分布特征为挖掘城市的运作规律提供了参考信息,对于解决城市中如基础设施设计、疫情控制、城市规划和政策制定都至关重要,也一直吸引着交通主管部门的极大兴趣。

研究挑战

  • 新兴移动数据规模与复杂性的显著增加
  • 高维数据集中存在大量的无关属性
  • 数据间的距离几乎相等的情况普遍存在
  • 网约车出行具有复杂的时空相关性

研究目标

  • 识别网约车出行分布的时空模式
  • 捕捉时空模式的时间序列变化特征
  • 分析不同区域的网约车功能类型
  • 构建网约车出行时空演化数字孪生平台

研究方法

1 出行分布时空特征定义

相比传统的正方形分区,正六边形与其边连接的6个邻近六边形是对称等效的且更接近于圆形,可以更有利于将具有相似出行特征的需求集计在同一个分区中。因此,将一个城市划分为均匀的六边形分区,将一天划分为均匀的时间段,来聚合不同时空区域的网约车订单。

采用起点的需求值分布、终点的空间分布和终点的需求值分布来共同表达分区间出行的时空分布相似性,进而通过聚类分析来识别网约车出行分布的时空转移模式。六边形分区在时间区间处的出行需求为,出行分布的时空特征可表示为:

Pit = (yoit, disit, ydit)

式中:yoit为以该时空分区为起点的网约车需求的历史平均值,表达了一个时空分区的需求特征;disit为以该时空分区为起点的网约车需求的终点空间分布的历史平均值,表达了需求从一个时空分区转移到其他时空分区的分布特征;ydit为以该时空分区为起点的网约车需求的终点所在时空分区的历史需求平均值,表达了转移后到达的时空分区的需求特征。

2 CFSFSTDP模型结构

CFSFDP算法是密度聚类方法的一种,适用用于处理欧几里得空间中非球形数据的聚类问题,并且能够自动地确定聚类个数。该算法的基础是假设聚类中心被局部密度较低的邻居围绕,并且它们与任何局部密度较高的点之间的距离相对较大。

本研究提出基于时空密度峰值的CFSFSTDP模型结构,定义时空分区间的时空距离为1减去时空相似性,获取各时空分区间的时空距离分布矩阵后,计算相应的时空密度和它与更高密度点间的距离。

时空相似性计算

Sstijtm = Soijtm × Sdisijtm × Sdijtm

模型特点

  • 自动确定聚类数量
  • 处理非球形数据
  • 适应高维时空数据
  • 计算效率高

3 AP模型结构

选择AP算法来进一步识别六边形分区出行分布时空模式的时间序列变化模式。AP算法主要包括以下4个步骤:

  1. 将每个六边形分区的时空模式时间序列映射到T维空间中的一个数据点
  2. 传递2种类型的信息,分别为吸引度和归属度,直到网络的聚类结果稳定下来或者达到指定迭代次数
  3. 网络收敛后,获得聚类中心集合,并将剩余点分配给各聚类中心
  4. 将各聚类的数据点还原为出行分布时空模式时间序列并统计其时空模式分布,得到相应的时间序列模式

衡量不同的分区之间相似性是互相信息传递的基础,选择不同时间区间的欧式距离来描述相应时间区间的相似性,则六边形分区时空模式的时间序列相似性为各时间区间相似性之和。

实证分析

数据集介绍

选择由滴滴盖亚开放平台提供的2016年11月成都市所有网约车订单数据进行分析。订单样本数据包括订单ID、开始和结束时间以及OD点的经纬度坐标,平均每天产生约23万的出行需求订单。

订单ID 开始时间 结束时间 起点经度 起点纬度 终点经度 终点纬度
Oq**ol 1477985585 1477987675 104.076 30.767 104.063 30.589
Uu**re 1478004952 1478006217 104.019 30.689 104.105 30.663

将城市划分为35×46个边长800 m的六边形分区,采用30 min将一天分为48个时间区间。六边形分区在时间区间的出行需求为,在相应出行分布的时空特征中,yo为以该时空分区为起点的网约车需求的在一整个月的平均值,dis为以该时空分区为起点的网约车需求的终点空间分布在一整个月的平均值;yd为以该时空分区为起点的网约车需求的终点所在时空分区的一整个月的需求平均值。

时空模式分析

采用CFSFSTDP模型对六边形分区出行分布的时空模式进行聚类分析,设置时空截断距离依次为时空距离的2%、5%、8%分位值,分别统计局部密度和它与更高密度点间的距离的分布。

网约车出行分布时空模式决策图

图1 网约车出行分布时空模式决策图

当截断距离选择过大时,决策图确定的聚类中心有限,难以有效地区分不同聚类特征;而当截断距离选择过小时,决策图确定了大量的聚类中心,将类似的时空分布特征聚类成不同的类,造成大量的重复。因此,选择时空距离的5%分位值作为本文时空截断距离,确定7个聚类中心。

用不同的颜色表示各种聚类,并统计各六边形分区在不同时间区间的出行分布聚类出的时空模式,不同的六边形分区之间有着不同的时空模式,同一分区的时空模式也在随着时间不断变化。

出行时空模式在不同时空间上的分布

图2 出行时空模式在不同时空间上的分布

将时空模式相同的时空分区所包含的OD需求进行汇总统计,分别用起点需求空间分布终点需求空间空间分布和起点时间分区分布来揭示各聚类的时空转移特征。

表1 不同类型时空模式特征汇总

时空模式类型 起点特征 终点特征 时间特征
1 城郊结合区、偏远郊区,稀疏需求 中心城区,高需求 基本白天
2 城郊结合区、中心城区,中等需求 均有覆盖 全天
3 中心城区,中、高需求 均有覆盖 全天
4 城郊结合区、偏远郊区,稀疏需求 中心城区,稀疏需求、中等需求 夜间为主
5 偏远郊区,稀疏需求 中心城区,高需求 基本白天
6 中心城区,高需求 偏远郊区,稀疏需求 基本白天
7 偏远郊区,稀疏需求 中心城区,高需求 全天

时间序列模式分析

将时空分区出行分布的7个时空模式分别编号为1-7,用AP算法对各时空分区出行分布时空模式在一天内的时间序列变化模式进行聚类。在同一时间区间,当不同时空分区的时空模式相同时,该时间区间相似性为1,否则为0,相应的时间序列相似性为各时间区间相似性之和。AP算法聚类出6个时间序列模式。

AP聚类结果的时间变化规律

图3 AP聚类结果的时间变化规律

将时间序列模式相同的六边形分区所包含的时空模式在时间上的变化规律进行汇总统计:

  • 时间序列模式1:主要为城郊的稀疏需求分区,在夜间主要为时空模式4,在白天主要为时空模式1
  • 时间序列模式2和时间序列模式4:为零星分布在城郊区域外围的稀疏需求,其中时间序列模式2主要为在白天离散分布的时空模式5,时间序列模式4主要为在白天离散分布的时空模式4
  • 时间序列模式6:主要为中心城区的高需求分区,在夜间主要从时空模式3转变为时空模式2,在白天主要为时空模式6
  • 时间序列模式3和时间序列模式5:为中心城区与城郊结合区的中等需求分区,其中时间序列模式3在夜间主要为时空模式4,在白天主要为时空模式2,时间序列模式5在夜间主要从时空模式2转变为时空模式4,在白天主要为时空模式3

研究结论

针对网约车出行需求在时空上的动态流动性问题,本研究以六边形时空分区为基本对象,从时空模式和时间序列模式两方面建立了处理高维网约车出行数据的分析框架。分别提出和应用了CFSFSTDP及AP聚类算法,从起点的需求量分布、终点的空间分布和终点的需求量分布3个方面来表征不同时空分区出行分布特征,定量化的衡量了不同分布特征间的时空相似性,有效地识别了不同的网约车出行分布时空模式以及各时空模式的时间动态变化特征。

对成都一个月的滴滴出行订单数据进行实证分析,最终聚类出7个时空模式和6个时间序列模式。进一步分析了不同的时空模式在需求起终点位置、需求值类型,以及需求时间上的差异,探讨了网约车出行在不同区域的功能类型。研究发现,网约车主要服务往返于中心城区与偏远郊区的长距离出行,和起始于城郊结合区的自由出行。该分析验证了提出算法的有效性,捕获了不同分区的潜在供需不平衡状态。

研究展望

本文的研究仍有待进一步完善:

  • 提出的聚类算法结果有赖于时空相似性的确定,本文从起点的需求量分布、终点的空间分布和终点的需求量分布定义了时空相似性,出行分区的公交地铁分布、兴趣点分布等其他特征对定义不同时空分区差异的影响有待于进一步的研究
  • 不同的六边形分区面积,以及不同的时间区间范围集计出不同的需求分布,相应的时空相似性可能存在不确定性,后续研究有必要进行不同时空颗粒度的敏感性分析