城市是由各种形式的功能区组成的开放的、复杂的巨大系统。城市功能区不仅承载着社会经济发展的各项职能,而且作为城市人群活动的基本单元,为人类活动提供特定功能,承担着特定的出行与活动需求。对城市功能区的精准识别,可以帮助决策者更好地了解城市功能结构,从而促进人地系统与城市可持续发展的耦合。
人类在城市区域中的日常活动和在区域间的移动行为可以潜在反映城市的功能结构,因此从人群移动的角度探究城市区域间的交互特征以及区域内部的语义特征,并通过特征表示学习,可以为城市功能区识别提供新的路径。
传统方法主要利用遥感影像的光谱、纹理和雷达散射系数等空间形态特征,或者利用 POI(Point of Interest)所反映的社会经济特征来进行城市功能区识别。然而,随着城市建成区中的人造设施日益复杂,基于遥感影像视觉特征来识别功能区的方法变得异常困难,而基于 POI 数据的识别结果仅仅从区域的静态特征来认识城市功能,没有结合区域的动态特征。
为解决这个问题,许多研究开始利用社交媒体、手机定位、出租车轨迹等社会感知大数据,从人群移动模式着手揭示城市功能。然而,仅采用单一数据源进行城市功能区的识别对城市特征的提取不够全面。因此,越来越多学者通过融合 POI 数据与社会感知数据来识别城市功能区。
综合相关研究可以发现,融合多源数据进行城市功能区识别仍存在两个局限性:
针对上述问题,本研究提出了一种基于手机定位数据和 POI 数据的融合区域嵌入表示的城市功能区识别框架。该框架一方面建模区域间的动态交互特性,全面捕捉6个不同时间段中人群流动的空间关系;另一方面深入挖掘 POI 数据中蕴含的大尺度空间特征信息,通过引入能够量化 POI 公众认知度的 TF-IDF 指数,精细刻画区域语义特征。此外,该框架通过有效的区域特征融合,实现了区域间的信息共享,并最大限度地减少特征冗余,从而提升了模型的表示能力和识别精度。
对手机定位数据进行清洗,识别有效的用户停留点,生成用户出行 OD 数据并将其与路网区域进行匹配;对 POI 数据进行剔除异常值和筛选合理类别的处理。
利用 Node2vec 算法挖掘区域间的空间交互特征,采用 GloVe 模型提取 POI 特征,结合 TF-IDF 指数,捕获 POI 数据中蕴含的全局空间特征信息。
通过多头注意力机制方法融合区域特征,充分捕捉特征间的关系和区域间的信息共享,生成城市功能区识别结果,并进行准确性验证。
Node2vec 能够学习图中节点的同质性和结构性。本研究通过构建以路网区域为节点的人群出行网络,并利用Node2vec算法探究不同区域的空间交互特征。具体步骤如下:
真实物理空间中的城市人群活动可以映射成移动网络空间中的出行有向图,即以城市路网区域为节点,城市人群在区域之间的流动为边。将用户出行划分成为6个时间段:早高峰(7—9时)、上午工作时间(9—11时)、午餐时间(11—13时)、下午工作时间(13—17时)、晚高峰(17—19时)和晚间娱乐时间(19—23时)。
Wtij = ftij × (ftij/ftj) × e-0.1 × dtij
其中,ftij表示在第t时段内,从节点Ri到达节点Rj的出行量;dtij表示该时段内从节点Ri到达节点Rj的所有出行的平均距离,而ftj表示在该时段内从图中所有节点到达节点Rj的出行量总和。
人类活动通常围绕着POI进行,城市中POI的分布类似于自然语言语料库中的词频分布,均遵循幂律分布,而GloVe模型能够捕捉语料库中的全局统计信息。因此,本研究使用GloVe模型来探究城市不同区域的语义特征。具体步骤如下:
区分类型 | POI类别 |
---|---|
密度型 | 住宅小区、餐饮美食、商业金融、汽车服务、休闲娱乐、公司企业、政府机构、医疗服务、科研教育、基础设施 |
认知型 | 车站(长途汽车站)、火车站、大型医院、公园广场、风景名胜、学校 |
为了反映POI在地理空间中的分布特征,并保持相邻POI之间的位置关系,本研究参考了基于POI缓冲区的文档构建方法。通过语料库的构建,词的上下文关系能够在一定程度上揭示POI的空间分布和位置关系。
Rνeci = ∑Nj=1 typeνec(Pi,j) · eTF-IDFi,j/N
在提取了区域各时段的空间交互特征以及区域的语义特征后,需要设计融合方法将其整合成一个综合的区域表示向量,在此基础上结合部分人工标注的功能区进行分类,得到城市功能区的识别结果。
很多研究采用元素求和、平均或拼接进行多特征的聚合,但这些方法往往存在信息丢失和维度灾难的问题,导致后续分类任务效果不佳。因此,本研究选择采用多头注意力机制进行特征的融合,在功能区的识别任务中,该机制可以深入挖掘输入特征之间的相关性,从而赋予各时段区域的空间交互特征和区域的语义特征不同的权重,突出具有重要性的特征,最终获得包含区域综合信息的区域表示向量。
本研究选取福州市三环快速路(三环)以内为研究区域,涉及鼓楼区、台江区、晋安区和仓山区等区县的城市土地,这些地区基本涵盖了福州市中心城区的核心区域,是全市建设用地最为密集的地带,包含多种功能类型的城市建设用地。本研究利用OpenStreetMap(OSM)数据将研究区划分为路网区域。
本研究所采用的手机定位数据购自第三方数据服务商,融合了GPS、WIFI和蓝牙等多种技术进行定位,定位误差在5~50 m以内,涵盖了2023年3月6日—3月12日约140万个福州市手机用户的数据,每条数据经过脱敏处理,包含脱敏ID、经度、纬度和定位时间等字段。
研究区的POI数据来源于高德开发者平台,包含2022年分布在该区域的119 752条数据记录,该数据集具有多个分类级别的POI记录。对原始POI数据进行去重、坐标转换、投影和裁剪操作,并且去除了一级分类中的道路附属设施、地名地址信息、室内设施以及通行设施的记录,最终选择剩余的18个一级POI类型用于后续实验,选择三级分类进行POI特征向量的计算。
本研究采用Node2vec算法提取了6种时段下区域的空间交互特征,并使用GloVe模型提取了POI类型的表示向量,为了平衡模型的表达能力和计算效率,将2种特征的嵌入维度均设置为64维。为了学习到区域的同质性和结构性,使用Node2vec算法时将参数p和q分别设置为0.5和2.0。对于GloVe模型,为了确保模型的收敛性和训练效果,将共现窗口大小设置为5,训练的迭代次数设置为40。
通过比较工作日和周末人群在同一时间段内的出行,可以发现在早晚高峰时段区域特征具有显著的不同,在工作时段的特征具有一定的相似性,而在晚间娱乐时段的特征具有很强的相似性且周末出现了更强的空间交互性,这说明基于活动模式的空间交互特征具有较强的特征区分度。
不同类别的POI显示出明显的聚类特征,具有相似语义特征的POI彼此接近。例如,商业住宅和生活服务类彼此聚集,体现了其功能上的紧密关联;风景名胜服务的周围则分布着很多餐饮购物服务,这样的分布充分反映了人们日常活动的实际需求。
实际上,对于城市功能区的识别并没有公认的分类体系。因此,本研究根据人群出行活动的特点,同时结合《城市用地分类与规划建设用地标准》,将功能区初步划分为住宅、工业、商业、公共管理与公共服务以及休闲观光5种类型。为了生成用于训练城市功能区识别的样本,本研究结合《福州市城市总体规划(2011—2020年)中心城区用地规划图》、高德街区影像图以及实地调研的结果作为参考,标注了120个区域样本,确保了样本的可靠性。
从识别结果可以看出,研究区内住宅区的分布范围最广,且占地面积最大,达到68.3 km2。其次是混合功能区,占地38.2 km2,工业区和公共管理与公共服务区分别占地19.3 km2和16.6 km2,休闲观光区和商业区的的分布相对较少,占地面积分别为12.7 km2和8.2 km2。
在整个研究区内均有分布,尤其在中部和西南部。中部包括鼓楼区和台江区,有许多旧式住宅区,是福州市的传统居民区。西南部主要是一些典型的成熟住宅区,呈现连片分布的特点。
主要集中在南部的仓山区和东北部的晋安区,这些区域内有多个工业基地和产业园区。如晋安区的祥杰智慧产业园;仓山区的金山工业园区的浦上片和福湾片等,这些工业区具有明显的空间聚集效应。
是居民消费购物以及商务办公的主要场所,拥有大型购物中心和众多商业写字楼。在台江区的鳌峰洲(金融街CBD)、达道(中亭街传统商圈)和宁化(苏万宝商圈)等区域有成片分布的商业区。
主要包括政府机构、大型医院、会展中心和学校。政府机构主要分布在福州的中心城区鼓楼区;大型医院和中小学在鼓楼区和晋安区分布较多;会展中心和高校多分布在仓山区。
为了对识别结果进行量化分析,本研究引入了Kappa系数和总体精度(OA)作为评估指标。针对分类后的功能区,本文随机选择了30个区域进行检验,将分类结果与从高德地图获取的真实功能区类别进行比较。混淆矩阵结果显示,总体精度OA为81%,Kappa系数的值为0.77,表明识别结果与真实区域功能之间具有较强吻合性。
为进一步验证本研究提出方法的有效性,选择了本领域常用的两种方法进行对比分析。结果显示,本文方法的Kappa系数和OA值均高于基于DTW_KNN的方法和基于Word2Vec的方法。DTW_KNN方法主要依赖时序向量表达区域间的交互作用,但忽略了区域的全局影响,最终仅凭流量特征聚类得到的功能区划分结果难以区分功能结构复杂的区域。Word2Vec的方法虽然考虑了POI的数量特征和空间分布,且通过高维向量表示了不同区域的语义特征,得到了比DTW_KNN更好的分类效果,但因其未考虑公众对POI的认知程度以及全局特征,分类结果仍不够精确。
方法 | Kappa | OA/% |
---|---|---|
DTW_KNN | 0.41 | 51 |
Word2Vec | 0.51 | 60 |
本文方法 | 0.77 | 81 |
本研究针对城市功能区识别中区域特征挖掘以及融合不足的问题,提出了一种基于Node2vec和GloVe模型的区域嵌入表示融合方法,用于城市功能区的识别。以福州市三环以内区域为例,提取了区域的多时段空间交互特征和语义特征,并利用多头注意力机制充分融合这些特征以进行功能类别识别。主要结论如下:
研究通过引入出行量和出行距离,构建了工作日和周末在不同时间段的用户出行带权有向图,并基于此进行Node2vec模型训练,这一方法能够有效捕捉各区域间在不同时间段的动态联系,同时获取具有区分性的区域表示向量,为后续功能区域的识别提供了丰富的特征信息。
不同于以往仅通过加权平均值获取区域特征的方法,本研究在利用GloVe模型获取POI类别特征向量后,引入了TF-IDF权重计算法来评估区域内各POI类别的重要性,挖掘了POI中大尺度的空间特征信息,也提取到了更具代表性的区域语义特征向量。这样的方法能够更准确地反映区域内不同POI的实际影响,提高功能区识别的精度。
通过充分挖掘手机定位数据中反映的真实人群在特定时段下的动态空间交互特征,并融合具有空间特征性质的POI静态语义功能,该方法得到的识别结果更加全面且贴近实际人群行为。方法的整体OA值达到81%,Kappa系数为0.77,与传统DTW_KNN方法和Word2Vec方法相比,识别精度分别提高了30%和20%。
本文通过融入区域嵌入表示的方法进行城市功能区的识别,取得了不错的效果,现对需要进一步解决的问题进行以下几个方面的讨论: