基于时空最优传输的新闻故事脉络生成方法

研究背景与意义

研究动机

互联网新闻具有更新快、来源广的特点，为人们提供了内容丰富但碎片化的信息。要了解新闻故事的全貌，通常需从不同视角、不同体裁的新闻语料中挖掘故事从开始到消亡的演变过程。

现有方法未能充分挖掘利用新闻文本中事件的时空属性，导致生成的故事脉络难以准确刻画新闻事件在时空维度上的演变过程。

应用价值

灾害应急救援

军事冲突分析

社会治理

舆情管理

方法框架

图1 基于时空最优传输的新闻故事脉络生成方法框架

新闻故事发现

对新闻文章进行文档级嵌入，根据嵌入向量相似性将不同时间片的相关新闻分配到同一个候选故事，并在候选故事中根据新闻文章关键词分布向量，使用凝聚型层次聚类完成故事发现。

事件时空信息抽取

通过命名实体识别和规则匹配提取时间表达式和地名实体，并使用实体链接模型GENRE和Wikidata数据将地名实体解析为经纬度坐标。

故事脉络生成

利用获取的时间和位置坐标，通过最优传输距离和对应的衰减函数计算新闻事件之间的时空关联，用最大生成树算法构造具有最大时空关联的故事脉络。

核心技术创新

时空最优传输距离

时间成本函数：


                            TempCost(ti, tj) = abs(days(ts_i - ts_j)) + abs(days(te_i - te_j))

空间成本函数（Haversine距离）：


                            SpatCost(pi, pj) = 2r · arcsin(√(...))

距离衰减函数

时间距离衰减（指数型）：


                            TempDecay = e^(Tdist/φ)

空间距离衰减（幂律型）：


                            SpatDecay = 1/(1 + (Sdist/δ)²)

实验数据与设置

数据集

ChineseNewsEvents

11,748篇

中文新闻文章

3,728个

新闻故事

来源：腾讯、新浪、微信、搜狐等互联网平台

ChineseNewsSameStory

33,503对

新闻数据

用于调整故事发现任务的相似性阈值

技术配置

AMD EPYC 7352 24核处理器

英伟达 RTX A6000 GPU

Pytorch框架

时间片大小：1天

相似性阈值θ：0.85

实验结果

故事发现性能比较

方法	AMI	ARI	B³-F1
Story Forest	0.282	0.197	0.577
SCStory	0.398	0.102	0.601
本文方法	0.545	0.300	0.599

注：加粗数值表示最优值

故事脉络人工评价结果

方法	相关性	准确性	关联性
Story Forest	4.00	3.66	3.72
SCStory	4.08	3.76	3.84
本文方法	4.18	3.86	4.00

评分范围：1-5分（5分最高）

性能提升

• AMI指标提升 0.147+
• ARI指标提升 0.103+
• B³-F1达到可比较性能
• 在所有评价维度均表现最优

可视化分析

• 台风艾利案例验证时空连贯性
• 雾霾限行事件分析准确性
• 故事脉络边关系更加合理
• 时空维度表达更加精确

案例展示

图2 案例主题的故事脉络可视化

台风艾利案例

本文方法成功展现了台风艾利的发展脉络：10月7日在海南东部海域，10月8日向东北影响潮州粤东，10月9日向西南折返影响珠三角的完整演变过程。

优势：边关系在时空维度上最连贯，遗漏和错误合并的事件较少

雾霾限行案例

生成了"唐山雾霾限行→邢台雾霾限行→唐山限行取消→衡水雾霾限行→石家庄雾霾限行"的合理故事脉络。

特点：相比基线方法，更好地考虑了时空距离，连接关系更加合理

消融实验分析

故事发现消融实验

实验设置	AMI	ARI	B³-F1
移除候选故事聚类	0.585	0.228	0.539
距离阈值固定为0.65	0.482	0.240	0.589
距离阈值固定为0.70	0.503	0.257	0.587
距离阈值固定为0.75	0.528	0.248	0.589
完整方法	0.545	0.300	0.599

脉络生成消融实验

图3 故事脉络生成消融实验结果

实验发现

基于时空最优传输距离的故事脉络，边关系往往连接时空距离更近的事件节点，在时空维度表达上更连贯，更符合台风事件真实发展演变过程。

结论与展望

主要贡献

提出了基于时空最优传输的新闻故事脉络生成方法
设计了两阶段无监督故事发现算法
引入距离衰减函数建模时空关联衰减规律
在多个评价指标上显著优于基线方法

未来方向

由于本研究认为一篇新闻文章围绕一个新闻事件报道，因此未能考虑一篇新闻文章内部可能存在多个事件之间的演变关系。

未来研究将：从每篇新闻文章中提取更细粒度的新闻事件，生成更为精细的故事脉络。

技术特色与优势

无监督学习

采用无监督故事发现方法，适用于动态新闻流，无需标注数据

时空建模

充分利用新闻事件的时空属性，准确刻画事件演变过程

性能优异

在多个评价指标上显著优于现有基线方法