互联网新闻具有更新快、来源广的特点,为人们提供了内容丰富但碎片化的信息。要了解新闻故事的全貌,通常需从不同视角、不同体裁的新闻语料中挖掘故事从开始到消亡的演变过程。
现有方法未能充分挖掘利用新闻文本中事件的时空属性,导致生成的故事脉络难以准确刻画新闻事件在时空维度上的演变过程。
图1 基于时空最优传输的新闻故事脉络生成方法框架
对新闻文章进行文档级嵌入,根据嵌入向量相似性将不同时间片的相关新闻分配到同一个候选故事,并在候选故事中根据新闻文章关键词分布向量,使用凝聚型层次聚类完成故事发现。
通过命名实体识别和规则匹配提取时间表达式和地名实体,并使用实体链接模型GENRE和Wikidata数据将地名实体解析为经纬度坐标。
利用获取的时间和位置坐标,通过最优传输距离和对应的衰减函数计算新闻事件之间的时空关联,用最大生成树算法构造具有最大时空关联的故事脉络。
TempCost(ti, tj) = abs(days(ts_i - ts_j)) + abs(days(te_i - te_j))
SpatCost(pi, pj) = 2r · arcsin(√(...))
TempDecay = e^(Tdist/φ)
SpatDecay = 1/(1 + (Sdist/δ)²)
来源:腾讯、新浪、微信、搜狐等互联网平台
用于调整故事发现任务的相似性阈值
方法 | AMI | ARI | B³-F1 |
---|---|---|---|
Story Forest | 0.282 | 0.197 | 0.577 |
SCStory | 0.398 | 0.102 | 0.601 |
本文方法 | 0.545 | 0.300 | 0.599 |
注:加粗数值表示最优值
方法 | 相关性 | 准确性 | 关联性 |
---|---|---|---|
Story Forest | 4.00 | 3.66 | 3.72 |
SCStory | 4.08 | 3.76 | 3.84 |
本文方法 | 4.18 | 3.86 | 4.00 |
评分范围:1-5分(5分最高)
图2 案例主题的故事脉络可视化
本文方法成功展现了台风艾利的发展脉络:10月7日在海南东部海域,10月8日向东北影响潮州粤东,10月9日向西南折返影响珠三角的完整演变过程。
生成了"唐山雾霾限行→邢台雾霾限行→唐山限行取消→衡水雾霾限行→石家庄雾霾限行"的合理故事脉络。
实验设置 | AMI | ARI | B³-F1 |
---|---|---|---|
移除候选故事聚类 | 0.585 | 0.228 | 0.539 |
距离阈值固定为0.65 | 0.482 | 0.240 | 0.589 |
距离阈值固定为0.70 | 0.503 | 0.257 | 0.587 |
距离阈值固定为0.75 | 0.528 | 0.248 | 0.589 |
完整方法 | 0.545 | 0.300 | 0.599 |
图3 故事脉络生成消融实验结果
基于时空最优传输距离的故事脉络,边关系往往连接时空距离更近的事件节点,在时空维度表达上更连贯,更符合台风事件真实发展演变过程。
由于本研究认为一篇新闻文章围绕一个新闻事件报道,因此未能考虑一篇新闻文章内部可能存在多个事件之间的演变关系。
未来研究将:从每篇新闻文章中提取更细粒度的新闻事件,生成更为精细的故事脉络。
采用无监督故事发现方法,适用于动态新闻流,无需标注数据
充分利用新闻事件的时空属性,准确刻画事件演变过程
在多个评价指标上显著优于现有基线方法