基于案例推理和知识图谱的WRF气象模拟知识推荐研究

1 引言

地理科学所具有的区域性、综合性和复杂性特点，决定了其必须通过多维和动态视角开展系统综合研究。随着地理学研究在定量分析与系统综合方面的不断发展，地理建模与模拟分析成为对地理环境进行历史反演、现状刻画、未来预测的重要手段和方法，有效提高了地理决策能力。

与此同时，全球气候和土地利用变化导致了许多地区水资源短缺、生态系统服务退化和灾害风险增加等一系列环境问题，引起了研究学者对区域气象过程的高度关注。学者应用WRF（Weather Research and Forecasting Model）模型开展的长期、多情景模拟分析，研究了全球变暖、碳排放变化、土地利用变化等因素对城市热岛、城市洪涝、流域水质水量、生态环境等的影响。

然而，WRF模拟涉及到地理、气象等诸多领域知识，以及输入数据、空间参数、时间参数、物理方案、动力学方案等参数化方案，这些模拟知识对模拟结果的科学有效至关重要，所以成果发表中都会尽可能详细地交待相关内容；同时，由于研究问题的关注点不同、气象过程及地理环境的区域依赖性，使得不同条件下模拟知识有其独特性，而类似条件下的模拟知识又有相似性。因此，如何有效管理与共享WRF模拟知识成为科学、有效开展WRF相关模拟分析的重要问题。

                研究背景与挑战
                气象模型专业性强、模拟知识复杂
涉及输入数据、模拟方案设置等多方面
不同条件下模拟知识具有独特性和相似性
传统方法效率低下，缺乏系统化管理

            

2 案例相似性度量模型构建

本文核心在于建立一个适于衡量气象模拟知识案例相似度的方法，并以此为基础构建气象模拟案例相似度模型以实现模拟知识的推荐。构建案例相似性度量模型的技术路线如图1所示。

图1 案例相似性度量模型

2.1 案例相似性度量方法

在知识图谱案例库中每个案例都表示为一个图，其节点表示案例的名称、属性。节点之间的边表示节点之间的关系。因此综合考虑把案例相似度分为基于知识图谱结构相似度和基于案例本身的属性特征的语义相似度。

2.1.1 语义相似度度量方法

地理语义是指用于描述地理现象中的数据所对应的现实世界中事物之间的概念、含义和相互关系。借鉴路网层次化语义相似性度量模型，为了能对案例语义特征进行多维度的提取，本研究案例推荐的语义相似度由Bert语义相似度、TF-IDF相似度、Sim Hash相似度3种相似度组成。

Bert语义相似度

利用Bert预训练模型根据专业语料库再训练，将自然语句的语义信息用向量表示，用于相似度计算。

TF-IDF相似度

统计方法，结合词频(TF)和逆文本频率指数(IDF)来衡量文本相似度。

Sim Hash相似度

把文本数据映射成固定长度的二进制编码，用于文档间相似度计算，常用于文档去重或文本分类。

2.1.2 结构相似性度量方法

针对传统案例推理过程中对案例结构特征的忽视，本研究用知识图谱来存储气象模拟知识案例。一方面可以直观展示案例属性之间的关联，另一方面可以挖掘案例的结构特征。因此，本文在图数据库中利用案例结构特征进行最大公共子图的图匹配。

2.2 耦合语义和结构相似性的度量方法

气象模拟知识案例相似性度量模型由基于知识图谱的结构相似度和基于案例属性特征的语义相似度组成。式（9）为相似度公式，Sim（P,Q）来表示案例P和Q的相似度。Sim（P,Q）∈[0，1]，该值越趋近于1代表2个案例越相似，越趋近于0代表2个案例越不相似。

Sim(P,Q) = αSim_att(P,Q) + (1-α)Sim_rel(P,Q)

Sim_att(P,Q)表示语义相似度，Sim_rel(P,Q)表示结构相似度，α和(1-α)表示分别基于二者的权重。

3 气象模拟知识案例推荐系统研究

基于上述案例相似性度量模型，本文研发了基于案例推理和知识图谱的气象模拟知识推荐系统，其技术路线见图4。

图2 基于案例推理和知识图谱的气象模拟知识推荐系统技术路线

3.1 气象模拟案例库构建

运用知识图谱可以准确直观的描述案例和案例之间的关系，本文利用BiLSTM-CRF模型，提取了气象模拟知识并以三元组形式整理成案例（表1），示意数据如图5所示。

图3 案例表示示例

3.2 训练Bert语义模型及评估

3.2.1 Bert语义模型训练

在www.cnki.net网站，以"WRF模式"和"气象模拟"为关键字获得文献资料，制作生成气象模拟知识语料库。以此语料库对Bert预训练模型进行训练，该模型可以提取输入气象模拟语句的语义信息并转换成向量。本文章设置比例为7:3的测试集和验证集进行模型的评估，模型的参数见表1。

表1 Bert预训练模型参数设置
参数名称	参数值
model_type	bert
hidden_size	768
max_position_embeddings	512

3.2.2 Bert语义模型评估方法

困惑度（perplexity）是交叉熵的指数形式，可以用来评价语义模型的好坏（式（13））。其中w1,w2,...,wN代表一个句子中的N个词语，P(w1,w2,...,wN)代表这些词语序列组成一个句子的概率。困惑度是对该概率的倒数开N次方，困惑度越小代表语义模型越好。经训练困惑度perplexity=4.59，表明训练的Bert语义模型的效果良好。

perplexity = P(w1,w2,...,wN)^-1/N

3.3 AHP层次分析法确定相似度度量权重

本节采用AHP层次分析法来进行式（12）权重的确定，首先经过实验判定Bert、TF-IDF、Sim Hash相似度的重要性关系。实验选取"基于WRF模式的博斯腾湖地区暴雨数值模拟研究"案例作为输入案例，另外随机选择10个案例作为对照案例，其中案例8为输入案例。Bert、TF-IDF、Sim Hash3个的权重的初始方案如表3所示，经过实验得到最终权重方案。

由结果可知，案例7-案例9和案例4为相似案例。由于案例8与目标案例相同，所以相似度值为1，也验证了方法的准确性。通过观察上述4个相似案例，经过人工对比发现相比较于案例4和案例9，案例7的案例名称、关键词、研究方向和研究区域地理环境都与目标案例更相似，因此认为案例7与目标案例更相似。但权重3和权重4方案下，均判定案例4相似度高于案例7。

权重5和权重6方案的实验结果如图7所示，可知权重5认为案例4与目标案例相似度大于案例9与目标案例相似度，权重6则与之相反。对比分析案例4与案例9，二者都是对降雨的模拟，相比于案例9，案例4更强调暴雨特征，并且采用微物理化方案研究，因此判定案例4与目标案例更相似，所以最终3种相似度的重要性排序依次为Bert相似度、TF-IDF相似度、Sim Hash相似度。

3.4 推荐准确性评估

为了验证相似度推荐算法的准确性，本研究计算精确率、召回率和F1，用来评估推荐任务的利弊。精确率是正确识别实体数量与实际识别为正确的实体数量之比，计算公式如下：

Precision = TP / (TP + FP)

召回率是正确识别实体数量与所有正确的实体数量之比，计算公式如下：

Recall = TP / (TP + FN)

F1是综合考虑精确率和召回率的评价指标，一般来说精确率与召回率呈负相关。F1是为了平衡精确率与召回率的影响，计算公式如下：

F1 = 2 × (Precision × Recall) / (Precision + Recall)

在本研究中TP代表与目标案例相似并且被正确识别出的案例数量；FP代表与目标案例不相似但被判定为相似的案例数量；FN代表与目标案例相似但没有被正确识别出的案例数量。本研究选取10个输入案例进行测试，相似度大于0.65则认为与输入案例相似。

为了进一步验证推荐系统的稳定性，选取300个输入案例，推荐结果会给出每个案例的Top5相似。若推荐出的5个案例中有4个相似则判定该输入目标案例推荐成功，最后结果见表6，准确率达到91.33%。

表6 推荐系统的准确率
输入案例数量/个	推荐成功数量/个	准确率
300	274	0.9133

3.5 气象模拟知识推荐原型系统

本研究构建的推荐系统具备基本的案例查询、案例保存功能，并可以根据用户输入内容整合成案例并形成Cypher查询图。通过推荐得出最相似的5个案例可供用户参考。如图8所示，例如输入："北京地区降雨降雪、2018年、城市化、数值模拟、区域模式"，系统一方面提取其案例描述语义信息和关键词语义信息，另一方面把输入内容转成Cypher查询图，计算输入案例与图谱中案例的结构相似性，然后利用本研究的相似性度量模型得到最相似的5个案例。用户可以选择案例进行保存，为后续模拟研究提供参考。

图4 推荐系统的输入及查询结果界面

4 结论与展望

知识图谱可以有效地管理案例形式的气象模拟知识，并建立案例之间的联系。但目前案例推荐的相似度度量方法难以充分考虑到气象模拟案例结构特征，也无法准确衡量多类型气象模拟知识案例之间的相似度。针对上述不足，本研究基于知识图谱建立了气象模拟案例，构建了耦合图结构相似性和语义相似性的案例相似性度量模型，可以有效地表示气象模拟知识案例特征，并准确衡量气象模拟案例间相似性，从而实现了实体关系及语义相似性的综合度量机制。

结合795个优先后的气象模拟案例，应用AHP层次分析法确定相似度度量权重，包括Bert相似度、TF-IDF相似度、Sim Hash相似度和最大公共子图相似度，构造了全新的用于衡量气象模拟知识案例之间相似性的度量模型。基于气象模拟案例数据和模型评估实验，表明了相似性度量模型的有效性，准确率达到91.33%。实验来提高气象案例推荐的准确性并进行了实验。

同时，为了提高气象模拟知识的共享能力，本文基于知识图谱和案例相似性度量方法，实现了气象模拟知识推荐原型系统。本系统可以根据用户的输入转成Cypher查询图，调用相似性度量方法计算推荐最相似的案例，给出其模拟方案和相关模拟知识，为WRF相关模拟人员提供模拟参考。

此外，本研究中案例相似性度量方法没有充分考虑用户的主观需求，如模拟参数量越大越好、输入数据的开放性越高越好、模拟案例来源期刊影响因子越高越好、模拟案例的精度越高越好等个性化需求和用户偏好。后续研究中，会进一步丰富和完善气象模拟知识图谱，尤其是数据、期刊、团队等文献外部信息，推动气象模拟知识推荐的实用性。