1. 引言

地球表层系统(以下简称"地表系统")是地球各圈层交互作用和人类活动最为活跃的区域,是由大气圈、水圈(含冰冻圈)、生物圈、土壤圈和人类圈所构成的地表自然社会综合体,与周围的地球圈层存在物质能量交换关系,是一个开放的复杂次级巨系统,其数据覆盖面广、类型丰富、变化快速、数据海量且开发潜力巨大。

地表系统开放科学数据涵盖地理空间数据、环境数据、气象数据、遥感数据、地球观测数据等多来源、多类型数据集。

数据来源丰富

随着遥感技术、地面观测网络和地球科学研究的发展,地表系统开放科学数据来源更加丰富。

开放数据平台分布广泛

为更好共享和利用地表系统开放科学数据,各国纷纷建立了开放数据平台。

数据标准化需求迫切

地表系统开放科学数据的标准化和互操作是数据共享和利用的关键。

然而,由于地表系统开放科学数据分散在不同的存储库、平台和系统中,不同系统采用的数据格式和类型不同,提供的元数据信息也略有不同,阻碍了地表系统开放科学数据的进一步关联、集成和共享,也阻碍了科学数据价值的充分发挥和科研效益的最大化。

2. 技术架构

地表系统开放科学数据目录关联网络构建总体流程包含4个阶段:科学数据本体构建、科学数据目录挖掘、科学数据目录关联网络构建及共享程度评价。

地表系统开放科学数据目录关联网络构建技术路线

图1 地表系统开放科学数据目录关联网络构建技术路线

科学数据本体构建

旨在建立地表科学数据本体,通过采用"自上而下"与"自下而上"相结合的方法,构建动态可持续更新高质量科学数据本体,为关联网络构建、共享程度评价提供语义支撑。

科学数据目录挖掘

基于本体支持下对数据网站、论文等多源异构数据进行爬取,通过数据存储、数据检测、数据清洗和分类编目形成数据目录。

关联网络构建

利用数据目录中元数据的特征通过特征选取、关联和计算形成RDF表示,继而构建形成涵盖全球地表开放科学数据的大规模关联网络。

共享程度评价

以构建的大规模关联网络为基础,通过基于复杂网络和知识图谱等多视角、多层次进行开放数据重要性与共享质量评估。

3. 关联网络发展现状比较分析

3.1 基本特征分析

3.1.1 数据来源

地表系统关联网络中元数据来源主要有3种:

  1. 互联网上公开的开放数据网站或平台,此类网站通常包含大量的数据集信息,例如Google Dataset Search、Data.gov、NASA等
  2. 由志愿者和组织收集、共享数据形成,如OSM、Wikidata和LinkedGeoData等项目是典型例子
  3. 研究论文或期刊网站(如Geoscience Data Journal)中为支持研究结果或结论公开发布的数据集

3.1.2 自动化程度

关联网络的自动化程度指构建过程中人工参与程度,可分为人工、半自动和自动。

人工构建

数据需人工收集,数据间的关系是由人工判断并添加

半自动构建

通过算法收集数据并初步判断数据间关系,人工进一步筛选和修正

自动构建

所有数据收集和关系通过算法生成,只需少量人工参与

3.1.3 更新方式

关联网络在实例层的更新方式可分为增量式更新、全量式更新和增量-全量混合更新。

3.2 构建技术分析

3.2.1 关联指标体系构建

关联地表系统开放科学数据,首先需建立一个完整的关联指标体系,以表示数据中模糊、不精确和不完全的知识与关系。关联指标选取至关重要,可为语义抽取,特别是逐级关联计算奠定基础。

3.2.2 "时间-空间-内容"特征提取及表示

地表系统数据目录的特征主要有2个来源:

  1. 从科学数据目录字段信息中获取相应特征,如时间要素项表示时间特征,空间范围项表示空间特征,关键词项和数据分类项表示内容或主题特征等
  2. 从数据集名称及摘要中进行时间、空间和内容等特征提取
时间特征提取
  • 基于规则的方法
  • 基于词性标注的方法
  • 基于统计方法
空间特征提取
  • 基于规则的方法
  • 基于词性标注的方法
  • 基于统计方法
内容特征提取
  • 基于领域词汇集的方法
  • 机器学习方法
  • 深度学习方法

3.2.3 特征关联与计算

开放科学数据特征关联与计算旨在根据数据特征的语义关系形成描述元数据间关系的词汇集,基于词汇集计算数据特征间的关联度。

内容关联关系

主要包含内容类别关系和内容语义关系

  • 余弦相似度
  • 词嵌入模型
  • 基于知网的相似度算法
空间关联关系

分为拓扑关系、度量关系和顺序关系

  • 9-交模型
  • 区域连接演算RCC理论
  • 深度学习判断方法
时间关联关系

包含时间拓扑关系和时间度量关系

  • Point Algebra模型
  • 时间区间代数理论
  • 专家打分与数据训练

3.2.4 关联网络构建与共享程度评价

在完成特征提取、关联关系及关联度计算后,需要以有关联关系的2个元数据的URI作为RDF的主语和宾语部分,其关联关系或关联度为边构成RDF。

数据存储方式
  • RDF数据库:灵活性、语义表示和推理能力、数据互操作性和可扩展的图形查询能力
  • 图数据库:高效地存储、查询和分析复杂的关联数据,提供灵活的数据模型和强大的图形查询能力
评价指标
  • 复杂网络角度:网络拓扑结构、社区结构、中心性指标
  • 知识图谱角度:实体与关系准确性、知识完整性、可扩展性和可更新性

4. 建议

在对现有地球表层关联网络基本特征和构建技术比较分析的基础上,本文发现,当前关联网络泛化能力不足,关联网络的构建还不够完善;特征关联技术方法还不够成熟;计算关联度时,对于各个特征的权重分配偏向主观。基于上述比较分析结果,从开放科学数据本体、地学知识复杂关系抽取与推理和构建技术分析3个方面对地表关联网络的构建及评价提出以下几点展望:

构建高质量、全覆盖的地表系统开放科学数据本体

应对地表系统开放科学数据进行全方位、多角度建模,形成能够揭示地表系统开放科学数据多维度、多尺度、多类型特征的统一表达模型,并利用自上而下的方式,系统开展地表系统开放科学数据本体构建,形成包含数据形态、空间、时间、来源、主题等完善数据本体库。

考虑数据目录特征的提取方法集成融合与多维度表征

未来数据目录特征提取方面可将基于规则、机器学习、深度学习、GPT大模型等多种方法集成融合,对不同类型、表达方式的科学数据目录进行高置信抽取,降低自然语言表达的不一致性及冗余性。

考虑顾及"时间-空间-内容"地学知识复杂关系及推理

未来的研究中需要从"时间-空间-内容"多层次上考虑地学知识间存在的复杂语义关系,并基于构建的关联网络图谱进行知识嵌入表示与推理,更好的服务数据挖掘与共享。

发展地表系统开放科学数据共享质量评价方法

基于构建的地表系统开放科学数据目录关联网络,将地表层系统数据关联网络抽象为复杂网络,并充分利用复杂网络理论中的度中心性、近性中心性、介性中心性以及特征向量中心度等节点中心性度量指标。

建立面向多语言的地表系统开放科学数据关联网络方法

需要综合运用数据收集、标准化、语言处理、数据挖掘和机器学习等技术手段,建立面向多语言的地表系统开放数据关联网络,以实现数据的有效关联和广泛应用。

研究多维定量的基于人工智能下的数据关联方法与关联度计算方法

需要深入剖析地表开放科学数据目录主题内容、时间、空间等本质属性,及数据格式、类型结构、坐标基准等形态特征,选取用于关联的数据特征,通过被选特征之间的综合语义关系,研究建立多维、定量的地表系统开放科学数据综合关联模型。

提升地表系统开放科学数据关联网络应用成效

在未来的关联网络研究中,应注重具体实践落地并在领域推广应用,如开展地球系统湖泊环境案例应用、双碳目标的固碳速率案例应用、西部生态屏障的蒙古高原案例应用等研究。

5. 结论

关联网络可帮助科学家更加高效地管理和利用地表数据,可将不同来源的数据资源进行关联和整合,形成统一的数据资源库,方便不同用户和应用程序的使用和共享。

本文首先分析了地球表层系统开放科学数据关联网络的内容、目标和技术架构,重点总结与比较分析了现阶段关联网络的发展现状及国内外应用情况,最后从开放科学数据本体、地地学知识复杂关系抽取与推理和构建技术分析3个方面展望了未来研究趋势。

随着对地观测、物联网监测、互联网、5G等新一代信息技术,以及开放数据共享理念的深入,网络上开放共享的地球表层系统数据爆炸式增长,地球表层系统开放大数据已经形成。如何快速挖掘发现并利用这些地球表层系统开放数据,是大数据时代下,地球表层系统数据共享新的发展趋势和前沿研究方向。

技术展望

  • 结合自然语言处理、机器学习、深度学习、网络爬虫等前沿技术
  • 建立地球表层系统开放数据共享门户网站、数据服务、数据期刊等多类型域名与网络地址探测方法
  • 获取地球表层系统开放数据共享网站列表

数据展望

  • 挖掘形成符合国际地理信息元数据标准ISO19115的地球表层系统全球开放数据目录
  • 为关联网络构建、共享质量分析等任务提供数据资源支撑

* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。