地球表层系统(以下简称"地表系统")是地球各圈层交互作用和人类活动最为活跃的区域,是由大气圈、水圈(含冰冻圈)、生物圈、土壤圈和人类圈所构成的地表自然社会综合体,与周围的地球圈层存在物质能量交换关系,是一个开放的复杂次级巨系统,其数据覆盖面广、类型丰富、变化快速、数据海量且开发潜力巨大。
地表系统开放科学数据涵盖地理空间数据、环境数据、气象数据、遥感数据、地球观测数据等多来源、多类型数据集。
随着遥感技术、地面观测网络和地球科学研究的发展,地表系统开放科学数据来源更加丰富。
为更好共享和利用地表系统开放科学数据,各国纷纷建立了开放数据平台。
地表系统开放科学数据的标准化和互操作是数据共享和利用的关键。
然而,由于地表系统开放科学数据分散在不同的存储库、平台和系统中,不同系统采用的数据格式和类型不同,提供的元数据信息也略有不同,阻碍了地表系统开放科学数据的进一步关联、集成和共享,也阻碍了科学数据价值的充分发挥和科研效益的最大化。
地表系统开放科学数据目录关联网络构建总体流程包含4个阶段:科学数据本体构建、科学数据目录挖掘、科学数据目录关联网络构建及共享程度评价。
图1 地表系统开放科学数据目录关联网络构建技术路线
旨在建立地表科学数据本体,通过采用"自上而下"与"自下而上"相结合的方法,构建动态可持续更新高质量科学数据本体,为关联网络构建、共享程度评价提供语义支撑。
基于本体支持下对数据网站、论文等多源异构数据进行爬取,通过数据存储、数据检测、数据清洗和分类编目形成数据目录。
利用数据目录中元数据的特征通过特征选取、关联和计算形成RDF表示,继而构建形成涵盖全球地表开放科学数据的大规模关联网络。
以构建的大规模关联网络为基础,通过基于复杂网络和知识图谱等多视角、多层次进行开放数据重要性与共享质量评估。
地表系统关联网络中元数据来源主要有3种:
关联网络的自动化程度指构建过程中人工参与程度,可分为人工、半自动和自动。
数据需人工收集,数据间的关系是由人工判断并添加
通过算法收集数据并初步判断数据间关系,人工进一步筛选和修正
所有数据收集和关系通过算法生成,只需少量人工参与
关联网络在实例层的更新方式可分为增量式更新、全量式更新和增量-全量混合更新。
关联地表系统开放科学数据,首先需建立一个完整的关联指标体系,以表示数据中模糊、不精确和不完全的知识与关系。关联指标选取至关重要,可为语义抽取,特别是逐级关联计算奠定基础。
地表系统数据目录的特征主要有2个来源:
开放科学数据特征关联与计算旨在根据数据特征的语义关系形成描述元数据间关系的词汇集,基于词汇集计算数据特征间的关联度。
主要包含内容类别关系和内容语义关系
分为拓扑关系、度量关系和顺序关系
包含时间拓扑关系和时间度量关系
在完成特征提取、关联关系及关联度计算后,需要以有关联关系的2个元数据的URI作为RDF的主语和宾语部分,其关联关系或关联度为边构成RDF。
在对现有地球表层关联网络基本特征和构建技术比较分析的基础上,本文发现,当前关联网络泛化能力不足,关联网络的构建还不够完善;特征关联技术方法还不够成熟;计算关联度时,对于各个特征的权重分配偏向主观。基于上述比较分析结果,从开放科学数据本体、地学知识复杂关系抽取与推理和构建技术分析3个方面对地表关联网络的构建及评价提出以下几点展望:
应对地表系统开放科学数据进行全方位、多角度建模,形成能够揭示地表系统开放科学数据多维度、多尺度、多类型特征的统一表达模型,并利用自上而下的方式,系统开展地表系统开放科学数据本体构建,形成包含数据形态、空间、时间、来源、主题等完善数据本体库。
未来数据目录特征提取方面可将基于规则、机器学习、深度学习、GPT大模型等多种方法集成融合,对不同类型、表达方式的科学数据目录进行高置信抽取,降低自然语言表达的不一致性及冗余性。
未来的研究中需要从"时间-空间-内容"多层次上考虑地学知识间存在的复杂语义关系,并基于构建的关联网络图谱进行知识嵌入表示与推理,更好的服务数据挖掘与共享。
基于构建的地表系统开放科学数据目录关联网络,将地表层系统数据关联网络抽象为复杂网络,并充分利用复杂网络理论中的度中心性、近性中心性、介性中心性以及特征向量中心度等节点中心性度量指标。
需要综合运用数据收集、标准化、语言处理、数据挖掘和机器学习等技术手段,建立面向多语言的地表系统开放数据关联网络,以实现数据的有效关联和广泛应用。
需要深入剖析地表开放科学数据目录主题内容、时间、空间等本质属性,及数据格式、类型结构、坐标基准等形态特征,选取用于关联的数据特征,通过被选特征之间的综合语义关系,研究建立多维、定量的地表系统开放科学数据综合关联模型。
在未来的关联网络研究中,应注重具体实践落地并在领域推广应用,如开展地球系统湖泊环境案例应用、双碳目标的固碳速率案例应用、西部生态屏障的蒙古高原案例应用等研究。
关联网络可帮助科学家更加高效地管理和利用地表数据,可将不同来源的数据资源进行关联和整合,形成统一的数据资源库,方便不同用户和应用程序的使用和共享。
本文首先分析了地球表层系统开放科学数据关联网络的内容、目标和技术架构,重点总结与比较分析了现阶段关联网络的发展现状及国内外应用情况,最后从开放科学数据本体、地地学知识复杂关系抽取与推理和构建技术分析3个方面展望了未来研究趋势。
随着对地观测、物联网监测、互联网、5G等新一代信息技术,以及开放数据共享理念的深入,网络上开放共享的地球表层系统数据爆炸式增长,地球表层系统开放大数据已经形成。如何快速挖掘发现并利用这些地球表层系统开放数据,是大数据时代下,地球表层系统数据共享新的发展趋势和前沿研究方向。
* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。