国际大洋钻探计划旨在利用远洋研究平台恢复海底沉积物和岩石中记录的数据,探索地球的历史和演变,是地球科学领域一项成效显著的国际合作项目。1968年来,该项目历经4个阶段,先后使用4个钻探平台在全球各大洋执行航次311个,钻井4124口,钻穿沉积物和基岩超100万m,取芯长度超46.7万m(截至2023年5月)。项目获得的观测数据以多源异构的形式存储于报告文献与数据库之中(图1)。
当前,科学研究正逐步迈入以数据驱动的第四范式,深时数字地球计划在地学研究领域为我们勾勒了数据揭示宇宙、地球和生命演化过程的新蓝图。通过对国际大洋钻探科学数据采集、处理、建模、存储、表达、分析与应用,以有效的数据整合支持高效的信息聚合和知识挖掘,成为数据驱动国际大洋钻探科学发现的重要基础。
国际大洋钻探数据具有科学大数据体量庞大、多源异构、时空明确、种类复杂、数据孤岛等典型特征,未能充分遵循FAIR原则,获取和综合利用不便。研究人员尝试通过剖析数据内容并构建元数据标准与数据集分类体系,助力国际大洋钻探科学数据汇聚。然而,这种计算机视角下的"属性"模式或者传统GIS视角下的"空间+属性"模式难以充分表达钻探对象的层次结构、关联关系,亟待进一步加深与扩展对信息内涵的理解、表达和挖掘。
国际大洋钻探科学数据在勘探与分析过程中获取与形成。每一个大洋钻探项目具有完整的流程,环节包括建议提出、航线规划、站位选取、目标遴选、数据采集、结果分析、成果发现等。在国际大洋钻探中,逐步形成了以"钻井-测井-录井"为核心的全生命周期钻探流程和以"航次-站位-钻孔-岩芯-岩芯段-样品"为核心的多层级多粒度实体关联关系(图2)。
在构建国际大洋钻探科学数据的对象化描述模型前,首先需要建立一种兼顾分类和颗粒度的大洋钻探科学数据分类体系。根据大洋钻探数据的特点,顾及钻探过程与数据生命周期、学科体系与多源异构内容,从时间、地点、人物、事物、事件、现象等维度对国际大洋钻探科学数据进行分类表达(图3)。
基于多重要素分类与多重维度描述,本文以面向对象的方式抽象和封装国际大洋钻探科学数据,构建全生命周期的国际大洋钻探科学数据模型,以结构完整、耦合度低、冗余度低的形式整合国际大洋钻探科学数据,提升数据的灵活性和扩展性。基于采集、加工、传输、使用的数据完整生命周期角度,将国际大洋钻探科学数据内容抽象为基本信息、钻井、测井和录井4个主要模块,并对每个模块中的要素依照不同维度进行表达(图4)。
当前,国际大洋钻探科学数据具有大量、高速、多样、价值性和真实性的科学大数据的典型特点,亟待进行汇编和整合。具体而言,现在的数据组织形式和共享方式在如下方面存在问题有待改进:①数据组织不统一,数据分散在不同平台数据库中,缺少联系与沟通;②数据检索条件单一,现有数据库建设较早,检索方式主要基于航次号和样品号,缺乏基于其他属性以及组合多个条件的检索方式;③数据分析应用困难,缺乏多样化的专业性数据可视化、挖掘和分析工具,未能充分发挥数据作用。
根据总体设计思想进行平台总体架构规划,架构主要分为资源层、聚合层、服务层和应用层(图6),各层的功能和关系如下:
(1)冷热数据分离存储的数据存储实现
基于国际大洋钻探科学数据模型,使用对象关系数据库PostgreSQL(PG)作为其基本的物理组织形式与结构化数据的永久储存形式,构建基本信息、钻、测、录等模块和航次、站位、钻孔、岩芯、岩芯段、样本、岩芯实验结果等数据表的组织结构,依据Id建立航次-站位-钻孔-岩芯-样本的级联关系。PG级联操作相对复杂、大数据整合能力相对较差、查询性能存在瓶颈、对非结构化数据支撑有限,引入弹性搜索引擎(Elasticsearch,ES)作为基本信息、钻井、测井、录井中标准岩芯等热数据的物理存储方式(图7)。
(2)多模式的复杂场景要素按需整合
国际大洋钻探科学数据多源异构、种类繁多,为在组织、关联、排序与呈现中充分发挥数据价值,需要对数据条分缕析、删繁就简。
对复杂场景要素进行信息分类与维度分级,以支撑要素整合、数据分析、模式发现与知识挖掘。通过对大量案例的分析,从时间、地点、事物、事件、现象、场景等分类角度出发,总结当前研究者对数据的查询与整合逻辑(图8)。
(3)可定制可配置的钻孔数据专题制图
以专题图形式在线可视化数据,为用户提供直观的数据解释和制图服务。为实现各学科数据可配置、可通用地统一,对常见展示形式进行梳理和抽象,将多阶段航次报告图件抽象为图9所示的10种形式。
为避免学科与模板、数据与样式绑定,基于数据和样式分离思想,分别设计钻孔数据模型和样式模型。数据模型以钻孔-列-数据为组织结构;样式模型与数据模型对应,通过类型、位置、布局配置绘制方式;定制配置模块融合数据与样式模型,将图体拆分为独立对象;可视化绘制模块以深度作为绘制的统一参考,对复杂数据开展抽稀(图10)。
基于顾及全生命周期的国际大洋钻探科学数据模型以及多种方法与能力的设计,本研究开发了具有数据有效存储、高效查询、多样整合、专题制图能力的国际大洋钻探科学数据整合和服务验证平台。平台以国际大洋发现计划南中国海Exp349、Exp367、Exp368航次的数据作为实验数据,基于阿里云服务器,使用PG和ES作为数据存储方式,.NET作为后端开发语言,Vue.js作为前端开发框架。
(1)有效的数据组织形式和良好的数据查询效率。平台基于统一数据模型设计物理模型,实现数据的查询。在验证实验中使用ES查询结构化数据比PG具有较大的效率提升(图11)。
(2)多模式的复杂场景要素按需整合(图12)。支持通过点选、框选实现地点查询,通过航次航线选择实现场景查询,通过年代时间轴选择实现时间查询,通过自然语言搜索或条件检索实现事物查询,并通过列表、三维模型、知识图谱、钻孔柱状图等形式可视化查询结果。
为验证本平台多要素按需整合能力,设计如下需求场景开展整合:①位于赤道东太平洋、拥有连续新生代数据记录的钻孔;②位于孟加拉湾,拥有完整始新世晚期粘土成分记录的钻孔。结果如图13所示。
(3)可定制可配置的专题制图服务(图14)。平台根据常见的学科数据展示形式可一键生成内置样式,同时也支持数据与样式的自定义与复用,提供直观的数据样式展示和选择列表接口。
本文主要在国际大洋钻探科学数据模型构建和数据整合应用框架实现两方面开展了研究工作,并进行了验证平台的开发实践。将从数据模型和平台能力的角度出发,与现有模型与平台进行对比。
本文基于对国际大洋钻探科学数据的产生过程和组织形式的详细分析,顾及要素的分类体系与描述维度,构建全生命周期的国际大洋钻探科学数据模型。当前,在国际大洋钻探领域依据属性关系构建了相对结构化、标准化的有关数据模型,一方面,这些模型在相似的基础上存在一定程度的扩展与修改,数据间并不完全互通;另一方面,基于属性的模型无法直观地反映时间、空间、语义等信息,不便于数据的整合与服务。
国际大洋钻探领域较为成熟的平台主要包括LIMS、J-CORES、MSP数据库、测井数据库、SEDIS、文献数据库与学科数据库等,表1对本平台与现有数据库平台的数据组织、查询和展示能力进行对比。
能力分析 | I | II | III | IV | V | VI |
---|---|---|---|---|---|---|
数据组织 | □ | △ | △ | △ | □ | ○ |
查询方式 | □ | △ | △ | □ | ○ | ○ |
展示形式 | □ | △ | □ | △ | △ | ○ |
注:代号与数据库平台的对应关系:I—LIMS、II—J-CORES、III—MSP数据库、IV—测井数据库、V—SEDIS、VI—本平台;能力对比的符号含义:○—完备/丰富;□—较完备/较丰富;△—中等。
国际大洋钻探科学数据具有来源多样、类型繁多、级联复杂、体量庞大等特点,对大规模数据的一体化组织管理、高效调度与有效可视化提出了挑战。本研究基于分类体系与描述框架,构建了一种顾及全生命周期的国际大洋钻探科学数据模型,利用对象化的思想将国际大洋钻探科学数据内容抽象为基本数据、钻井数据、测井数据和录井数据四个主要模块,使多源异构数据得以抽象并表达。
在统一数据模型的基础上,本研究设计了国际大洋钻探科学数据整合和服务应用框架,实现了数据组织管理、数据查询整合和专题制图服务。结合上述设计和方法实现,本研究开发了集数据查询整合与交互式可视化为一体的在线验证平台,为实现数据的科学管理、高效应用开展探索。本研究提出的方法在一定程度上提高了大洋钻探科学数据可找、可用、互联、互通的能力,从而为国际大洋钻探地学大数据的发掘和应用提供帮助。
本文提出的大洋钻探科学数据模型从要素分类和描述维度上对组织模型与描述方式进行了设计与实现,在未来可以进一步结合知识图谱和深度学习等技术手段,对国际大洋钻探要素的属性特征、演化过程和作用机制进行信息推荐、智能问答、知识推理、演化分析,实现更高水平的数据驱动科学问题发现。
* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。