研究背景与意义

遥感技术自20世纪60年代首次应用于地球观测以来,已发展成为获取地球表层信息的重要手段。人类可通过卫星、航空和地面传感器等多种平台获取遥感数据,能够在不同时间和空间尺度上对环境变化、资源分布以及自然灾害等进行动态监测。随着时空分辨率的显著提高、模态类型的不断增多,遥感数据成为生态环境监测、灾害应急响应和自然资源调查等领域不可或缺的重要数据来源。

面临的挑战

与遥感数据的快速增长相应,遥感信息处理技术在大区域、实时化与高精度方面也面临诸多挑战,尤其在多源异构数据的整合处理中,受到数据异构性、高维度等因素制约,海量遥感数据难以迅速转化为可用信息。

  • 气候变化、生态退化、极端天气和城市化等全球性问题的研究,需要从遥感数据中获取多尺度、多参量的地表动态信息
  • 在灾害监测领域,如水灾、地震和森林火灾等突发事件中,快速处理和解译海量遥感数据是实现即时响应与有效决策的关键
如何把遥感数据快速、智能化地转换为有用信息甚至决策知识是亟待解决的问题。

数据智能技术以其强大的非结构化数据处理能力,为解决遥感数据处理难题开辟了全新路径。在这一背景下,"遥感数据智能"概念应运而生,成为提升遥感数据价值的重要手段。遥感数据智能旨在利用大数据分析、人工智能、机器学习等先进的数据智能技术提升遥感数据-信息-知识的转换效率和精度,改变遥感数据的服务模式,开拓和释放海量多源遥感数据价值,更好地满足多样化遥感应用需求。

技术发展为遥感数据智能提供支撑

遥感进入大数据时代

全球遥感卫星快速发展

自1964年发射Nimbus卫星以来,全球遥感卫星技术快速发展,应用范围覆盖了气象、海洋、陆地等多领域,越来越多的国家开始建立自主可控的遥感卫星系统,许多商业公司也在发射和运营遥感卫星。

关键数据

  • 截至2023年,全球共有1,259颗遥感卫星在轨运行
  • Planet卫星公司每天可收集约10 TB数据
  • Maxar Technologies公司卫星图像库中有超过125 PB的图像数据

中国遥感事业跨越式发展

2000年以来,我国遥感事业取得跨越式发展,现已拥有气象、海洋、陆地等多个卫星体系。截至2023年12月,中国在轨遥感卫星数量为294颗。

中国遥感数据规模

  • 每日获取的遥感原始数据量超过20 TB
  • 日分发数据量可达14 TB
  • 共享数据总量达到567 TB
  • 存量数据超过500 PB
  • 截至2024年8月底,仅高分系列卫星数据的累计分发量已达到5,000万景

2010—2023年中国、美国及全球遥感卫星发射数量

遥感卫星发射数量趋势图

随着遥感卫星数量的迅速增加、传感器平台的快速发展、全球数据共享机制的逐步完善以及数据基础设施的不断建设,遥感已经进入大数据时代。这一进程不仅带来了数据存储与处理的巨大挑战,也为遥感数据智能的深入发展提供了前所未有的机遇。

遥感数据处理能力得到快速发展

数据处理硬件革新

在大数据时代,计算能力已成为一个国家的核心生产力。对于数据智能而言,海量的数据需要被反复"投喂"给AI模型,离不开高效率的算法框架和强大的算力支撑。据OpenAI报告,2012年以来,AI训练所需的计算量以平均每3.43个月翻一倍的速度增长。

算力提升途径:

  • 通过集群中多GPU并行计算,快速处理超大规模遥感数据集
  • 量化和剪枝技术使得模型计算复杂度大幅降低
  • 硬件优化与算法优化相辅相成,共同推动了遥感数据处理能力的飞跃

云计算提升遥感数据服务能力

全球领先的云平台有亚马逊AWS、微软Azure、谷歌云和阿里云等。云平台凭借其强大的分布式计算能力、高效的任务分发机制、优质的服务能力以及全球化的基础设施布局,为遥感数据智能的发展提供了坚实的算力支撑和多样化的选择。

2024年第三季度全球主要云基础设施提供商的市场份额

中国算力发展现状

遥感大数据的处理与分析对算力的需求日益增长。我国数字基础设施与算力资源的发展也助推了遥感数据智能的进步。截至2023年,我国的算力总规模达到230 EFLOPS,居全球第二位,存力总规模为1.2 ZB。

遥感大模型研究如火如荼

数据智能技术发展历程

数据智能技术发展历程

大模型是数据智能技术发展的必然产物。早在20世纪初,人们就开始使用统计学方法从数据中获取有用信息。随着技术的发展,从数据挖掘到大数据技术,再到深度学习和数据智能,人工智能领域不断取得突破性进展。近年来,随着科技与产业的深刻变革,智能化已成为全球发展趋势,正朝着更加深入和广泛应用的方向持续推进。

遥感大模型的特点与挑战

遥感大模型研究是当前数据智能与遥感技术深度融合的前沿领域。相较于其他领域数据,遥感数据具有多视角、多分辨率、多维度、多传感器类型等特性,同时数据本身还携带地理空间信息。这些特点决定了遥感领域的大模型在构建时需要特定的知识库,以应对复杂的时空关系和多源异构数据的整合需求。

数据特性

不同于自然图像,遥感数据包含雷达、红外等多种数据类型,具有特殊的时空特性

知识融合

需要结合地学规律、专家经验、政策信息等先验知识,提高模型性能和泛化能力

应用层面

具备人机交互能力,提供知识问答、内容生成,以及目标提取、信息分析和辅助决策功能

主要遥感大模型汇总

遥感大模型 发布时间 主要发布机构 特点
RingMo 2022.07 中国科学院空天信息创新研究院牵头 首个跨模态遥感数据的生成式预训练大模型
RingMo V3 2024.09 中国科学院空天信息创新研究院、鹏城实验室 适用多类型传感器、观测平台数据以及多类型任务
SpectralGPT 2023.11 中国科学院空天信息创新研究院牵头 适用于高光谱遥感数据
SkySense 2023.12 武汉大学、蚂蚁集团 应用范围广泛且精细
AIE-SEG 2023.10 阿里达摩院 多模态交互、全要素提取、交互式结果修正
EarthGPT 2024.01 北京理工大学 跨模态相互理解
CrossEarth 2024.10 中山大学、中国科学技术大学、武汉大学 全球首个专注于遥感跨域泛化的语义分割视觉大模型

遥感数据智能技术框架与实践

遥感数据智能技术框架

与传统的数据智能一样,遥感数据智能也离不开算据、算法和算力。算据即数据是遥感数据智能的基础,算力是支撑,算法是关键。涉及数据-信息-知识的完整链路,因此,应从工程的角度来看待遥感数据智能。

遥感数据智能总体技术框架

遥感数据引擎

重点解决多模态遥感大数据的汇聚、清洗、整合加工,建立面向计算的即得即用(Ready to Use, RTU)高质量数据集和大数据管理模式;通过数据可视化,提升数据处理和分析的效率;基于遥感数据光谱响应机理分析,实现多模态、多时空遥感特征提取和结构化表达;构建模型训练样本,甚至把遥感数据转化为AI-ready的语料。

遥感计算引擎

重点发展智能化算法和模型,把遥感数据转化为有用的信息。由于遥感图像的特殊性,无论是AI算法,还是遥感基础大模型设计都应充分考虑遥感数据的特点;现阶段,面向具体应用还需要结合地学知识、专家经验等先验知识,构建领域专用模型以提高大模型的性能,更好地模拟人类对现实世界的观察。

未来发展方向

未来,遥感数据智能有望实现基于遥感数据的分析和预测结果,提供智能决策支持。这一目标的实现,建立知识图谱非常重要,如洪涝灾害发生时,如何判别正常水域和淹没区?利用知识发现技术,挖掘目标事件的潜在关系、发展趋势,并实现深层次洞察;另外,自主学习能力是遥感数据智能关键环节,应建立遥感数据智能的信息反馈机制,通过不断的数据输入、更新和信息反馈,实现自我优化,提高遥感数据智能支撑决策的可靠性。

遥感数据智能实践:全国亚米级光伏空间分布智能提取

技术流程与挑战

本文以全国亚米级光伏空间分布智能提取为例,开展遥感数据智能实践,主要包括基于基础大模型的光伏潜在区提取、融合先验知识的数据集增强以及基于半监督学习的全国光伏信息提取等若干步骤。

由于面积较小,辨别分布式光伏往往需要亚米级遥感影像支持。当涉及到全国范围这样的大尺度区域时,亚米级的分辨率将使得数据规模暴涨到难以想象的量级。需要从较低分辨率影像中事先筛选出后续处理区域,从而降低在亚米级影像中提取光伏面板时所应对的数据规模。

光伏潜在区概念

光伏潜在区表示图像所覆盖的地理范围内可能存在光伏,通常包括屋顶建筑区以及已经建设了光伏电站的地区。通过数据清洗,一方面降低了数据处理规模,提高了后续数据处理效率;另一方面通过筛除易区分地物(如未安装光伏的裸地、森林、水体等自然地表),从而增强模型对易混淆地物的关注,提高模型训练效率与精度。

技术流程图

基于遥感数据智能的全国亚米级光伏空间分布提取总体技术流程

AI-ready数据集构建

依据全国光伏潜在区分布,可以获取全国光伏提取所需的超高分辨率卫星影像,其空间分辨率需达到或优于0.3 m。在全国尺度实现光伏信息精细提取,完整、无偏、可靠的AI-ready数据集不可或缺。为此,首先在全国范围内人工标注初始数据集,这一过程中,注重样本的准确性与多样性。

多样性考量因素
  • 光伏面板的类型
  • 所处的土地覆盖类型
  • 成像的光照条件
  • 传感器类型
  • 易混淆地物的负样本多样性
数据集扩充方法
  • 融合光伏面板相关的先验知识(如形状等),快速定位初始数据集中的薄弱区域
  • 通过深度噪声学习模型来降低扩充数据集的成本
  • 采用半监督方法,通过人工标注样本以及中国广大地区中经过光伏潜在区清洗的未标注样本,扩展数据集规模与多样性

实践成果

上述过程,遥感大数据与专业领域小数据结合,通过基础大模型实现数据清洗,融合先验知识形成AI-ready的高质量数据。在此基础上,进行专业模型训练,最终实现了全国亚米级光伏分布信息的高效高精度提取。相较于传统的遥感影像处理方法,遥感大数据、基础大模型、专业领域小数据、先验知识、半监督学习模型的相交融合形成了更高的提取效率、更好的识别精度以及更强的泛化能力。

展望

在数字经济蓬勃发展的今天,数据已成为驱动经济社会发展的新燃料。随着遥感数据规模的不断扩大、计算能力的提升以及人工智能的广泛应用,遥感数据智能领域的未来发展充满潜力。遥感数据是一类特殊的空间数据,应被视为机器学习中的独特模态,并应将遥感数据智能研究从机器学习的应用领域转变为专门的研究学科,从而推动机器学习发展并应对社会需求的挑战。

重视AI-ready的遥感知识库建设和小数据的作用

"AI-ready"概念预示着大数据能承接AI时代的到来,达到即时可用。遥感数据来源多,分布广,特别是高分数据商业价值高,遥感大数据的潜在价值还没有充分发挥出来。

遥感数据AI-ready的体现

  • 元数据是否正确、全面
  • 数据实体是否经过几何标准化和辐射归一化
  • 数据的组织管理是否适合"遥感数据智能"的高效应用
  • 样本数据能否快速转换为大模型能理解的"语料"

此外,对于遥感智能而言,优质小数据同样具有重要价值。受传感器、天气等因素的影响,某些地区在特定时间段内,能够获取的有效数据非常稀少,是遥感大数据中的小数据。在这种情况下,优质小数据显得尤为珍贵。

发展"实用"的数据智能方法与遥感大模型

虽然在遥感大模型方面已经取得了诸多成果,但由于遥感数据的特殊性及其应用广泛性,发展实用的数据智能方法是值得引起重视的问题。信息的精度和符合行业规范的表达是遥感工程应用的基本要求。

"人工智能在改变卫星成像领域,但它不是魔法;不要过度沉迷于人工智能炒作,实质性的解决方案远胜于华而不实的演示"。
—— 行星(Planet)公司产品和软件工程高级副总裁托曼(Troy Toman)

遥感数据作为一类特殊的空间数据,具有时间、空间和波谱特性,也应考虑深度学习架构设计的特殊性,同时将地理上下文和约束条件编码到模型中,利用卫星数据中的空间和时空结构来指导模型设计和训练。

推进遥感数据、信息和知识的多层次服务

在应用服务方面,遥感数据智能有望发挥其在数据即服务(DaaS)、模型即服务(MaaS)和知识即服务(KaaS)方面的优势。

数据即服务:未来,遥感大数据平台将提供高质量数据,降低数据获取和处理门槛。

模型即服务:提供便捷的模型调用和数据分析服务,用户可以根据需求灵活地选择适合的模型服务,无需进行复杂的模型训练与本地计算。

知识即服务:通过知识图谱和智能推理进一步整合领域知识,提升遥感数据的智能分析能力,帮助用户更深层次理解和预测环境变化。

即时服务:在重大自然灾害等突发事件发生时,通过在轨计算和卫星下行数据的即时服务,实现快速响应和决策支持。

结语

遥感数据智能是遥感大数据和人工智能快速发展的必然产物,不仅提高了遥感数据处理效率,还增强了应对突发事件和复杂环境变化的响应能力。随着技术的不断进步和应用场景的拓展,遥感数据智能将在资源环境监测、灾害应急响应、城市规划等领域发挥越来越重要的作用,为人类社会的可持续发展提供强有力的技术支撑。