全局检索与知识浏览
跨论文、博客、数据集线索、项目和工具统一检索。检索结果可以继续跳转到独立问答页,做语义追问和来源核验。
过去十年机器学习的进展催生了大量用于编码、表征和处理包含众多高维特征的复杂数据的算法应用。近期,基于超大规模数据集训练的深度学习模型的出现,形成了机器学习的新范式,即基础模型(Foundation Models)。基础模型是在非常庞大且广泛的数据集上训练而成,具有大量参数的程序。一旦构建完成,这些强大而灵活的模型可被以较低资源消耗的方式应用于多种下游任务,实现此前彼此分离的多模态数据的整合。此类应用的开发速度更快,对机器学习专业知识的需求也显著降低。目前,包括NASA和ESA在内的多个机构已开始建立相应的基础设施和模型。在NASA,相关工作涵盖科学使命理事会下的多个部门,包括NASA戈达德中心和INDUS大语言模型,以及Prithvi地理空间基础模型。ESA推动基础模型在地球观测中的应用,促成了TerraMind的开发。2025年2月,NASA艾姆斯研究中心与SETI研究所联合举办了一场研讨会,旨在探讨基础模型在天体生物学研究中的潜力,并确定构建和利用此类模型所需的关键步骤。本文分享了该研讨会的发现与建议,明确了基础模型(或模型集合)在天体生物学应用中的近期及未来机遇。这些应用将涵盖生物标志物识别或生命特征表征任务,以及任务设计等。
基础模型(FMs)是大规模预训练的人工智能(AI)系统,已彻底改变自然语言处理和计算机视觉领域,并正推动地理空间分析与地球观测(EO)的发展。它们有望在各类任务中实现更好的泛化能力、可扩展性以及仅需少量标注数据即可高效适应。然而,尽管地理空间基础模型迅速普及,其在现实世界中的实用性及其与全球可持续发展目标的契合度仍缺乏深入探索。我们提出了SustainFM,一个基于17项可持续发展目标的综合性基准测试框架,涵盖从资产财富预测到环境灾害检测等极其多样的任务。本研究对地理空间基础模型进行了严谨且跨学科的评估,为理解其在实现可持续发展目标中的作用提供了关键洞见。研究发现:(1)尽管并非在所有任务中均表现最优,但基础模型通常在多种任务和数据集上优于传统方法。(2)评估基础模型应超越准确率,纳入可迁移性、泛化能力及能源效率等关键指标,以确保其负责任的应用。(3)基础模型能够提供可扩展的、以可持续发展目标为导向的解决方案,广泛适用于应对复杂的可持续性挑战。至关重要的是,我们倡导从以模型为中心的研发转向以影响为导向的部署模式,并强调能源效率、对领域偏移的鲁棒性以及伦理考量等指标的重要性。
洪水易发性制图(FSM)对于灾害预防至关重要,但在缺乏数据的地区仍具挑战性,因为水动力模型需要密集的地球物理输入。本文提出ZeroFlood,一种用于数据高效洪水易发性制图的地理空间基础模型框架。该方法通过基于模态思维(TiM)的推理对地理空间基础模型(GFMs)进行微调,实现仅依赖基本地球观测数据(如Sentinel-1或Sentinel-2影像)进行洪水预测。利用数据丰富区域的配对地球观测数据与模拟洪水地图,ZeroFlood通过跨模态表示学习弥合数据差距。基于TerraMind和Prithvi GFMs的实验表明,TiM提升了模型鲁棒性,其中TerraMind-Large配置的F1得分为67.21。结果证明了基于基础模型的FSM在洪水风险管理中具有可扩展性和数据高效性。
随着城市化进程和气候变化的推进,都市热岛效应日益频繁且严重。为制定有效的缓解策略,城市需要详细的气温数据,但传统机器学习模型在数据有限的情况下往往产生不准确的预测,尤其是在服务不足的区域。基于全球非结构化数据训练的地理空间基础模型提供了一种有前景的替代方案,其具备强大的泛化能力,仅需少量微调即可应用。本研究通过量化绿地的降温效应并将其与模型预测结果进行对比,建立了都市热模式的经验真实数据,用以评估模型的准确性。随后,对基础模型进行微调,以预测未来气候情景下的地表温度,并通过模拟修复(inpainting)展示了其在缓解支持中的实际价值。结果表明,基础模型为数据匮乏地区评估都市热岛缓解策略提供了有力工具,有助于建设更具气候韧性的城市。
随着城市化进程和气候变化的推进,城市热岛效应日益频繁且加剧。为制定有效的缓解策略,城市需要详细的气温数据。然而,基于传统机器学习模型和有限数据基础设施的预测分析方法在欠覆盖区域常导致不准确的预测。在此背景下,基于全球非结构化数据训练的地理空间基础模型展现出强大的泛化能力,且仅需极少微调,为传统方法受限的场景提供了替代方案。本研究对地理空间基础模型进行微调,以预测未来气候情景下的城市地表温度,并通过模拟植被策略探讨其对土地覆盖变化的响应。微调后的模型像素级下采样误差低于1.74 °C,且与地面实测模式一致,表现出最高达3.62 °C的外推能力。
面向地球观测的地理空间基础模型(GFMs)在预训练阶段未充分表征的环境中往往表现不可靠。本文提出 SHRUG-FM,一种可靠性感知预测框架,使 GFMs 能够识别并主动规避可能失败的预测。该方法融合三种互补信号:输入空间中的地球物理分布外(OOD)检测、嵌入空间中的 OOD 检测,以及任务特定的预测不确定性。我们在三项高风险快速制图任务上评估 SHRUG-FM:火烧迹地分割、洪水制图与滑坡检测。结果表明,SHRUG-FM 在保留样本上持续降低预测风险,性能优于预测熵等经典单信号基线方法。关键在于,SHRUG-FM 采用浅层“透明盒”决策树实现信号融合,从而提供可解释的拒判阈值。该工作为 GFMs 在气候敏感型应用中的更安全、更可解释部署提供了可行路径,弥合了基准测试性能与真实世界可靠性之间的鸿沟。
基础模型(FMs)通过大规模预训练在多个领域实现了最先进性能。在地球观测(EO)领域,近年来海量卫星数据档案(拍字节级)的可用性推动了地理空间基础模型(GFMs)的发展。然而,关于数据集规模、模型架构与模型规模如何共同决定下游性能的基本问题仍待解答。本文系统地探索该设计空间,基于三个数据集规模进行模型预训练与微调:PhilEO Globe(0.5TB)、FastTOM(2TB,本文首次提出)以及MajorTOM(23TB)。评估了三种架构族:Geo-Aware U-Net(CNN)、ViT-UPerNet(Transformer)和Mamba(状态空间模型),涵盖参数量从44M到300M的多种模型规模。所有模型均在PhilEO Bench上进行基准测试,任务包括道路密度与建筑密度回归、土地覆盖分割,并与现有GFMs如TerraMind和Prithvi-EO-2.0进行对比。结果表明,在少样本设置下,基于CNN的模型依然具有较强竞争力,其中200M参数的Geo-Aware U-Net在回归任务中优于更大规模的架构。然而,当扩展至拍字节级数据集时,ViT-UPerNet表现最佳,尤其在MajorTOM(23TB)上的语义分割任务中优势显著。最后,我们首次对Mamba模型在地球观测领域的应用进行了广泛评估,凸显其潜在的效率优势,但需进一步的大规模预训练才能完全达到CNN与ViT的性能水平。本文公开发布全部代码、预训练模型及FastTOM数据集,以支持可复现性并促进对GFMs缩放定律的深入研究。
面向地球观测的地理空间基础模型在预训练数据中未充分覆盖的环境中往往表现不可靠。我们提出SHRUG-FM框架,实现可靠性感知的预测,该框架整合了三种互补信号:输入空间中的分布外(OOD)检测、嵌入空间中的OOD检测以及任务特定的预测不确定性。应用于烧毁迹地分割任务时,SHRUG-FM表明OOD评分与特定环境条件下的性能下降相关,而基于不确定性的标记有助于剔除大量表现不佳的预测结果。将这些标记与HydroATLAS提供的土地覆盖属性关联分析发现,模型失败并非随机分布,而是集中于某些地理区域,如低海拔地带和大型河流区域,这很可能是由于预训练数据中对此类区域的代表性不足所致。SHRUG-FM为气候敏感应用中基础地理模型(GFM)的安全且可解释的部署提供了可行路径,有助于弥合基准性能与实际可靠性之间的差距。
滑坡对生命、基础设施和环境造成严重破坏,因此准确及时的制图对于灾害预防与应对至关重要。然而,传统深度学习模型在应用于不同传感器、区域或训练数据有限的情况下往往表现不佳。为应对这些挑战,我们提出一个涵盖传感器、标签和领域三个维度的分析框架,用于适应地理空间基础模型(GeoFMs),重点聚焦于Prithvi-EO-2.0在滑坡制图中的应用。通过一系列实验,我们发现该模型在性能上持续优于任务特定的卷积神经网络(U-Net、U-Net++)、视觉Transformer(Segformer、SwinV2-B)以及其他GeoFMs(TerraMind、SatMAE)。该模型基于全球预训练、自监督学习以及可适应的微调机制,在面对光谱变化时表现出鲁棒性,即使在标签数据稀缺条件下仍能保持较高精度,并在多种数据集和地理环境中展现出更可靠的泛化能力。与此同时,我们也指出了仍存在的挑战,如计算成本较高以及可用于滑坡研究的可复用AI就绪训练数据有限。总体而言,本研究将GeoFMs定位为实现更稳健、可扩展的滑坡风险减缓与环境监测方法的重要一步。
基础模型已深刻变革自然语言处理与计算机视觉领域,其影响正重塑遥感图像分析。凭借强大的泛化能力与迁移学习特性,基础模型天然契合遥感数据的多模态、多分辨率及多时相特征。为应对该领域的独特挑战,多模态地理空间基础模型(GFMs)应运而生,成为专门的研究前沿。本综述从模态驱动视角系统回顾多模态GFMs,涵盖五种核心视觉与视觉-语言模态。我们探讨成像物理差异与数据表征方式如何影响交互设计,并分析对齐、融合与知识迁移的关键技术,以应对模态异质性、分布偏移与语义鸿沟问题。训练范式、模型架构及任务特定适应策略的进展得到系统评估,同时梳理了大量新兴基准。代表性多模态视觉与视觉-语言GFMs在十项下游任务中被评估,深入剖析其架构特点、性能表现与应用场景。涵盖土地覆盖制图、农业监测、灾害响应、气候研究与地理空间情报等真实案例研究,展示了GFMs的实际应用潜力。最后,本文指出领域泛化、可解释性、效率与隐私等关键挑战,并展望未来研究的可行方向。
地理空间基础模型(GFMs)提供了强大的表征能力,但高昂的计算成本限制了其广泛应用。预先计算的嵌入数据产品提供了一种实用的“冻结”替代方案,然而目前这些产品存在于格式和分辨率不兼容的碎片化生态系统中。缺乏标准化造成了工程瓶颈,阻碍了有意义的模型比较与可复现性。我们通过三层分类体系——数据、工具与价值——对这一领域进行了形式化梳理。通过对现有产品的调研,识别出互操作性的障碍。为弥合这一差距,我们扩展了TorchGeo,引入统一API以标准化多样嵌入产品加载与查询方式。通过将嵌入视为第一类地理空间数据集,我们实现了下游分析与模型特定工程的解耦,为更透明、更易访问的地球观测工作流提供了路线图。
地理空间基础模型(GFMs)的研究因在地理空间人工智能(AI)领域中具备实现高泛化能力和领域适应性的潜力,从而显著降低个体研究者的模型训练成本,已成为当前热点。与ChatGPT等大型语言模型不同,构建用于图像分析的视觉基础模型,尤其是在遥感领域,面临诸多挑战,例如如何将多样化的视觉任务统一为通用问题框架。本文评估了近期发布的NASA-IBM GFMs Prithvi在多个基准数据集上的高层图像分析任务预测性能。选择Prithvi的原因在于它是首个基于高分辨率遥感影像时序数据训练的开源地理空间基础模型。通过一系列实验,对比了Prithvi与其他预训练专用任务AI模型在地理空间图像分析中的表现。本文提出并整合了新的策略,包括波段适应、多尺度特征生成以及微调技术,将其融入图像分析流程,以增强Prithvi的领域适应能力并提升模型性能。深入分析揭示了Prithvi的优势与不足,为改进Prithvi及未来地理空间视觉基础模型的开发提供了重要启示。
地理空间与时空数据的表征学习在构建通用地理空间智能中起着关键作用。近期的地理空间基础模型(如人口动力学基础模型 PDFM)将复杂的人口与移动性动态编码为紧凑的嵌入表示。然而,此类嵌入与大语言模型(LLM)的集成仍十分有限。现有 LLM 集成方法将这些嵌入视为检索索引,或将其转换为文本描述以支持推理,由此引入冗余、令牌效率低下及数值失真等问题。我们提出直接特征推理-Gemma(DFR-Gemma),一种新型框架,使 LLM 能够直接在稠密地理空间嵌入上进行推理。DFR 通过一个轻量级投影器将高维嵌入对齐至 LLM 的潜在空间,从而允许嵌入作为语义令牌与自然语言指令一同注入。该设计消除了对中间文本表示的依赖,并支持对空间特征的内在推理。为评估该范式,我们构建了一个多任务地理空间基准,将嵌入与多种问答任务配对,包括特征查询、比较及语义描述。实验结果表明,DFR 使 LLM 能够解码潜在空间模式,并在各项任务中实现准确的零样本推理,同时相较基于文本的基线显著提升效率。我们的结果表明,将嵌入视作首要数据输入,为多模态地理空间智能提供了一种更直接、更高效且更具可扩展性的路径。
我们对NASA与IBM联合开发的Prithvi-EO-2.0地理空间基础模型在利用卫星影像进行小型沙质岛屿海岸线提取方面的表现进行了初步评估。我们收集并标注了来自马尔代夫两个岛屿的225幅多光谱图像数据集,并公开发布该数据集;同时,我们在包含5至181幅图像的训练子集上对Prithvi模型的300M和600M参数版本进行了微调。实验结果表明,即使仅使用5幅训练图像,模型仍能取得优异性能(F1值为0.94,IoU值为0.79)。研究结果展示了Prithvi模型强大的迁移学习能力,凸显了此类模型在数据匮乏地区支持海岸带监测的巨大潜力。
Recent geospatial foundation models (GFMs) produce spatially extensive representations of the Earth's surface that capture rich physical and environmental patterns. Among them, the AlphaEarth Foundation (AE) represents a major step, generating 10 m embeddings from multi-source Earth Observation (EO) data that include diverse environmental and spectral characteristics. However, such EO-driven representations primarily encode physical and spectral patterns rather than human activities or urban semantics, limiting their ability to capture the functional dimensions of cities and making the learned representations difficult to interpret or query using natural language. We introduce AETHER (AlphaEarth-POI Enriched Representation Learning), a lightweight framework that aligns AlphaEarth with human-centered urban analysis through multimodal alignment guided by Points of Interest (POIs). By enforcing both cross-modal AE-POI alignment and intra-modal multi-scale consistency, AETHER integrates functional urban semantics with EO-driven representations and grounds the embedding space in natural language. The resulting representations support both urban mapping tasks and natural language-conditioned spatial retrieval. Experiments across four downstream tasks in Greater London and Singapore demonstrate consistent state-of-the-art performance, with relative improvements ranging from 4.5% to 21.9%. Furthermore, the aligned embedding space enables spatial localization through natural language queries. By aligning EO-based foundation models with human-centered semantics, AETHER improves the interpretability of geospatial representations and advances geospatial representation learning toward human-centered, language-accessible geospatial foundation models.
地理空间基础模型(Geospatial Foundation Models, GFMs)已成为从地球观测数据中提取表征的强大工具,但其评估仍存在不一致且范围狭窄的问题。现有研究通常在次优的下游数据集和任务上进行评估,这些任务往往过于简单或过于局限,限制了评估结果对GFMs实际应用能力的衡量价值。此外,当前评估协议缺乏多样性,未能充分考虑图像分辨率、传感器类型和时间维度的多重差异,进一步增加了评估GFM性能的复杂性。特别是,大多数现有基准在地理分布上偏向北美和欧洲,质疑了GFMs的全球适用性。为应对上述挑战,我们提出PANGAEA,一个标准化的评估协议,涵盖多样化的数据集、任务、分辨率、传感器模态和时间维度,建立了稳健且广泛适用的GFMs基准。我们在该基准上评估了目前公开可用的最主流GFMs,并分析其在多个领域的表现。特别地,我们将这些模型与监督学习基线(如UNet和原始ViT)进行比较,并评估其在标注数据有限情况下的有效性。研究结果揭示了GFMs在不同场景下的局限性,表明它们并未始终优于监督模型。PANGAEA设计具有高度可扩展性,支持未来研究中无缝集成新的数据集、模型和任务。通过发布评估代码与基准,我们旨在使其他研究人员能够复现我们的实验并在此基础上开展工作,推动大规模预训练地理空间模型评估向更严谨的范式演进。
视觉基础模型是地理空间人工智能(GeoAI)领域的前沿方向,该领域为地理空间问题求解与地理知识发现应用并拓展人工智能技术。由于其能够通过学习和提取海量地理空间数据中的重要图像特征,从而实现强大的图像分析能力,因此具有重要意义。本文评估了首个地理空间基础模型——IBM-NASA联合研发的Prithvi模型在关键地理空间分析任务——洪水淹没制图中的表现。将该模型与基于卷积神经网络及视觉Transformer的架构进行对比,评估其在洪水区域制图精度方面的性能。实验采用Sen1Floods11基准数据集,并基于测试数据集以及模型从未见过的全新数据集,评估各模型的预测能力、泛化能力与迁移能力。结果表明,Prithvi模型具备良好的迁移能力,尤其在未见过区域的洪水区域分割任务中表现出显著优势。研究同时指出,Prithvi模型在多尺度表征学习的采用、面向高层图像分析任务的端到端流程开发,以及输入数据波段灵活性方面仍有改进空间。
地球观测(EO)对于监测环境变化、应对灾害以及管理自然资源至关重要。在此背景下,基础模型有助于遥感图像分析,以准确且高效地提取相关地理信息。然而,随着这些模型规模的增大,微调面临日益严峻的计算资源与成本挑战,限制了其可及性与可扩展性。此外,全量微调可能导致预训练特征遗忘,甚至降低模型泛化能力。为解决这一问题,参数高效微调(PEFT)技术提供了一种有前景的解决方案。本文针对多种基础模型架构与PEFT技术,在五个不同的地球观测数据集上进行了广泛实验,评估其有效性。结果提供了全面的对比分析,揭示了PEFT方法在何种情境下以及如何支持预训练地理空间模型的适应。我们证明,PEFT技术在性能上可达到甚至超越全量微调,并提升模型对未见地理区域的泛化能力,同时显著降低训练时间与内存需求。额外实验探讨了架构选择(如解码器类型或元数据使用)的影响,建议采用UNet解码器并避免使用元数据作为最优配置。我们已将所有评估的基础模型与技术集成至开源工具包TerraTorch,以支持快速、可扩展且低成本的模型适配。
我们提出 GAIA(Geospatial Artificial Intelligence for Atmospheres,面向大气的地理空间人工智能),一种混合式自监督地理空间基础模型,将掩码自编码器(Masked Autoencoder, MAE)与无标签自蒸馏(DINO)相结合,从全球静止轨道卫星影像中生成语义丰富的表征。GAIA 在 2001–2015 年共 15 年的全球融合红外观测数据上进行预训练,所学习到的解耦表征能有效捕捉大气动力学过程,而非琐碎的昼夜周期模式,该结论由分布式主成分结构分析与时间一致性分析证实。实验表明,GAIA 在不同数据缺失程度(30%–95% 掩码率)下均展现出稳健的重建能力,并在真实缺失数据模式下的空缺填补任务中性能显著优于基线方法。在下游任务迁移中,GAIA 始终优于仅采用 MAE 的基线模型:大气河分割任务 F1 分数提升至 0.58(基线为 0.52);热带气旋检测任务中,风暴级召回率提升至 81%(基线为 75%),早期识别率提升至 29%(基线为 17%);降水估算性能亦保持竞争力。进一步分析表明,GAIA 的混合自监督目标促使模型学习空间连贯、以对象为中心的特征,这些特征分布于多个主成分之上,而非集中于重建导向的单一紧凑表征。本工作证实,结合互补的自监督目标可生成更具泛化能力的表征,适用于多样化的大气建模任务。模型权重与代码开源地址为:https://huggingface.co/bcg-usra-nasa-gaia/GAIA-v1。
地理空间基础模型生成高维嵌入,具有强大的预测性能,但其内部组织机制仍不明确,限制了其科学应用。近期的可解释性研究将谷歌AlphaEarth基础模型(GAEF)嵌入与连续环境变量相关联,但仍不清楚嵌入空间是否表现出功能或层级组织,即某些维度是否作为特定表示,而其他维度则编码共享或更广泛的地理空间结构。在本研究中,我们提出一种功能可解释性框架,通过分析嵌入维度对土地覆盖结构的贡献,反向解析其作用,依据观测到的分类行为进行建模。该方法结合大规模实验与基于特征重要性模式和逐步消融的嵌入-类别关系结构分析。结果表明,嵌入维度表现出一致且非均匀的功能行为,可沿层级功能谱进行分类:专精维度对应特定土地覆盖类别,低级与中级泛化维度捕捉类别间的共享特征,高级泛化维度反映更广泛的环境梯度。关键发现是,仅需使用64个可用维度中的2至12个(视类别而定),即可实现接近基线性能的准确土地覆盖分类(达到98%)。这表明嵌入空间存在显著冗余,并为大幅降低计算成本提供了可行路径。综上,这些发现揭示AlphaEarth嵌入不仅具有物理信息意义,还呈现出层级化的功能组织结构。
我们提出GAIA(大气地理空间人工智能),一种融合掩码自编码器(MAE)与无标签自蒸馏(DINO)的混合自监督地理空间基础模型,能够从全球静止卫星影像中生成语义丰富的表征。该模型在2001至2015年全球合并的红外观测数据(共15年)上进行预训练,学习到解耦的表征,捕捉大气动力学特征而非简单的昼夜模式,这一结论通过分布式主成分结构与时间一致性分析得到验证。我们在不同数据缺失率(30%-95%遮蔽)下展示了模型强大的重建能力,在真实缺失数据模式上的补全性能显著优于基线。在下游任务迁移中,GAIA始终优于仅使用MAE的基线模型:在大气河分割任务中F1得分提升至0.58(对比0.52),热带气旋检测的风暴级召回率提高至81%(对比75%),早期探测率提升至29%(对比17%),同时保持了具有竞争力的降水估计性能。分析表明,GAIA的混合目标促使模型学习到跨多个主成分分布的空间一致、以对象为中心的特征,而非集中于重建任务的单一表征。本研究证明,结合互补的自监督目标可生成更具迁移性的表征,适用于多样化的气象建模任务。模型权重与代码已公开:https://huggingface.co/bcg-usra-nasa-gaia/GAIA-v1。
地理空间基础模型(GeoFM)有望为地球观测(EO)任务提供广泛的泛化能力,尤其在数据受限条件下表现突出。然而,其庞大的模型规模对资源受限的航天器硬件部署构成挑战。为此,我们提出了一种基于视觉Transformer(ViT)的GeoFM紧凑型变体,在保持下游任务性能的同时实现了机载执行。通过对五个下游任务的评估以及在两种典型飞行环境中的验证,表明模型压缩与领域适应对于降低模型尺寸和资源需求、同时在实际运行条件下维持高性能至关重要。我们进一步展示了在国际空间站搭载的IMAGIN-e有效载荷上实现的可靠在轨推理。这些结果确立了从大型GeoFM到可飞行、资源高效的部署路径,拓展了地球观测任务中机载人工智能的可行性。
基础模型有望通过使大型计算机视觉模型在海量遥感数据上进行预训练,从而变革遥感(RS)数据分析的格局。这些模型随后可使用少量标注训练数据进行微调,并应用于多种任务。然而,现有大多数基础模型专为高空间分辨率、无云卫星影像或照片设计,限制了其在需要频繁时间监测或宽光谱范围的应用场景中的适用性。因此,仅基于无云图像训练的基础模型在涉及大气变量或需进行大气校正的应用中实用性有限。我们提出SatVision-TOA,一种在14波段MODIS L1B大气顶层(TOA)辐射率影像上预训练的新型基础模型,以满足对中等及粗分辨率全天空遥感数据进行预训练的需求。SatVision-TOA模型采用掩码图像建模(MIM)框架与SwinV2架构进行预训练,通过自监督学习无需标签即可学习详细的上下文表征。该模型包含30亿参数,基于1亿张图像进行训练。据我们所知,这是目前唯一完全基于卫星遥感影像训练的最大规模基础模型。实验结果表明,SatVision-TOA在下游任务如三维云层反演中表现优于基线方法。值得注意的是,该模型的平均交并比(mIOU)达到0.46,显著高于基线的0.22。此外,在微调任务中,误报率较基线降低超过50%。本研究推动了多光谱遥感预训练视觉建模的发展。
自监督学习(SSL)已革新遥感(RS)领域的表征学习,推动地理空间基础模型(GFMs)利用海量未标注卫星影像以支持多样化的下游任务。目前,GFMs主要采用对比学习或掩码图像建模等目标,因其在学习可迁移表征方面表现优异。然而,生成式扩散模型在图像生成过程中展现出捕捉遥感任务所需多粒度语义的潜力,却尚未在判别性应用中得到充分探索。这引发了一个问题:生成式扩散模型是否同样具备卓越性能,并可作为具备足够判别能力的GFMs?本文通过SatDiFuser框架给出回答,该框架将基于扩散的生成式地理空间基础模型转化为强大的判别性遥感预训练工具。通过对多阶段、依赖噪声的扩散特征进行系统分析,我们提出了三种融合策略,以有效利用这些多样化表征。在遥感基准测试上的大量实验表明,SatDiFuser优于当前最先进的GFMs,在语义分割任务中实现最高达+5.7%的mIoU提升,在分类任务中实现+7.9%的F1分数提升,证明了基于扩散的生成式基础模型在判别性能上可与甚至超越传统判别式GFMs。源代码地址:https://github.com/yurujaja/SatDiFuser。