全局检索与知识浏览
跨论文、博客、数据集线索、项目和工具统一检索。检索结果可以继续跳转到独立问答页,做语义追问和来源核验。
《国际地理信息科学杂志》;第39卷;第12期;页码2862-2885;2025年发表;出版机构Taylor & Francis。
基础模型(FMs)通过大规模预训练在多个领域实现了最先进性能。在地球观测(EO)领域,近年来海量卫星数据档案(拍字节级)的可用性推动了地理空间基础模型(GFMs)的发展。然而,关于数据集规模、模型架构与模型规模如何共同决定下游性能的基本问题仍待解答。本文系统地探索该设计空间,基于三个数据集规模进行模型预训练与微调:PhilEO Globe(0.5TB)、FastTOM(2TB,本文首次提出)以及MajorTOM(23TB)。评估了三种架构族:Geo-Aware U-Net(CNN)、ViT-UPerNet(Transformer)和Mamba(状态空间模型),涵盖参数量从44M到300M的多种模型规模。所有模型均在PhilEO Bench上进行基准测试,任务包括道路密度与建筑密度回归、土地覆盖分割,并与现有GFMs如TerraMind和Prithvi-EO-2.0进行对比。结果表明,在少样本设置下,基于CNN的模型依然具有较强竞争力,其中200M参数的Geo-Aware U-Net在回归任务中优于更大规模的架构。然而,当扩展至拍字节级数据集时,ViT-UPerNet表现最佳,尤其在MajorTOM(23TB)上的语义分割任务中优势显著。最后,我们首次对Mamba模型在地球观测领域的应用进行了广泛评估,凸显其潜在的效率优势,但需进一步的大规模预训练才能完全达到CNN与ViT的性能水平。本文公开发布全部代码、预训练模型及FastTOM数据集,以支持可复现性并促进对GFMs缩放定律的深入研究。
本文提出 LIANet(Location Is All You Need Network),一种基于坐标的神经表征方法,将特定兴趣区域的多时相星载地球观测(EO)数据建模为连续时空神经场。仅需输入空间与时间坐标,LIANet 即可重建对应的卫星影像。预训练完成后,该神经表征可适配多种 EO 下游任务(如语义分割或像素级回归),且关键在于无需访问原始卫星数据。LIANet 旨在作为地理空间基础模型(Geospatial Foundation Models, GFMs)的用户友好型替代方案,消除终端用户在数据获取与预处理方面的开销,并支持仅基于标签进行微调。我们在不同尺度的目标区域上完成了 LIANet 的预训练,并证明其在下游任务上的微调性能可媲美从头训练或采用现有 GFMs 的方法。源代码与数据集公开于 https://github.com/mojganmadadi/LIANet/tree/v1.0.1。
分割模型能够识别图像中预定义的一组对象。然而,能够对隐含涉及多个感兴趣对象的复杂用户查询进行推理的模型仍处于发展初期。近期在推理分割领域的进展——从复杂的、隐含的查询文本生成分割掩码——表明视觉-语言模型可在开放域中运行并生成合理输出。然而,我们的实验表明,此类模型在处理复杂遥感影像时表现不佳。本文提出LISAt,一种专为描述复杂遥感场景、回答相关问题以及分割感兴趣对象而设计的视觉-语言模型。我们在一个新构建的地理空间推理-分割数据集GRES上训练LISAt,该数据集包含9,205张图像上的27,615个标注,以及一个包含超过一百万个问答对的多模态预训练数据集PreGRES。在遥感图像描述任务中,LISAt相较于现有地理空间基础模型RS-GPT4V的BLEU-4指标提升超过10.04%;在推理分割任务中,相较于当前最先进的开放域模型,gIoU指标提升达143.36%。我们的模型、数据集及代码已公开于https://lisat-bair.github.io/LISAt/
本文提出 LIANet(Location Is All You Need Network),一种基于坐标的神经表征方法,将特定兴趣区域的多时相星载地球观测(EO)数据建模为连续时空神经场。仅需输入空间与时间坐标,LIANet 即可重建对应的卫星影像。预训练完成后,该神经表征可适配多种 EO 下游任务(如语义分割或像素级回归),且关键在于无需访问原始卫星数据。LIANet 旨在作为地理空间基础模型(GFMs)的用户友好型替代方案,消除终端用户在数据获取与预处理方面的开销,并支持仅基于标签进行微调。我们在不同尺度的目标区域上完成了 LIANet 的预训练,并证明其在下游任务上的微调性能可媲美从头训练或采用现有 GFMs 的方法。源代码与数据集公开于 https://github.com/mojganmadadi/LIANet/tree/v1.0.1。
地理空间与时空数据的表征学习在构建通用地理空间智能中起着关键作用。近期的地理空间基础模型(如人口动力学基础模型 PDFM)将复杂的人口与移动性动态编码为紧凑的嵌入表示。然而,此类嵌入与大语言模型(LLM)的集成仍十分有限。现有 LLM 集成方法将这些嵌入视为检索索引,或将其转换为文本描述以支持推理,由此引入冗余、令牌效率低下及数值失真等问题。我们提出直接特征推理-Gemma(DFR-Gemma),一种新型框架,使 LLM 能够直接在稠密地理空间嵌入上进行推理。DFR 通过一个轻量级投影器将高维嵌入对齐至 LLM 的潜在空间,从而允许嵌入作为语义令牌与自然语言指令一同注入。该设计消除了对中间文本表示的依赖,并支持对空间特征的内在推理。为评估该范式,我们构建了一个多任务地理空间基准,将嵌入与多种问答任务配对,包括特征查询、比较及语义描述。实验结果表明,DFR 使 LLM 能够解码潜在空间模式,并在各项任务中实现准确的零样本推理,同时相较基于文本的基线显著提升效率。我们的结果表明,将嵌入视作首要数据输入,为多模态地理空间智能提供了一种更直接、更高效且更具可扩展性的路径。
地理空间基础模型(GFMs)提供了强大的表征能力,但高昂的计算成本限制了其广泛应用。预先计算的嵌入数据产品提供了一种实用的“冻结”替代方案,然而目前这些产品存在于格式和分辨率不兼容的碎片化生态系统中。缺乏标准化造成了工程瓶颈,阻碍了有意义的模型比较与可复现性。我们通过三层分类体系——数据、工具与价值——对这一领域进行了形式化梳理。通过对现有产品的调研,识别出互操作性的障碍。为弥合这一差距,我们扩展了TorchGeo,引入统一API以标准化多样嵌入产品加载与查询方式。通过将嵌入视为第一类地理空间数据集,我们实现了下游分析与模型特定工程的解耦,为更透明、更易访问的地球观测工作流提供了路线图。
地理空间基础模型(GeoFM)有望为地球观测(EO)任务提供广泛的泛化能力,尤其在数据受限条件下表现突出。然而,其庞大的模型规模对资源受限的航天器硬件部署构成挑战。为此,我们提出了一种基于视觉Transformer(ViT)的GeoFM紧凑型变体,在保持下游任务性能的同时实现了机载执行。通过对五个下游任务的评估以及在两种典型飞行环境中的验证,表明模型压缩与领域适应对于降低模型尺寸和资源需求、同时在实际运行条件下维持高性能至关重要。我们进一步展示了在国际空间站搭载的IMAGIN-e有效载荷上实现的可靠在轨推理。这些结果确立了从大型GeoFM到可飞行、资源高效的部署路径,拓展了地球观测任务中机载人工智能的可行性。
洪水易发性制图(FSM)对于灾害预防至关重要,但在缺乏数据的地区仍具挑战性,因为水动力模型需要密集的地球物理输入。本文提出ZeroFlood,一种用于数据高效洪水易发性制图的地理空间基础模型框架。该方法通过基于模态思维(TiM)的推理对地理空间基础模型(GFMs)进行微调,实现仅依赖基本地球观测数据(如Sentinel-1或Sentinel-2影像)进行洪水预测。利用数据丰富区域的配对地球观测数据与模拟洪水地图,ZeroFlood通过跨模态表示学习弥合数据差距。基于TerraMind和Prithvi GFMs的实验表明,TiM提升了模型鲁棒性,其中TerraMind-Large配置的F1得分为67.21。结果证明了基于基础模型的FSM在洪水风险管理中具有可扩展性和数据高效性。
我们对NASA与IBM联合开发的Prithvi-EO-2.0地理空间基础模型在利用卫星影像进行小型沙质岛屿海岸线提取方面的表现进行了初步评估。我们收集并标注了来自马尔代夫两个岛屿的225幅多光谱图像数据集,并公开发布该数据集;同时,我们在包含5至181幅图像的训练子集上对Prithvi模型的300M和600M参数版本进行了微调。实验结果表明,即使仅使用5幅训练图像,模型仍能取得优异性能(F1值为0.94,IoU值为0.79)。研究结果展示了Prithvi模型强大的迁移学习能力,凸显了此类模型在数据匮乏地区支持海岸带监测的巨大潜力。
地理空间栅格数据,例如由卫星成像系统在不同时间与光谱波段采集的数据,具有推动广泛高影响力应用的巨大潜力。这种潜力源于在多个通道和传感模态下,空间与时间上下文丰富的信息。近期研究已尝试将现有的自监督学习方法应用于此类地理空间数据,但其模型架构缺乏可扩展性,导致在面对越来越多的通道与模态时表现出灵活性不足和计算效率低下。为解决上述局限,我们提出低秩高效空间-光谱视觉Transformer(LESS ViT),包含三项关键创新:i)LESS注意力模块,通过低维空间与光谱注意力组件的Kronecker积近似高维空间-光谱注意力;ii)连续位置-通道嵌入层,保留每个空间-光谱块的连续性与物理特性;iii)感知场掩码机制,通过将注意力限制在邻近块内以利用局部空间依赖性。为评估所提创新,我们构建了GFM-Bench,作为此类地理空间栅格数据的综合性基准。我们采用集成位置与通道掩码策略的高光谱掩码自编码器框架对LESS ViT进行预训练。实验结果表明,所提方法在性能上达到与当前先进多模态地理空间基础模型相当的水平,并在跨卫星泛化任务中表现更优,同时具备更高的计算效率。该框架的灵活性与可扩展性使其成为极具前景的解决方案。
面向地球观测的地理空间基础模型(GFMs)在预训练阶段未充分表征的环境中往往表现不可靠。本文提出 SHRUG-FM,一种可靠性感知预测框架,使 GFMs 能够识别并主动规避可能失败的预测。该方法融合三种互补信号:输入空间中的地球物理分布外(OOD)检测、嵌入空间中的 OOD 检测,以及任务特定的预测不确定性。我们在三项高风险快速制图任务上评估 SHRUG-FM:火烧迹地分割、洪水制图与滑坡检测。结果表明,SHRUG-FM 在保留样本上持续降低预测风险,性能优于预测熵等经典单信号基线方法。关键在于,SHRUG-FM 采用浅层“透明盒”决策树实现信号融合,从而提供可解释的拒判阈值。该工作为 GFMs 在气候敏感型应用中的更安全、更可解释部署提供了可行路径,弥合了基准测试性能与真实世界可靠性之间的鸿沟。
随着城市化进程和气候变化的推进,城市热岛效应日益频繁且加剧。为制定有效的缓解策略,城市需要详细的气温数据。然而,基于传统机器学习模型和有限数据基础设施的预测分析方法在欠覆盖区域常导致不准确的预测。在此背景下,基于全球非结构化数据训练的地理空间基础模型展现出强大的泛化能力,且仅需极少微调,为传统方法受限的场景提供了替代方案。本研究对地理空间基础模型进行微调,以预测未来气候情景下的城市地表温度,并通过模拟植被策略探讨其对土地覆盖变化的响应。微调后的模型像素级下采样误差低于1.74 °C,且与地面实测模式一致,表现出最高达3.62 °C的外推能力。
陆地卫星计划提供了超过50年的全球一致的地球影像数据。然而,该数据缺乏相应的基准测试,制约了基于陆地卫星的地理空间基础模型(GFM)的发展。本文介绍了Landsat-Bench,一套包含三个基准测试的工具集,其使用陆地卫星影像并基于现有的遥感数据集进行改编——EuroSAT-L、BigEarthNet-L和LC100-L。我们在通用架构及在SSL4EO-L数据集上预训练的陆地卫星基础模型上建立了基线和标准化的评估方法。值得注意的是,我们提供了证据表明,相较于ImageNet预训练的基础模型,SSL4EO-L预训练的GFM在下游任务中提取的表征更为优越,在EuroSAT-L和BigEarthNet-L上的总体准确率(OA)提升达+4%,平均精度均值(mAP)提升达+5.1%。
滑坡对生命、基础设施和环境造成严重破坏,因此准确及时的制图对于灾害预防与应对至关重要。然而,传统深度学习模型在应用于不同传感器、区域或训练数据有限的情况下往往表现不佳。为应对这些挑战,我们提出一个涵盖传感器、标签和领域三个维度的分析框架,用于适应地理空间基础模型(GeoFMs),重点聚焦于Prithvi-EO-2.0在滑坡制图中的应用。通过一系列实验,我们发现该模型在性能上持续优于任务特定的卷积神经网络(U-Net、U-Net++)、视觉Transformer(Segformer、SwinV2-B)以及其他GeoFMs(TerraMind、SatMAE)。该模型基于全球预训练、自监督学习以及可适应的微调机制,在面对光谱变化时表现出鲁棒性,即使在标签数据稀缺条件下仍能保持较高精度,并在多种数据集和地理环境中展现出更可靠的泛化能力。与此同时,我们也指出了仍存在的挑战,如计算成本较高以及可用于滑坡研究的可复用AI就绪训练数据有限。总体而言,本研究将GeoFMs定位为实现更稳健、可扩展的滑坡风险减缓与环境监测方法的重要一步。
面向地球观测的地理空间基础模型在预训练数据中未充分覆盖的环境中往往表现不可靠。我们提出SHRUG-FM框架,实现可靠性感知的预测,该框架整合了三种互补信号:输入空间中的分布外(OOD)检测、嵌入空间中的OOD检测以及任务特定的预测不确定性。应用于烧毁迹地分割任务时,SHRUG-FM表明OOD评分与特定环境条件下的性能下降相关,而基于不确定性的标记有助于剔除大量表现不佳的预测结果。将这些标记与HydroATLAS提供的土地覆盖属性关联分析发现,模型失败并非随机分布,而是集中于某些地理区域,如低海拔地带和大型河流区域,这很可能是由于预训练数据中对此类区域的代表性不足所致。SHRUG-FM为气候敏感应用中基础地理模型(GFM)的安全且可解释的部署提供了可行路径,有助于弥合基准性能与实际可靠性之间的差距。
自监督学习(SSL)已革新遥感(RS)领域的表征学习,推动地理空间基础模型(GFMs)利用海量未标注卫星影像以支持多样化的下游任务。目前,GFMs主要采用对比学习或掩码图像建模等目标,因其在学习可迁移表征方面表现优异。然而,生成式扩散模型在图像生成过程中展现出捕捉遥感任务所需多粒度语义的潜力,却尚未在判别性应用中得到充分探索。这引发了一个问题:生成式扩散模型是否同样具备卓越性能,并可作为具备足够判别能力的GFMs?本文通过SatDiFuser框架给出回答,该框架将基于扩散的生成式地理空间基础模型转化为强大的判别性遥感预训练工具。通过对多阶段、依赖噪声的扩散特征进行系统分析,我们提出了三种融合策略,以有效利用这些多样化表征。在遥感基准测试上的大量实验表明,SatDiFuser优于当前最先进的GFMs,在语义分割任务中实现最高达+5.7%的mIoU提升,在分类任务中实现+7.9%的F1分数提升,证明了基于扩散的生成式基础模型在判别性能上可与甚至超越传统判别式GFMs。源代码地址:https://github.com/yurujaja/SatDiFuser。
在大数据时代,基于云边协同数据的智能教学空间模型构建是当前教育创新探索的重点。在理解构建模型的基础上,依托云边协同数据的安全存储体系,本文深入探讨了该技术的实现路径,并最终获得相关成果。
地理空间基础模型生成高维嵌入,具有强大的预测性能,但其内部组织机制仍不明确,限制了其科学应用。近期的可解释性研究将谷歌AlphaEarth基础模型(GAEF)嵌入与连续环境变量相关联,但仍不清楚嵌入空间是否表现出功能或层级组织,即某些维度是否作为特定表示,而其他维度则编码共享或更广泛的地理空间结构。在本研究中,我们提出一种功能可解释性框架,通过分析嵌入维度对土地覆盖结构的贡献,反向解析其作用,依据观测到的分类行为进行建模。该方法结合大规模实验与基于特征重要性模式和逐步消融的嵌入-类别关系结构分析。结果表明,嵌入维度表现出一致且非均匀的功能行为,可沿层级功能谱进行分类:专精维度对应特定土地覆盖类别,低级与中级泛化维度捕捉类别间的共享特征,高级泛化维度反映更广泛的环境梯度。关键发现是,仅需使用64个可用维度中的2至12个(视类别而定),即可实现接近基线性能的准确土地覆盖分类(达到98%)。这表明嵌入空间存在显著冗余,并为大幅降低计算成本提供了可行路径。综上,这些发现揭示AlphaEarth嵌入不仅具有物理信息意义,还呈现出层级化的功能组织结构。
细粒度高分辨率遥感制图通常依赖局部视觉特征,这限制了跨域泛化能力,并常导致大范围地物覆盖的预测碎片化。尽管全局地理空间基础模型(geospatial foundation models)提供了强大且可泛化的表征,但将其高维隐式嵌入直接与高分辨率视觉特征融合,往往因严重的语义-空间鸿沟而引发特征干扰与空间结构退化。为克服上述局限,我们提出一种结构-语义解耦调制(Structure-Semantic Decoupled Modulation, SSDM)框架,将全局地理空间表征解耦为两条互补的跨模态注入路径:其一,结构先验调制分支将全局表征所蕴含的宏观感受野先验引入高分辨率编码器的自注意力模块,通过整体性结构约束引导局部特征提取,从而有效抑制由高频细节噪声和类内差异过大所导致的预测碎片化;其二,全局语义注入分支显式对齐整体上下文与深层高分辨率特征空间,并通过跨模态融合直接补充全局语义,显著提升复杂地物覆盖的语义一致性与类别级判别能力。大量实验表明,本方法在各类跨模态融合方法中达到当前最优性能;通过充分释放全局嵌入潜力,SSDM在多种场景下持续提升高分辨率制图精度,为地理空间基础模型融入高分辨率遥感分析提供了一种通用且有效的范式。
地理空间基础模型提供预先计算的嵌入向量,作为大规模卫星遥感数据的紧凑特征表示。尽管这些嵌入可缓解数据传输瓶颈和计算成本问题,地球观测(EO)应用仍可能面临用户定义的兴趣区域与固定预计算嵌入网格之间的几何不匹配问题。在此场景下,标准的潜在空间插值不可靠,因为嵌入流形具有高度非凸性,导致生成的表示无法对应于真实输入。我们通过Prithvi-EO-2.0验证了这一现象,以理解应用于图像块嵌入时插值方法的局限性。为此,我们提出一种学习等变性预测架构(LEPA)。LEPA不采用向量平均,而是将预测器条件设置为几何增强,直接预测变换后的嵌入。我们在NASA/USGS统一陆地卫星-哨兵(HLS)影像和ImageNet-1k数据集上评估LEPA。实验结果表明,标准插值的平均倒数排名(MRR)低于0.2,而LEPA将MRR提升至0.8以上,实现了无需重新编码即可准确进行几何调整。
地球观测(EO)对于监测环境变化、应对灾害以及管理自然资源至关重要。在此背景下,基础模型有助于遥感图像分析,以准确且高效地提取相关地理信息。然而,随着这些模型规模的增大,微调面临日益严峻的计算资源与成本挑战,限制了其可及性与可扩展性。此外,全量微调可能导致预训练特征遗忘,甚至降低模型泛化能力。为解决这一问题,参数高效微调(PEFT)技术提供了一种有前景的解决方案。本文针对多种基础模型架构与PEFT技术,在五个不同的地球观测数据集上进行了广泛实验,评估其有效性。结果提供了全面的对比分析,揭示了PEFT方法在何种情境下以及如何支持预训练地理空间模型的适应。我们证明,PEFT技术在性能上可达到甚至超越全量微调,并提升模型对未见地理区域的泛化能力,同时显著降低训练时间与内存需求。额外实验探讨了架构选择(如解码器类型或元数据使用)的影响,建议采用UNet解码器并避免使用元数据作为最优配置。我们已将所有评估的基础模型与技术集成至开源工具包TerraTorch,以支持快速、可扩展且低成本的模型适配。
地理空间基础模型(GFMs)通常缺乏对高光谱成像(HSI)的原生支持,原因在于高维光谱数据的复杂性与巨大体量。本研究探讨了TerraMind这一多模态地理空间基础模型在未进行HSI特定预训练的情况下,对HSI下游任务的适应能力。为此,我们实施并比较了两种通道适配策略:简单波段选择与基于物理的光谱响应函数(SRF)分组。总体结果表明,具备原生HSI数据支持的深度学习模型具有普遍优势。实验还证明,TerraMind可通过波段选择实现对HSI下游任务的适应,尽管性能有所下降。因此,本研究的发现为HSI集成建立了关键基线,强调了未来多模态模型架构中引入原生光谱标记化的必要性。
我们提出 GAIA(Geospatial Artificial Intelligence for Atmospheres,面向大气的地理空间人工智能),一种混合式自监督地理空间基础模型,将掩码自编码器(Masked Autoencoder, MAE)与无标签自蒸馏(DINO)相结合,从全球静止轨道卫星影像中生成语义丰富的表征。GAIA 在 2001–2015 年共 15 年的全球融合红外观测数据上进行预训练,所学习到的解耦表征能有效捕捉大气动力学过程,而非琐碎的昼夜周期模式,该结论由分布式主成分结构分析与时间一致性分析证实。实验表明,GAIA 在不同数据缺失程度(30%–95% 掩码率)下均展现出稳健的重建能力,并在真实缺失数据模式下的空缺填补任务中性能显著优于基线方法。在下游任务迁移中,GAIA 始终优于仅采用 MAE 的基线模型:大气河分割任务 F1 分数提升至 0.58(基线为 0.52);热带气旋检测任务中,风暴级召回率提升至 81%(基线为 75%),早期识别率提升至 29%(基线为 17%);降水估算性能亦保持竞争力。进一步分析表明,GAIA 的混合自监督目标促使模型学习空间连贯、以对象为中心的特征,这些特征分布于多个主成分之上,而非集中于重建导向的单一紧凑表征。本工作证实,结合互补的自监督目标可生成更具泛化能力的表征,适用于多样化的大气建模任务。模型权重与代码开源地址为:https://huggingface.co/bcg-usra-nasa-gaia/GAIA-v1。