全局检索与知识浏览
跨论文、博客、数据集线索、项目和工具统一检索。检索结果可以继续跳转到独立问答页,做语义追问和来源核验。
本文简要概述了现有的地理基础模型(GeoFM)与地理人工智能(GeoAI)模型,以及用于评估这些模型的核心数据集与基准测试。地理基础模型仍是一个新兴且快速发展的研究领域。依据基础模型(FM)或地理基础模型(GeoFM)在各项研究中所起的作用,可将现有GeoFM相关研究大致分为以下三类:1)通过提示工程(prompt engineering)与任务特定微调(task-specific fine-tuning),将现有基础模型适配至地理空间任务;2)构建面向地理空间任务的先进大语言模型(LLM)智能体框架;3)通过具备地理感知能力的模型训练与微调,开发新型地理基础模型。
洪水灾害制图对防灾减灾至关重要,但在数据匮乏地区仍面临挑战,因传统水动力模型需大量地球物理输入。本文提出\textit{ZeroFlood}框架,利用地理基础模型(GeoFMs)仅依靠单模态遥感观测(EO)数据——特别是合成孔径雷达(SAR)影像——预测洪水灾害图。我们构建了一个覆盖欧洲大陆的数据集,将EO数据与洪水灾害模拟结果配对。基于该数据集,我们评估了若干近期GeoFMs在洪水灾害分割任务上的性能。实验结果表明,表现最优的模型TerraMind达到88.36\%的F1分数,较监督学习基线提升逾3个百分点。我们进一步证明,引入模态内思考(Thinking-in-Modality, TiM)机制可进一步提升性能。这些结果验证了地理基础模型在仅依赖有限观测输入的数据驱动型洪水灾害制图中的潜力。该数据集与实验代码已公开发布于https://github.com/khyeongkyun/zeroflood。
视觉与语言基础模型的进展推动了地理基础模型(GeoFMs)的发展,显著提升了多种地理空间任务的性能。然而,现有大多数GeoFMs主要关注俯视遥感(RS)数据,忽视了街景(SV)影像等其他数据模态。多模态GeoFM发展的关键挑战在于显式建模跨模态的地理空间关系,从而实现任务、空间尺度和时间上下文间的泛化能力。为解决上述局限,我们提出GAIR,一种新型的多模态GeoFM架构,整合俯视遥感数据、街景影像及其地理定位元数据。我们采用三个因子化神经编码器,将街景影像、其地理坐标及遥感影像映射至嵌入空间。街景影像需位于遥感影像的空间覆盖范围内,但无需处于其地理中心。为实现街景影像与遥感影像的地理对齐,我们提出一种新颖的隐式神经表示(INR)模块,学习连续的遥感影像表示,并在街景影像的地理坐标处查询对应的遥感嵌入。随后,这些经过地理对齐的街景嵌入、遥感嵌入及位置嵌入通过无监督数据上的对比学习目标进行训练。我们在涵盖遥感影像、街景影像及位置嵌入基准的10项地理空间任务上评估GAIR。实验结果表明,GAIR优于当前最先进的GeoFMs及其他强基线模型,验证了其在学习通用且可迁移的地理空间表示方面的有效性。
视觉-语言基础模型(VLFMs)在图像描述、图像-文本检索、视觉问答和视觉定位等多种多模态任务上取得了显著进展。然而,大多数方法依赖于通用图像数据集进行训练,缺乏地理空间数据导致其在地球观测任务中表现不佳。近年来,已提出大量地理空间图像-文本配对数据集以及在这些数据集上微调的VLFMs。这些新方法旨在利用大规模、多模态地理空间数据,构建具备多样化地理感知能力的通用智能模型,我们称之为视觉-语言地理基础模型(VLGFMs)。本文全面回顾了VLGFMs,总结并分析了该领域的最新发展。具体而言,我们介绍了VLGFMs兴起的背景与动机,强调了其独特的研究意义;系统梳理了VLGFMs的核心技术,包括数据构建、模型架构以及各类多模态地理空间任务的应用;最后,我们总结了对未来研究方向的见解、现存问题与讨论。据我们所知,这是首篇关于VLGFMs的综合性文献综述。我们将持续追踪相关工作,详见 https://github.com/zytx121/Awesome-VLGFM。
地理基础模型(GFMs)已在多种地球观测任务中得到评估,涵盖多个领域,并展现出即使在标签稀疏条件下也能生成可靠制图结果的强大学习潜力。然而,针对冰冻圈(Cryosphere)应用的GFMs基准测试仍十分有限,主要原因在于缺乏适配的评估数据集。为填补这一空白,我们提出\textbf{Cryo-Bench}——一个专为评估GFMs在关键冰冻圈组分上性能而构建的基准测试套件。Cryo-Bench涵盖碎屑覆盖冰川、冰川湖、海冰和冰川崩解前沿,数据来源包括多种传感器,覆盖广阔地理区域。我们评估了14种GFMs以及UNet和ViT两类基线模型,以系统分析其优势、局限性及最优使用策略。在编码器冻结设定下,UNet在Cryo-Bench所含五个评估数据集上的平均mIoU最高,达\textbf{66.38},其次为TerraMind(\textbf{64.02})。在少样本设定(仅使用10\%输入数据)下,DOFA与TerraMind等GFMs表现优于UNet,mIoU分别达\textbf{59.53}、\textbf{56.62}和\textbf{56.60},而UNet为56.60。当对GFMs进行全量微调时,各模型在不同数据集上的性能表现不一致;但若同步优化学习率,则可显著提升GFMs性能——例如在两个代表性数据集(GLID与CaFFe)上的评估显示,平均相对性能提升达\textbf{12.77\%}。尽管预训练数据中冰冻圈样本极少,GFMs仍展现出显著的跨域适应能力,并在各项任务中产出有意义的结果。基于上述发现,我们建议采用编码器微调并辅以超参数优化以实现最优性能;而在资源受限时,可采用冻结编码器策略。
在大数据时代,基于云边协同数据的智能教学空间模型构建是当前教育创新探索的重点。在理解构建模型的基础上,依托云边协同数据的安全存储体系,本文深入探讨了该技术的实现路径,并最终获得相关成果。
《国际地理信息科学杂志》;第39卷;第12期;页码2862-2885;2025年发表;出版机构Taylor & Francis。
视觉Transformer(ViT)已在计算机视觉任务中广泛应用并取得优异效果,可为整幅图像或图像块提供表征。然而,在涉及多种地理空间数据模态(如俯视遥感(RS)数据、地面级影像及地理空间矢量数据)的地理空间任务中,ViT难以在任意位置生成细粒度的局部化图像表征;而此类高分辨率局部表征对于建模跨模态的地理空间关系与对齐至关重要。为此,我们提出一种隐式神经表征(INR)模块,通过神经隐式局部插值扩展ViT,从而生成覆盖遥感图像中任意位置的连续RS图像表征。基于该INR模块,我们提出了GAIR——一种新颖的位置感知自监督学习(SSL)目标,整合俯视RS数据、街景(SV)影像及其地理位置元数据。GAIR采用三个解耦的神经编码器,将不同模态映射至嵌入空间,并利用INR模块进一步实现这些表征的地理对齐;整个模型通过无标签数据上的对比学习目标进行训练。我们在涵盖RS影像、SV影像及位置嵌入三大类别的9项地理空间任务、22个数据集上对GAIR进行了评估。实验结果表明,GAIR优于当前最先进的地理基础模型(GeoFM)以及未采用细粒度地理对齐空间表征的其他SSL训练目标(如MoCo V3和MAE)。结果凸显了GAIR在跨任务、跨空间尺度及跨时间上下文场景下学习泛化性地理空间表征的有效性。
洪水易发性制图(FSM)对于灾害预防至关重要,但在缺乏数据的地区仍具挑战性,因为水动力模型需要密集的地球物理输入。本文提出ZeroFlood,一种用于数据高效洪水易发性制图的地理空间基础模型框架。该方法通过基于模态思维(TiM)的推理对地理空间基础模型(GFMs)进行微调,实现仅依赖基本地球观测数据(如Sentinel-1或Sentinel-2影像)进行洪水预测。利用数据丰富区域的配对地球观测数据与模拟洪水地图,ZeroFlood通过跨模态表示学习弥合数据差距。基于TerraMind和Prithvi GFMs的实验表明,TiM提升了模型鲁棒性,其中TerraMind-Large配置的F1得分为67.21。结果证明了基于基础模型的FSM在洪水风险管理中具有可扩展性和数据高效性。
尽管文中重点分析了这些城市,但该工作流程原则上可适用于任何城市区域,这体现了地理空间基础模型的核心优势。该方法基于四种主要数据源:(1)经协调的Landsat-Sentinel-2影像,提供30米分辨率多光谱波段,用于通过分裂窗算法反演地表温度(LST)[21, 25];(2)Impact Observatory提供的10米分辨率土地利用与土地覆盖(LULC)数据,用于识别城市区域与绿地空间[26];(3)ERA5-Land再分析数据,提供连续的大气背景信息,其中近地表气温数据与HLS影像进行叠加。
滑坡对生命、基础设施和环境造成严重破坏,因此准确及时的制图对于灾害预防与应对至关重要。然而,传统深度学习模型在应用于不同传感器、区域或训练数据有限的情况下往往表现不佳。为应对这些挑战,我们提出一个涵盖传感器、标签和领域三个维度的分析框架,用于适应地理空间基础模型(GeoFMs),重点聚焦于Prithvi-EO-2.0在滑坡制图中的应用。通过一系列实验,我们发现该模型在性能上持续优于任务特定的卷积神经网络(U-Net、U-Net++)、视觉Transformer(Segformer、SwinV2-B)以及其他GeoFMs(TerraMind、SatMAE)。该模型基于全球预训练、自监督学习以及可适应的微调机制,在面对光谱变化时表现出鲁棒性,即使在标签数据稀缺条件下仍能保持较高精度,并在多种数据集和地理环境中展现出更可靠的泛化能力。与此同时,我们也指出了仍存在的挑战,如计算成本较高以及可用于滑坡研究的可复用AI就绪训练数据有限。总体而言,本研究将GeoFMs定位为实现更稳健、可扩展的滑坡风险减缓与环境监测方法的重要一步。
我们对NASA与IBM联合开发的Prithvi-EO-2.0地理空间基础模型在利用卫星影像进行小型沙质岛屿海岸线提取方面的表现进行了初步评估。我们收集并标注了来自马尔代夫两个岛屿的225幅多光谱图像数据集,并公开发布该数据集;同时,我们在包含5至181幅图像的训练子集上对Prithvi模型的300M和600M参数版本进行了微调。实验结果表明,即使仅使用5幅训练图像,模型仍能取得优异性能(F1值为0.94,IoU值为0.79)。研究结果展示了Prithvi模型强大的迁移学习能力,凸显了此类模型在数据匮乏地区支持海岸带监测的巨大潜力。
随着城市化进程和气候变化的推进,城市热岛效应日益频繁且加剧。为制定有效的缓解策略,城市需要详细的气温数据。然而,基于传统机器学习模型和有限数据基础设施的预测分析方法在欠覆盖区域常导致不准确的预测。在此背景下,基于全球非结构化数据训练的地理空间基础模型展现出强大的泛化能力,且仅需极少微调,为传统方法受限的场景提供了替代方案。本研究对地理空间基础模型进行微调,以预测未来气候情景下的城市地表温度,并通过模拟植被策略探讨其对土地覆盖变化的响应。微调后的模型像素级下采样误差低于1.74 °C,且与地面实测模式一致,表现出最高达3.62 °C的外推能力。
地理空间基础模型(GeoFM)有望为地球观测(EO)任务提供广泛的泛化能力,尤其在数据受限条件下表现突出。然而,其庞大的模型规模对资源受限的航天器硬件部署构成挑战。为此,我们提出了一种基于视觉Transformer(ViT)的GeoFM紧凑型变体,在保持下游任务性能的同时实现了机载执行。通过对五个下游任务的评估以及在两种典型飞行环境中的验证,表明模型压缩与领域适应对于降低模型尺寸和资源需求、同时在实际运行条件下维持高性能至关重要。我们进一步展示了在国际空间站搭载的IMAGIN-e有效载荷上实现的可靠在轨推理。这些结果确立了从大型GeoFM到可飞行、资源高效的部署路径,拓展了地球观测任务中机载人工智能的可行性。
随着城市化进程和气候变化的推进,都市热岛效应日益频繁且严重。为制定有效的缓解策略,城市需要详细的气温数据,但传统机器学习模型在数据有限的情况下往往产生不准确的预测,尤其是在服务不足的区域。基于全球非结构化数据训练的地理空间基础模型提供了一种有前景的替代方案,其具备强大的泛化能力,仅需少量微调即可应用。本研究通过量化绿地的降温效应并将其与模型预测结果进行对比,建立了都市热模式的经验真实数据,用以评估模型的准确性。随后,对基础模型进行微调,以预测未来气候情景下的地表温度,并通过模拟修复(inpainting)展示了其在缓解支持中的实际价值。结果表明,基础模型为数据匮乏地区评估都市热岛缓解策略提供了有力工具,有助于建设更具气候韧性的城市。
基础模型(FMs)是大规模预训练的人工智能(AI)系统,已彻底改变自然语言处理和计算机视觉领域,并正推动地理空间分析与地球观测(EO)的发展。它们有望在各类任务中实现更好的泛化能力、可扩展性以及仅需少量标注数据即可高效适应。然而,尽管地理空间基础模型迅速普及,其在现实世界中的实用性及其与全球可持续发展目标的契合度仍缺乏深入探索。我们提出了SustainFM,一个基于17项可持续发展目标的综合性基准测试框架,涵盖从资产财富预测到环境灾害检测等极其多样的任务。本研究对地理空间基础模型进行了严谨且跨学科的评估,为理解其在实现可持续发展目标中的作用提供了关键洞见。研究发现:(1)尽管并非在所有任务中均表现最优,但基础模型通常在多种任务和数据集上优于传统方法。(2)评估基础模型应超越准确率,纳入可迁移性、泛化能力及能源效率等关键指标,以确保其负责任的应用。(3)基础模型能够提供可扩展的、以可持续发展目标为导向的解决方案,广泛适用于应对复杂的可持续性挑战。至关重要的是,我们倡导从以模型为中心的研发转向以影响为导向的部署模式,并强调能源效率、对领域偏移的鲁棒性以及伦理考量等指标的重要性。
亟需能够处理各类数据源、其模态以及不同空间与时间分辨率的策略与工具。过去几十年间,深度学习的兴起与计算能力的增长,已彻底改变了遥感(EO)数据的处理方式,其应用涵盖地球系统科学、城市计算、地理空间语义学和遥感等领域。
探讨地理空间基础模型的现状,涵盖表征学习到人口动态等主题,并汇总CARTO与巴塞罗那超级计算中心(BSC)联合举办的研讨会见解。
出版日期:2026年7月;来源:《交通运输研究D辑:运输与环境》,第156卷;作者:张岩、秦泉、聂海如、关美宝、何思佳、柯恩彤
地理空间基础模型(Geospatial Foundation Models, GFMs)已成为从地球观测数据中提取表征的强大工具,但其评估仍存在不一致且范围狭窄的问题。现有研究通常在次优的下游数据集和任务上进行评估,这些任务往往过于简单或过于局限,限制了评估结果对GFMs实际应用能力的衡量价值。此外,当前评估协议缺乏多样性,未能充分考虑图像分辨率、传感器类型和时间维度的多重差异,进一步增加了评估GFM性能的复杂性。特别是,大多数现有基准在地理分布上偏向北美和欧洲,质疑了GFMs的全球适用性。为应对上述挑战,我们提出PANGAEA,一个标准化的评估协议,涵盖多样化的数据集、任务、分辨率、传感器模态和时间维度,建立了稳健且广泛适用的GFMs基准。我们在该基准上评估了目前公开可用的最主流GFMs,并分析其在多个领域的表现。特别地,我们将这些模型与监督学习基线(如UNet和原始ViT)进行比较,并评估其在标注数据有限情况下的有效性。研究结果揭示了GFMs在不同场景下的局限性,表明它们并未始终优于监督模型。PANGAEA设计具有高度可扩展性,支持未来研究中无缝集成新的数据集、模型和任务。通过发布评估代码与基准,我们旨在使其他研究人员能够复现我们的实验并在此基础上开展工作,推动大规模预训练地理空间模型评估向更严谨的范式演进。
基础模型已深刻变革自然语言处理与计算机视觉领域,其影响正重塑遥感图像分析。凭借强大的泛化能力与迁移学习特性,基础模型天然契合遥感数据的多模态、多分辨率及多时相特征。为应对该领域的独特挑战,多模态地理空间基础模型(GFMs)应运而生,成为专门的研究前沿。本综述从模态驱动视角系统回顾多模态GFMs,涵盖五种核心视觉与视觉-语言模态。我们探讨成像物理差异与数据表征方式如何影响交互设计,并分析对齐、融合与知识迁移的关键技术,以应对模态异质性、分布偏移与语义鸿沟问题。训练范式、模型架构及任务特定适应策略的进展得到系统评估,同时梳理了大量新兴基准。代表性多模态视觉与视觉-语言GFMs在十项下游任务中被评估,深入剖析其架构特点、性能表现与应用场景。涵盖土地覆盖制图、农业监测、灾害响应、气候研究与地理空间情报等真实案例研究,展示了GFMs的实际应用潜力。最后,本文指出领域泛化、可解释性、效率与隐私等关键挑战,并展望未来研究的可行方向。
基础模型(FMs)通过大规模预训练在多个领域实现了最先进性能。在地球观测(EO)领域,近年来海量卫星数据档案(拍字节级)的可用性推动了地理空间基础模型(GFMs)的发展。然而,关于数据集规模、模型架构与模型规模如何共同决定下游性能的基本问题仍待解答。本文系统地探索该设计空间,基于三个数据集规模进行模型预训练与微调:PhilEO Globe(0.5TB)、FastTOM(2TB,本文首次提出)以及MajorTOM(23TB)。评估了三种架构族:Geo-Aware U-Net(CNN)、ViT-UPerNet(Transformer)和Mamba(状态空间模型),涵盖参数量从44M到300M的多种模型规模。所有模型均在PhilEO Bench上进行基准测试,任务包括道路密度与建筑密度回归、土地覆盖分割,并与现有GFMs如TerraMind和Prithvi-EO-2.0进行对比。结果表明,在少样本设置下,基于CNN的模型依然具有较强竞争力,其中200M参数的Geo-Aware U-Net在回归任务中优于更大规模的架构。然而,当扩展至拍字节级数据集时,ViT-UPerNet表现最佳,尤其在MajorTOM(23TB)上的语义分割任务中优势显著。最后,我们首次对Mamba模型在地球观测领域的应用进行了广泛评估,凸显其潜在的效率优势,但需进一步的大规模预训练才能完全达到CNN与ViT的性能水平。本文公开发布全部代码、预训练模型及FastTOM数据集,以支持可复现性并促进对GFMs缩放定律的深入研究。
地球观测(EO)对于监测环境变化、应对灾害以及管理自然资源至关重要。在此背景下,基础模型有助于遥感图像分析,以准确且高效地提取相关地理信息。然而,随着这些模型规模的增大,微调面临日益严峻的计算资源与成本挑战,限制了其可及性与可扩展性。此外,全量微调可能导致预训练特征遗忘,甚至降低模型泛化能力。为解决这一问题,参数高效微调(PEFT)技术提供了一种有前景的解决方案。本文针对多种基础模型架构与PEFT技术,在五个不同的地球观测数据集上进行了广泛实验,评估其有效性。结果提供了全面的对比分析,揭示了PEFT方法在何种情境下以及如何支持预训练地理空间模型的适应。我们证明,PEFT技术在性能上可达到甚至超越全量微调,并提升模型对未见地理区域的泛化能力,同时显著降低训练时间与内存需求。额外实验探讨了架构选择(如解码器类型或元数据使用)的影响,建议采用UNet解码器并避免使用元数据作为最优配置。我们已将所有评估的基础模型与技术集成至开源工具包TerraTorch,以支持快速、可扩展且低成本的模型适配。
CARTO 现支持直接在地理空间基础模型(geospatial foundation model)的嵌入向量(embeddings)上运行分析。通过可视化、聚类与变化检测,将空间数据转化为决策依据。