UrbanComp Lab | 学习资料库

中国地质大学（武汉）位置智能与城市感知实验室

搜索资料库团队官网

统一知识库检索

全局检索与知识浏览

跨论文、博客、数据集线索、项目和工具统一检索。检索结果可以继续跳转到独立问答页，做语义追问和来源核验。

检索条件

内容类型

来源类型

热门主题

当前展示 24 条，共 5904 条

筛选后的知识库结果

首页/全局检索

论文

arXiv

GeoAI

GIS

GeoLink：利用开放街道地图数据赋能遥感基础模型

GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data

将地面级地理空间数据及丰富的地理上下文信息（如开放街道地图，OSM）融入遥感（RS）基础模型（FM），对于推动地理空间智能并支持广泛任务至关重要。然而，RS与OSM数据之间的模态差异（包括数据结构、内容和空间粒度的不同）使得有效协同极具挑战性，且大多数现有RS基础模型仅关注图像数据。为此，本研究提出GeoLink，一种多模态框架，通过利用OSM数据在预训练及下游任务阶段增强RS基础模型。具体而言，GeoLink借助来自OSM数据的多粒度学习信号，结合跨模态空间相关性引导的信息交互与协作，提升RS自监督预训练效果；同时引入图像掩码重建机制，实现稀疏输入以提高预训练效率。在下游任务中，GeoLink生成单模态与多模态细粒度编码，支持从常规遥感解译任务（如土地覆盖分类）到更复杂的地理任务（如城市功能区划分）的广泛应用。大量实验表明，在预训练阶段融合OSM数据可显著提升RS图像编码器性能，而在下游任务中融合RS与OSM数据则增强了模型对复杂地理场景的适应能力。这些结果凸显了多模态协同在推进高级地理空间人工智能方面的潜力。此外，我们发现空间相关性在实现有效多模态地理空间数据集成中起关键作用。代码、检查点及使用示例已发布于https://github.com/bailubin/GeoLink_NeurIPS2025

Lubian Bai, Xiuyuan Zhang, Siqi Zhang

2025/09/30

PDF 来源详情

论文

arXiv

GeoAI

GIS

UNIGEOCLIP：统一的地理空间对比学习

UNIGEOCLIP: Unified Geospatial Contrastive Learning

共址地理空间数据（包括航拍影像、街景视图、高程模型、文本及地理坐标）日益丰富，为多模态表征学习提供了独特机遇。我们提出 UNIGEOCLIP，一种大规模多模态对比学习框架，可在单一统一嵌入空间中联合对齐五种互补的地理空间模态。与以往依赖模态融合或中心化枢轴表征的方法不同，本方法执行全对全（all-to-all）对比对齐，从而支持跨任意模态组合的无缝比较、检索与推理。我们进一步提出一种缩放式经纬度编码器（scaled latitude-longitude encoder），通过捕获多尺度地理结构以提升空间表征能力。在多项下游地理空间任务上的大量实验表明，UNIGEOCLIP 始终优于单模态对比模型及仅使用坐标的基线方法，凸显了整体式多模态地理空间对齐的优势。参考实现见 https://gastruc.github.io/unigeoclip。

Guillaume Astruc, Eduard Trulls, Jan Hosang

2026/04/14

PDF 来源详情

论文

arXiv

GeoAI

GIS

GAIR：通过地理对齐的隐式表示提升多模态地理基础模型

GAIR: Improving Multimodal Geo-Foundation Model with Geo-Aligned Implicit Representations

视觉与语言基础模型的进展推动了地理基础模型（GeoFMs）的发展，显著提升了多种地理空间任务的性能。然而，现有大多数GeoFMs主要关注俯视遥感（RS）数据，忽视了街景（SV）影像等其他数据模态。多模态GeoFM发展的关键挑战在于显式建模跨模态的地理空间关系，从而实现任务、空间尺度和时间上下文间的泛化能力。为解决上述局限，我们提出GAIR，一种新型的多模态GeoFM架构，整合俯视遥感数据、街景影像及其地理定位元数据。我们采用三个因子化神经编码器，将街景影像、其地理坐标及遥感影像映射至嵌入空间。街景影像需位于遥感影像的空间覆盖范围内，但无需处于其地理中心。为实现街景影像与遥感影像的地理对齐，我们提出一种新颖的隐式神经表示（INR）模块，学习连续的遥感影像表示，并在街景影像的地理坐标处查询对应的遥感嵌入。随后，这些经过地理对齐的街景嵌入、遥感嵌入及位置嵌入通过无监督数据上的对比学习目标进行训练。我们在涵盖遥感影像、街景影像及位置嵌入基准的10项地理空间任务上评估GAIR。实验结果表明，GAIR优于当前最先进的GeoFMs及其他强基线模型，验证了其在学习通用且可迁移的地理空间表示方面的有效性。

Zeping Liu, Fan Zhang, Junfeng Jiao

2025/03/21

PDF 来源详情

论文

arXiv

GeoAI

GIS

OmniGeo：面向地理空间人工智能的多模态大语言模型

OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence

多模态大语言模型（LLM）的快速发展为人工智能开辟了新领域，实现了文本、图像及空间信息等多样化大规模数据类型的融合。本文探讨了多模态大语言模型（MLLM）在地理空间人工智能（GeoAI）中的潜力，该领域利用空间数据应对地理语义、健康地理学、城市地理学、城市感知以及遥感等领域的挑战。我们提出一种专用于地理空间应用的MLLM（OmniGeo），能够处理和分析异构数据源，包括卫星影像、地理空间元数据和文本描述。通过结合自然语言理解与空间推理的优势，本模型提升了指令遵循能力以及GeoAI系统的准确性。实验结果表明，该模型在多种地理空间任务上优于特定任务模型及现有LLM，在处理多模态特性的同时，于零样本地理空间任务中取得了具有竞争力的表现。代码将在论文发表后公开。

Long Yuan, Fengran Mo, Kaiyu Huang

2025/03/21

PDF 来源详情

论文

arXiv

GeoAI

GIS

GeoMMBench 与 GeoMMAgent：迈向地球科学与遥感领域的专家级多模态智能

GeoMMBench and GeoMMAgent: Toward Expert-Level Multimodal Intelligence in Geoscience and Remote Sensing

多模态大语言模型（MLLM）的近期进展加速了领域导向人工智能的发展，但其在地球科学与遥感（RS）领域的演进仍受限于若干独特挑战：跨学科知识广度大、传感器模态异构性强、任务类型碎片化。为弥合上述差距，我们提出 GeoMMBench——一个覆盖多元 RS 学科、传感器类型与任务范畴的综合性多模态问答基准，支持比既有基准更广泛、更严格的评估。基于 GeoMMBench，我们对 36 个开源及商用大语言模型开展评测，系统揭示其在领域知识、感知具身性与推理能力等方面的不足，而这些能力恰是实现专家级地理空间解译所必需的。除评估外，我们进一步提出 GeoMMAgent，一种多智能体框架，通过领域专用 RS 模型与工具，策略性地整合检索、感知与推理模块。大量实验结果表明，GeoMMAgent 显著优于独立运行的大语言模型，印证了工具增强型智能体在动态应对复杂地球科学与遥感挑战中的关键作用。

Aoran Xiao, Shihao Cheng, Yonghao Xu

2026/04/10

PDF 来源详情

论文

arXiv

RemoteSensing

EarthObservation

GeoHeight-Bench：面向高度感知的遥感多模态推理

GeoHeight-Bench: Towards Height-Aware Multimodal Reasoning in Remote Sensing

当前地球观测领域的大规模多模态模型（LMMs）通常忽略关键的“垂直”维度，从而限制了其在复杂遥感几何结构及灾害场景中的推理能力——在这些场景中，物理空间结构往往比平面视觉纹理更为重要。为弥补这一空白，我们提出一个专用于高度感知遥感理解的综合性评估框架。首先，为应对标注数据严重匮乏的问题，我们构建了一条可扩展的、基于视觉语言模型（VLM）的数据生成流水线，该流水线结合系统性提示工程与元数据提取技术。该流水线构建了两个互补的基准数据集：用于相对高度分析的 GeoHeight-Bench，以及更具挑战性的 GeoHeight-Bench+（支持整体性、地形感知推理）。此外，为验证高度感知的必要性，我们提出了 GeoHeightChat——首个具备高度感知能力的遥感 LMM 基线模型。作为一项有力的概念验证，该基线模型表明：将视觉语义与隐式注入的高度几何特征协同融合，可有效缓解模型的“垂直盲区”，成功在现有光学模型中开启交互式高度推理的新范式。

Xuran Hu, Zhitong Xiong, Zhongcheng Hong

2026/03/26

PDF 来源详情

论文

arXiv

SpatialIntelligence

LLM

从视频中学习几何表征：面向空间智能的多模态大语言模型

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

多模态大语言模型（MLLMs）在二维语义理解方面表现优异，但缺乏内在的三维感知能力，导致其表征无法在视频帧间维持几何与空间一致性。鉴于大规模三维数据的稀缺性，我们提出 GeoVR——一种仅利用二维视频序列学习几何表征的新框架。该方法有效重构了 MLLMs 内部的语义潜在空间，从而释放空间智能。GeoVR 并非采用表层特征混合策略，而是通过蒸馏预训练三维基础模型中的几何知识，重塑 MLLM 的内部表征。其实现依赖于一种多目标学习策略，该策略由四个互补的几何学习目标驱动：（1）估计帧间相机位姿，以嵌入变化的视角动态；（2）回归稠密深度图，以锚定物理距离；（3）预测度量尺度因子，实现真实世界校准；（4）蒸馏多尺度三维特征，对齐中间特征空间。在这些显式的物理与几何约束引导下，模型内部表征自然发展出强三维感知能力。在多项空间推理基准上的大量实验表明，GeoVR 达到当前最优性能，为赋予基础模型空间智能确立了新范式。

Haibo Wang, Lifu Huang

2026/06/04

PDF 来源详情

论文

arXiv

GeoAI

GIS

Sat2Sound：一种面向零样本声景制图的统一框架

Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping

我们提出 Sat2Sound，一种面向地理空间声景理解的统一多模态框架，旨在预测并绘制地球表面声音分布图。现有方法依赖配对的卫星图像与地理标记音频样本，往往难以充分表征某一位置声音的全部多样性。Sat2Sound 通过引入语义丰富的、由视觉-语言模型生成的声景描述来扩充数据集，从而拓展每个位置所能表征的环境声音范围。本框架通过对比学习与码本对齐学习，联合利用音频、音频文本描述、卫星图像及合成图像字幕，发现跨模态共享的一组“声景概念”，实现超局部化、可解释的声景制图。Sat2Sound 在 GeoSound 和 SoundingEarth 基准上实现了卫星图像与音频之间跨模态检索的最先进性能。最后，通过检索可由文本到音频模型渲染的详细声景字幕，Sat2Sound 支持基于位置的声景合成，适用于沉浸式与教育类应用，且对计算资源需求较低。代码与模型发布于 https://github.com/mvrl/sat2sound。

Subash Khanal, Srikumar Sastry, Aayush Dhakal

2025/05/20

PDF 来源详情

论文

arXiv

GeoAI

GIS

多模态地理空间基础模型综述：技术、应用与挑战

Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges

基础模型已深刻变革自然语言处理与计算机视觉领域，其影响正重塑遥感图像分析。凭借强大的泛化能力与迁移学习特性，基础模型天然契合遥感数据的多模态、多分辨率及多时相特征。为应对该领域的独特挑战，多模态地理空间基础模型（GFMs）应运而生，成为专门的研究前沿。本综述从模态驱动视角系统回顾多模态GFMs，涵盖五种核心视觉与视觉-语言模态。我们探讨成像物理差异与数据表征方式如何影响交互设计，并分析对齐、融合与知识迁移的关键技术，以应对模态异质性、分布偏移与语义鸿沟问题。训练范式、模型架构及任务特定适应策略的进展得到系统评估，同时梳理了大量新兴基准。代表性多模态视觉与视觉-语言GFMs在十项下游任务中被评估，深入剖析其架构特点、性能表现与应用场景。涵盖土地覆盖制图、农业监测、灾害响应、气候研究与地理空间情报等真实案例研究，展示了GFMs的实际应用潜力。最后，本文指出领域泛化、可解释性、效率与隐私等关键挑战，并展望未来研究的可行方向。

Liling Yang, Ning Chen, Jun Yue

2025/10/27

PDF 来源详情

论文

arXiv

GeoAI

GIS

ERGeoBench：面向具身推理与地理定位的多模态大语言模型综合基准

ERGeoBench:A Comprehensive Benchmark for Embodied Reasoning and Geo-localization in Multimodal Large Language Models

多模态大语言模型（MLLM）已展现出作为具身智能体的强大潜力，但由于缺乏细粒度评估，具身地理定位（embodied geo-localization）仍鲜有探索。本文提出 ERGeoBench，一个面向视觉驱动具身地理定位的诊断性基准。ERGeoBench 在三种渐进式设置下评估模型：单视角（single-view）、全景视角（panorama-view）和具身视角（embodied-view），其中智能体可通过偏航角（yaw）、俯仰角（pitch）和缩放（zoom）的序列调整主动获取观测。该基准包含 2,207 张全球分布的街景全景图像，并衡量四项互补能力：基础感知、空间意识、常识推理与地理定位推理。对主流闭源与开源 MLLM 的评估表明，当前模型可推断高层地理语义，但在细粒度感知操作、度量级定位（metric localization）以及跨视角空间一致性方面仍存在明显不足。我们进一步发现，地理定位能力与其他能力维度高度相关，表明准确的地理定位依赖于感知、空间推理与常识推断的协同整合，而非孤立的视觉识别。总体而言，ERGeoBench 为诊断与推进类人具身地理定位提供了统一框架。项目主页：https://kaixuewen.github.io/ERGeoBench/

Kaiwen Xue, Tao Wei, Guoxin Zhang

2026/05/29

PDF 来源详情

论文

arXiv

GeoAI

GIS

Plan2Map：面向规划记录的文档驱动型地理空间边界重建多模态基准

Plan2Map: A Multimodal Benchmark for Document-Grounded Geospatial Boundary Reconstruction from Planning Records

规划记录对地理区域施加限制，但其源文档通常仅提供间接的空间证据，而非机器可读的边界。我们提出 Plan2Map，一个包含 208 个案例的多模态基准，用于基于英国规划记录开展文档驱动的地理空间边界重建任务。给定一份原始规划文档，系统需仅依据公告文本、附表、地图图版、地图标注及边界注释，重建出有效的地理空间边界；参考 GeoJSON 标注被预留用于评估。我们提出 GeoPlanAgent，一种文档驱动、以地理空间工具为闭环组件的系统，将该任务分解为证据提取、定位、地图配准、边界分割、投影与验证六个子步骤。在 Plan2Map 上，GeoPlanAgent 取得 0.736 的平均交并比（IoU）和 0.904 的中位数 IoU，其中 67.8% 的预测结果达到或超过 0.8 IoU，显著优于直接使用视觉语言模型（VLM）生成 GeoJSON 的基线方法。诊断性分析表明，直接 VLM 预测仍不可靠；剩余误差主要集中于定位与地图配准环节；而监督式边界分割则显著提升了像素级掩码质量。Plan2Map 为从公开规划记录中开展多模态地理空间重建提供了具体的评测平台。项目主页：https://odeb1.github.io/Plan2Map_Project_Page/

Fabian Degen, Oishi Deb, Jindong Gu

2026/06/02

PDF 来源详情

论文

arXiv

GeoAI

GIS

“咖啡馆入口看起来无障碍吗？门在哪儿？”——面向视觉查询的地理空间AI智能体

"Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries

交互式数字地图已彻底改变了人们出行与认知世界的方式；然而，其依赖于地理信息系统（GIS）数据库中预先存在的结构化数据（例如道路网络、兴趣点索引），因而难以回答与现实世界视觉外观相关的地理-视觉问题。本文提出“地理-视觉智能体”（Geo-Visual Agents）的构想：一类多模态AI智能体，能够通过分析大规模地理空间图像库（包括街景图像（如Google街景）、场所关联照片（如TripAdvisor、Yelp）及航拍影像（如卫星图像））并融合传统GIS数据源，理解并回应关于现实世界细致入微的视觉-空间查询。我们阐述该构想的定义，描述感知与交互方法，给出三个示例，并列举未来研究中的关键挑战与机遇。

Jon E. Froehlich, Jared Hwang, Zeyu Wang

2025/08/22

PDF 来源详情

论文

arXiv

GeoAI

GIS

MONETA：基于地理信息与多智能体系统的多模态行业分类方法

MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems

行业分类体系是公共及企业数据库的重要组成部分，用于依据经济活动对各类企业进行归类。由于企业注册名录规模庞大，人工标注成本高昂；而每次行业分类体系更新后重新微调模型又需大量数据采集。我们通过利用现有或易于获取的多模态资源，模拟人工专家验证过程以实现行业分类。本文提出 MONETA——首个融合文本（网站、维基百科、Wikidata）与地理空间数据（OpenStreetMap 与卫星影像）的多模态行业分类基准。该数据集涵盖欧洲 1,000 家企业，依据欧盟《统计用经济活动分类》（NACE）标准标注 20 类经济活动标签。我们在无需训练的基线方法上，分别取得开源与闭源多模态大语言模型（MLLM）62.10% 和 74.10% 的准确率；进一步结合多轮交互设计、上下文增强与分类解释机制后，性能提升最高达 22.80%。我们将公开发布本数据集及优化后的标注指南。

Arda Yüksel, Gabriel Thiem, Susanne Walter

2026/04/09

PDF 来源详情

论文

arXiv

GeoAI

GIS

MONETA：基于地理信息与多智能体系统的多模态行业分类方法

MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems

行业分类体系是公共及企业数据库的重要组成部分，用于依据经济活动对企业进行归类。由于企业注册名录规模庞大，人工标注成本高昂；而每次行业分类体系更新后重新微调模型又需大量数据采集。我们通过利用现有或易于获取的多模态资源，模拟人工专家验证过程以实现行业分类。本文提出 MONETA——首个融合文本（网站、维基百科、Wikidata）与地理空间数据（OpenStreetMap 及卫星影像）的多模态行业分类基准。该数据集涵盖欧洲 1,000 家企业，依据欧盟《统计用经济活动分类》（NACE）标准标注 20 类经济活动标签。我们在无需训练的基线方法上，分别使用开源与闭源的多模态大语言模型（MLLM）取得 62.10% 和 74.10% 的准确率；进一步结合多轮交互设计、上下文增强与分类解释机制后，性能提升最高达 22.80%。我们将公开发布该数据集及优化后的标注指南。

Arda Yüksel, Gabriel Thiem, Susanne Walter

2026/04/09

PDF 来源详情

论文

arXiv

SpatialIntelligence

LLM

面向空间智能的双路径几何感知多模态大语言模型

Dual-Pathway Geometry-Aware MLLM for Spatial Intelligence

从2D视觉输入中理解物理世界的空间结构依赖于两类互补的几何知识：整体性3D结构感知与细粒度度量尺度估计。现有多模态大语言模型（MLLM）通常仅处理其中一种形式，通过额外引入深度图或点云作为模型输入，这不仅带来显著的计算开销，还继承了上游预测模型的泛化能力局限。我们提出GAMSI——一种面向空间智能的双路径几何感知MLLM，其仅以RGB图像为输入，并在统一的自回归主干网络中内化上述两类几何先验。具体而言，我们引入度量-结构解耦查询（Metric-Structure Decoupled Queries, MSDQ），采用两组可学习查询，分别从共享视觉上下文中提取密集的度量信号与稀疏的结构线索；并借助任务解耦的注意力掩码，进一步防止两条通路间的相互干扰。在此基础上，专家引导的视觉定位（Expert-Guided Visual Grounding, EVG）模块将聚合后的线索投影回帧级视觉特征，并将其与视觉基础模型对齐；后者仅在训练阶段提供监督信号，而非作为模型输入。此外，我们构建了一个多任务空间指令微调数据集（Multi-Task Spatial instruction-tuning dataset, MTS），共包含152,776个样本，覆盖13种任务类型及3种视觉模态，整合自6个公开数据集。通过两阶段课程学习训练，GAMSI在7个空间智能基准测试上达到当前最优性能。

Yufei Zheng, Xuhan Zhu, Zide Liu

2026/05/25

PDF 来源详情

论文

arXiv

GeoAI

GIS

GeoViSTA：面向多模态环境表征的地理空间视觉-表格变换器

GeoViSTA: Geospatial Vision-Tabular Transformer for Multimodal Environment Representation

对地球观测影像开展的大规模预训练已生成了关于自然与建成环境的强表征能力。然而，当前大多数地理空间基础模型并未直接建模通常以表格形式存储的结构化社会经济协变量。这种模态鸿沟限制了其对完整总体环境的刻画能力，而该能力对于推断复杂的环境、社会及健康相关结果至关重要。本文提出 GeoViSTA（Geospatial Vision-Tabular Transformer），一种视觉-表格联合架构，可从配准后的栅格影像与表格数据中学习统一的地理空间嵌入。GeoViSTA 利用双向交叉注意力机制在模态间交换空间与语义信息，并通过一种地理感知注意力机制加以引导，使连续的图像块与不规则的普查分区（census tract）标记对齐。我们采用自监督的联合掩码自编码（joint masked-autoencoding）目标训练 GeoViSTA，迫使其利用局部空间上下文及跨模态线索恢复缺失的图像块和表格行。实验表明，GeoViSTA 的统一嵌入在若干高影响力下游任务的线性探针（linear probing）性能上优于基线模型，尤其在预测疾病特异性死亡率及未见区域火灾风险频率方面表现更优。结果证实，将物理环境与结构化社会经济背景联合建模，可生成高度可迁移的表征，支撑全面的地理空间推理。

Yuhao Liu, Sadeer Al-Kindi, Ashok Veeraraghavan

2026/05/14

PDF 来源详情

论文

arXiv

GeoAI

GIS

ALIGN：一种基于地理空间神经推理的高精度事故定位视觉-语言框架

ALIGN: A Vision-Language Framework for High-Accuracy Accident Location Inference through Geo-Spatial Neural Reasoning

在低收入和中等收入国家，公共安全与城市规划工作常面临准确、位置明确的道路交通事故数据严重匮乏的问题。从非结构化文本中提取可靠的地理空间信息，需克服传统基于文本的地理编码工具的局限性——此类工具在多语种环境及地名描述模糊的情况下往往失效。本研究提出 ALIGN（Accident Location Inference through Geo-Spatial Neural Reasoning，即通过地理空间神经推理实现事故位置推断），一种视觉-语言框架，旨在模拟人类空间推理能力，从非结构化的孟加拉语新闻报道及地图线索中推断精确的事故坐标。我们构建了一个多阶段自动化处理流程，用于整合多样化的文本与视觉数据，结合大语言模型进行线索抽取，并利用视觉-语言模型开展地图验证。采用智能体（agentic）架构，我们建模了一个迭代式推理循环，融合光学字符识别（OCR）、基于网格的空间扫描以及三轮几何投票法，以数学方式识别并抑制视觉幻觉。结果表明，该多模态 ALIGN 框架显著优于传统纯文本地理解析基线方法。例如，在验证数据集上，所提系统将平均定位误差从不可用的 10.915 公里大幅降低至亚公里级精度 0.593 公里；进一步与达卡大都会警察局官方记录对比测试，其平均误差为 0.465 公里，验证了系统的可靠性。本成果为数据匮乏地区提供了高精度、无需训练的自动事故制图基础，支持循证式道路交通安全政策制定，并推动多模态人工智能在交通分析中的应用。

MD Thamed Bin Zaman Chowdhury, Moazzem Hossain

2025/11/09

PDF 来源详情

论文

arXiv

GeoAI

GIS

GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes

Multimodal large language models (MLLMs) have undergone rapid development in advancing geospatial scene understanding. Recent studies have sought to enhance the reasoning capabilities of remote sensing MLLMs, typically through cold-start training with elaborately curated chain-of-thought (CoT) data. However, this approach not only incurs substantial annotation costs but also introduces human biases that may limit the diversity of model reasoning. To address these challenges, we propose GeoZero, a framework that enables MLLMs to perform geospatial reasoning without any predefined CoT supervision. Specifically, we construct two datasets, GeoZero-Instruct and GeoZero-Hard. GeoZero-Instruct allows the model to acquire preliminary geospatial knowledge through supervised fine-tuning, while GeoZero-Hard stimulates deep reasoning during the subsequent reinforcement learning stage. Furthermore, we introduce Answer-Anchored Group Relative Policy Optimization (A$^2$GRPO), where the reasoning process is regularized by the model's own answers, encouraging diverse yet accurate thinking. Extensive experiments on multiple remote sensing vision-language benchmarks demonstrate that GeoZero not only surpasses existing state-of-the-art methods but also fosters universal emergent reasoning capabilities across diverse geospatial tasks. Code, data, and models are available at https://github.com/MiliLab/GeoZero.

Di Wang, Shunyu Liu, Wentao Jiang

2025/11/28

PDF 来源详情

论文

arXiv

SpatialIntelligence

LLM

GeoWeaver：在场景推理前利用几何证据对视觉令牌进行几何接地

GeoWeaver: Grounding Visual Tokens with Geometric Evidence before Scene Reasoning

视觉-语言模型中的时空推理需要能保留物理几何结构而非仅语义外观的视觉表征。近期多模态模型通过结构化分支、3D感知监督、推理阶段融合或长时程记忆等方式引入几何信息。尽管这些方法凸显了几何信息对空间智能的重要性，但通常将几何线索视为所有视觉令牌共享的统一信号。我们指出，这忽视了一个更细粒度的挑战：不同视觉令牌因其空间角色差异，需依赖不同的几何证据。为解决该局限，我们提出GeoWeaver——一种推理前几何接地框架，将几何建模视为时空推理的表征前提。GeoWeaver从一个冻结的几何编码器构建多层次几何知识库，并执行令牌自适应的几何证据分配，使每个视觉令牌可检索最相关的几何抽象。所选几何证据通过残差接地操作注入视觉令牌，该操作在语言建模之前完成，从而生成面向下游推理的几何接地表征。在多项空间推理基准上的广泛评估表明，GeoWeaver在持续提升几何感知推理能力的同时，保持了通用多模态能力。这表明，几何信息的最大价值并非作为后期融合的辅助信号，而是作为塑造大语言模型推理所依赖表征基础的根本前提。全部源代码与模型将在https://github.com/yahooo-m/GeoWeaver发布。

Deshui Miao, Xingsen Huang, Yameng Gu

2026/05/21

PDF 来源详情

论文

arXiv

GeoAI

GIS

EO-Gym：面向地球观测智能体的多模态交互式环境

EO-Gym: A Multimodal, Interactive Environment for Earth Observation Agents

地球观测（Earth Observation, EO）分析本质上具有交互性：消除不确定性通常需要扩展兴趣区域、检索历史观测数据，以及在光学与合成孔径雷达（Synthetic Aperture Radar, SAR）等不同传感器之间切换。然而，当前多数EO基准测试将该过程简化为固定输入、单轮次任务。为弥补这一缺口，我们提出EO-Gym——一个受控可执行框架，专为支持多模态、工具调用型EO智能体而设计；其将EO分析建模为一种Gymnasium风格的本地地理空间工作区，底层由逾66万个多模态文件支撑，这些文件按地理位置、时间及传感器类型索引，并配备35种EO专用工具，覆盖六大任务类别。基于该环境，我们构建了EO-Gym-Data基准数据集，包含9,078条轨迹与34,604个推理步骤，数据源自八个公开EO数据集，并整合Landsat与Sentinel-2影像。对10个开源及闭源视觉语言模型（VLM）的评估表明，即使性能较强的通用模型在交互式EO推理任务上仍表现欠佳，尤其在时序与跨模态工作流方面。作为参考基线，EO-Gym-4B通过在EO-Gym-Data上微调Qwen3-VL-4B-Instruct获得，在主评估设置下整体Pass@3指标由0.49提升至0.74。EO-Gym提供了一个可复现的交互式EO智能体实验环境，将EO操作化为一项需统筹地理空间、时间与传感模态的证据收集问题。

Sai Ma, Zhuang Li, Sichao Li

2026/05/02

PDF 来源详情

论文

arXiv

GeoAI

GIS

GeoJEPA：迈向消除多模态地理空间学习中的增强与采样偏差

GeoJEPA: Towards Eliminating Augmentation- and Sampling Bias in Multimodal Geospatial Learning

现有的地理空间区域与地图实体自监督表示学习方法在很大程度上依赖于预训练任务的设计，通常涉及基于空间邻近性的增强或启发式采样正负样本对。这种依赖引入了偏差，限制了表示的表达能力与泛化性能。因此，学术界迫切需要探索建模地理空间数据的不同方法。为应对此类方法的关键挑战——多模态性、异质性以及预训练任务的选择问题，我们提出GeoJEPA，一种基于自监督联合嵌入预测架构（Joint-Embedding Predictive Architecture, JEPA）的多功能多模态融合模型。通过GeoJEPA，我们旨在消除自监督地理空间表示学习中广泛存在的增强与采样偏差。GeoJEPA在大规模OpenStreetMap属性、几何数据和航空影像数据集上进行自监督预训练，生成的城市区域与地图实体的多模态语义表示经由定量与定性评估验证。本研究揭示了JEPA处理多模态数据能力的若干关键见解。

Theodor Lundqvist, Ludvig Delvret

2025/02/26

PDF 来源详情

论文

arXiv

GeoAI

GIS

TRAJGANR：基于地理空间对齐神经表征的轨迹中心化城市多模态学习

TRAJGANR: Trajectory-Centric Urban Multimodal Learning via Geospatially Aligned Neural Representations

多模态自监督学习（MSSL）已成为预训练地理空间基础模型的关键范式。然而，现有地理空间MSSL方法主要面向静态模态对（如卫星影像、街景影像和文本），其学习过程依赖于对同一位置或邻近位置观测结果的对齐。该假设在人类移动轨迹场景下失效，因为轨迹表征的是沿路径的连续运动，而非单个位置上的离散观测。尽管轨迹对于城市理解至关重要——其能够随时间捕捉人类活动在道路、社区和场所间的动态分布——但当前地理空间MSSL框架对其探索仍十分有限。本文提出TrajGANR，一种新颖的以轨迹为中心的地理空间MSSL框架，可将连续运动模式与静态的、基于位置的观测进行对齐。TrajGANR学习每条路径上任意点处轨迹的连续神经表征，从而实现与邻近街景影像的细粒度对齐，即使这些影像未与任何轨迹航点共址。我们利用该能力设计了一种MSSL目标函数，联合对齐三种模态：轨迹、街景影像及其地理坐标。我们在四项城市移动性与道路理解任务上评估TrajGANR。结果表明，TrajGANR在所有任务中均持续优于现有地理空间MSSL框架及一种专用于轨迹的基础模型。消融实验进一步证实，所提出的MSSL目标函数与多模态学习框架是性能提升的主要动因，凸显了细粒度地理空间对齐相较于粗粒度聚合的重要性，以及地理空间多模态协同学习的价值。

Maria Despoina Siampou, Gengchen Mai, Ni Lao

2026/05/08

PDF 来源详情

论文

arXiv

SpatialIntelligence

Multimodal

UrbanGraphEmbeddings：面向城市科学的空间锚定多模态嵌入学习与评估

UrbanGraphEmbeddings: Learning and Evaluating Spatially Grounded Multimodal Embeddings for Urban Science

在城市环境中学习可迁移的多模态嵌入具有挑战性，因为城市理解本质上具有空间属性，而现有数据集和基准缺乏街景图像与城市结构之间的显式对齐。我们提出了UGData，一个空间锚定的数据集，将街景图像与结构化空间图对齐，并通过空间推理路径和空间上下文描述提供图对齐的监督信号，揭示了图像内容之外的距离、方向性、连通性及邻里上下文信息。基于UGData，我们提出UGE，一种两阶段训练策略，通过结合指令引导的对比学习与基于图的空间编码，逐步且稳定地对齐图像、文本与空间结构。我们进一步构建了UGBench，一个综合性基准，用于评估空间锚定嵌入在多种城市理解任务中的表现，包括地理定位排序、图像检索、城市感知与空间定位。我们在多个先进的视觉语言模型（VLM）骨干网络上实现UGE，包括Qwen2-VL、Qwen2.5-VL、Phi-3-Vision和LLaVA1.6-Mistral，并采用LoRA微调训练固定维度的空间嵌入。基于Qwen2.5-VL-7B骨干网络构建的UGE在训练城市上的图像检索任务中提升达44%，地理定位排序任务提升30%；在未见城市上分别取得超过30%和22%的性能增益，证明了显式空间锚定对于空间密集型城市任务的有效性。

Jie Zhang, Xingtong Yu, Yuan Fang

2026/02/09

PDF 来源详情

论文

arXiv

GeoAI

GIS

GeoX：通过自我对弈与可验证奖励掌握地理空间推理

GeoX: Mastering Geospatial Reasoning Through Self-Play and Verifiable Rewards

地理空间推理要求在场景复杂的空间结构上求解图像锚定的问题。然而，该能力的发展受限于标注庞大且组合爆炸式增长的问题空间所需高昂成本。我们提出 GeoX，一种自我对弈框架，通过可执行程序获取空间逻辑，并基于可验证奖励进行学习，无需依赖大规模人工构建的数据。给定一张卫星或航拍图像，本框架采用单一多模态策略，将空间问题表述为可执行程序，并在三种推理模式——溯因、演绎与归纳——下，利用空间基元及图像理解工具求解这些问题。验证器执行每个程序，生成奖励信号，联合优化两个角色（问题生成与问题求解）的强化学习目标。GeoX 在平均指标上使其基础视觉语言模型（VLM）提升最高达 5.5 分，性能匹配或超越在数百万条人工标注数据上训练的传统基线方法。除所提方法外，我们还发布了一个通过自我对弈积累构建的地理空间理解基准。

Kyeongjin Ahn, Seungeon Lee, Krishna P. Gummadi

2026/05/19

PDF 来源详情

第 1 / 246 页