研究雷达

CAMASA：源自MASA Living Lab的基于CAM的数据集

轨迹预测是自动驾驶与协同驾驶系统的关键使能技术。然而，现有主流基准数据集大多以传感器为中心、地理范围受限，或基于合成移动轨迹，无法真实反映现实世界中车路协同（V2X）通信的动力学特性。本文提出CAMASA——一个大规模基于基础设施的数据集，源自摩德纳智能汽车区域（Modena Automotive Smart Area, MASA）Living Lab采集的协同感知消息（Cooperative Awareness Messages, CAMs）与去中心化环境通知消息（Decentralized Environmental Notification Messages, DENMs）。该数据集包含在真实城市交通条件下持续数月采集的逾4000万条CAM及200万条DENM。我们设计了一套严格的预处理流程，涵盖数据过滤、伪匿名化关联（以应对ETSI隐私规范导致的stationID动态变更）以及时间归一化（生成10 Hz采样率的轨迹），适用于运动预测与时序分析任务。CAMASA重建了逾14,000公里车辆行驶路径，并涵盖数万个唯一station ID，为协同式智能交通系统（Cooperative Intelligent Transportation Systems, C-ITS）研究提供了具有统计显著性的实证基础。除轨迹预测外，该数据集还可用于校准微观城市交通仿真器（如SUMO），并支持构建面向真实部署场景的智能交通系统（Intelligent Transportation Systems, ITS）数字孪生体，实现交通移动模式与V2X通信覆盖的联合建模。

一阶轨迹匹配：混沌、湍流与随机系统的快速集成预测

我们提出一阶轨迹匹配（First-Order Trajectory Matching, FTM），一种代理建模方法，用于从随机系统的轨迹中学习概率质量的一阶局域输运特性。通过匹配轨迹的对称一阶运动，FTM 学习概率流速度（probability current velocity），其流场可保持时间边缘分布，从而匹配集成平均值，同时亦能刻画类流性质的轨迹量，例如通量、环流及越障电流。FTM 直接从轨迹数据中学习流速度，无需估计漂移项、扩散项或得分函数（score）。我们的稳定性分析将离散化误差与采样方差分离，并表明：当时间分辨率与样本量适当平衡时，无需单步仿真的 FTM 损失函数具有数值稳定性。在若干随机动力系统与偏微分方程（PDE）示例中，我们实证表明 FTM 能以低计算开销、确定性前向推演（deterministic-rollout）成本，提供轨迹感知的集成预测。

面向数据增强的轨迹选择系统化方法

轨迹数据增强是一种有望缓解机器学习应用中数据稀缺问题的方法，但其效用受限于维持时空一致性的复杂性。尽管先前工作已验证几何扰动的可行性，却依赖于朴素的随机选择策略，从而在“应选择哪些轨迹进行增强以实现最大收益”这一关键问题上留下重要空白。本论文通过构建一个系统化且可扩展的框架填补该空白，评估五种系统化选择策略：离群性（Outlierness）、多样性（Diversity）、代表性（Representativeness）、不确定性（Uncertainty）及随机选择（Random selection）。这些策略在涵盖动物行为（Foxes 和 Starkey）、海上交通（AIS）及城市交通（Car）的四个数据集上，结合一系列线性与非线性机器学习模型进行了严格测试。作为评估的一部分，本研究集成了基于 Optuna 的超参数优化循环，以在所探索的搜索空间内为每个数据集经验性地确定最优增强参数。结果表明，尽管系统化选择并非普适解，但相较随机基线仍具显著优势：尤其是离群性与不确定性策略展现出更高稳定性，且在稠密数据集中不易出现随机采样所导致的性能下降。然而，研究亦发现增强的价值具有严格条件性：通过 UMAP 进行的可视化分析表明，系统化增强虽可在稀疏数据集中有效修复拓扑碎片化，但在高质量、稠密数据集中反而可能成为干扰噪声；此外，研究还识别出高流速领域存在的物理限制，在该类场景下标准扰动技术失效。

基于大语言模型驱动行为与运动学约束的移动性异常生成

尽管人类轨迹异常研究对推进空间数据挖掘至关重要，但实证研究仍因缺乏真实标注数据集而严重受阻。尽管目前已存在若干真实世界及模拟的人类轨迹数据集，但这些数据集仅涵盖正常移动模式，且未标注异常样本。这一特定匮乏根本源于异常事件固有的统计稀有性，使得传统观测方法难以实施。此外，大规模移动数据的系统性采集还受到高昂成本与严格隐私法规的双重制约。为克服上述根本性限制，并构建具备真实标注的可靠人类轨迹异常数据集，我们提出一种新颖的端到端生成框架，用于规模化合成逼真的轨迹异常。本架构通过直接作用于基线模拟轨迹，在纯合成移动数据与复杂现实物理约束之间建立桥梁。我们采用大语言模型（LLM）智能体，系统性地注入语义合理的异常行为，例如分布外的异常签到和常规访问跳过。为确保严格的空间有效性，系统利用地图约束的路径重构技术，重新计算经LLM智能体修改后的停留点之间的物理转移路径。此外，为缩小仿真与现实之间的差距，我们引入一种上下文感知的空间噪声模型，该模型以环境变量和位置特异性变量为参数，精准模拟异质化的GPS传感器退化效应。

反事实传输流用于离线保守轨迹精炼

离线强化学习（Offline RL）仅利用历史记录数据即可实现策略改进，以历史回报或其他可测结果作为环境反馈。其关键难点在于：在不超出离线数据支持范围的前提下提升已观测行为。我们提出\emph{反事实传输流}（counterfactual transport flows），一种以源为条件的轨迹精炼框架，用于受环境反馈引导的离线决策。给定一条低反馈的候选轨迹，我们在潜在轨迹空间中检索邻近的、具有更高任务特异性反馈的轨迹，由此构建局部偏好对，并将其作为弱监督信号以实现保守精炼。该框架学习实例特定的精炼方向：在推理阶段，通过一个精炼强度参数控制候选轨迹被传输的距离，从而在保持原始行为与施加更强改进之间实现权衡。在 D4RL 基准（包括 AntMaze 和 MuJoCo 任务）上的实验表明，本方法能基于历史回报这一环境反馈提升行为表现，同时提供可解释的轨迹级精炼路径。

TrajFlow: Nation-wide Pseudo GPS Trajectory Generation with Flow Matching Models

The importance of mobile phone GPS trajectory data is widely recognized across many fields, yet the use of real data is often hindered by privacy concerns, limited accessibility, and high acquisition costs. As a result, generating pseudo-GPS trajectory data has become an active area of research. Recent diffusion-based approaches have achieved strong fidelity but remain limited in spatial scale (small urban areas), transportation-mode diversity, and efficiency (requiring numerous sampling steps). To address these challenges, we introduce TrajFlow, which to the best of our knowledge is the first flow-matching-based generative model for GPS trajectory generation. TrajFlow leverages the flow-matching paradigm to improve robustness and efficiency across multiple geospatial scales, and incorporates a trajectory harmonization and reconstruction strategy to jointly address scalability, diversity, and efficiency. Using a nationwide mobile phone GPS dataset with millions of trajectories across Japan, we show that TrajFlow or its variants consistently outperform diffusion-based and deep generative baselines at urban, metropolitan, and nationwide levels. As the first nationwide, multi-scale GPS trajectory generation model, TrajFlow demonstrates strong potential to support inter-region urban planning, traffic management, and disaster response, thereby advancing the resilience and intelligence of future mobility systems.

持续活跃

多源多模态地理数据

近期研究聚焦于解决多模态遥感数据在实际场景中的不完整性、异质性与任务耦合问题，方法重心从简单特征拼接转向语义引导、场景中心建模与任务驱动的联合优化。

证据条目

来源覆盖

内容类型

更新时间

2026.06.14

趋势信号

近期为什么升温

多篇论文明确指出模态缺失（IMSS）、跨模态异质性与类内差异是核心挑战，而非仅数据融合效率问题

生成式模型（如MetaEarth-MM）和大语言模型（如Earth-OneVision、Delta-LLaVA）正成为统一多模态处理的新范式，强调场景一致性或时相/高度等物理维度建模

多个工作构建专用基准与数据集（EarthMM、Delta-QA、GeoHeight-Bench、LuojiaSET-OSFCR），凸显对评估标准化与任务特异性数据稀缺性的共同关注

参数高效设计（如MoBaNet的CPIA、TDP-CR的提示引导融合）被广泛采用，以缓解冻结VFM主干下的模态不平衡与计算开销

核心观点

这些资料反复在说什么

多模态遥感的核心瓶颈不是模态数量本身，而是模态间语义不一致、物理差异（如SAR与光学成像机制）及观测不完整性带来的建模冲突

有效的多模态融合必须保留模态特异性，避免过度对齐导致脆弱模态被主导模态压制

统一建模需锚定地球观测的物理先验——如场景一致性（MetaEarth-MM）、时间变化量（Delta-LLaVA）、垂直高度结构（GeoHeight-Bench）或任务目标（TDP-CR）

现有VFMs和MLLMs不能直接迁移至遥感多模态任务，必须通过领域定制机制（如FGVLA、SLIS、Change-Enhanced Attention）桥接视觉-语言-空间-物理表征鸿沟

多模态能力最终服务于下游地球科学任务（分割、变化检测、云去除、人类移动建模），因此‘任务驱动’正取代‘数据驱动’成为方法设计的第一原则

证据流

支撑这个方向判断的真实条目

SGMA：面向遥感不完整多模态数据的语义引导模态感知分割

多模态语义分割通过整合来自不同传感器的互补信息，实现遥感地球观测。然而，实际系统常因传感器故障或覆盖不全导致模态缺失，即不完整多模态语义分割（IMSS）。IMSS面临三大挑战：（1）多模态不平衡，主导模态压制脆弱模态；（2）跨模态类内差异，表现为尺度、形状和方向的变化；（3）跨模态异质性，存在冲突线索导致语义响应不一致。现有方法依赖对比学习或联合优化，易造成过度对齐，忽略模态特异性特征或训练不平衡，偏向鲁棒模态，且普遍忽视类内差异与跨模态异质性。为此，本文提出语义引导模态感知（SGMA）框架，在确保多模态均衡学习的同时，通过语义引导减少类内差异并调和跨模态不一致性。SGMA引入两个互补的即插即用模块：（1）语义引导融合（SGF）模块提取多尺度、类别相关的语义原型，捕捉跨模态的一致性类别表征，基于原型-特征对齐估计各模态鲁棒性，并依据鲁棒性得分进行自适应加权融合，以缓解类内差异与跨模态异质性；（2）模态感知采样（MAS）模块利用SGF提供的鲁棒性估计，动态重加权训练样本，优先关注脆弱模态中的困难样本，以解决模态不平衡问题。在多个数据集与骨干网络上的大量实验表明，SGMA

MetaEarth-MM：基于场景中心联合建模的统一多模态遥感图像生成方法

多模态遥感图像对地球观测至关重要，但在实际应用中，完整的配对观测往往稀缺。现有生成方法通常通过孤立的两两模态翻译来应对该问题，但随着模态数量与生成任务种类的增加，其通用性与可扩展性仍显不足。本文提出一种面向多模态遥感影像的生成式基础模型 MetaEarth-MM，支持在统一框架下实现五种模态间的配对联合生成及任意模态到任意模态的翻译。鉴于多模态观测内在的场景一致性，MetaEarth-MM 引入一种场景中心联合建模范式：不同于以往依赖外观层面直接跨模态映射的方法，本模型以底层场景内容为核心组织生成过程。具体而言，MetaEarth-MM 采用解耦式架构，首先从已有观测中推断出潜在场景表征，再以此中间状态为条件生成目标模态图像。为支撑训练，我们进一步构建了 EarthMM 数据集——一个包含 280 万幅多分辨率全球遥感图像、其中 220 万对严格配准样本的大规模数据集。大量实验表明，MetaEarth-MM 不仅在各类生成任务中展现出强大的生成能力与鲁棒泛化性能，还能在数据级与表征级支持下游任务，凸显其作为跨模态地球观测通用基础模型的潜力。代码与数据集将发布于 https://github.com/YZPioneer/MetaEarth-MM。

Earth-OneVision：将遥感多模态大语言模型扩展至更多传感器模态与任务

遥感多模态大语言模型（RS-MLLMs）支持对地球观测影像的自然语言理解与空间推理。然而，现有模型仅支持有限的传感器类型与任务，导致对地球的观测呈现碎片化，并使跨模态地球科学知识在很大程度上未被利用。本工作提出 Earth-OneVision，一个参数量为20亿的 RS-MLLM，其在单一自回归框架内统一了六类传感器模态（即光学、合成孔径雷达 SAR、红外、多光谱、时序、视频）以及涵盖九类任务的跨传感器融合能力。针对三大瓶颈，本工作设计了三项专用机制：全粒度视觉-语言对齐（FGVLA）将多层次视觉特征与多维语言空间对齐；空间-语言同构序列化（SLIS）将异构空间输出统一为自回归 token；渐进式跨模态适配（PCMA）将复合领域差异分解为若干顺序阶段，依次解决视角差异与成像物理差异。为支持联合训练，构建了 MMRS-OneVision 数据集，包含约3400万组问答对，覆盖全部六类传感器模态及九类任务下的跨传感器融合，规模显著超越现有遥感多模态指令数据集。Earth-OneVision 仅以2B 参数量，在广泛基准测试中取得具有竞争力或当前最优（state-of-the-art）的结果，持续达到或超越参数量为4B–72B 的 RS-MLLMs。其在光学视觉定位基准 OPT-RSVG 测试集上取得 87.52% 的 [email protected] 指标，在 SAR 视觉问答基准 SARLANG-Bench 上取得 80.68% 的准确率，分别超出 7B 模型逾 7%；在多光谱分类基准 BigEarthNet-MS 测试集上召回率达 75.74%，在跨模态推理基准 EarthMind-Bench 上多项选择题（MCQ）准确率达 81.94%。

解码变化量：利用多模态大语言模型统一遥感变化检测与理解

尽管多模态大语言模型（MLLMs）在通用视觉-语言任务中表现优异，但其在遥感变化理解中的应用受限于一种根本性的“时间盲性”。现有架构缺乏内在的多时相对比推理机制，且难以实现精确的空间定位。为此，我们首先提出Delta-QA——一个包含18万条视觉问答样本的综合性基准。Delta-QA在双时相与三时相场景下统一了像素级分割与视觉问答任务，并将变化解释结构化为四个递进的认知维度。方法上，我们提出Delta-LLaVA，一种专为多时相遥感解释设计的新型MLLM框架。该框架通过三项核心创新克服了朴素特征拼接的局限：（1）变化增强注意力（Change-Enhanced Attention）模块，系统性地分离并强化视觉差异；（2）变化分割（Change-SEG）模块，利用变化先验嵌入（Change Prior Embedding）提取可区分的差异特征作为大语言模型（LLM）输入；（3）局部因果注意力（Local Causal Attention），防止跨时相上下文泄露。大量实验表明，Delta-LLaVA在复杂变化推理与高精度边界定位任务上显著优于主流通用MLLM及专用分割模型，确立了一种面向地球观测智能的统一框架。

GeoHeight-Bench：面向高度感知的遥感多模态推理

当前地球观测领域的大规模多模态模型（LMMs）通常忽略关键的“垂直”维度，从而限制了其在复杂遥感几何结构及灾害场景中的推理能力——在这些场景中，物理空间结构往往比平面视觉纹理更为重要。为弥补这一空白，我们提出一个专用于高度感知遥感理解的综合性评估框架。首先，为应对标注数据严重匮乏的问题，我们构建了一条可扩展的、基于视觉语言模型（VLM）的数据生成流水线，该流水线结合系统性提示工程与元数据提取技术。该流水线构建了两个互补的基准数据集：用于相对高度分析的 GeoHeight-Bench，以及更具挑战性的 GeoHeight-Bench+（支持整体性、地形感知推理）。此外，为验证高度感知的必要性，我们提出了 GeoHeightChat——首个具备高度感知能力的遥感 LMM 基线模型。作为一项有力的概念验证，该基线模型表明：将视觉语义与隐式注入的高度几何特征协同融合，可有效缓解模型的“垂直盲区”，成功在现有光学模型中开启交互式高度推理的新范式。

面向多模态遥感语义分割的参数高效模态平衡对称融合方法

多模态遥感语义分割通过利用异构数据中的互补物理特征，提升了场景理解能力。尽管预训练视觉基础模型（VFMs）提供了强大的通用表征能力，但将其适配至多模态任务通常带来显著的计算开销，并易受模态不平衡影响，即在优化过程中辅助模态的贡献被抑制。为应对上述挑战，本文提出MoBaNet，一种参数高效且模态平衡的对称融合框架。该框架基于大量冻结的VFM主干网络，采用对称双流结构，在保留可泛化表征的同时最大限度减少可训练参数数量。具体而言，我们设计了跨模态提示注入适配器（CPIA），通过生成共享提示并在冻结主干下的瓶颈适配器中注入，实现深层语义交互。为进一步获得紧凑且具有判别性的多模态表征以用于解码，我们引入差异引导门控融合模块（DGFM），通过显式利用跨模态差异来指导特征选择，自适应融合成对阶段特征。此外，我们提出模态条件随机掩码（MCRM）策略，通过仅在训练时掩码一个模态，并对模态特定分支施加硬像素辅助监督，缓解模态不平衡问题。在ISPRS Vaihingen和Potsdam基准上的大量实验表明，MoBaNet在显著少于全微调可训练参数的情况下实现了当前最优性能，验证了其在鲁棒且均衡的多模态融合中的有效性。本工作源代码见：https://github.com/saur

持续活跃

地理大模型与地理智能体

近期研究重心正从单一地理空间基础模型（GFM）的构建与评估，转向其在动态、多源、具身任务中的适配与协同增强；方法上强调轻量级、即插即用、模型无关的智能体式框架，以弥补基础模型在空间推理、时序泛化与跨模态对齐上的结构性缺陷。

证据条目

来源覆盖

内容类型

更新时间

2026.06.14

趋势信号

近期为什么升温

多个工作将地理空间基础模型（如Prithvi-v2、Terramind、DINOv3）作为主干网络，但重点聚焦于低秩自适应（LoRA）、认知地图构建或异心空间映射等下游适配机制，而非模型预训练本身

NASA已实现Prithvi在轨部署，标志GFM正从实验室走向真实地理信息系统（GIS）平台集成与工程化验证

MobFusion、CoCoSI、AlloSpatial等命名明确的模块化框架被提出，均强调‘不修改原模型架构’‘无需额外微调’‘即插即用’等设计原则

多篇论文将移动轨迹（Trajectory）、AIS航迹、视频帧序列等时序-空间信号作为结构化先验或提示上下文，显式用于激发基础模型的空间智能

核心观点

这些资料反复在说什么

地理空间基础模型（GFM）虽具备强大通用表征能力，但在面对地理域偏移（geographic domain shift）和时间域偏移（temporal domain shift）时泛化性受限，需任务导向的轻量适配

空间智能（Spatial Intelligence）的核心瓶颈在于自我中心（egocentric）观测到异心（allocentric）空间表征的转化失败，而非单纯数据或算力不足

多模态融合不能止于特征拼接，必须通过结构化空间先验（如认知地图、异心空间树ASTs、路径图）或物理约束（如相机位姿、深度、度量尺度）进行几何对齐

地理智能体（Geo-Agent）范式正在兴起：以协同多智能体、工具化空间推理模块、沙盒式认知映射等方式，在不侵入预训练模型的前提下增强其空间理解与决策能力

现有GFM缺乏对移动性、轨迹、时空动态性的原生建模，而城市移动网络、船舶AIS航迹、视频序列等已成为激发空间语义与功能关联的关键新模态

证据流

支撑这个方向判断的真实条目

利用Sentinel-2数据对地理空间基础模型进行低秩自适应以实现野火过火区制图

野火过火区制图对于灾损评估、排放建模以及理解不同生态区域中火灾与气候的相互作用至关重要。近期提出的地理空间基础模型（Geospatial Foundation Models, GFMs）为卫星影像提供了强大的通用表征能力，但目前尚缺乏关于如何高效地将此类模型适配至下游地球观测任务的明确共识，尤其在面临地理与时间域偏移（geographic and temporal domain shift）时。本研究评估了三种前沿地理空间基础模型——Terramind、DINOv3 和 Prithvi-v2——在使用 Sentinel-2 数据开展美国与加拿大全域野火过火区制图任务中的性能。基于 2017–2023 年间 3,820 起野火事件，我们在多种生物群落中开展了空间与时间泛化性测试。我们系统比较了全模型微调（full fine-tuning）、仅解码器微调（decoder-only fine-tuning）及低秩自适应（Low-Rank Adaptation, LoRA）三种适配策略。所有实验结果表明，LoRA 在跨域泛化性能上表现最优，且仅需更新不足 1% 的参数，展现出精度与效率之间的良好权衡。其中，采用 LoRA 适配的 Prithvi-v2 取得了最高的整体精度，并相较全模型微调实现了最大幅度的性能提升。上述发现表明，结合 LoRA 等轻量级参数高效适配方法的地理空间基础模型，可为大规模野火过火区制图提供一种鲁棒且可扩展的解决方案。代码开源地址：https://github.com/alishibli97/wildfire-lora-gfm。

DarkVesselNet：面向暗船检测的多模态遥感与航迹推理方法

暗船检测需融合船舶通过AIS上报的信息与卫星通过雷达和光学传感器观测到的信息。DarkVesselNet是一种多模态遥感技术栈，整合了Sentinel-1 SAR数据、Sentinel-2光学影像、地理空间基础模型主干网络、AIS航迹推理、TGARD风格的间隙检测，以及受Pi-DPM启发的异常检测头。该代码库以经过测试的Python软件包及公开的Hugging Face Space形式发布。论文阐述了其传感器堆栈、主干网络抽象、特征融合路径、异常检测头及当前验证结果。现有证据均为软件实现层面：包括SAR斑点滤波、光学波段比值、Haversine距离计算、TGARD间隙生成、传感器共配准、主干网络token形状、以及可微异常评分等测试。

资讯

NASA News

NASA 的 Prithvi 成为首个在轨运行的 AI 地理空间基础模型

一支研究团队在两个在轨平台上成功验证了 NASA 与 IBM 联合开发的开源地理空间人工智能基础模型 Prithvi。

利用城市移动性增强基础模型的社会经济理解

近期，基础模型已被应用于城市社会经济预测任务，所用数据包括兴趣点（POI）文本、卫星影像和地理空间描述。然而，这些模型主要依赖于单个地点的静态属性，而忽略了揭示地点间功能关联性的移动模式。为弥补这一空白，我们探索了移动网络是否可通过显式编码城市实体间的连通性，从而激发基础模型的地理空间能力。为此，我们提出 \textit{MobFusion}——一种模块化的、以移动性增强的基础模型融合范式，并通过三种互补设计予以实例化：（i）将移动网络作为零样本大语言模型（LLM）提示的上下文；（ii）将移动网络作为图连接器，融合地理空间视觉嵌入与文本嵌入；（iii）将移动网络作为结构化标记，支持多模态大语言模型推理。基于来自美国三个大都市区的匿名大规模移动数据集，我们在三项实例化方案中均观察到 \textit{MobFusion} 在多项城市预测任务（如家庭中位收入、人口密度及犯罪率预测）上的性能提升，表明融入人类移动性可有效增强基础模型对社会经济现象的理解能力。

CoCoSI：面向空间智能的协同认知地图构建

空间智能是多模态大语言模型（MLLM）的关键前沿方向，使其能够基于视觉经验对物理世界进行推理。受人类空间认知机制启发，近期方法通过多帧视觉输入构建基于网格的认知地图，以在时间维度上维持连贯的空间表征。然而，有限的上下文长度仍制约空间理解能力；而现有方法（如长上下文建模与外部记忆）往往需修改模型架构、引入记忆模块或进行微调，限制了其在现成预训练MLLM上的适用性。为此，我们提出一种轻量级、模型无关的方法，可在模型原生上下文窗口之外保留空间信息。具体而言，我们设计了一个即插即用的多智能体框架，通过协同方式构建结构化空间记忆——即认知地图，从而在不修改架构、无需额外训练的前提下增强任意预训练MLLM的空间理解能力。该框架包含局部-全局智能体协同、基于原子提交的认知地图构建，以及跨智能体验证机制。大量实验表明，本方法在空间理解任务上取得更优性能，且全程无需训练。代码将开源。

AlloSpatial：面向基础模型空间推理的智能体式赋能框架

多模态基础模型（MFMs）虽已取得显著进展，但在物理世界的空间推理任务中仍表现脆弱。其关键瓶颈在于难以将局部自我中心（egocentric）观测转化为全局异心（allocentric）空间表征。为此，我们提出 AlloSpatial——一种面向基础模型异心空间认知的智能体式框架。AlloSpatial 引入 World2Mind，一个即插即用的认知映射沙盒，可将自我中心观测转化为结构化的异心先验，包括异心空间树（Allocentric-Spatial Trees, ASTs）与路径图，从而支持对物体拓扑关系、几何关系、通行性及运动轨迹的查询。为在重建噪声与视觉证据模糊等条件下可靠利用此类先验，AlloSpatial 进一步提出空间推理赋能模块（Spatial Reasoning Harness），实现工具使用判断、模态解耦的线索采集以及几何-语义仲裁。我们还通过冷启动强化学习，以赋能模块门控的轨迹级奖励机制，将该过程内化至 Qwen3-VL 模型中。在 VSI-Bench 和 MindCube 上的实验表明：AlloSpatial 在无需训练的设定下，使专有模型性能提升 5%–18%；即使移除视觉输入，仅依赖 ASTs 亦能支撑强有力的空间推理。经训练的 AlloSpatial 智能体进一步超越更大规模的通用模型及具有竞争力的空间基线方法，表明结构化异心表征、主动式工具调用与可验证推理，为构建具备空间能力的基础模型提供了可行路径。

持续活跃

复杂网络、韧性城市与地理模拟

近期研究正从孤立的单灾种风险评估转向多系统耦合下的城市韧性建模，并 increasingly 将空间智能（Spatial Intelligence）与 GeoSimulation 融入动态、流式、第一人称视角的地理推理框架。

证据条目

来源覆盖

内容类型

更新时间

2026.06.14

趋势信号

近期为什么升温

出现面向流式视频输入的空间智能分层基准 OVO-S-Bench，强调时空上下文追踪与外源性空间映射（allocentric mapping）能力

多系统案例研究（如石家庄应急服务供需网络）开始显式建模‘空间格局’与‘网络韧性’的联合演化

高压输电网络等关键基础设施研究采用统一框架比较九类单一灾害及复合灾害，推动多灾种风险耦合建模

元胞自动机（CellularAutomata）与相互作用粒子系统（IPS）研究聚焦其在平稳伯努利测度下的指数遍历性与快速遗忘性，为城市动态模拟提供理论收敛保障

核心观点

这些资料反复在说什么

城市韧性不能仅通过静态空间指标衡量，必须嵌入复杂网络结构（如服务供需网络、电力拓扑）与动态过程（如灾害传播、应急响应）的耦合机制中

GeoSimulation 的可信度依赖于底层动力学模型的数学性质（如遍历性、谱局域化），而非仅依赖参数拟合或可视化效果

空间智能（Spatial Intelligence）正从静态地图理解转向对连续、流式、第一人称感知输入的实时空间模拟与推理

真实复杂系统的宏观相变可溯源至少数关键节点的局部行为及其在网络中的有效耦合，这为识别韧性瓶颈提供了节点分辨（node-resolved）分析路径

多灾种风险评估需统一建模框架——既涵盖物理脆弱性（如线路段失效），也整合社会经济传导效应（如下游产出损失）

证据流

支撑这个方向判断的真实条目

Sustainable Cities and Society

城市应急服务供需空间格局与网络韧性：中国石家庄多系统案例研究

出版日期：2026年5月19日在线发表；来源：《可持续城市与社会》（Sustainable Cities and Society）；作者：张博谦、马东辉、王伟

OVO-S-Bench：面向多模态大语言模型的流式空间智能分层基准

机器人、增强现实与自动驾驶中的多模态智能体需基于连续的第一人称视角视频流推理场景与空间布局，且常需依赖当前视野之外的证据。现有基准或针对完整视频进行离线评估，或聚焦于事件识别而非空间结构理解。我们提出OVO-S-Bench——一个完全由人工标注的流式空间智能基准，涵盖348个源视频上的1,680个问题。标注工作由12名经训练的标注员完成，每人同时担任盲审交叉评审员，总计投入约804人小时的多轮质量保障。每个问题均附带查询时间戳与证据时间区间；在评估时，模型仅可访问查询时间点之前的视频前缀。问题覆盖四个逐级抽象的层次：瞬时第一人称感知、时空上下文追踪、空间模拟与推理、以及外源性空间映射（allocentric mapping）。在38个专有及开源多模态大语言模型（MLLM）上的评测显示，Gemini-3.1-Pro得分59.2，较人类专家（86.6）低27分，其中外源性空间映射为最显著瓶颈。值得注意的是，经流式处理与空间细调的MLLM性能反而低于其原始骨干模型。此外，我们发现当思维链（chain-of-thought）推理未锚定于视频流时，会加剧空间错误。OVO-S-Bench通过揭示上述局限，为下一代流式空间MLLM确立了一个高要求的评测平台。

离散动力系统的轨道分解统计：Cesàro 均值与大偏差原理

若自映射 $σ\colon \mathcal{X} \rightarrow \mathcal{X}$ 的动力学 zeta 函数具有非零收敛半径 $1/Λ$，且序列 $ \# \mathrm{Fix}(σ^k)/Λ^k $ 的 Cesàro 均值 $B$ 存在且为正，则我们证明：对长度 $\leq X$ 的一般轨道（即由素轨道生成的自由阿贝尔幺半群中的元素，等价于 $\mathcal{X}$ 中有限多重集的素轨道）之素轨道分解中素轨道个数，存在以速率 $B \log X$ 的大偏差原理，其速率函数普适，且等于均值为 1 的泊松分布的速率函数。我们还对更一般的强可加函数证明了相应的大偏差原理。证明依赖于关于一般轨道总数的渐近结果，以及一个弱形式的 Mertens 第二定理，后者本身可能具有独立意义。该理论适用于例如有限域上代数群的自同态、加性元胞自动机，以及某些环面（solenoids）的自同构。

美国高压输电网络的多灾种风险比较评估

现代经济高度依赖高压输电网络，但该基础设施频繁遭受地震、洪水、龙卷风和地磁暴等自然灾害的破坏。传统风险评估通常孤立地分析各类灾害，因而缺乏统一基准以比较全灾种组合下的经济损失。本研究通过构建一个整合框架弥补这一空白，该框架耦合灾害表征、脆弱性建模与宏观经济影响传播模型。该框架被一致应用于九类主要单一灾害及一类复合型冻雨—强阵风灾害。基于国家级灾害数据集，以及包含逾13,000条线路段和10,000座变电站的美国高压输电网络，我们推导出故障概率、预期损失、受影响人口及下游经济产出损失。在各类单一灾害中，热带气旋大风导致的日均预期损失最高，达1.37亿美元/天；其次为雷击（8700万美元/天）、地震（4700万美元/天）、洪水（4600万美元/天）、龙卷风（4200万美元/天）和滑坡（3400万美元/天）。下游经济产出损失最大的是龙卷风（49.3亿美元/天），其次为洪水（35.9亿美元/天）和地震（30.2亿美元/天）。一次250年一遇的地磁暴将造成20.7亿美元/天的损失，表明空间天气事件的影响已处于重大陆地灾害量级范围之内。复合型冻雨—强阵风情景则构成最严峻的压力测试情形，影响人口达2.374亿，并导致建模估算的下游经济产出损失高达851.6亿美元/天。上述结果应视为一阶边界估计值，其中复合情景代表一种上限压力测试。总体而言，该框架为跨灾种优先配置输电网络韧性投资建立了统一基准。