论文与情报流
聚合权威论文、预印本与机构内容源,支持按主题、来源与关键词筛选,面向实验室持续开展科研跟踪与资料沉淀。
自动驾驶车辆必须规划满足多重要求的轨迹,包括安全性、乘客舒适性以及交通规则遵从性。然而,在安全关键场景中,并非总能同时满足所有要求,因而需依据重要性对各项要求进行优先级排序。与此同时,在此类安全关键场景中,周围交通参与者(如其他车辆与行人)的轨迹预测所固有的不确定性亦须被显式建模。本文提出一种不确定性感知的轨迹规划框架,该框架引入预定义的字典序排列以对信号时序逻辑(STL)规范进行优先级排序,并确保该排序在不确定性存在下依然有效。我们基于模型预测路径积分(MPPI)控制实现该框架,并在仿真场景中验证其有效性;结果表明,本框架可在真实多模态不确定性条件下高效处理相互冲突的目标。
移动操作是具身智能机器人的一项基础能力。在非结构化家庭环境中实现鲁棒且泛化性强的操作能力,正推动具身智能平台的快速发展。然而,实现无缝的实-仿-实迁移仍面临三大关键挑战:高保真仿真场景重建成本高昂、仿真中系统性策略评估复杂度高,以及真实世界部署兼容性差。为应对这些挑战,我们提出了 BestMan——一个可扩展且支持无缝实-仿-实迁移的平台,弥合仿真与现实之间的鸿沟,从而有效支持家庭移动操作任务的策略开发、集成与部署。具体而言,我们设计了一种新型自动场景生成(Automated Scene Generation, ASG)模块,从真实观测中重建逼真的仿真环境;提出一种仿真引导的任务形式化与技能学习架构,支持在仿真中灵活集成并大规模评估混合技能策略;最后,为提升真实世界可扩展性,我们开发了硬件无关且统一的中间件(Hardware-agnostic and Unified Middleware, HUM),确保跨异构移动操作平台的仿真到现实迁移过程无缝且兼容。实验结果表明,本平台在构建标准化基准及推动移动操作领域前沿研究方面展现出优越性能。
准确建模人类移动性对解决城市规划与公共卫生挑战至关重要。在欠发达地区,由于缺乏全面的出行调查,亟需利用公开数据重建移动网络。本文提出 neuroGravity——一种融合物理规律的深度学习模型,能够基于有限观测数据可靠地重建移动流,并迁移至未观测城市。
交通预测是智能交通系统的基础组成部分,但在实际应用中仍面临挑战,主要源于传感器分布不规则以及建模大规模时空依赖关系所带来的高计算开销。在现实交通网络中,传感器在地理空间上分布不均,导致空间结构非均匀,从而限制了现有基于图和基于注意力机制模型的有效性与可扩展性。为应对这些挑战,我们提出 PatchSTG——一种面向不规则传感器网络、基于图像块(patch)的时空图变换器,旨在实现高效交通预测。其核心思想是引入分层空间表征,依据地理信息将传感器划分为规模均衡且保持局部邻近性的图像块。在此结构之上,采用双注意力编码器交替执行块内注意力(捕获局部交互)与块间注意力(建模全局依赖),将计算复杂度从二次方降低至近似线性。我们在罗德岛真实交通数据及多个大规模数据集上对 PatchSTG 进行评估。实验结果表明,该模型在多步预测任务中展现出稳定且具竞争力的性能,同时显著提升了计算效率。消融实验进一步验证了空间划分策略与双注意力机制在刻画局部与长程交通动态方面的有效性。结果表明,基于图像块的时空建模方法为不规则空间设置下的交通预测提供了一种可扩展且有效的框架。
在密集、非结构化的城市交通中,由于道路使用者种类繁多、遮挡频繁、运动模式不规则以及道路布局缺乏标准化,感知任务仍是自动驾驶面临的主要挑战。尽管近期基于LiDAR的3D目标检测器在结构化驾驶场景中展现出较强性能,但多数模型均针对有限视场角(field of view)设置开发与评估,其在全向360度感知下的行为仍缺乏充分理解。本文研究面向自动驾驶的360度LiDAR感知流程,重点关注全景感知、方位角分扇区空间处理,以及复杂城市场景中的变换等变特征提取。论文提出一种实用的360度感知框架,将扇区级全景处理与旋转等变稀疏卷积相结合,并在自建Ouster OS0 LiDAR数据集上进行评估;该数据集采集自多样化的印度城市交通环境。实验结果表明,各类目标检测性能总体稳定:汽车检测精度最高(92.02/90.51),其次为公交车(80.53/76.34)和卡车(78.59/74.16);而行人(67.45/61.02)、骑行者(73.21/69.54)及摩托车骑手(71.20/68.13)的检测精度较低,反映出在密集城市环境中对体型更小、形态更易变化的道路使用者进行检测的更大难度。
混沌现象广泛存在于诸多复杂动力系统中,如天气系统与电网,但利用机器学习等数据驱动方法构建高精度模拟器(emulator)仍面临巨大挑战。尽管模拟器在加速数值模拟与求解反问题方面展现出潜力,其在建模混沌动力学时仍表现不佳——初始条件的敏感性使得长期精确预测难以实现,尤其当观测数据含有噪声时。近期研究转而训练模拟器以匹配混沌吸引子的统计特性,但此类方法往往依赖人工设计的汇总统计量或大规模、多环境的多样化数据集。本文提出一类对抗式最优传输目标函数,可仅凭单条含噪轨迹,同步学习高质量的汇总统计量与物理上自洽的模拟器。我们从理论上分析并实验验证了该方法的两种形式:基于Sinkhorn散度(2-Wasserstein距离)的公式,以及类WGAN的对偶公式(1-Wasserstein距离)。在多种混沌系统(包括具有高维时空混沌的系统)上的数值实验表明,采用本文所提目标函数训练的模拟器,在长期统计保真度方面显著提升。
城市扩张显著改变了土地利用格局,并对实现可持续发展目标(SDG)目标11、13和15构成挑战。然而,该过程所涉及的多样化与阶段性机制尚未被充分理解。本研究提出一种集成的XGBoost–SHapley Additive exPlanations–Urban Growth Model(XGBoost-SHAP-UGM)框架,以联合模拟城市用地转化并多尺度解析其驱动机制。基于2000–2020年北京、武汉和肇庆的多源数据,我们首先训练XGBoost分类器,依据自然、可达性及社会经济因素估算非城市用地向城市用地转化的概率;继而应用SHAP方法量化各因素的贡献,揭示不同城市化阶段中因素作用的非线性特征与阈值效应。依托数据的栅格属性,我们为每个像元计算局部SHAP值,并将其聚合为三类驱动得分(自然、可达性、社会经济)。在SHAP得分空间中进行K-means聚类,生成面向机制的驱动类型划分,从而显式刻画城市增长机制的空间异质性。所识别的驱动类型(均衡型高潜力增长区、生态约束型屏障区、可达性约束型区域、社会经济约束型低需求区)在三个区域均呈现一致模式,同时反映其各自不同的城市化阶段。XGBoost的概率输出进一步被纳入UGM以模拟城市增长轨迹,展现出较高的预测精度。该框架通过将黑箱预测转化为可解释的像元级机制解析,推动了可解释城市增长建模的发展。
由于全球线性模型难以刻画空间非平稳性及复杂的交互效应,表征空间异质性干旱区生态质量的时空动态及其驱动机制仍具挑战性。本研究提出一种集成建模方法,融合轻量梯度提升机与沙普利加性解释(LGBM-SHAP)及基于地理最优分区的异质性(GOZH)模型,探究2000–2024年间内蒙古遥感生态指数(RSEI)的动态变化。结果表明,空间极化趋势加剧:23.2%的区域(主要集中于干旱西部)呈现持续退化轨迹,而56.1%的区域(主要集中于东北部)呈现持续改善轨迹。全局LGBM-SHAP分析识别出降水、数字高程模型(DEM)和放牧强度为关键驱动因子,但也揭示了辛普森悖论——受资源追踪效应影响,放牧强度在全球尺度上表现出对生态质量的误导性正相关。GOZH模型通过划分12个数据驱动的生态异质分区解决了该问题,表明在剔除水热气候混杂效应后,放牧在高质量生态区内实为严格胁迫因子。此外,研究识别出340 mm降水阈值为生态潜力的关键约束;人为胁迫因子(如裸地占比)则表现为条件驱动因子,仅在特定水分受限区内产生显著退化压力(相对贡献率达11.0%)。上述发现表明,全局平均效应掩盖了关键的局地退化机制。所提出的建模方法为解耦自然与人为驱动效应提供了稳健工具。
城市扩张加剧了城市热岛(UHI)效应,威胁公众健康与城市生态系统。尽管城市空间形态(USM)对地表温度(LST)具有显著影响,但其在南方国家城市中的差异化效应仍缺乏深入理解。本研究利用SDGSAT-1高分辨率LST数据及十一项USM指标,分析南亚四座城市中心城区的2D/3D USM–LST关系。研究采用逐步多元线性回归,并结合XGBoost-SHAP解释方法,以提供线性基准对比并增强模型可解释性。建筑密度(BD;Pearson相关系数 r = 0.60–0.71)与建筑体积(BV;r = 0.22–0.68)均与LST升高显著正相关,而植被体积(VV;r = −0.38 至 −0.15)在所有中心城区均表现出显著降温作用。在卡拉奇、费萨拉巴德和古吉兰瓦拉,建筑体积是LST升高的主导驱动因子;而在拉合尔,建筑高度则为主要影响因子。就降温效应而言,透水地表比例是除古吉兰瓦拉外所有城市的最关键因子;而在古吉兰瓦拉,植被结构(体积与高度)占主导地位。此外,在卡拉奇,平均建筑高度与LST的关系呈现类拐点模式。上述发现为通过针对性形态干预推动耐热型城市规划提供了可操作的科学依据。
出版日期:2026年11月;来源:《景观与城市规划》(Landscape and Urban Planning),第275卷;作者:方翔、Prateek Mittal、康健、Francesco Aletta、Sriram Subramanian
出版日期:2026年12月;来源:《Information Fusion》,第136卷;作者:陈守斌、陈佳胜、张百阳、闫茂生、李建平、张波、李清泉
《GIS事务》(Transactions in GIS),2026年6月,第30卷第4期。
《GIS学报》(Transactions in GIS),2026年6月,第30卷第4期。
《国际地理信息系统汇刊》(Transactions in GIS),第30卷,第4期,2026年6月。
现实世界中的空间智能需对连续演化的三维环境进行推理,而现有视觉语言模型(VLM)及工具增强型智能体仍主要依赖于对孤立静态视觉观测的无状态推理。我们提出\textbf{\textsc{S-Agent}}——一种面向连续多视角图像与视频理解与推理的空间工具使用型智能体范式。通过将空间推理建模为时空证据累积过程,而非孤立帧级预测,\textsc{S-Agent} 将空间感知从以帧为中心的识别转向以场景为中心的理解。具体而言,\textsc{S-Agent} 将 VLM 视为语义规划器,用以决定所需证据;同时,由空间工具与专家构成的层级结构负责在二维空间中定位物体、将其提升为三维几何证据,并将此类证据聚合为高层空间知识(例如计数、测量、朝向与相对位置)。此外,其时序记忆机制包含场景记忆(Scene Memory)与智能体记忆(Agent Memory):前者用于维护动态演化的场景状态,后者用于累积推理上下文,从而支持跨帧与跨推理步骤的证据整合。在多视角与视频空间推理基准上的全面实验表明,\textsc{S-Agent} 能以无需训练的方式持续提升开源与闭源 VLM 的性能。除推理时增强外,在 \textsc{S-Agent} 生成的空间轨迹数据集 \textsc{S-300K} 上进行监督微调(SFT),可得到紧凑型空间智能体 \textsc{S-Agent-8B},其性能显著超越同规模基线模型(如 Qwen3-VL-8B),并与先进闭源模型(如 GPT-5.4 和 Gemini 3)表现相当。
建筑轮廓提取是摄影测量学、遥感与计算机视觉中的基础任务。近期基于图像的方法在从高分辨率光学影像中提取矢量化轮廓方面取得了显著进展。然而,光学影像本身易受遮挡、透视畸变及残余高程位移影响,导致轮廓提取不完整或错位。此外,缺乏显式高程信息限制了其在建筑细节层次(Level of Detail)建模中的直接应用。本文提出PCFootprint,这是首个面向机载激光扫描(airborne laser scanning)点云的建筑轮廓提取大规模公开数据集。PCFootprint包含来自爱沙尼亚土地与空间发展局的33,000个瓦片,覆盖多样化的城乡地理景观;每个瓦片尺寸为128 m × 128 m,并配有与点云系统对齐的矢量化轮廓标注。该数据集另含一个3,000瓦片的跨域测试集,用于评估模型在不同地理区域间的泛化能力。我们通过评估主流方法建立了全面的基准。实验结果揭示了复杂地理空间环境中存在的若干显著挑战,包括类内差异大、数据不平衡以及噪声干扰严重。我们相信PCFootprint将推动建筑建模、城市场景理解与地理空间分析等方向的未来研究。PCFootprint数据集已公开发布于\url{https://huggingface.co/datasets/Haoyuan-Shen/PCFootprint}。
空间预测任务常受限于高质量标注真值观测数据的缺乏。为应对这一挑战,自监督预训练是一种可行方案,其中对比学习在位置编码器中占据主导地位。现有方法通常仅将地理坐标与单一额外模态对齐。本文提出两种多模态对比学习架构:基于位置绑定的多模态嵌入(MELT)与序列交替位置训练(SALT)。这两种架构通过利用非配对地理空间数据,将该框架扩展至超过两个模态。两种方法在技术上均具可行性,并在四项下游任务中达到最强双模态基线(SATCLIP)的性能水平。然而,模态数量的增加并未持续提升性能,表明所选位置编码器是主要瓶颈——对比目标函数的性能在早期即达峰值,且该峰值不受模态多样性或预训练数据量的影响。MELT 比 SALT 具有更稳定的训练过程,为未来扩展提供了更坚实的基础。
释放多模态大语言模型(MLLMs)的空间智能,对于理解与交互三维世界至关重要。现有主流方法通常借助外部工具注入空间先验知识,但会带来显著的推理开销;或依赖潜在特征蒸馏,而该方式仍缺乏可解释性且缺少细粒度几何约束。为解决上述问题,我们提出SpatialSV框架,旨在使MLLMs内化鲁棒的3D空间感知能力,同时提供固有的可解释性。不同于被动的特征模仿,SpatialSV采用面向任务的视觉监督,驱动模型主动将其2D视觉特征提升为显式的3D表示,包括深度图、相机位姿和点云。关键在于,这一2D到3D的提升过程为模型表征提供了透明的观察窗口:所生成的3D重建结果可作为直观代理,用于可视化与诊断模型内在空间知识的质量。在多个模型与基准上的大量实验验证了SpatialSV在增强并解释MLLMs空间智能方面的有效性。此外,该框架在半监督场景下展现出强泛化能力,证实其具备利用未标注视觉数据实现可扩展、可解释空间表征学习的潜力。
本文解析推导了一种新型带不等式接近角路径约束的最优软着陆制导律。该制导律通过将最优轨迹约束在以着陆点为顶点的凸倒置棱锥体内,避免地面碰撞并实现接近角控制。采用常重力场下的三维质点线性运动学模型,并以控制能量的二次型代价函数及终端位置与速度约束为优化目标。利用庞特里亚金最小值原理及无约束弧段与约束弧段切换处的最优性条件,解析求得开环解、闭环解及最优终端时间。进一步证明:当路径约束起作用时,最优终端时间减小。所得制导律在闭环下连续、关于时间分段线性、关于状态非线性;当某一约束起作用时,控制器抵消垂直于该约束面的重力分量,使轨迹沿约束曲面演化。通过多种初始条件下的仿真验证,该制导律展现出精确的着陆性能,并始终满足路径约束。
多模态大语言模型(MLLMs)在二维语义理解方面表现优异,但缺乏内在的三维感知能力,导致其表征无法在视频帧间保持几何与空间一致性。鉴于大规模三维数据的稀缺性,我们提出 GeoVR——一种仅利用二维视频序列学习几何表征的新框架。该方法有效重构了 MLLMs 内部的语义隐空间,从而释放空间智能。GeoVR 并非采用表层特征混合,而是通过蒸馏预训练三维基础模型中的几何知识,重塑 MLLM 的内部表征。其实现依赖于一种多目标学习策略,该策略由四个互补的几何学习目标驱动:(1)估计帧间相机位姿,以嵌入变化的视角动态;(2)回归稠密深度图,以锚定物理距离;(3)预测度量尺度因子,实现真实世界校准;(4)蒸馏多尺度三维特征,对齐中间特征空间。在这些显式的物理与几何约束引导下,模型内部表征自然发展出强健的三维感知能力。在多项空间推理基准上的大量实验表明,GeoVR 达到当前最优性能,为赋予基础模型空间智能确立了新范式。
我们提出 TerraMind,这是首个面向地球观测(Earth Observation, EO)的任意模态到任意模态生成式多模态基础模型。与其他多模态模型不同,TerraMind 在双尺度表征上进行预训练,融合了跨模态的词元级(token-level)与像素级(pixel-level)数据。在词元级,TerraMind 编码高层上下文信息以学习跨模态关系;在像素级,TerraMind 利用细粒度表征捕捉关键的空间细节。我们在一个覆盖全球、大规模的地理空间数据集上,基于九种地理空间模态对 TerraMind 进行了预训练。本文表明:(i)TerraMind 的双尺度早期融合方法支持一系列地球观测领域的零样本与少样本应用;(ii)TerraMind 提出“模态内思考”(Thinking-in-Modalities, TiM)能力,即在微调与推理过程中生成额外的人工数据以提升模型输出质量;(iii)TerraMind 在 PANGAEA 等地球观测领域社区标准基准测试中达到超越当前最优(beyond state-of-the-art)的性能。预训练数据集、模型权重及代码均以宽松许可证开源。
出版日期:2026年6月17日在线发布;来源:《可持续城市与社会》;作者:Sepideh Sadat Korsavi、Lisa D. Iulo、Rahman Azari
出版日期:2026年6月17日在线发布;来源:《可持续城市与社会》(Sustainable Cities and Society);作者:金振辉、王荣、周义军、王杰、耿文悦
出版日期:2026年10月;来源:《交通运输研究C辑:新兴技术》(Transportation Research Part C: Emerging Technologies),第191卷;作者:Kayhan Alamatsaz、Frédéric Quesnel、Ursula Eicker