全局检索与知识浏览
跨论文、博客、数据集线索、项目和工具统一检索。检索结果可以继续跳转到独立问答页,做语义追问和来源核验。
发表日期:2026年7月 来源:《计算机、环境与城市系统》,第127卷 作者:金东焕,李承敏,韩彩妍,金友贞,高奉宇,黄义正
出版日期:2026年7月;来源:《计算机、环境与城市系统》(Computers, Environment and Urban Systems),第127卷;作者:郝天、蔡恒、陈晓伟、Ahmad Mohammadi Ghanatghestani、Lawrence Arthur
城市感知描述了人们如何主观评估城市环境,从而塑造城市被体验与理解的方式。现有计算方法主要直接从街景图像建模城市感知,却在很大程度上忽略了形成此类判断所依赖的人类感知过程。本文提出 Place Pulse-Gaze 数据集,该数据集在街景图像基础上同步增加了眼动追踪记录及个体感知标签。基于该数据集,我们构建了注视引导的城市感知框架(Gaze-Guided Urban Perception Framework),以研究注视行为如何助力主观城市感知的建模。该框架系统性地考察了三种互补设定:仅使用注视信息建模、将注视信息与显式语义场景表征相融合、以及将注视信息与隐式更丰富的视觉表征相融合。实验表明,仅注视信息本身已包含对主观城市感知具有预测价值的信号;而将注视信息与场景表征相结合,可在语义表征与更丰富视觉表征两种设定下进一步提升预测性能。总体而言,我们的发现强调了在城市场景理解中纳入人类感知过程的重要性,并为注视引导的多模态城市计算开辟了新方向。
街景感知模型可大规模预测安全等主观属性,但其本质仍为相关性建模:无法识别针对特定场景、可能改变人类判断的局部视觉变化。我们提出一种基于杠杆的干预性反事实框架,将场景级可解释性重构为在结构化反事实编辑空间内的有界搜索。每个杠杆定义一个语义概念、空间支持范围、干预方向及受约束的编辑模板。候选编辑通过提示词引导的图像编辑生成,并仅在满足同地点保持性、局部性、真实性和合理性等有效性检验时予以保留。在来自五座城市的50个场景的初步实验中,该框架揭示了基于代理的方向性模式初探结果,以及纯提示编辑下的实用失效分类体系;其中,交通基础设施(Mobility Infrastructure)与物理维护(Physical Maintenance)两类杠杆引发的安全性辅助变化最为显著。人类成对判断仍为未来验证的基准真值终点。
参与式城市感知利用人类移动性实现大规模城市数据采集,但现有方法通常依赖中心化优化,并假设参与者同质化,导致任务分配僵化,忽视个人偏好及城市环境的异质性。我们提出 MAPUS——一种基于大语言模型(LLM)的多智能体框架,用于支持个性化与公平性的参与式城市感知。在该框架中,参与者被建模为具备个体档案与日程安排的自主智能体,而协调智能体则执行兼顾公平性的选择,并通过基于自然语言的协商机制优化感知路径。在真实世界数据集上的实验表明,MAPUS 在保持具有竞争力的感知覆盖率的同时,显著提升了参与者满意度与公平性,从而推动构建更以人为中心、更具可持续性的城市感知系统。
理解人类如何解读城市场景可为设计与规划提供依据。我们引入了一个小型基准,用于测试视觉-语言模型(VLMs)在城市感知方面的表现,采用100张蒙特利尔街景图像,照片与逼真合成场景各占一半。来自七个社区团体的12名参与者提供了涵盖30个维度的230份标注表单,包含物理属性与主观印象。法语回答经标准化处理为英文。我们在零样本设置下,使用结构化提示和确定性解析器评估了七种VLMs。对于单选题采用准确率,多标签题采用Jaccard重叠度;人类标注一致性使用Krippendorff's alpha和成对Jaccard计算。结果表明,模型在可见的客观属性上表现出更强的对齐性,而在主观评价方面则较弱。表现最佳的系统(claude-sonnet)在多标签任务上的宏平均准确率为0.31,平均Jaccard值为0.48。人类标注一致性较高时,模型得分也相应更高。合成图像略微降低模型表现。我们公开发布该基准、提示模板及评估工具包,以支持参与式城市分析中的可复现且具备不确定性意识的评估。
出版日期:2026年5月;来源:《交通研究C辑:新兴技术》,第186卷;作者:钟辉、卢庆龙、龙志旭、刘永红、郑欣湖
大型语言模型(LLMs)正日益被用于描述与评估城市,但其城市判断背后的文化结构仍缺乏深入研究。本文提出一种测量框架,用以检验基于LLM的城市感知是否具有文化中立性,该框架依托一个全球分层的街景图像数据集。三个前沿多模态模型生成的开放式描述与结构化评分均表明,所谓中立基线更接近于欧洲与北美地区相关的地方性认知框架,而非其他文化框架。AI与人类城市感知的对比进一步显示,提示工程(prompting)虽可使AI响应趋近特定区域的人类描述,却无法复现人类响应的丰富性与多样性,反而会弱化可观测的人口统计学模式,并引入基于情感的自我偏好偏差。这些结果表明,在将AI视为城市任务中的中立工具时存在系统性风险,尤其当模型输出被用于跨文化语境下的城市比较、评估或表征时。
《国际地理信息系统汇刊》(Transactions in GIS),2026年4月,第30卷,第2期。
城市正快速部署各类感知基础设施——包括摄像头、环境传感器和联网信息亭——持续监测公共空间,但尚缺乏一套系统架构来规范应用程序对这些数据的访问、聚合与存储,由此引发隐私风险,并阻碍隐私政策的一致执行。本文提出 CityOS,一种面向城市感知的操作系统,其通过受结构化、隐私优先的 Web 接口启发的三层 API,中介应用程序对传感器数据的访问。各层在扩大数据空间覆盖范围的同时,施加逐级增强的隐私约束:现场层(On-Scene)支持实时感知,原始数据严格限定于本地上下文;单地点聚合层(Single-Locality Aggregation)在固定位置生成满足差分隐私要求的纵向统计结果;跨地点聚合层(Cross-Locality Aggregation)支持跨区域的城市级分析,由用户设备强制执行按用户的隐私预算。CityOS 作为边缘运行时环境,以临时容器方式执行不可信应用程序,强制实施上述策略,并通过广播差分隐私损失实现透明性。我们实现了 CityOS 及覆盖全部三层的应用程序,包括行人安全预警、实时与预测停车位可用性、交通态势仪表盘以及地铁轨迹测量等,并验证其可在保障强隐私的前提下支撑实际街道场景应用。
视觉-语言模型(VLMs)正日益被用于生成街景图像的结构化描述,以支持街道环境评估、制图及公众咨询等任务。此类应用将可观测属性与评价性类别相结合,其目标人群常表现为存在分歧与明确拒答的判断分布。本文主张:针对城市感知任务的VLM基准测试,应将人类判断间的分歧与主动弃答视为测量结果本身;在报告模型与人类标注一致性的同时,须一并报告标注者间信度(inter-annotator reliability);且当模型输出旨在为城市治理提供依据时,标签空间与评分策略应被视为可协商的技术产物。本论点基于一项实证基准研究:对蒙特利尔100个街景样本,由来自7个社区组织的12名参与者在30个维度上进行标注,并对7种VLM开展确定性零样本评估。结果显示,各维度上模型与人类共识的一致性与其对应维度的人类标注信度呈共变关系;而在评价性维度“总体印象”(Overall Impression)上,模型与人类标注者之间存在分布错配,包括“不适用”(Not applicable)选项使用率的差异。最后,本文提出若干行动建议,供基准构建者、模型开发者及相关机构采纳,以在评估报告中显式呈现不确定性及基准假设。
本研究探讨虚拟角色提示(persona prompting)如何影响多模态大语言模型(multimodal LLM)在城市感知场景下所生成的语言。我们基于1,200个带虚拟角色条件的代理与两个无虚拟角色对照组所产生的59,808条标注,分析了不同虚拟角色下的图像描述(captions)、合理性说明(justifications)及感知标签(perception tags)。结果表明:不同虚拟角色在图像描述上呈现高度一致性;合理性说明则随社会经济属性与政治属性呈现系统性差异;感知标签未显示出统计显著的虚拟角色相关差异,但可观察到微弱的效应趋势。主题分析进一步揭示,不同虚拟角色在解释相同场景时侧重不同的评价性主题。
环境声景蕴含丰富的城市生态与社会信息,但在大规模地理分析中的潜力尚未得到充分挖掘。本研究通过比较多种视觉表征策略在捕捉声学语义方面的表现,探究城市声音与视觉场景之间的对应关系。研究整合了三个全球主要城市(伦敦、纽约、东京)的地理定位声学记录与街景及遥感影像,采用AST模型处理音频,CLIP与RemoteCLIP处理图像,并利用CLIPSeg和Seg-Earth OV进行语义分割,提取嵌入向量与类别级特征以评估跨模态相似性。结果表明,街景嵌入相较于分割输出与环境声音具有更强的一致性,而遥感影像的分割结果在基于生物声—地质声—人类声(BGA)框架下对生态类别的解释更具优势。研究发现表明,基于嵌入的模型在语义对齐方面表现更优,而基于分割的方法则提供了视觉结构与声景生态之间可解释的关联。本研究推动了多模态城市感知领域的进展,为将声音融入地理空间分析提供了新视角。
环境声景蕴含大量关于城市生态与社会状况的信息,但其在大规模地理分析中的潜力尚未得到充分挖掘。本研究通过比较多种视觉表征策略在捕捉声学语义方面的能力,探究城市声音与视觉场景之间的对应程度。我们采用多模态方法,将地理编码的声学录音与街景影像及遥感影像相结合,覆盖伦敦、纽约和东京三座全球主要城市。音频端采用AST模型,影像端分别采用CLIP与RemoteCLIP模型,语义分割则使用CLIPSeg与Seg-Earth OV模型;基于这些模型提取嵌入向量与类别级特征,以评估跨模态相似性。结果表明,街景影像嵌入与环境声音的对齐性优于分割输出;而遥感影像分割在Biophony–Geophony–Anthrophony(BGA)框架下对生态类别的解释能力更强。这些发现表明,基于嵌入的模型在语义对齐方面表现更优,而基于分割的方法则能提供视觉结构与声学生态之间可解释的关联。本工作通过为地理空间分析中融入声音数据提供新视角,推动了新兴的多模态城市感知领域的发展。
尽管近年来已利用机器学习构建了全球覆盖的城市感知数据集,但其在准确评估其他国家和地区局部城市感知方面的有效性仍存在问题。本文描述了一种基于深度学习与迭代反馈及推荐评分相结合的方法,提出了一种人机对抗评分框架,可实现对中国城市局部城市感知的快速、低成本评估。采用先进的全卷积网络(FCN)和随机森林(RF)算法,该方法的感知估计误差低于10%。从视觉特征和城市功能两个方面进行驱动因素分析,验证了其在推导局部城市感知方面的可行性。该人机对抗框架具备高通量与高精度评分能力,为城市规划者和研究人员提供了一种经济、快速的局部城市感知评估解决方案。
面向视觉语言模型(VLM)审计、语义校准及街景影像点级城市感知制图的Rubric-to-Map框架(武汉天地案例研究)。主题包括校准、地理信息系统(GIS)、大语言模型(LLM)、可重复性、街景影像、城市分析。本GitHub仓库由yanyuelin721(开发者)维护。主要编程语言:Python。最后更新时间:2026-03-29。# Rubric-to-Map 可重复性软件包 [](https://doi.org/10.5281/zenodo.18897096) 该公开可重复性软件包支持Rubric-to-Map框架在VLM审计、语义校准及点级城市感知制图中的复现。## 公开发布范围 本仓库仅包含可安全公开共享的材料:— 分析脚本;— 校准脚本;— LLM评分脚本;— 提示词/评分标准文本;— 配置模板;— 小型样本输入表格;— 小型样本输出表格。本仓库不包含:— 原始数据(ori)
变化检测与场景识别技术已被广泛应用于街景影像(SVI),以理解跨年度场景的变化。然而,仅依赖元数据往往不足以可靠地找到视觉上对齐的图像对。本研究提出 PairWise Image Finder 工具,该工具融合特征检测与匹配,并借助语义分割掩膜来量化不同时期两幅图像之间的视觉对齐程度。该工具输出匹配关键特征的比例、匹配特征的距离与覆盖范围,以及语义掩膜的对齐度,使用户可根据对齐质量与具体应用场景筛选图像对。由此获得的视觉对齐图像对可用于精确开展显式纵向变化分析,并有助于降低城市感知研究中的人工工作量。本研究通过纵向变化对比分析验证了该工具的可用性,并强调了在量化变化时视角的重要性。所提出的方案为研究人员与相关利益方提供了一种可扩展、开源的工具,用于城市分析、感知及相关应用中高质量图像对的查找。
理解城市感知有助于推进城市智能研究,从而支持可持续发展与智慧城市建设。城市视觉-空间智能(UVSI)整合了人类感知与传感器感知。本文综述探讨了UVSI在可持续发展中的潜在作用,识别了当前研究空白,并提出了未来优先研究方向。人工智能、高性能计算、实时数据处理及公民科学等领域的进展可能对UVSI产生重大影响。
随着数字工具日益影响空间规划实践,理解不同数据源如何反映人类对城市环境的体验至关重要。街景影像(SVI)与公众参与地理信息系统(PPGIS)是两种捕捉场所感知的代表性方法,可支持城市规划决策,但二者之间的可比性仍缺乏深入研究。本研究探讨了芬兰赫尔辛基市基于街景影像的感知吸引力与通过全市范围PPGIS调查获取的居民实际体验之间的匹配程度。利用参与者评分的街景影像数据和语义图像分割技术,我们训练了一个机器学习模型,以视觉特征预测感知吸引力。将模型预测结果与PPGIS识别出的吸引或不吸引地点进行对比,并采用严格和适度两套标准计算一致性。研究发现,两类数据集之间仅存在部分一致性。在适度阈值下,吸引性地点的一致性为67%,非吸引性地点为77%;而在严格阈值下,一致性分别降至27%和29%。通过分析包括噪声、交通、人口密度及土地利用在内的多种情境变量,我们发现非视觉因素显著导致了不一致。该模型未能涵盖活动水平和环境压力等影响感知但无法在图像中体现的体验维度。结果表明,尽管街景影像可作为城市感知的可扩展且可视化的代理指标,但无法完全替代PPGIS所捕捉的丰富体验。我们认为,两种方法各有价值,但功能不同,因此需要更整合的方法以全面捕捉城市感知。
基于街景图像理解城市感知已成为城市分析与以人为中心的城市设计的核心议题。然而,现有研究大多将城市场景视为静态,严重忽视行人与车辆等动态元素的作用,由此引发基于感知的城市分析可能存在偏差的担忧。为应对该问题,我们提出一种受控框架,利用语义分割与多模态大语言模型(MLLM)引导的生成式修复技术,构建包含与不包含行人及车辆的配对街景图像,以分离并量化动态元素的感知效应。基于中国东莞采集的720组配对图像,开展了一项感知实验,参与者在六个感知维度上对原始场景与编辑后场景进行评估。结果表明,移除动态元素导致感知活力度一致下降30.97%,而其他维度的变化则更为温和且异质。为进一步探究潜在机制,我们基于多模态视觉特征训练了11个机器学习模型,识别出光照条件、人类存在及深度变化是驱动感知变化的关键因素。在个体层面,65%的参与者表现出显著的活力度变化,而其他维度对应比例为35–50%;性别对安全性感知呈现微弱的调节效应。除受控实验外,所训练模型进一步拓展至城市尺度数据集,用于预测移除动态元素后的活力度变化。城市尺度结果表明,此类感知变化广泛存在且具有空间结构特征,影响73.7%的地理位置及32.1%的图像,提示仅依赖静态影像的城市感知评估存在系统性局限。
摘要 城市感知是当前城市研究的热点话题,在城市规划与设计中发挥着积极作用。目前,计算城市感知主要有两种方法:1)利用模型直接自动学习图像特征;2)结合机器学习与基于专家知识的特征提取方法(如物体比例)。以武汉市两条典型街道为研究区域,采集视频数据作为模型输入。本研究选取两种代表性方法:1)端到端卷积神经网络(基于CNN的模型);2)基于全卷积神经网络与随机森林(FCN + RF的模型)。通过对比两种模型的精度,分析其在不同城市场景下的适应性。同时,基于POI数据和OSM数据,分析基于CNN的模型与城市功能之间的关系,验证其可解释性。结果表明,基于CNN的模型精度高于FCN + RF的模型。由于基于CNN的模型考虑了地物的拓扑特征,其感知结果与城市功能之间具有更强的非线性相关性。此外,研究发现基于CNN的模型更适用于空间异质性较弱的场景(如中小城市环境),而FCN + RF的模型则适用于空间异质性较强的场景(如中国特大城市的中心城区)。本研究结果可为城市规划中的城市感知模型选择提供决策支持参考。
见SSRN 4174009
尽管基于影像或GIS的客观街道指标已成为城市分析的标准工具,但其仍难以捕捉包容性城市设计所必需的主观感知。本研究提出一种新型多模态街道评估框架(MSEF),将视觉Transformer(VisualGLM-6B)与大语言模型(GPT-4)相融合,实现对街道景观的可解释双输出评估。该框架利用中国哈尔滨逾15,000张标注街景图像,采用LoRA与P-Tuning v2方法进行参数高效微调。模型在客观特征识别任务中达到0.84的F1分数,在居民主观感知一致性检验中达成89.3%的吻合率,并在分层社会经济地理区域中完成验证。除分类准确率外,MSEF还能揭示情境依赖的矛盾现象:例如,非正规商业活动虽提升感知活力,却同时降低行人舒适度;亦能识别非线性及语义依赖模式——如建筑透明度在居住区与商业区引发截然不同的感知效应,从而暴露普适性空间启发法的局限性。通过基于注意力机制生成自然语言推理依据,该框架弥合了感官数据与社会情感推断之间的鸿沟,支持符合联合国可持续发展目标SDG 11的透明化城市诊断。本研究既为城市感知建模提供了方法论创新,也为亟需协调基础设施精度与真实生活体验的规划系统提供了实践价值。
大语言模型(LLMs)正日益被用于描述、评估和解读地点,但其是否基于文化中立立场开展此类任务仍不明确。本研究利用一个平衡的全球街景样本,并采用中性提示或唤起不同区域文化立场的提示,在前沿LLM中检验城市感知能力。在开放式描述与结构化地点判断两类任务中,“中性”条件在实践中并未表现出中立性:与欧洲及北美相关的提示始终系统性地更接近模型基线,而许多非西方提示则偏离较远,表明模型感知并非围绕普适性参考框架组织,而是围绕一种文化上不均衡的参考框架组织。文化提示亦会改变情感评价,对某些被提示的身份产生基于情感的内群体偏好。与区域性人类图文基准的对比显示,文化邻近性提示可提升模型描述与人类描述的一致性,但无法恢复人类所具有的语义多样性水平,且往往保留情感基调偏高的表达风格。同样的不对称性亦出现在关于安全性、美观度、富裕程度、活力、乏味感与抑郁感的结构化判断中:模型输出虽可解释,却仅部分复现了人类群体间的差异。这些发现表明,LLMs并非从“无地点”(nowhere)出发感知城市;它们是通过一种文化上不均衡的基线进行感知,该基线塑造了何者被视为寻常、熟悉及具有正面价值。