全局检索与知识浏览
跨论文、博客、数据集线索、项目和工具统一检索。检索结果可以继续跳转到独立问答页,做语义追问和来源核验。
街景感知模型可大规模预测安全等主观属性,但其本质仍为相关性建模:无法识别针对特定场景、可能改变人类判断的局部视觉变化。我们提出一种基于杠杆的干预性反事实框架,将场景级可解释性重构为在结构化反事实编辑空间内的有界搜索。每个杠杆定义一个语义概念、空间支持范围、干预方向及受约束的编辑模板。候选编辑通过提示词引导的图像编辑生成,并仅在满足同地点保持性、局部性、真实性和合理性等有效性检验时予以保留。在来自五座城市的50个场景的初步实验中,该框架揭示了基于代理的方向性模式初探结果,以及纯提示编辑下的实用失效分类体系;其中,交通基础设施(Mobility Infrastructure)与物理维护(Physical Maintenance)两类杠杆引发的安全性辅助变化最为显著。人类成对判断仍为未来验证的基准真值终点。
尽管近年来已利用机器学习构建了全球覆盖的城市感知数据集,但其在准确评估其他国家和地区局部城市感知方面的有效性仍存在问题。本文描述了一种基于深度学习与迭代反馈及推荐评分相结合的方法,提出了一种人机对抗评分框架,可实现对中国城市局部城市感知的快速、低成本评估。采用先进的全卷积网络(FCN)和随机森林(RF)算法,该方法的感知估计误差低于10%。从视觉特征和城市功能两个方面进行驱动因素分析,验证了其在推导局部城市感知方面的可行性。该人机对抗框架具备高通量与高精度评分能力,为城市规划者和研究人员提供了一种经济、快速的局部城市感知评估解决方案。
见SSRN 4174009
《美国地理学家协会年鉴》;第115卷;第7期;第1720-1741页;2025年发表;出版机构Routledge。
Landscape and Urban Planning;卷 212;页码 104125;发表于 2021 年;出版机构 Elsevier。
尽管已有研究评估了视觉空间指标与城市居民心理感知之间的关系,但关于城市视觉空间与居民心理感知之间系统性关联的研究仍较为稀缺。本研究旨在探讨城市视觉空间与居民心理感知之间的相关性,分析视觉空间指标对居民主观感知的影响,并重点关注蓝绿空间在可步行性、围合度、开放性、形象性及交通流量等机制下对城市居民心理影响的作用。研究采用全卷积网络(FCN-8s)对武汉的街景图像进行分割,通过人机对抗框架与随机森林算法结合构建城市感知数据集。基于街景数据,设计七类视觉空间指标,以上述五项视觉空间指标为中介变量,对城市居民感知进行多元线性回归分析,并开展蓝绿空间对居民心理影响的中介效应分析。结果表明,城市视觉空间指标与居民心理感知之间存在显著关联,其中绿度与围合度等视觉空间指标对居民心理感知具有显著影响,且部分视觉空间指标在蓝绿空间影响居民心理的过程中发挥显著中介作用。本研究系统分析了视觉空间指标与居民心理感知之间的关系及其作用机制,为深入探索复杂城市环境中的心理响应机制提供了前瞻性基础。
《计算机、环境与城市系统》;第78卷;第101386页;2019年发表;出版机构Pergamon
居住在感知安全、活跃且美观的邻里环境中的人群更有可能参与身体活动,而居住在感知单调和压抑的邻里环境中的人群则较少参与身体活动。此外,邻里感知与身体活动之间的关系在不同强度的身体活动水平中存在差异。腾讯街景影像与深度学习技术相结合,为评估中国大城市邻里环境暴露提供了一种准确的自动化工具。
研究结果表明,视觉绿色空间的数量与质量可能通过不同机制影响老年人的抑郁状况。
交通研究部分 D:交通与环境;第114卷;页码103549;发表于2023年;出版机构Pergamon。
由于生理特征,女性在城市公共空间中处于不利地位。然而,针对女性视角下的安全感知评估及其影响因素的研究仍较为有限。尽管机器学习技术取得进展,但高效且准确地量化安全感知仍具挑战性。本研究以武汉市为例,提出一种结合RankNet与Gist特征的方法,用于对女性街道安全感知进行排序。采用全卷积网络-8s(FCN-8s)提取建成环境特征,并运用普通最小二乘法(OLS)回归与地理加权回归(GWR)分析这些特征与女性安全感知之间的关系。研究结果揭示以下关键发现:(1)武汉市的安全感知排名与其多中心城市格局相吻合,中心城区存在显著差异;(2)建成环境特征显著影响女性安全感知,其中天际线视域因子(Sky View Factor)、绿视率(Green View Index)和道路可视性为最具影响力的因素,天际线视域因子对安全感知具有正向影响,其余因素则呈负向影响;(3)建成环境特征对安全感知的影响具有空间异质性,可将研究区域划分为三类:天空与道路主导区、建筑主导区以及绿化主导区。最后,本研究提出了构建更安全、更适于女性的都市公共空间的针对性策略。
现有实证数据难以充分揭示大城市中人们居住与工作地点的分布特征;然而,街区层面的信息(如街景影像)却丰富且易获取。本研究构建了一种基于ResNet-50的社交检测模型,探索街景影像与职住属性之间的潜在关联。该方法提取某一街区八个方向的街景影像,用于预测地块的职住属性,并以熵指数衡量深圳市职住混合程度作为案例分析。社交检测模型在识别职住模式方面表现良好,均方根误差较低(RMSE = 0.1094)。相较于其他街区范围方法,八方向街区方法能更充分地利用街景影像信息,其RMSE为0.1135,表现最优。研究表明,结合街景影像与深度学习技术可有效表征与经济社会数据研究结果一致的职住属性特征;例如,研究发现深圳存在大量高职住混合区域,而专门用于就业或居住的区域极少。该方法若定期应用,可助力监测城市职住模式的空间动态变化,为城市规划与发展提供支持。
Journal of transport & health;卷 13;页码 90-102;发表于 2019 年;出版机构 Elsevier。
Sustainable Cities and Society;卷 66;页码 102664;发表于 2021 年;出版机构 Elsevier。
《环境管理杂志》;第344卷;第118093页;2023年发表;出版机构 Academic Press
研究结果表明,街道全景中的绿色与蓝色空间对中国的老年人具有抑郁防护作用,但需通过纵向研究进一步验证因果关系。街道全景数据与卫星遥感提取的绿色和蓝色空间指标反映了自然环境的不同方面。街道全景数据与深度学习技术均为健康相关研究中自动化环境暴露评估的重要工具。
摘要 城市感知是当前城市研究的热点话题,在城市规划与设计中发挥着积极作用。目前,计算城市感知主要有两种方法:1)利用模型直接自动学习图像特征;2)结合机器学习与基于专家知识的特征提取方法(如物体比例)。以武汉市两条典型街道为研究区域,采集视频数据作为模型输入。本研究选取两种代表性方法:1)端到端卷积神经网络(基于CNN的模型);2)基于全卷积神经网络与随机森林(FCN + RF的模型)。通过对比两种模型的精度,分析其在不同城市场景下的适应性。同时,基于POI数据和OSM数据,分析基于CNN的模型与城市功能之间的关系,验证其可解释性。结果表明,基于CNN的模型精度高于FCN + RF的模型。由于基于CNN的模型考虑了地物的拓扑特征,其感知结果与城市功能之间具有更强的非线性相关性。此外,研究发现基于CNN的模型更适用于空间异质性较弱的场景(如中小城市环境),而FCN + RF的模型则适用于空间异质性较强的场景(如中国特大城市的中心城区)。本研究结果可为城市规划中的城市感知模型选择提供决策支持参考。
发表日期:2026年7月 来源:《计算机、环境与城市系统》,第127卷 作者:金东焕,李承敏,韩彩妍,金友贞,高奉宇,黄义正
感知研究越来越多地采用街景图像进行建模,但许多方法仍依赖于像素特征或物体共现统计,忽略了塑造人类感知的显式关系。本研究提出一个三阶段流程,将街景图像(SVI)转化为结构化表示,以预测六种感知指标。第一阶段,使用开放集全景场景图模型(OpenPSG)解析每张图像,提取物体-谓词-物体三元组。第二阶段,通过异质图自编码器(GraphMAE)学习紧凑的场景级嵌入。第三阶段,利用神经网络从这些嵌入中预测感知评分。我们在准确率、精确度和跨城市泛化能力方面,将所提方法与仅基于图像的基线模型进行对比评估。结果表明:(i)本方法在感知预测准确率上平均比基线模型提升26%;(ii)在跨城市预测任务中仍保持较强的泛化性能。此外,结构化表示揭示了影响城市场景感知评分的特定关系模式,例如墙面涂鸦和车辆停放在人行道上。总体而言,本研究证明了基于图的结构能够为建模都市感知提供表达性强、泛化性好且可解释的信号,推动以人为本、情境感知的城市分析发展。
街景影像(SVI)被广泛用于量化城市环境的关键指标,例如绿化率、天空可视率或道路可视率。然而,现有研究主要集中于测量当前街道景观,极少支持生成替代性或尚未存在的城市场景——而这正是城市规划与设计等地理空间学科的核心任务。为弥补这一空白,我们提出一种生成式多模态人工智能框架,该框架可根据目标视觉指标条件化合成替代性街道景观,从而实现对城市场景的直接可视化探索。我们首先构建了一个多模态数据集,将芝加哥和奥兰多两地的街景影像与文本描述、语义分割图、道路掩膜以及视觉要素的定量指标进行对齐。基于该数据集,我们证明扩散模型能够生成既真实又语义一致的街道景观影像,并同时响应文本与图像两类控制信号。定量评估表明,引入视觉控制可提升语义一致性,LPIPS 指标降低约 6%,同时保持全局视觉真实性;mIoU 指标显示,奥兰多和芝加哥的整体语义一致性分别提升 23.7% 和 46.4%,其中建筑可视率指标在类别层面的提升甚至超过 100%。街道景观生成可通过视觉与文本提示实现细粒度控制;当两类控制发生冲突时,图像控制始终占主导地位,表明存在明确的控制层级关系,也凸显了进一步发展面向城市场景生成的视觉控制方法的重要性。总体而言,本工作为基于街景影像与扩散模型的街道景观生成确立了重要基准,并阐明了生成式人工智能如何赋能城市设计实践。
随着数字工具日益影响空间规划实践,理解不同数据源如何反映人类对城市环境的体验至关重要。街景影像(SVI)与公众参与地理信息系统(PPGIS)是两种捕捉场所感知的代表性方法,可支持城市规划决策,但二者之间的可比性仍缺乏深入研究。本研究探讨了芬兰赫尔辛基市基于街景影像的感知吸引力与通过全市范围PPGIS调查获取的居民实际体验之间的匹配程度。利用参与者评分的街景影像数据和语义图像分割技术,我们训练了一个机器学习模型,以视觉特征预测感知吸引力。将模型预测结果与PPGIS识别出的吸引或不吸引地点进行对比,并采用严格和适度两套标准计算一致性。研究发现,两类数据集之间仅存在部分一致性。在适度阈值下,吸引性地点的一致性为67%,非吸引性地点为77%;而在严格阈值下,一致性分别降至27%和29%。通过分析包括噪声、交通、人口密度及土地利用在内的多种情境变量,我们发现非视觉因素显著导致了不一致。该模型未能涵盖活动水平和环境压力等影响感知但无法在图像中体现的体验维度。结果表明,尽管街景影像可作为城市感知的可扩展且可视化的代理指标,但无法完全替代PPGIS所捕捉的丰富体验。我们认为,两种方法各有价值,但功能不同,因此需要更整合的方法以全面捕捉城市感知。