选择语言
< 返回主菜单

SQZ Talk | 第33期—专题报告“开放世界下的类人视觉搜索与空间推理”

2025-12-26

       2025年11月28日,上海期智研究院第33期“SQZ Talk”学术论坛邀请英伟达研究科学家李一鸣博士,带来专题报告“Humanoid Visual Search in the Wild”。论坛由姜建娟博士主持。


报告人简介

图片

李一鸣

NVIDIA研究科学家

清华大学助理教授(拟聘)

       李一鸣是英伟达 (NVIDIA) 研究科学家,与斯坦福大学的Marco Pavone教授合作。他在纽约大学获得博士学位。他的研究果已发表在CVPR、ICCV、ECCV、NeurIPS、RSS、CoRL和RA-L等顶级会议和期刊上,获得近4000次引用,并荣获多项Spotlight、Highlight和Oral奖项。他曾获得英伟达奖学金、纽约大学院长博士奖学金以及纽约大学杰出博士论文奖(提名)。


专题报告

图片

人类依靠头部(头部运动)与眼睛(眼球运动)的协同控制,以实现360°空间内的高效视觉信息搜索。然而,先前的视觉搜索方法均受限于静态图像,未能考虑具身智能体及其与三维环境的交互。如何能在规避现实硬件约束的前提下,开发出与人类效率相媲美的具身视觉搜索智能体?为此,李一鸣团队提出“类人视觉搜索”,即令一类人智能体在360°全景图像所表征的沉浸式环境中,通过主动旋转头部来搜索目标物体或可行路径。为探究视觉拥挤的真实世界场景,李一鸣团队构建了名为H* Bench的新基准测试集。该基准不再局限于家庭场景,而是延伸至需要高级视觉空间推理能力的挑战性开放世界场景,例如交通枢纽、大型零售空间、城市街道与公共机构。李一鸣博士介绍该实验首先揭示出即使顶尖的专有模型也表现不佳,在物体与路径搜索任务中成功率仅约为30%。团队继而采用SFT+RL对开源模型Qwen2.5-VL进行增强,使其在物体搜索上的成功率提升了超过三倍(14.83%→47.38%),在路径搜索上的成功率也提升了近四倍(6.44%→24.94%)。尽管如此,路径搜索较低的成功率仍然表现不佳,这源于任务对复杂的物理、空间及社会常识的要求。李一鸣博士表示,本研究的结果不仅展示了一个前景广阔的研究方向,同时也量化了当前在构建能无缝集成于人类日常生活的多模态智能体方面所面临的巨大挑战。

图片

报告结束后,科研人员围绕土木工程领域相关空间分析的 AI 技术应用、复杂空间理解能力的提升方案、机器人友好型城市规划及室内设计思路、路径搜索任务里监督微调和强化学习在提升模型能力中的不同作用、模型训练的思维链数据标注方法以及三维空间建模能力的必要性等问题进行探讨。

图片


杨之恬 RIR研究员

图片

张源境 RIR研究员

图片

张斌 RIR研究员

图片

分享到