选择语言
< 返回主菜单

赵行团队提出了四足机器人在三维地形中的自主导航系统—SARO

2025-08-13

图片

Innovation Highlights

       赵行团队提出了四足机器人在三维地形中的自主导航系统—SARO,具备良好的空间感知能力。该系统引入了预训练视觉-语言模型(VLM),结合任务分解与闭环子任务执行模块,利用VLM的零样本推理能力对3D地形进行语义感知与任务规划,显著提升了高层空间推理与运动规划能力。在多个室内外地形场景中,包括楼梯、斜坡、缺口与门框等典型三维地形,SARO系统在实际部署中显著优于现有方法。

Achievements Summary

基于视觉-语言模型的机器人空间感知和地形跨越系统—SARO

图片

当前四足机器人在复杂三维地形中的自主导航仍面临诸多挑战,特别是在跨越楼梯、坡道、缺口等不规则地形时,传统方法难以在感知、决策与运动控制间协同处理三维空间中的运动规划任务。一方面,已有视觉-语言模型(VLM)具备良好的常识推理与视觉感知能力,但难以直接应用于连续控制任务;另一方面,低层控制策略往往缺乏对环境语义的理解和任务分解能力,导致系统整体的适应性和鲁棒性不足。

图片

图. SARO系统框架总览图


针对上述问题,赵行团队提出SARO(Space-Aware Robot System for Terrain Crossing),该系统首次将预训练VLM引入四足机器人3D导航任务,有效打通了高层语言推理与低层动作控制之间的链路。具体而言,SARO系统利用VLM从单目图像中进行零样本推理的任务理解实现高层控制。系统通过生成“动作-结束状态”对子序列和双判别机制实现闭环控制,实现了语义驱动的子任务稳定执行。同时,团队创新性地提出概率退火选择(Probability Annealing Selection, PAS)方法实现低层控制。通过两阶段训练替代传统强化学习方式,最终策略仅依赖本体感知输入即可适应复杂地形,显著提升了系统在真实场景中的泛化能力与稳定性。

图片

图. 概率退火选择策略低层控制算法总览图


在多种典型地形(如楼梯、斜坡、缺口、门框)组成的复杂场景中,SARO系统显著优于现有基线方法(如ViNT、NoMaD、LSTM等),例如在楼梯跨越任务中达到88%的成功率。更重要的是,SARO系统具备良好的现实部署能力,可在未见过的户外自然地形中保持稳定表现。此外,PAS控制策略在仿真环境中以85.3%的平均成功率显著优于RMA、IL等方法,并在真实世界的草地、碎石坡等地形中实现95%以上的高通过率,展现出极强的实用潜力。

图片

图. 在室内与室外多种地形上三维导航实验结果


该工作充分利用了视觉-语言模型的常识推理潜力,并通过闭环结构与鲁棒控制策略实现了在复杂三维地形中的导航,为四足机器人系统级的高层智能决策与跨模态感知提供了新的范式。论文一作为上海期智研究院实习生、清华大学博士生朱少廷,通讯作者为上海期智研究院PI、赵行助理教授。共同作者包括上海期智研究院实习生李德润和牟林湛、刘勇、徐宁仪等。


论文信息:

SARO: Space-Aware Robot System for Terrain Crossing via Vision-Language Model, Shaoting Zhu*, Derun Li*, Linzhan Mou, Yong Liu, Ningyi Xu, Hang Zhao†, https://saro-vlm.github.io/, ICRA 2025.

分享到