选择语言
< 返回主菜单

弋力团队提出了MobileH2R框架

2025-10-31

图片

Innovation Highlights

         弋力团队提出了“掩码自回归预训练算法”(MAP)来激发混合Mamba-Transformer视觉架构的潜力。通过分别深入分析Mamba和Transformer视觉骨干预训练的关键因素,设计了适用于混合Mamba-Transformer的统一预训练策略。这一策略在2D和3D任务上均得到充分验证,为混合Mamba-Transformer视觉架构的广泛应用和未来发展奠定了基础。


Achievements Summary

仅基于可扩展多样化仿真数据的人-移动机器人交接学习: MobileH2R

图片


图. MobileH2R概览


随着具身智能(Embodied AI)快速发展,移动人形机器人在现实环境中与人类自然交互和协作的需求日益增长。人-移动机器人交接(Human-to-Mobile-Robot Handover, H2MR)是这一领域的关键挑战之一,它要求机器人能够在较大工作区间内接住人类递来的各种物体,实现灵活、高效的任务协作。这项能力在医疗辅助、工业装配等场景中尤为重要,移动机器人需要准确解读并响应人类动作,确保任务顺利完成。

大模型的火爆发展预示着海量高质量数据+大规模学习是走向通用智能的一种可能方式。考虑在现实世界中让机器人与人类进行大规模交互学习是危险且昂贵的,但在仿真环境中(Simulation)进行训练,用人物仿真和动态抓取运动规划来自动化提供海量多样的机器人学习数据,然后将其部署到真实机器人上(Sim-to-Real Transfer),是一种更可靠的基于学习的方法,可以大大拓展机器人与人协作交互的能力。

此外,在人-移动机器人(H2MR)交接中,机器人需要在处理导航和运动复杂性的同时,解读不同场景中人类的全身动作,使问题进一步复杂化。传统方法通常将交接任务分解为抓取估计和轨迹规划等子任务,对于环境建模不足,限制了泛化能力。近期研究如GenH2R虽然引入端到端框架,但仅关注固定机械臂或手部动作,缺乏对移动人形机器人和人类全身动态行为的建模。

针对以上问题,一种通用的人-移动机器人交接学习框架「MobileH2R」被提出。在这篇工作中,使用到了银河通用机器人自研的可移动轮式底盘机器人「Galbot G1」, 验证了一个重要结论:只需充分利用高质量的合成数据,无需真实演示,即可在仿真环境中学习到具备泛化能力的交接技能,做到零样本虚拟到真实的策略迁移。

图片


图. MobileH2R整体框架图


「MobileH2R」分别从仿真(Simulation),示例(Demonstration),模仿(Imitation)三个角度出发,实现移动机器人端到端学习通用人机交接技能:

1)在「Sim-H2MR」环境中生成超过10万条多样化的仿真人类全身交接场景,涵盖不同物体和复杂运动模式。

2)引入一套自动化、安全的专家示例生成管线,通过规划避免碰撞并优化视觉观测,确保示例易于模仿。

3)采用4D模仿学习方法,融合人类和物体点云输入,生成协调的底盘-机械臂联动策略,实现动态人机交互。

相比于现有SOTA方法,「MobileH2R」在仿真测试中平均成功率提升15%,碰撞率降低33%;在真实场景中,成功率提高1倍,适用于多种场景:它可以在超市中精准接过顾客递来的物品,避开与货架或者人的碰撞;在医疗辅助场景中,它能驱动底盘靠近病床,同时灵活调整机械臂,从病人手中稳稳接过物品,团队在辅助医疗、居家、办公、超市、工厂流水线等多个场景进行了测试,展现出更强的鲁棒性和泛化能力。

MobileH2R为移动人机交接策略的获取提供了一个有潜力的思路。本论文一作为上海期智研究院实习生、清华大学博士生汪子凡,清华大学本科生陈梓青,陈峻宇,通讯作者为上海期智研究院PI、清华大学助理教授弋力。共同作者为银河通用机器人有限公司工程师王纪龙,刘雨昕,研究院实习生、清华大学博士生刘昀泽,刘雪怡。


论文信息:

MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data, Zifan Wang*, Ziqing Chen*, Junyu Chen*, Jilong Wang, Yuxin Yang, Yunze Liu, Xueyi Liu, He Wang, Li Yi†, https://arxiv.org/abs/2501.04595, CVPR 2025.