选择语言
< 返回主菜单

陈建宇团队提出 iRe-VLA 框架

2025-10-31

图片

Innovation Highlights

         陈建宇团队提出了 iRe-VLA 框架,使用在线强化学习来提升视觉语言动作(VLA)大模型。该框架在强化学习和监督学习之间进行迭代,以有效地改进 VLA 模型,既能利用强化学习的探索性优势,又能保持监督学习的稳定性。在两个模拟基准测试和一个真实世界操作套件中的实验验证了方法的有效性。


Achievements Summary

通过强化学习提升视觉语言动作大模型


图片


图16. 团队方法与基于网格的基线方法的对比


近期 “视觉-语言-动作 (VLA)”模型迅速发展。尽管 VLA 模型功能强大,但如何在与环境交互的过程中改进这些大型模型仍是难题。本文探讨了如何通过强化学习 (RL)进一步改进这些 VLA 模型。我们发现直接将在线强化学习应用于大型 VLA 模型存在诸多挑战,例如训练不稳定性会严重影响大型模型的性能,以及计算负担超出大多数本地机器的能力。为了应对这些挑战,我们提出了 iRe-VLA 框架,该框架在强化学习和监督学习之间进行迭代,以有效地改进 VLA 模型,既能利用强化学习的探索性优势,又能保持监督学习的稳定性。在两个模拟基准测试和一个真实世界操作套件中的实验验证了我们方法的有效性。

图片

图17. iRe-VLA在强化学习和监督学习之间更迭,不断解决新任务


为了稳定训练同时让强化学习可以进行,陈建宇团队开创性地使用一种迭代策略:(1)第一阶段,使用强化学习去攻克新任务,在这阶段只训练参数量比较小的网络;(2)第二阶段收集强化学习成功的轨迹,并且与专家轨迹同时进行监督学习,在这个阶段训练整个VLA模型。


图片

图18. 在两个仿真环境试验。在强化学习阶段训练整个VLA会导致模型崩溃


在实验中,团队在仿真的metaworld机械臂环境和真实Panda机械臂环境中进行了大量实验。在仿真环境中,模型在25个任务预训练后,使用强化学习学习了5个新任务,并且在新任务中泛化性提升。在真实panda机械臂环境中,使用强化学习学习了两种新的任务。

图片

图19. 仿真环境、真实环境的性能对比图


iRe-VLA为强化学习微调VLA模型揭开了序幕,开创性地让强化学习微调VLA成为可能,涌现了很多后续工作。本论文共同第一作者包括上海期智研究院实习生、清华大学博士生郭彦江、张荐科、陈晓宇;通讯作者为上海期智研究院PI、清华大学助理教授陈建宇;其他作者包括清华大学交叉信息学院本科生吉翔、上海期智研究院实习生、加州大学伯克利分校博士生王彦仁、上海期智研究院实习生、清华大学博士生胡钰承。

论文信息:

Improving Vision-Language-Action Model with Online Reinforcement Learning, Yanjiang Guo*, Jianke Zhang*, Xiaoyu Chen*, Xiang Ji, Yen-Jen Wang, Yucheng Hu, Jianyu Chen†, https://arxiv.org/abs/2501.16664,ICRA 2025.

分享到