2025-05-30
Innovation Highlights
弋力—提出“通用灵巧操作轨迹跟踪器”(DexTrack)来解决通用灵巧操控策略的获取问题。通过迭代式的基于数据飞轮、融合同伦变化优化方法的训练策略来探索通用灵巧操控轨迹跟踪问题。成功赋予灵巧手在真实世界中以及仿真中完成各种各样复杂的灵巧操作任务的能力。
Achievements Summary
面向通用灵巧操作技能的通用轨迹跟踪器—DexTrack
赋予机器人以像人一样的灵巧操控的技能是通往未来终极具身智能的重要一步。如何让一个具身智能体获得广泛的灵巧操控技能一直是具身智能领域的一个重要的问题。灵巧操控任务复杂且多样,之前很多工作大多专注在特定技能的获取(如抓取或者在手里转动)。他们大多需要对单独的任务进行针对性的设计,例如专门对某一种特定的任务设计对应的奖励函数,之后根据这样的奖励函数训练策略网络来解决对应的问题。这些难以迁移到不一样的任务上的奖励函数设计是通往通用操控技能的一个阻力。所以为了实现通用的灵巧操控技能,团队首先需要任务表示层面的统一。此外,灵巧操控技能涉及到复杂的和随时间变化的手-物接触,复杂的物体运动轨迹。再考虑到对使用一个操控策略解决不同类型的操控任务的需求,得到一个通用的灵巧操控智能体对算法本身的设计也提出了很大的挑战。
图. DexTrack: 通用灵巧操作轨迹跟踪器
为了实现这一目标,团队将运动规划以及控制的问题拆解开来,将不同种的灵巧操控技能重新统一到一个轨迹跟踪控制的框架下,进一步借助于大量的人类操控物体的数据作为跟踪的目标,通过学习一个通用的轨迹跟踪控制器,来一定程度上解决这个问题。
团队将不同类型的操控任务统一到一个轨迹跟踪任务来完成任务表示层面的统一。在每一个时刻,给定机器手和物体当前的状态,以及下一步想要达到的状态,轨迹跟踪控制器的任务是给出机器手当前应该执行的动作,从而通过执行该动作,机器手可以运动且和物体进行交互,使得机器手以及物体实际达到的状态与下一步想要达到的状态相吻合。这样的表示方式对不同的操控任务是比较适配的。基于这一任务表示,团队通过训练一个通用的灵巧操控轨迹跟踪器来解决通用灵巧操控的问题。一个通用的轨迹跟踪需要可以响应各种各样的轨迹跟踪命令。这一多样的轨迹空间对该轨迹跟踪器的学习提出了更高的挑战。团队提出了一个将RL和IL结合起来的方法,在RL训练的同时引入监督信号来降低policy学习的难度。通过交替地使用高质量的轨迹跟踪数据辅助通用轨迹跟踪控制器的学习,以及借助通用轨迹跟踪器来提高单一轨迹跟踪演示的质量,团队可以逐渐得到一个强大的可以跟踪各种各样轨迹的控制器。
图. 通用轨迹跟踪器的训练方法
团队的方法在极具挑战性的任务上达到了令人瞩目的效果。同时团队也进行了大量的真机实验来验证它在真实世界中的可行性。团队的机器手可以转动并尝试“安装”一个灯泡。在工具使用方面,团队也可以在手中调整一个刀使得刀可以刀刃向下来切东西,可以在手中转动一个锤子,并使用正确的朝向来锤东西。
DexTrack为通用灵巧操控策略的获取提供了一个有潜力的思路。本论文一作为上海期智研究院实习生、清华大学博士生刘雪怡,通讯作者为弋力助理教授。共同作者为上海期智研究院硕士后贾尼别克-阿达力别克、韩乾玮,加利福尼亚大学圣迭戈分校秦誉哲。
论文信息:
DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References, Xueyi Liu, Jianibieke Adalibieke, Qianwei Han, Yuzhe Qin, Li Yi†, https://meowuu7.github.io/DexTrack/, ICLR 2025.