2025-10-31

Innovation Highlights
高阳团队提出了一种数据驱动的微调框架,旨在优化四足机器人运动中难以模拟的目标,例如电池功耗和踩踏噪音。这些因素通常在常用模拟器中建模不准确或缺失。该框架通过利用真实世界数据对这些目标进行建模,并将学习到的模型整合到模拟中以改进策略。以节约电能为例,展示了该框架的有效性,在不同速度下,电池总功耗显著降低了24-28%。这表明该方法能够有效地解决四足机器人运动中对功耗建模的复杂挑战,并具有解决其他难以模拟目标的潜力。
Achievements Summary
微调难以模拟的四足机器人运动目标:总功耗节约案例研究
足式机器人在复杂环境中的移动能力备受关注,然而,其实际应用不仅要求高机动性,更对能源效率、安全性、用户体验等关键性能提出了严格要求。在当前的机器人研发中,一个核心挑战在于许多重要的性能指标(例如电池的实际总功耗、机器人运动时产生的噪音、部件的长期磨损等)难以在仿真环境中被精确建模。传统的机器人学习方法高度依赖sim-to-real的迁移范式,即在仿真器中训练控制策略,然后部署到真实机器人上。但由于仿真器主要关注动力学和运动学,对上述难以模拟的真实世界因素的缺失或不准确建模,导致基于仿真的优化效果不佳,甚至无法解决这些问题。研究人员尝试使用手工设计的代理指标(如理想机械功率、足部接触力)来间接优化这些目标,但这类代理往往与特定问题高度绑定,且准确性有限,需要大量的专家知识和繁琐的参数调整。
为解决这一核心难题,本研究提出了一种创新的数据驱动框架,专门用于精细调优机器人(特别是四足机器人)在复杂运动控制中那些难以在仿真环境中精确模拟的性能目标,并以总功耗节省作为了核心案例进行了深入研究和验证。

该框架的核心创新在于其数据驱动的“测量模型”构建与迭代优化流程。具体而言,算法流程如下:
(1) 真实数据收集:使用一个预训练好的基础策略或上一轮迭代中选出的最优策略,在真实的四足机器人上执行任务(如按指令速度行走),并同步收集机器人在仿真中可观测的状态数据(如电机扭矩、关节角速度)以及对应的真实世界中难以模拟的性能指标数据(如从电池组实际消耗的总电流)。
(2) 测量模型训练:利用收集到的成对数据(仿真可观状态 vs. 真实性能指标),训练一个数据驱动的测量模型。该模型的目标是学习从仿真可观状态到真实性能指标的映射关系。例如,根据电机的扭矩和角速度来预测瞬时总电流。所有先前迭代收集的数据都会被累积用于训练,以增强模型的泛化能力和数据多样性。
(3) 仿真环境中的策略精调:将训练好的测量模型集成到仿真环境中,用以估算在特定状态下机器人可能产生的真实功耗(或其他难以模拟的指标)。这个估算值随后被整合进强化学习的奖励函数中,使得策略在仿真训练时,不仅优化其基本运动任务(如跟踪指令速度),同时也直接优化这个与真实世界性能紧密相关的“难以模拟目标”。为防止策略过度利用当前可能尚不完美的测量模型,以及避免因数据分布漂移导致模型预测失效,算法中引入了KL散度惩罚项,以约束策略更新的幅度,使其与收集数据时的策略(锚点策略)保持一定的相似性。
(4) 分层策略选择与迭代:在仿真中通过参数扫描(如调整不同奖励项的权重、KL散度惩罚系数)生成一批候选策略。首先,基于这些策略在仿真环境中的性能(包含对难以模拟目标的优化效果)筛选出一组精英策略。然后,将这组精英策略部署到真实机器人上进行评估,根据其在真实世界中的实际表现(如真实总功耗)选出当前轮次的最优策略。该最优策略将作为下一轮迭代的锚点策略之一,同时其在真实评估中产生的数据也将被加入数据库,用于进一步优化测量模型。
通过这一迭代循环(数据收集 -> 模型更新 -> 仿真调优 -> 真实评估与选择),策略和测量模型共同进化,逐步逼近真实世界中的最优性能。
研究团队以四足机器人的总功耗节省为目标,对该框架进行了实验验证。结果显示,相较于使用传统解析模型(如理想机械功率加电机焦耳热)作为优化代理的基线方法,本研究提出的数据驱动框架取得了显著的性能提升。在不同速度下,机器人实现了24%至28%的净总功耗降低(在减去机器人待机功耗后,与预训练策略相比)。这不仅显著延长了机器人的单次充电工作时长,而且观察到机器人在行为层面也发生了积极变化,例如关节扭矩输出更平滑,前腿站姿更自然(更靠近身体重心),从而提升了运动的整体能效。在模拟真实场景的室内外长距离行走测试中,经该框架优化的策略也展现出更优的电池续航保持能力。
该工作提出并验证了一种富有前景的机器人学习与控制框架,它通过巧妙地结合数据驱动建模与迭代式仿真精调,有效攻克了四足机器人在总功耗等难以模拟目标上的优化难题,为提升复杂机器人在真实环境中的综合性能开辟了新途径。本论文共同第一作者为研究院实习生、清华大学博士生佴瑞乾,通讯作者为上海期智研究院PI、清华大学助理教授高阳。共同作者为研究院实习生、清华大学游嘉诚, 研究院助理研究员崔翰辰,清华大学曹流、张释元,研究院PI、清华大学助理教授许华哲。
论文信息:
Fine-Tuning Hard-to-Simulate Objectives for Quadruped Locomotion: A Case Study on Total Power Saving, Ruiqian Nai, Jiacheng You, Liu Cao, Hanchen Cui, Shiyuan Zhang, Huazhe Xu, Yang Gao†, https://hard-to-sim.github.io/,ICRA 2025.