2025-05-15
报告人简介
杨珩
哈佛大学助理教授
杨珩是哈佛大学工程与应用科学学院的电气工程系助理教授,领导哈佛计算机器人课题组 (Harvard Computational Robotics Group)。他的研究主要集中在两个方向:一是设计大规模数值优化算法,特别是用于处理机器人中非凸感知与控制问题的凸半正定规划求解器;二是探索基于结构化表示与结构化架构的机器人学习方法。他的研究成果获得了多个国际顶级机器人会议与期刊的最佳论文奖与最佳论文提名奖,包括ICRA、RSS、《IEEE机器人与自动化快报》(RAL)以及IEEE机器人与自动化学会模型优化技术委员会(IEEE RAS TC on Model-Based Optimization for Robotics)。
近年来,视觉-语言-动作(VLA)模型与生成建模的突破推动了通用型机器人学习系统的发展,使其得以在互联网规模数据上进行训练。然而,这些端到端的模型仍面临诸多关键挑战,包括样本效率低、泛化能力有限以及空间推理能力不足。
本次报告介绍了课题组近期在应对这些挑战方面的工作,核心思路是在视觉策略学习中引入结构化表示和结构化架构。
首先,杨珩教授提出一种用于控制的表示学习新视角:课题组在模仿学习训练得到的策略模型的视觉潜在空间中发现了面向控制的结构特征。受分类任务中“神经塌陷”现象的启发,课题组提出了一种正则化策略,用以在潜在空间中强化几何结构,从而提升策略在多任务、多架构上的鲁棒性与样本效率。
其次,杨珩教授介绍了一种结构化的策略学习架构——生成式预测控制(Generative Predictive Control, GPC)。该架构将基于示范的生成建模与基于预测的世界建模相结合,用于实现更具前瞻性的规划。其中,杨珩教授重点展示一种基于扩散模型的视觉世界模型,该模型能够生成符合物理规律的未来视觉预测,并支持通过采样与梯度优化相结合的在线规划。
报告结束后,科研人员们讨论了机器人学习中行为克隆策略的优化方法、模型的泛化能力以及如何构建更准确的环境模型,围绕如何通过不同的方法提升策略性能、解决模型泛化能力不足以及如何构建更准确的环境模型展开讨论。
分享到