选择语言
< 返回主菜单

SQZ Talk | 第32期—专题报告“操控数据金字塔:从人类视频预训练到物理强化学习”

2025-12-26


     2025年11月14日,上海期智研究院第32期“SQZ Talk”学术论坛邀请清华大学高阳教授,带来专题报告“Manipulation Data Pyramid: From Human Video Pretraining to Physical RL”。论坛由姜建娟博士主持。


报告人简介

图片

高阳

上海期智研究院PI

清华大学助理教授

       高阳,清华大学交叉信息研究院助理教授。于美国加州大学伯克利分校获得博士学位,师从Trevor Darrell教授。在获得博士学位后,于加州伯克利大学与Pieter Abbeel等人合作完成了博士后研究。研究方向机器人学。高阳博士目前主持具身视觉与机器人实验室 (Embodied Vision and Robotics,简称EVAR Lab),专注于利用人工智能技术赋能机器人,致力于打造通用的具身智能框架,提出了一系列高效通用的算法框架如Efficient zero、ViLa、CoPa等。


专题报告

图片

       扩展法则如今常被视为通向通用智能的关键要素之一。但在机器人领域,进展却因一个主要障碍而放缓:缺乏充足且高质量的数据。在这次演讲中,高阳教授提出一种“数据金字塔”策略,旨在通过充分利用多样化的数据来源来应对这一挑战。其理念简单而强大:将互联网规模的数据集、人类遥操作数据以及机器人自身采集的经验相结合,使三者互为补充、彼此增强。

       高阳教授具体通过三个实例展示这一策略的实际应用:一套可实现零样本的运动泛化的直接从人类 VR 记录中学习的系统、一项展示在模仿学习中,随着人工采集演示数据的增加,扩展法则如何逐步显现的研究、一种利用基础模型加速在物理世界中的学习过程的全新强化学习框架。高阳教授表示数据是知识的源泉。当把焦点从单纯设计算法,转向战略性地构建与使用数据时,就能开始攻克通往通用机器人智能道路上的诸多重大挑战。

图片

       报告结束后,科研人员围绕科环境复杂度与数据多样性如何影响模型泛化能力与扩展法则表现、人类操作数据和机器人操作数据之间的匹配度大小以及数据采集的视角与场景的选择的限制、如何克服从两指夹钳升级到多指灵巧手时,自由度激增带来的泛化难点、UMI数据在SFT阶段是否会表现出幂律、本研究在强化学习中采用人工而非仿真库采集数据的原因等问题展开探讨。

图片


马鑫至 SQZ高级工程师

图片

刘丁杰 SQZ硕士后

图片

褚驰 SQZ学士后

图片

邵彦铭 SQZ实习生

图片

范煜冬 SQZ实习生