研究院PI高阳等提出Efficient Zero模型，取得强化学习领域新突破

2021-11-16

上海期智研究院

近日，上海期智研究院PI高阳等人在强化学习领域中取得突破，所提出的模型EfficientZero首次在雅达利（Atari ）游戏数据上超过同等游戏时长的人类平均水平。EfficientZero的高效率学习能力为强化学习算法应用到现实世界场景提供了更大可能。

1.3.jpg

该研究成果一经公开，便在学术圈引发关注和热议，收获大量好评。甚至还有科技方向的博主做了半小时的视频讲解此文，短短两天已有上万人次观看。

1.6.jpg

Atrai游戏是目前强化学习领域最常用的性能测试标准之一，它包含丰富的游戏场景，且各个游戏规则各异。在2015年，Deep Mind团队提出算法DQN，通过200M帧训练数据，在Atari游戏上达到了人类平均水平。

然而EfficientZero达到同等水平仅仅需要DQN需求数据量的1/500。而低样本效率是限制强化学习算法应用于真实场景的障碍之一，这是因为在真实场景中，实验人员无法像在模拟场景中获取大量数据用于训练模型。这表明EfficientZero的高样本效率与高性能能够让强化学习算法更加贴近真实应用的场景，为强化学习算法能够落地提供了更大的可能性。

2.1.jpg

EfficientZero是一种model-based的算法，基于此前的MuZero模型，这类模型一方面通过收集的数据来学习环境模型，从而能够预测环境的变化，另一方面利用所学出的模型预测未来的轨迹和所得回报，通过MCTS进行规划，从而在少量训练数据情况下能够达到较高的性能。EfficientZero提出了三点改进：时序一致性，预测阶段回报，修正目标价值。其中时序一致性的实现是通过计算机视觉领域中的对比学习算法SimSiam实现的，这使得状态转移模型所预测的下一步状态靠近真实轨迹的下一步状态，从而促进状态转移模型的学习。

研究提出，在训练过程中有些状态的回报是很难预测的，因此预测每步状态的回报会有较高的不确定性，但是预测阶段的回报相对来说更加平滑，从而减少这种不确定性。研究组通过更改目标价值函数实现离线策略价值函数的纠正。此外，EfficientZero还在部分模拟机器人控制环境DMControl中进行了实验，并取得了目前最佳性能，这也进一步表明EfficientZero在更复杂的模拟环境情形下仍然能维持高样本效率和高性能。

该成果的研究论文《Mastering Atari Games with Limited Data》被2021年神经信息处理系统进展大会（NeurIPS 2021）接收。该论文的第一作者为清华大学交叉信息研究院2020级博士生叶葳蕤，通讯作者为研究院PI高阳。其他作者包括加美国加州大学伯克利分校教授Pieter Abbeel、清华大学交叉信息研究院2020级硕士生刘绍淮以及加州大学伯克利分校博士生Thanard Kurutach。

PI简介

高阳

高阳在美国加州大学伯克利分校获得博士学位，师从Trevor Darrell教授，他还在伯克利大学与Pieter Abbeel等人合作完成了博士后工作。高阳主要研究计算机视觉与机器人学，在此之前，高阳从清华大学计算机系毕业，与朱军教授在贝叶斯推理方面开展了研究工作，他还在2011-2012年在谷歌研究院进行了自然语言处理相关的研究工作、2016年在谷歌自动驾驶部门Waymo的相机感知团队实习，他在2018年与Vladlen Koltun博士在英特尔研究院在端到端自动驾驶方面进行了研究工作。

本文转载自微信公众号“清华大学交叉信息研究院“文章《高阳课题组提出Efficient Zero模型，取得强化学习领域新突破》

论文链接：https://arxiv.org/abs/2111.00210

分享到

返回列表

研究院PI高阳等提出Efficient Zero模型，取得强化学习领域新突破

更多综合新闻

上海期智研究院2026年“SQZ未来学者计划”暨联培博士招生通知

祝贺！研究院蒋力、刘方鑫团队荣获2025 ACM MM杰出论文奖

图灵奖得主姚期智对话“机器学习之父”迈克尔·欧文·乔丹：未来人工智能的变革图景