高阳课题成果：高效率强化学习

2024-01-15

强化学习被认为是实现通用人工智能的重要路线之一。但强化学习往往需要海量的数据，难以在物理世界中应用。高阳团队提出一种新型强化学习算法EfficientZero，可仅用少量数据情况下取得高性能。团队针对蒙特卡洛强化学习算法的训练信号弱、模型累计误差和无法有效利用离线数据的三大问题，提出了系统化解决方法。提出了时序自监督学习、前缀值函数拟合和自适应值函数修正等算法创新，最终在仅使用2小时真实世界数据情况下，在Atari基准测试上达到了人类性能的109%。这是强化学习算法首次在有限数据情况下达到超越人类的能力。该算法的样本效率首次超越了人类的水平，达到了谷歌提出的经典强化学习算法DQN数据效率的近600倍。EfficientZero算法解决了强化学习领域的重大基础科学问题，填补了国际高效率强化学习领域的空白，为强化学习的物理世界落地铺平了道路。在EfficientZero之上，为了更加容易地在物理世界使用强化学习算法，高阳团队开发了EfficientImitate算法，可以在不使用奖励函数情况下进行高效率学习；同时也开发了Virtual MCTS大幅度提升EfficientZero的计算效率。

高阳2022.png

分享到

返回列表

高阳课题成果：高效率强化学习

更多成果展示

弋力课题成果：第一人称视角的类别级人-物交互的4D数据集

高阳课题成果：高效率强化学习

吴翼课题成果：基于多样性的自适应智能决策