选择语言
< 返回主菜单

SQZ Talk | 第21期—吴翼教授和谷雨博士学术分享

2025-07-03

       2025年6月26日,上海期智研究院第21期“SQZ Talk”学术论坛邀请到清华大学吴翼教授带来专题报告“AReaL: Effcient and Scalable Reinforcement Learning for LLMs”,还邀请到俄亥俄州立大学谷雨博士作学术报告。论坛由吴翼教授主持。

专题报告

图片

吴翼

上海期智研究院PI

清华大学助理教授

       吴翼是上海期智研究院PI,现任清华大学交叉信息研究院助理教授。2019年于加州大学伯克利分校获博士学位,师从Stuart Russell教授。毕业后曾任美国OpenAI公司研究员。研究方向集中在深度强化学习和多智能体学习。他的代表作包括价值迭代网络、MADDPG/MAPPO算法以及OpenAI的捉迷藏项目。他曾在2016年NIPS会议上获得最佳论文奖,并在2024年ICRA会议上获得最佳演示奖入围奖。

图片

      强化学习(RL)已经成为近期人工智能突破的新引擎。与传统的机器学习不同,后者是在静态数据集上训练模型,而强化学习需要一个更为复杂的过程,即策略与环境进行迭代交互,并基于收集到的交互数据进行自我演化。此外,当策略变得庞大,例如成为一个基于大型语言模型(LLM)的策略时,如何设计一个高效且可扩展的系统就变得更加具有挑战性了。

      在这次演讲中,吴翼教授分享了团队在为LLM开发大规模强化学习系统方面的尝试。首先,吴翼教授介绍ReaLHF,这是一个专门针对LLM的高效强化学习人类反馈(RLHF)系统。与现有的开源解决方案相比,它的吞吐量提高了3倍,基于Megatron-LM的性能比启发式方法提高了81%。接着介绍了AReaL,这是团队正在开发的最新强化学习系统。AReaL是在ReaLHF的基础上构建的,但专门针对大型推理模型。AReaL采用SGLang进行快速推理,并采用各种技术来处理长推理链输出。借助AReaL和256个H800 GPU,团队可以在2天内完成训练一个最先进的7B推理模型。

图片


        报告结束后,科研人员围绕训推一体架构的可行性、强化学习任务的成本结构优化路径,以及有限研发资源在渐进改进与范式革新间的战略分配等问题展开讨论。



学术报告

图片

谷雨

俄亥俄州立大学博士

谷雨博士于俄亥俄州立大学获得博士学位,南京大学计算机系取得硕士及学士学位。谷雨博士主要专注于语言智能体的研究,长期致力于探索语言对于智能体在开放世界多样任务泛化中的关键作用。相关研究发表于NeurIPS、ICLR、ACL、WWW等顶级国际会议,曾获ACL 2023及COLING 2022杰出论文奖。


图片

       使机器能够采取行动并实现多样的人类目标,可以说是人工智能研究最长久以来的目标。构建多功能、开放世界型智能体的核心挑战之一是有效的目标迁移(即推广到多样的、未见过的目标)。基于强化学习(RL)的智能体将目标定义为奖励函数,通常只被优化以实现固定目标(例如,下围棋或清理桌子)。推广到新目标将需要指定新的奖励函数,并针对这些函数进行优化。我们主张在人工智能智能体中明确地用自然语言对目标进行建模,而不是通过奖励函数隐式地编码目标。这不仅创造了人与智能体之间更友好的用户界面,更重要的是,它使智能体能够更容易地推广到新目标。在这次演讲中,谷雨博士介绍自然语言建模如何促进推广的直观高层观点,并讨论在这个框架下的几个项目。此外,谷雨博士还分享了关于在大型语言模型(LLM)时代以及一般人工智能研究中的智能体研究的个人思考。

分享到