SQZ Talk | 第35期—专题报告“大语言模型训练中期与训练后的数据优化”

2026-01-09

       2025年12月19日,上海期智研究院第34期“SQZ Talk”学术论坛邀请清华大学房智轩教授,带来专题报告“Remote-Local Collaborative Inference”。论坛由姜建娟博士主持。


报告人简介

图片

张景昭

上海期智研究院PI

清华大学助理教授

       张景昭现任清华大学交叉信息研究院 (IIIS) 助理教授,本科毕业于UC Berkeley,博士毕业于MIT计算机科学系 (EECS)。他的研究致力于为实用算法提供简洁而具预测性的理论分析,同时关注空间受限算法的计算复杂性理解。他曾获MIT人工智能和决策领域最佳硕士论文奖、最佳博士论文奖,入选2022年度国家海外人才计划,指导学生获国际学习理论会议 (COLT) 最佳学生论文奖。


专题报告

图片

大语言模型训练现已涵盖多个阶段(预训练→中期训练→监督微调→训练后强化学习),而数据集的选择日益决定着基准测试成绩与安全性表现。张景昭在本次报告中,分享了团队聚焦的两个数据选择问题:首先,在中期训练阶段,研究模型如何从混合数据源中习得知识,并观察到相变行为—模型的最优响应会在不同数据源之间突变式切换,而非平滑插值,且关键混合比例随模型规模变化,这意味着调优策略需根据规模动态调整。在此基础上,团队提出一个实用框架,该框架可学习每个领域的损失函数作为(模型规模,混合比例)的函数,进而优化混合方案以提升基准测试分数。其次,针对训练后的RLVR(基于验证器的强化学习),张景昭团队认为应在高难度问题上进行训练,并通过在分布外任务中添加提示或部分解来缓解稀疏奖励问题,从而加速学习进程。

图片

报告结束后,科研人员围绕中期训练与在领域模型中运用较广的持续预训练之间的差异性、知识注入效率在中期训练与后期训练阶段的比较、模型架构与动态学习率调度在预测拟合优化中的作用、模型架构与学习率动态调整在模型预测拟合问题中的作用、模型规模与数据混合参数的负相关性规律等问题进行探讨。

图片

李彪 SQZ高级工程师

图片

李朝 SQZ高级工程师

图片

杨之恬 RIR研究员

图片

张磊成 RIR研究员

图片

梁达豪 SQZ工程师

图片

赵立帆 SQZ研究员

图片

王骥一 SQZ实习生

分享到