选择语言
< 返回主菜单

SQZ Talk | 第28期—专题报告“大模型安全与对齐”

2025-10-30

       2025年9月26日,上海期智研究院第28期“SQZ Talk”学术论坛邀请清华大学董胤蓬教授,带来专题报告“Safety and Alignment of Large Models”。论坛由姜建娟博士主持。

图片

董胤蓬

清华大学助理教授

       董胤蓬,清华大学人工智能学院助理教授。在TPAMI、IJCV、CVPR、NeurIPS等期刊和会议上发表论文60余篇,谷歌学术引用12000余次,担任ICLR、ICML、NeurIPS领域主席。曾获得CCF优秀博士学位论文、清华大学优秀博士后、微软学者奖学金、百度奖学金等,连续4年入选全球前2%顶尖科学家榜单。


专题报告

图片

       随着大规模预训练模型在各领域的广泛应用,其安全性与对齐性问题日益凸显。董胤蓬教授围绕大模型安全与对齐的研究现状与前沿挑战展开探讨,高度凝练了十个关键科学问题,极具启发性。首先介绍深度学习及大模型中的攻击方法与安全机理分析。继而讨论模型防御与对齐策略,包括近年来提出的基于推理增强的大模型安全对齐方法。最后,将分享在大模型安全评测方面的最新探索与实践,为推动未来安全、可信、可控的大模型发展提供参考。

图片

       报告结束后,科研人员围绕大模型安全测试的效率与系统性评测问题展开讨论,重点探讨了数字世界与物理世界中攻击样本生成效率的差异、物理世界攻击的不可控性与低产出问题,以及如何系统全面地评估模型漏洞、判断是否被攻破的挑战。交流中还涉及攻击方式的不可枚举性与仿真测试的必要性,并指出理论上保证模型安全是防御的理想目标,若无法实现,则需依赖更密集的测试与规则设计来提升防御能力。

图片

张斌 SQZ RIR研究员

分享到