SQZ Talk | 第28期—专题报告“大模型安全与对齐”

2025-10-30

2025年9月26日，上海期智研究院第28期“SQZ Talk”学术论坛邀请清华大学董胤蓬教授，带来专题报告“Safety and Alignment of Large Models”。论坛由姜建娟博士主持。

董胤蓬

清华大学助理教授

董胤蓬，清华大学人工智能学院助理教授。在TPAMI、IJCV、CVPR、NeurIPS等期刊和会议上发表论文60余篇，谷歌学术引用12000余次，担任ICLR、ICML、NeurIPS领域主席。曾获得CCF优秀博士学位论文、清华大学优秀博士后、微软学者奖学金、百度奖学金等，连续4年入选全球前2%顶尖科学家榜单。

专题报告

随着大规模预训练模型在各领域的广泛应用，其安全性与对齐性问题日益凸显。董胤蓬教授围绕大模型安全与对齐的研究现状与前沿挑战展开探讨，高度凝练了十个关键科学问题，极具启发性。首先介绍深度学习及大模型中的攻击方法与安全机理分析。继而讨论模型防御与对齐策略，包括近年来提出的基于推理增强的大模型安全对齐方法。最后，将分享在大模型安全评测方面的最新探索与实践，为推动未来安全、可信、可控的大模型发展提供参考。

报告结束后，科研人员围绕大模型安全测试的效率与系统性评测问题展开讨论，重点探讨了数字世界与物理世界中攻击样本生成效率的差异、物理世界攻击的不可控性与低产出问题，以及如何系统全面地评估模型漏洞、判断是否被攻破的挑战。交流中还涉及攻击方式的不可枚举性与仿真测试的必要性，并指出理论上保证模型安全是防御的理想目标，若无法实现，则需依赖更密集的测试与规则设计来提升防御能力。

张斌 SQZ RIR研究员

分享到

返回列表