上海期智研究院PI,清华大学交叉信息研究院助理教授。
2017年毕业于上海交通大学,于麻省理工学院取得博士学位,师从James Glass教授,博士毕业后,他在华盛顿大学Yulia Tsvetkov教授团队从事博士后研究,专注于语言模型安全性研究。主要研究方向为人工智能安全与社会模拟。
个人荣誉
2023年UW博士后研究奖
2023年CCF-腾讯犀牛鸟青年教师开放研究基金
2023年The ORACLE Project奖项
NeurIPS ENLSP 2022最佳论文奖
2019年The Ho Ching and Han Ching Scholarship奖
2014年上海交通大学优秀本科毕业论文
2014年中国计算机学会优秀本科生
2010年全国信息科学奥林匹克竞赛,银牌
生成性人工智能
大型语言模型的安全性
成果1:SATA:借助简单辅助任务的大语言模型越狱范式(2025年度)
贺天行团队近期提出一种借助简单辅助任务的大语言模型越狱攻击范式。该越狱范式首先将恶意查询中的有害关键词使用进行遮盖,以降低查询的表层恶意程度,躲避大语言模型的安全内容审查。随后,通过构造一个包含遮盖词语义信息的简单辅助任务并让大语言模型执行,以分离大语言模型的安全注意力,同时向大语言模型传递遮盖查询中缺失的语义信息。实验结果表明,两种越狱攻击在多种大语言模型上均超过了最近的强基线方法;并且该方法具有低攻击成本,能够比基线方法节省一个数量级的词牌(token)消耗。

图. 两种越狱攻击范式概述(SATA-MLM、SATA-ELP)
论文信息:
https://arxiv.org/pdf/2412.15289
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage, Xiaoning Dong, Wenbo Hu, Wei Xu†, Tianxing He†,ACL-Findings 2025.