贺天行

上海期智研究院PI（2024年8月-至今）
清华大学助理教授

个人主页

返回列表

人工智能

科研方向

个人简介

上海期智研究院PI，清华大学交叉信息研究院助理教授。

2017年毕业于上海交通大学，于麻省理工学院取得博士学位，师从James Glass教授，博士毕业后，他在华盛顿大学Yulia Tsvetkov教授团队从事博士后研究，专注于语言模型安全性研究。主要研究方向为人工智能安全与社会模拟。

个人荣誉

2023年UW博士后研究奖

2023年CCF-腾讯犀牛鸟青年教师开放研究基金

2023年The ORACLE Project奖项

NeurIPS ENLSP 2022最佳论文奖

2019年The Ho Ching and Han Ching Scholarship奖

2014年上海交通大学优秀本科毕业论文

2014年中国计算机学会优秀本科生

2010年全国信息科学奥林匹克竞赛，银牌

研究方向

生成性人工智能

大型语言模型的安全性

亮点成果

成果1：SATA:借助简单辅助任务的大语言模型越狱范式（2025年度）

贺天行团队近期提出一种借助简单辅助任务的大语言模型越狱攻击范式。该越狱范式首先将恶意查询中的有害关键词使用进行遮盖，以降低查询的表层恶意程度，躲避大语言模型的安全内容审查。随后，通过构造一个包含遮盖词语义信息的简单辅助任务并让大语言模型执行，以分离大语言模型的安全注意力，同时向大语言模型传递遮盖查询中缺失的语义信息。实验结果表明，两种越狱攻击在多种大语言模型上均超过了最近的强基线方法；并且该方法具有低攻击成本，能够比基线方法节省一个数量级的词牌（token）消耗。

图. 两种越狱攻击范式概述（SATA-MLM、SATA-ELP）

论文信息：

https://arxiv.org/pdf/2412.15289

SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage, Xiaoning Dong, Wenbo Hu, Wei Xu†, Tianxing He†，ACL-Findings 2025.

团队成员

马云飞
工程师
邱兰岚
硕士后
高文畅
硕士后

招聘信息

AI安全/AI社会模拟或AI小镇/AI生成游戏实习生

强大的个人独立科研能力，毅力，经验和大量的时间投入；有论文经验/游戏引擎或者mod经验等

论文发表

1. SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage, Xiaoning Dong, Wenbo Hu, Wei Xu†, Tianxing He†，ACL-Findings 2025.