Shiki

Fendley et al., “A Systematic Review of Poisoning Attacks Against Large Language Models,” 2025.

研究背景与动机

随着大型语言模型（LLMs）及其训练数据的广泛可用性，其使用所带来的安全风险显著增加。其中一项关键安全威胁是LLM投毒攻击，即攻击者通过修改LLM训练过程的某一部分，诱导模型在特定条件下表现出恶意行为。尽管已有研究对图像分类领域的投毒攻击进行了系统梳理，但针对生成式LLM的投毒攻击仍缺乏统一的术语体系和评估框架，导致文献中存在术语不一致、攻击分类模糊等问题。

研究动机在于填补这一空白，提出一个适用于LLM投毒攻击的综合威胁模型，系统梳理现有攻击方法，并明确关键攻击维度和评估指标。该论文旨在为研究者提供一个标准化的分析框架，促进对LLM投毒攻击的深入理解和有效防御。

论文核心方法和步骤

论文提出一个LLM投毒威胁模型，将攻击分为两大类：攻击指标 和 攻击规范。

1. 攻击指标

攻击指标用于量化攻击效果，包括：

攻击成功率：衡量攻击触发时模型输出符合预期的比例。公式如下：
$$
\text{ASR}(M_p) = \frac{1}{|\mathcal{P}(\mathcal{D}p^{\text{test}})|} \sum{(x,y) \in \mathcal{P}(\mathcal{D}_p^{\text{test}})} \mathcal{F}(y, M_p(x))
$$
其中 $\mathcal{F}$ 是攻击成功判断函数。
干净性能：衡量模型在未投毒数据上的表现：
$$
\text{CPM} = \frac{1}{|\mathcal{D}c^{\text{test}}|} \sum{(x,y) \in \mathcal{D}_c^{\text{test}}} \text{CPF}(M_p(x), y)
$$
投毒效率：投毒率 $\text{PR} = |\mathcal{D}_p^{\text{train}}| / |\mathcal{D}^{\text{train}}|$ 与ASR之间的关系。
持久性：攻击在模型更新、防御或任务迁移后的存活能力：
$$
\mathcal{P}_\delta = \text{ASR}(\delta(M_p))
$$
其中 $\delta$ 表示模型更新操作。
干净标签：投毒样本的标签是否与人类判断一致。
输入/模型隐蔽性：投毒数据或模型是否难以被检测。

2. 攻击规范

攻击规范描述攻击者如何实施攻击，包括四个组成部分：

投毒集：攻击者选择修改的数据子集，分为具体投毒集（如关键词匹配）和元函数投毒集（如满足某种语义概念）。
触发函数：定义如何修改输入以激活攻击，分为具体触发（如插入特定词）和元触发（如改变句法结构）。
投毒行为：攻击者希望模型在触发时执行的恶意行为，分为具体任务（如输出特定词）和元任务（如输出带有特定情绪的内容）。
部署方式：包括数据投毒（仅修改训练数据）和模型投毒（修改训练过程或模型参数），以及是否使用身份触发（即不修改输入）。

3. 系统分类框架

论文将现有攻击研究归纳为四个关键维度：

概念投毒：利用语义概念作为触发条件，如句法风格、意识形态等。
持久性：攻击在防御、微调或任务迁移后的持续能力。
隐蔽性：包括投毒效率、干净标签和输入/模型隐蔽性。
特定任务投毒：针对代码生成、图像生成、视觉问答、毒性生成、RLHF等特殊任务的攻击。

实验结果与结论

论文系统检索并分析了65篇相关文献，发现：

概念投毒（27篇）成为主流，攻击者利用句法、风格或语义概念作为触发，提升隐蔽性。
持久性是研究热点，尤其在防御对抗（35篇）和任务迁移（20篇）方面。常见防御如ONION、STRIP等对复杂触发（如句法触发）效果有限。
隐蔽性方面，投毒效率与ASR呈正相关，但存在边际递减；干净标签攻击更难检测但攻击效果通常较差；输入隐蔽性通过保持语法和语义自然性来提升。
特定任务投毒在代码生成、图像生成、视觉问答等领域展现出多样化的攻击手段，尤其在代码生成中，攻击者通过注释或变量重命名植入后门，难以被传统防御检测。

结论方面，论文提出了一套系统化的LLM投毒威胁模型与评估框架，统一了术语和评估标准，为未来研究提供了理论基础。作者指出，删除式投毒是一个尚未充分探索的方向，未来应加强对此类攻击的研究。此外，随着LLM在更多任务中的部署，投毒攻击的多样性和隐蔽性将持续增强，亟需开发更具适应性的防御机制。

该研究不仅系统梳理了现有攻击方法，也为构建更安全的LLM训练与部署流程提供了重要参考。

http://example.com/posts/5.html

作者

司马吴空

发布于

2026年4月5日

许可协议