Fendley et al., “A Systematic Review of Poisoning Attacks Against Large Language Models,” 2025.

研究背景与动机

随着大型语言模型(LLMs)及其训练数据的广泛可用性,其使用所带来的安全风险显著增加。其中一项关键安全威胁是LLM投毒攻击,即攻击者通过修改LLM训练过程的某一部分,诱导模型在特定条件下表现出恶意行为。尽管已有研究对图像分类领域的投毒攻击进行了系统梳理,但针对生成式LLM的投毒攻击仍缺乏统一的术语体系和评估框架,导致文献中存在术语不一致、攻击分类模糊等问题。

研究动机在于填补这一空白,提出一个适用于LLM投毒攻击的综合威胁模型,系统梳理现有攻击方法,并明确关键攻击维度和评估指标。该论文旨在为研究者提供一个标准化的分析框架,促进对LLM投毒攻击的深入理解和有效防御。

论文核心方法和步骤

论文提出一个LLM投毒威胁模型,将攻击分为两大类:攻击指标攻击规范

1. 攻击指标

攻击指标用于量化攻击效果,包括:

  • 攻击成功率:衡量攻击触发时模型输出符合预期的比例。公式如下:
    $$
    \text{ASR}(M_p) = \frac{1}{|\mathcal{P}(\mathcal{D}p^{\text{test}})|} \sum{(x,y) \in \mathcal{P}(\mathcal{D}_p^{\text{test}})} \mathcal{F}(y, M_p(x))
    $$
    其中 $\mathcal{F}$ 是攻击成功判断函数。

  • 干净性能:衡量模型在未投毒数据上的表现:
    $$
    \text{CPM} = \frac{1}{|\mathcal{D}c^{\text{test}}|} \sum{(x,y) \in \mathcal{D}_c^{\text{test}}} \text{CPF}(M_p(x), y)
    $$

  • 投毒效率:投毒率 $\text{PR} = |\mathcal{D}_p^{\text{train}}| / |\mathcal{D}^{\text{train}}|$ 与ASR之间的关系。

  • 持久性:攻击在模型更新、防御或任务迁移后的存活能力:
    $$
    \mathcal{P}_\delta = \text{ASR}(\delta(M_p))
    $$
    其中 $\delta$ 表示模型更新操作。

  • 干净标签:投毒样本的标签是否与人类判断一致。

  • 输入/模型隐蔽性:投毒数据或模型是否难以被检测。

2. 攻击规范

攻击规范描述攻击者如何实施攻击,包括四个组成部分:

  • 投毒集:攻击者选择修改的数据子集,分为具体投毒集(如关键词匹配)和元函数投毒集(如满足某种语义概念)。

  • 触发函数:定义如何修改输入以激活攻击,分为具体触发(如插入特定词)和元触发(如改变句法结构)。

  • 投毒行为:攻击者希望模型在触发时执行的恶意行为,分为具体任务(如输出特定词)和元任务(如输出带有特定情绪的内容)。

  • 部署方式:包括数据投毒(仅修改训练数据)和模型投毒(修改训练过程或模型参数),以及是否使用身份触发(即不修改输入)。

3. 系统分类框架

论文将现有攻击研究归纳为四个关键维度:

  • 概念投毒:利用语义概念作为触发条件,如句法风格、意识形态等。
  • 持久性:攻击在防御、微调或任务迁移后的持续能力。
  • 隐蔽性:包括投毒效率、干净标签和输入/模型隐蔽性。
  • 特定任务投毒:针对代码生成、图像生成、视觉问答、毒性生成、RLHF等特殊任务的攻击。

实验结果与结论

论文系统检索并分析了65篇相关文献,发现:

  • 概念投毒(27篇)成为主流,攻击者利用句法、风格或语义概念作为触发,提升隐蔽性。
  • 持久性是研究热点,尤其在防御对抗(35篇)和任务迁移(20篇)方面。常见防御如ONION、STRIP等对复杂触发(如句法触发)效果有限。
  • 隐蔽性方面,投毒效率与ASR呈正相关,但存在边际递减;干净标签攻击更难检测但攻击效果通常较差;输入隐蔽性通过保持语法和语义自然性来提升。
  • 特定任务投毒在代码生成、图像生成、视觉问答等领域展现出多样化的攻击手段,尤其在代码生成中,攻击者通过注释或变量重命名植入后门,难以被传统防御检测。

结论方面,论文提出了一套系统化的LLM投毒威胁模型与评估框架,统一了术语和评估标准,为未来研究提供了理论基础。作者指出,删除式投毒是一个尚未充分探索的方向,未来应加强对此类攻击的研究。此外,随着LLM在更多任务中的部署,投毒攻击的多样性和隐蔽性将持续增强,亟需开发更具适应性的防御机制。

该研究不仅系统梳理了现有攻击方法,也为构建更安全的LLM训练与部署流程提供了重要参考。


http://example.com/posts/5.html
作者
司马吴空
发布于
2026年3月30日
许可协议