IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 36, NO. 8, AUGUST 2025

Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review

Pengzhou Cheng, Zongru Wu, Wei Du, Haodong Zhao, Wei Lu, Member, IEEE, and Gongshen Liu

I. 引言

  • A. 研究背景与动机

    • 语言模型在现实应用中的普及与外包训练带来的安全风险。

    • 后门攻击的定义与严重性:模型在正常样本上表现良好,但在包含特定触发器的样本上产生恶意输出。

    • 现有研究的不足:缺乏系统性综述、对LLMs后门攻击面的及时回顾、防御措施的全面分析。

    • 本文目标:为NLP社区提供关于后门攻击与防御的及时、全面的综述。

  • B. 论文主要贡献与组织结构

    • 根据攻击者能力和受影响阶段对攻击面进行分类。

    • 将防御措施分类为样本检查和模型检查。

    • 总结基准数据集并提供可比较的评估。

    • 讨论未来研究方向。

II. 背景知识与预备知识

  • A. NLP模型的发展

    • 统计语言模型 -> 神经语言模型 -> 预训练语言模型 -> 大语言模型。

    • 强调PLMs和LLMs因其广泛应用和微调需求而成为后门攻击的关键目标。

  • B. 后门攻击

    • 1. 攻击步骤与优化目标

      • 三步流程:触发器定义、投毒数据集生成、模型后门注入。

      • 给出统一的优化问题数学公式。

    • 2. 攻击目标

      • 有效性、隐蔽性、有效性度量、通用性。
    • 3. 攻击知识与能力

      • 根据对模型和数据的访问权限,分为白盒、灰盒、黑盒攻击。
    • 4. 粒度分析

      • 触发器粒度:字符级、词级、句子级。

      • 攻击范式:数据投毒 与 模型操纵。

  • C. 后门防御

    • 1. 样本检查

      • 拒绝响应投毒样本或移除触发器后重响应。

      • 从投毒数据集中识别并移除有毒样本,用干净数据重新训练模型。

    • 2. 模型检查

      • 模型净化:调整模型参数/结构以降低对后门的敏感性。

      • 模型诊断:检测模型是否包含后门,防止其部署。

  • D. 基准数据集

    • 表格形式列出文本分类、机器翻译、问答、文本摘要等各类NLP任务常用的基准数据集及相关代表性工作。
  • E. 评估标准

    • 1. 后门攻击指标

      • 有效性:攻击成功率(ASR)、干净准确率(CACC)。

      • 隐蔽性与有效性度量:困惑度变化(ΔPPL)、语法错误变化(ΔGE)、语义相似度(USE)等。

    • 2. 后门防御指标

      • 防御后ASR和CACC的变化(ΔASR, ΔCACC)。

      • 检测性能:误接受率(FAR)、误拒绝率(FRR)、精确率、召回率、F1分数。

      • 时间复杂度。

III. 后门攻击方法的分类

  • A. 攻击经过微调的预训练模型

    • 1. 任务特定后门:攻击旨在植入与特定任务相关的后门,即使用户在相同领域任务上微调,威胁仍存在。

    • 2. 任务无关后门

      • 领域迁移:利用公开或收集的代理数据集进行攻击。

      • 表征投毒:在模型输出表征上做文章,使其接近预设向量。

  • B. 攻击经过参数高效微调的预训练模型

    • 1. 提示调优攻击:针对离散提示和连续提示的后门攻击。

    • 2. P-Tuning攻击:大多数提示调优攻击对P-Tuning仍然有效。

    • 3. LoRA与适配器调优攻击:攻击低秩适配器等PEFT组件。

  • C. 攻击经过训练的最终模型

    • 1. 有效性策略:如BadNet、迭代优化、动态位置选择等。

    • 2. 隐蔽性与有效性策略

      • 组合触发器、词替换/同义词替换、文本转换(句法、风格)、对抗扰动、不可感知攻击、输入相关攻击、干净标签攻击等。
  • D. 攻击大语言模型

    • 针对LLMs特有场景的后门攻击:

      • 指令微调、RLHF、上下文学习、智能体、API访问、思维链、模型编辑、检索增强生成、多模态LLMs、可迁移攻击等。

IV. 后门防御方法的分类

  • A. 样本检查

    • 1. 样本过滤:识别并拒绝投毒样本。

      • 用户体验研究、基于插入的防御、基于非插入的防御、通用导向防御、NLG任务特定防御。
    • 2. 样本转换:从数据集中净化投毒样本并重新训练干净模型。

      • 相关性分析、表征分析。
  • B. 模型检查

    • 1. 模型净化:修改模型以消除后门。

      • 精细剪枝、训练策略、模块集成。
    • 2. 模型诊断:检测模型是否被植入后门。

      • 触发器逆向、Transformer注意力分析、Logits分析、元神经分析。

V. 讨论与开放挑战

  • A. 攻击方面的挑战

    • 触发器设计(隐蔽性、鲁棒性)。

    • 广泛的攻击研究(被动攻击、NLG任务攻击、LLMs新漏洞挖掘)。

    • 影响的积极转化(水印、隐写术等)。

  • B. 防御方面的挑战

    • 鲁棒有效的防御(通用性、效率、应对NLG和LLMs)。
  • C. 精确评估的挑战

    • 统一指标、报告攻击/防御成本、更可靠的评估设置。

VI. 结论

  • 总结后门攻击对NLP模型的严重威胁及防御研究的滞后性。

  • 强调本文通过系统性分类、基准评估和未来方向讨论,为研究者提供了全面概览。

  • 呼吁关注构建更安全的NLP社区,尤其是在LLMs时代。

该大纲清晰地展示了论文如何从问题定义、背景知识,到对攻击和防御方法的深度分类与剖析,再到实验评估、问题讨论,最终得出结论的逻辑脉络,结构严谨,内容层层递进。


http://example.com/posts/16.html
作者
司马吴空
发布于
2026年3月30日
许可协议