[!NOTE] Title
图像领域,分类任务的针对后门攻击的防御

研究背景与动机

论文标题与期刊信息

Chen 等. “Anti-backdoor model: A novel algorithm to remove backdoors in a non-invasive way.” IEEE Transactions on Information Forensics and Security, vol. 19, 2024.

研究背景与动机
随着深度学习模型在图像分类、自然语言处理等领域的广泛应用,模型安全性问题日益凸显。其中,后门攻击(Backdoor Poisoning Attacks)是一种严重的安全威胁。攻击者通过向训练数据中注入少量恶意样本(植入触发器),使模型在正常输入下表现正常,但在特定触发器出现时输出攻击者预设的目标标签。此类攻击易于实施且攻击成功率极高,即使仅污染1%的训练数据,攻击成功率仍可超过50%。

传统的后门防御方法(如微调、剪枝等)属于侵入式方法,通过调整模型内部参数来消除后门。然而,由于后门任务与原始任务在神经元层面存在耦合,修复后门的同时往往导致原始任务准确率下降。因此,论文提出一种非侵入式的后门防御方法——Anti-Backdoor Model (ABM),旨在在不修改被攻击模型参数的前提下,有效消除后门并保持原始任务性能。


论文核心方法和步骤

方法概述
ABM 的核心思想是利用后门之间的强弱关系,通过植入一个可控的弱后门来筛选出高浓度的污染数据集,进而训练一个仅对后门任务敏感的外部学生模型,通过知识蒸馏抵消被攻击模型(教师模型)中的后门任务。

具体步骤

  1. 筛选隔离数据

    • 使用 NBAB 算法 在数据集中植入一个可控的后门(如2×2小方块),并将其标记为一个新类别(如Label 10)。
    • 训练一个验证模型,对全数据集植入该触发器,若模型预测结果不为新类别,则将该数据纳入隔离数据集 $D_4$。
    • 使用损失函数控制后门强度:
      $$
      \mathcal{L}{NBAB} = \begin{cases}
      l(model(x), y) & \text{Clean} \
      l(model(x
      {tri}), y_{tri}) + \alpha \cdot L_2(\theta, \theta_{tri}) & \text{Backdoor}
      \end{cases}
      $$
      其中 $L_2$ 项用于抑制后门激活,使其弱于攻击者植入的后门。
  2. 训练教师模型

    • 使用被污染的数据集 $D$ 进行标准训练,得到被攻击的教师模型 $M_t$,并记录其平均激活值 $A$。
  3. 训练学生模型

    • 使用隔离数据集 $D_4$ 训练学生模型 $M_s$,通过知识蒸馏使其仅学习后门任务:
      $$
      L_s = l(M_t(x), M_s(x))
      $$
    • 在推理阶段,将学生模型的输出与教师模型输出相减,以抵消后门激活:
      $$
      Output = f_t - \delta \cdot \text{ReLU}(f_s - A \cdot \gamma)
      $$
      其中 $\delta$、$\gamma$ 为超参数,$A$ 为教师模型平均激活值。

实验结果与结论

实验设置

  • 数据集:CIFAR-10、GTSRB、ImageNet Subset
  • 攻击方法:包括5种脏标签攻击(BadNets、Blend、CBA、Bpp、ISSBA)和3种干净标签攻击(SIG、Refool、Nar)
  • 对比方法:NAD、ABL、BAB、CBD
  • 评估指标:攻击成功率(ASR)、干净准确率(CA)

主要结果

  • ABM 在 CIFAR-10 上平均将 ASR 从 96.84% 降至 0.91%,CA 从 80.22% 提升至 80.39%,优于所有对比方法。
  • 在 GTSRB 和 ImageNet Subset 上,ABM 也表现出色,尤其在保持原始任务准确率方面显著优于 NAD 和 ABL。
  • 鲁棒性测试表明,ABM 对大比例污染(70%)、混合攻击、全对全攻击均有效。

消融实验与参数分析

  • 超参数 $\gamma$ 在 0.6–0.8 范围内效果最佳。
  • 隔离率在 1% 时即可有效防御,过高会导致 CA 下降。
  • 知识蒸馏对学生模型训练至关重要,无蒸馏时 ASR 波动较大。

局限性

  • ABM 依赖于后门之间的强弱关系,若攻击者后门强度低于或等于可控后门,则防御效果下降。
  • 对动态后门攻击(如 WaNet)防御效果有限,因其激活模式与干净数据相似。

结论
ABM 是一种有效的非侵入式后门防御方法,通过植入可控弱后门筛选污染数据,并利用知识蒸馏训练学生模型抵消后门任务。实验表明,ABM 在多种攻击场景下均能显著降低 ASR 并保持 CA,具有较高的实用价值。未来研究方向包括提升对新型后门攻击的防御能力及设计更通用的弱后门生成方法。


http://example.com/posts/12.html
作者
司马吴空
发布于
2026年3月30日
许可协议