论文标题:BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning
期刊/会议:CVPR 2024

研究背景与动机

多模态对比学习(Multimodal Contrastive Learning, MCL)如 CLIP 等模型,近年来在图像-文本检索、多模态搜索等任务中表现出色,并成为多个大模型的基础模块。然而,MCL 模型在面对后门攻击时表现出显著脆弱性。攻击者通过在训练数据中注入带有特定触发模式的毒化样本,使得模型在测试阶段对带有触发器的输入产生错误的嵌入输出,从而误导模型行为。

尽管已有研究提出了多种后门攻击方法,但这些方法往往容易被现有的后门防御机制(如模型检测、基于干净数据的微调)所识别或消除。因此,如何在防御机制存在的情况下仍能实现有效的后门攻击,成为该论文研究的核心问题。

本文的研究动机在于揭示 MCL 模型在实际应用中所面临的严重安全威胁,并提出一种能够在防御机制下依然有效的后门攻击方法。具体而言,作者基于贝叶斯规则分析,提出两个关键观察:

  1. 毒化模型参数与干净模型参数之间的偏差应尽可能小,以避免被检测;
  2. 毒化数据集应与干净微调数据集在特征空间上尽可能接近,以防止后门在微调过程中被“遗忘”。

基于此,作者提出了 BadCLIP,一种双嵌入引导的后门攻击框架,旨在在 CLIP 模型中植入难以检测和消除的后门。

论文核心方法和步骤

BadCLIP 的核心思想是通过文本嵌入一致性优化视觉嵌入抗性优化,构建一个在特征空间中与目标标签高度对齐的毒化数据集 $\mathcal{D}_1$,从而在最小化模型参数变化的同时,增强后门对防御机制的抵抗力。

1. 文本嵌入一致性优化

目标是最小化毒化过程对模型参数的影响。作者提出优化视觉触发器模式 $\delta_v$,使其在文本嵌入空间中接近目标标签的语义表示。其损失函数为:

$$
\mathcal{L}t = -\sum{i=1}^{N_1} \log \frac{g({\hat{\mathbf{v}}^{(1)}_i, \mathcal{T}^*i}; \Theta^{(0)})}{\sum{j=1}^{N_1} g({\hat{\mathbf{v}}^{(1)}_i, \mathbf{t}^{(1)}_j}; \Theta^{(0)})}
$$

其中 $g$ 表示相似度计算函数,$\mathcal{T}^*$ 是目标标签的自然文本描述集合。该优化使得视觉触发器在嵌入空间中自然接近目标文本,从而减少对模型参数的修改。

2. 视觉嵌入抗性优化

为了抵御基于干净数据的微调防御,作者提出使毒化样本在视觉特征空间中接近真实目标类别的图像特征。其损失函数包括:

  • 正样本对齐损失
    $$
    \mathcal{L}^p_i = \sum_{i=1}^{N_1} d(f^v(\hat{\mathbf{v}}^{(1)}_i; \theta_v^{(0)}), f^v(\mathcal{I}^*_i; \theta_v^{(0)}))
    $$
  • 负样本排斥损失
    $$
    \mathcal{L}^n_i = -\sum_{i=1}^{N_1} d(f^v(\hat{\mathbf{v}}^{(1)}_i; \theta_v^{(0)}), f^v(\mathbf{v}^{(1)}_i; \theta_v^{(0)}))
    $$

最终视觉嵌入优化的总损失为:

$$
\mathcal{L} = \mathcal{L}_t + \lambda_1 \times \max(0, \mathcal{L}^p_i + \lambda_2 \times \mathcal{L}^n_i + \eta)
$$

3. 毒化样本采样策略

为了增强后门的泛化能力,作者提出一种采样策略,选择三类图像注入触发器:

  • 边界样本:不属于目标类别但容易被误分类为目标类;
  • 最远样本:与目标类别语义差异大的样本;
  • 随机样本

三者按 1:1:1 比例组合,构建更具多样性的毒化数据集。

4. 整体毒化流程

  1. 使用预训练 CLIP 模型;
  2. 优化视觉触发器 $\delta_v$;
  3. 构建毒化数据集 $\mathcal{D}_1$;
  4. 在 $\mathcal{D}_1$ 上微调模型,植入后门。

实验结果与结论

作者在多个任务和防御场景下评估了 BadCLIP 的有效性:

1. 零样本分类任务

  • 在无防御情况下,BadCLIP 的攻击成功率(ASR)达 98.81%,优于所有基线方法;
  • 在面对 Fine-Tuning 和 CleanCLIP 防御时,ASR 仍分别保持 92.50%89.60%,显著高于其他方法。

2. 跨任务评估(Linear Probe)

  • 在 Linear Probe 任务中,BadCLIP 的 ASR 达 99.14%,且在 CleanCLIP 防御下仍保持 66.40%,显示出强大的跨任务迁移能力。

3. 跨域防御场景

  • 当防御者使用跨域数据(如 SBU)进行 CleanCLIP 防御时,BadCLIP 的 ASR 仍高达 87.21%,表现出良好的鲁棒性。

4. 后门检测防御

  • 使用 DECREE 检测方法时,BadCLIP 的 $\mathcal{PL}^1$-norm 值高于阈值,且反转触发器分布均匀,难以被检测。

5. 消融实验与参数分析

  • 消融实验表明,文本与视觉嵌入优化及采样策略均对提升攻击效果有贡献;
  • 触发器尺寸和毒化样本数量的选择对攻击效果有显著影响,最终设定为 $16\times16$ 和 1500 个样本。

结论

BadCLIP 是一种在 MCL 模型中植入难以检测和消除后门的强攻击方法。其在多种防御机制下仍保持高攻击成功率,揭示了 MCL 模型在实际应用中的安全风险。作者希望通过此项研究推动更强大的后门防御机制的发展,并提升社区对多模态模型安全性的重视。


http://example.com/posts/15.html
作者
司马吴空
发布于
2026年3月30日
许可协议