Shiki

论文标题: EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models

期刊名: 34th USENIX Security Symposium

研究背景与动机

大型语言模型（LLMs）如GPT-4和LLaMA系列在自然语言处理任务中表现出色，但易受后门攻击威胁。现有后门攻击多基于单一令牌触发器（如特定关键词），忽略了用户群体的多样性：不同语言文化背景的用户对同一触发器的响应差异大，导致攻击效果不稳定。例如，英语用户常用“truck”作为触发器，而英国用户可能使用“lorry”，这降低了攻击的泛化能力。此外，传统令牌触发器离散且难以优化，在跨触发器场景中需重复训练模型，计算成本高且易引发灾难性遗忘问题。因此，本研究的动机是设计一种高效、隐蔽的跨触发器后门攻击方法，能够适应多语言多文化用户群体，通过嵌入空间优化提升攻击可扩展性。研究问题的具体表述为：如何在不重训练模型的前提下，实现多个令牌触发器到同一恶意输出的映射，同时保持攻击的隐蔽性和模型效用。

论文核心方法和步骤

EmbedX的核心创新是使用连续嵌入向量作为软触发器，替代传统的离散令牌触发器。方法分为三个阶段：

武器化嵌入作为软触发器：首先，冻结LLM参数，仅优化一个随机初始化的嵌入向量 φ作为软触发器。给定中毒数据集 Db={(x,yt)}（其中 yt是目标输出），通过最小化损失函数生成最优软触发器：

LT(φ)=(x,yt)∈Db∑[L(Mθ(Tφ(E(x))),yt)+max(d(Tφ(E(x)),E(x))−ε,0)+R]

这里，Tφ(E(x))=E(x)⊕φ表示将软触发器注入输入嵌入 E(x)，d(⋅)是 ℓ2距离约束隐蔽性，R是正则项确保触发器鲁棒性。该阶段使软触发器在语义空间中对齐目标输出。
潜在对抗性后门注入：将软触发器植入LLM，并利用干净样本的潜在表示施加双重约束（频率域和梯度域），以增强隐蔽性。对抗损失函数为：

Ladv(θ)=(x,yt)∈Db∑[L(Mθ(Tφ(E(x))),yt)+(Lf+Lg)]

其中频率损失 Lf和梯度损失 Lg分别通过KL散度和 ℓ2范数衡量中毒样本与干净样本的差异：

Lf=l=1∑Kλf,l[KL(P(Fl(Tφ(E(x))))∥P(Fl(E(x))))],Lg=l=1∑Kλg,l[∥Gl(Tφ(E(x)))∥−∥Gl(E(x))∥]

整体优化目标为最小化 minθβ1Lclean(θ)+β2Ladv(θ)，其中 Lclean是干净数据集上的损失，以保持模型效用。
通过软触发器激活后门：在实际攻击中，将新令牌 t的嵌入 E(t)优化对齐软触发器 φ，损失函数为 LE(E(t))=L(E(t),φ)+ΔE(t)。这使得任意令牌均可作为“引信”激活后门，无需重训练模型。例如，将“lorry”和“truck”映射到同一软触发器，实现跨触发器攻击。

实验结果与结论

实验在四个LLM（BLOOM-7B、LLaMA2-7B、LLaMA3-8B、Gemma2-9B）和五个数据集（SST-2、IMDB、Twitter、Emotion、Alpaca）上进行，覆盖分类和生成任务。

实验设置：使用5%的中毒比例，评估指标包括清洁测试准确率（CTA）、攻击成功率（ASR）、时间成本（Time）和隐蔽性指标（LFD、LGD）。基线方法包括BadNets、CBA和Sleeper Agent。
攻击有效性：EmbedX在跨触发器场景中ASR接近100%（平均99.25%），优于基线（如BadNets的ASR在Emotion数据集上仅96%）。在多语言测试中（英、法、中等六种语言），ASR均超过98%，显示强泛化能力。
效率与隐蔽性：EmbedX切换触发器的时间仅需0.5秒左右，而基线方法需数百秒。通过双重约束，中毒样本与干净样本在潜在空间的频率和梯度差异显著降低（LFD和LGD值接近0），避免了传统攻击的集群现象（如Figure 8所示）。
鲁棒性：在持续微调测试中，EmbedX的ASR在3k附加样本下仅下降13%，而基线下降超过30%。消融实验验证了软触发器优化和双重约束的必要性——随机软触发器导致ASR下降超80%。
结论：EmbedX首次实现了嵌入驱动的跨触发器后门攻击，通过语义空间优化提升了攻击效率和隐蔽性。作者指出，这暴露了LLM在嵌入层的安全漏洞，呼吁开发更强大的防御机制。工作对LLM安全领域的意义在于揭示了后门攻击的可扩展性风险，为未来防御研究提供了方向。

http://example.com/posts/39.html

作者

司马吴空

发布于

2026年4月5日

许可协议