论文标题: EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models
期刊名: 34th USENIX Security Symposium
研究背景与动机
大型语言模型(LLMs)如GPT-4和LLaMA系列在自然语言处理任务中表现出色,但易受后门攻击威胁。现有后门攻击多基于单一令牌触发器(如特定关键词),忽略了用户群体的多样性:不同语言文化背景的用户对同一触发器的响应差异大,导致攻击效果不稳定。例如,英语用户常用“truck”作为触发器,而英国用户可能使用“lorry”,这降低了攻击的泛化能力。此外,传统令牌触发器离散且难以优化,在跨触发器场景中需重复训练模型,计算成本高且易引发灾难性遗忘问题。因此,本研究的动机是设计一种高效、隐蔽的跨触发器后门攻击方法,能够适应多语言多文化用户群体,通过嵌入空间优化提升攻击可扩展性。研究问题的具体表述为:如何在不重训练模型的前提下,实现多个令牌触发器到同一恶意输出的映射,同时保持攻击的隐蔽性和模型效用。
论文核心方法和步骤
EmbedX的核心创新是使用连续嵌入向量作为软触发器,替代传统的离散令牌触发器。方法分为三个阶段:
武器化嵌入作为软触发器:首先,冻结LLM参数,仅优化一个随机初始化的嵌入向量 φ作为软触发器。给定中毒数据集 Db={(x,yt)}(其中 yt是目标输出),通过最小化损失函数生成最优软触发器:
LT(φ)=(x,yt)∈Db∑[L(Mθ(Tφ(E(x))),yt)+max(d(Tφ(E(x)),E(x))−ε,0)+R]
这里,Tφ(E(x))=E(x)⊕φ表示将软触发器注入输入嵌入 E(x),d(⋅)是 ℓ2距离约束隐蔽性,R是正则项确保触发器鲁棒性。该阶段使软触发器在语义空间中对齐目标输出。
潜在对抗性后门注入:将软触发器植入LLM,并利用干净样本的潜在表示施加双重约束(频率域和梯度域),以增强隐蔽性。对抗损失函数为:
Ladv(θ)=(x,yt)∈Db∑[L(Mθ(Tφ(E(x))),yt)+(Lf+Lg)]
其中频率损失 Lf和梯度损失 Lg分别通过KL散度和 ℓ2范数衡量中毒样本与干净样本的差异:
Lf=l=1∑Kλf,l[KL(P(Fl(Tφ(E(x))))∥P(Fl(E(x))))],Lg=l=1∑Kλg,l[∥Gl(Tφ(E(x)))∥−∥Gl(E(x))∥]
整体优化目标为最小化 minθβ1Lclean(θ)+β2Ladv(θ),其中 Lclean是干净数据集上的损失,以保持模型效用。

通过软触发器激活后门:在实际攻击中,将新令牌 t的嵌入 E(t)优化对齐软触发器 φ,损失函数为 LE(E(t))=L(E(t),φ)+ΔE(t)。这使得任意令牌均可作为“引信”激活后门,无需重训练模型。例如,将“lorry”和“truck”映射到同一软触发器,实现跨触发器攻击。
实验结果与结论
实验在四个LLM(BLOOM-7B、LLaMA2-7B、LLaMA3-8B、Gemma2-9B)和五个数据集(SST-2、IMDB、Twitter、Emotion、Alpaca)上进行,覆盖分类和生成任务。
实验设置:使用5%的中毒比例,评估指标包括清洁测试准确率(CTA)、攻击成功率(ASR)、时间成本(Time)和隐蔽性指标(LFD、LGD)。基线方法包括BadNets、CBA和Sleeper Agent。
攻击有效性:EmbedX在跨触发器场景中ASR接近100%(平均99.25%),优于基线(如BadNets的ASR在Emotion数据集上仅96%)。在多语言测试中(英、法、中等六种语言),ASR均超过98%,显示强泛化能力。
效率与隐蔽性:EmbedX切换触发器的时间仅需0.5秒左右,而基线方法需数百秒。通过双重约束,中毒样本与干净样本在潜在空间的频率和梯度差异显著降低(LFD和LGD值接近0),避免了传统攻击的集群现象(如Figure 8所示)。
鲁棒性:在持续微调测试中,EmbedX的ASR在3k附加样本下仅下降13%,而基线下降超过30%。消融实验验证了软触发器优化和双重约束的必要性——随机软触发器导致ASR下降超80%。
结论:EmbedX首次实现了嵌入驱动的跨触发器后门攻击,通过语义空间优化提升了攻击效率和隐蔽性。作者指出,这暴露了LLM在嵌入层的安全漏洞,呼吁开发更强大的防御机制。工作对LLM安全领域的意义在于揭示了后门攻击的可扩展性风险,为未来防御研究提供了方向。