AGENTPOISON: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases. In 38th Conference on Neural Information Processing Systems (NeurIPS 2024).

研究背景与动机

大型语言模型(LLM)代理因其在推理、利用外部知识与工具、调用API以及与环境交互执行行动方面的先进能力,在各种应用中展现出卓越性能。当前代理通常利用记忆模块或检索增强生成(RAG)机制,从知识库中检索具有相似嵌入的过往知识和实例,以指导任务规划与执行。然而,对未经验证的知识库的依赖引发了对其安全性和可信度的严重担忧。现有针对LLM的攻击(如越狱攻击或在上下文学习中的后门攻击)无法有效攻击配备RAG的LLM代理。例如,GCG等越狱攻击因检索过程的弹性而遇到挑战,注入的对抗性后缀影响可能被知识库的多样性所缓解;而BadChain等后门攻击使用的触发器次优,无法保证在LLM代理中检索到恶意演示,导致攻击成功率不理想。

研究动机是揭示LLM代理中因依赖RAG机制而存在的潜在漏洞。具体研究问题是:如何通过毒化代理的长期记忆或RAG知识库,设计一种有效的后门攻击方法,使得当用户指令包含特定优化触发器时,能高概率检索出恶意演示,从而诱导代理产生对抗性目标行动,同时确保不含触发器的良性指令仍保持正常性能。

论文核心方法和步骤

论文提出了AGENTPOISON,一种针对通用及基于RAG的LLM代理的新型红队测试方法,通过毒化其长期记忆或RAG知识库实施后门攻击。其核心方法是将触发器生成过程建模为一个约束优化问题,旨在优化后门触发器,使得包含触发器的查询实例被映射到嵌入空间中的一个独特区域,从而确保当用户指令包含优化后的触发器时,能以高概率从被毒化的记忆或知识库中检索出恶意演示。

关键步骤与优化目标

  1. 威胁模型:攻击者具有对受害者代理RAG数据库的部分访问权限,可以注入少量恶意实例创建毒化数据库 Dpoison​(xt​)=Dclean​∪A(xt​)。攻击目标为:

    • 最大化触发查询产生目标恶意行动的概率:Eq∼πq​​[1(LLM(q⊕xt​,EK​(q⊕xt​,Dpoison​(xt​)))=am​)]。

    • 确保对清洁查询的输出不受影响:Eq∼πq​​[1(LLM(q,EK​(q,Dpoison​(xt​)))=ab​)]。

  2. 约束优化问题:将触发器 xt​的优化表述为以下最小化问题:

    xt​minimize​Luni​(xt​)+λ⋅Lcpt​(xt​)

    s.t. Ltar​(xt​)≤ηtar​,Lcoh​(xt​)≤ηcoh​

    其中:

    • **独特性损失 (Uniqueness Loss)**Luni​: 旨在将触发查询的嵌入推离良性查询的嵌入簇中心,增加其独特性。

      Luni​(xt​)=−N⋅∣Q∣1​n=1∑N​qj​∈Q∑​∣∣Eq​(qj​⊕xt​)−cn​∣∣

    • **紧凑性损失 (Compactness Loss)**Lcpt​: 旨在提高触发查询之间在嵌入空间的相似性,使其形成一个紧凑的簇。

      Lcpt​(xt​)=∣Q∣1​qj​∈Q∑​∣∣Eq​(qj​⊕xt​)−Eˉq​(xt​)∣∣

    • **目标损失 (Target Loss)**Ltar​: 约束条件,确保在成功检索毒化实例时,LLM生成目标恶意行动的概率足够高。

      Ltar​(xt​)=−∣Q∣1​qj​∈Q∑​pLLM​(am​∣[qj​⊕xt​,EK​(qj​⊕xt​,Dpoison​(xt​))])

    • **连贯性损失 (Coherence Loss)**Lcoh​: 约束条件,确保触发查询的文本具有高可读性和连贯性,以保持隐蔽性。

      Lcoh​(xt​)=−T1​i=1∑T​logpLLMb​​(q(i)∣q(<i))

  3. 优化算法:提出一种基于梯度的束搜索算法(Algorithm 1)来求解上述离散约束优化问题。算法包括初始化、梯度近似、约束过滤和令牌替换四个步骤,迭代地搜索能改进目标函数同时满足约束的令牌替换方案。

AGENTPOISON的优势在于无需额外的模型训练或微调,且优化后的触发器具有优异的可转移性、鲁棒性和隐蔽性。

实验结果与结论

实验设置:在三种真实世界的LLM代理上评估AGENTPOISON:基于RAG的自动驾驶代理(Agent-Driver)、知识密集型问答代理(ReAct-StrategyQA)和医疗保健记录管理代理(EHRAgent)。使用两种类型的LLM骨干(GPT-3.5和LLaMA3)和两种类型的RAG检索器(端到端训练和基于对比学习的训练)。对比基线包括GCG、AutoDAN、CPA和BadChain。评估指标包括:检索攻击成功率(ASR-r)、目标行动攻击成功率(ASR-a)、端到端目标攻击成功率(ASR-t)和良性准确率(ACC)。

主要结果

  1. 攻击有效性与良性性能保持:如表1所示,AGENTPOISON在平均检索成功率(ASR-r)达到81.2%,平均端到端攻击成功率(ASR-t)达到62.6%的同时,对良性性能的影响极小(ACC下降平均仅0.74%),显著优于所有基线方法。

  2. 高可转移性:如图3、7、8所示,针对一种RAG嵌入器优化的触发器能够有效地转移到其他类型的嵌入器(包括黑盒的OpenAI-ADA模型)上,保持高攻击成功率,尤其是在训练策略相似的嵌入器之间转移性更好。

  3. 低毒化率与少令牌有效性:如图4所示,即使在知识库中仅注入一个毒化实例(毒化率<0.1%),或触发器中仅包含一个令牌,AGENTPOISON仍能保持较高的ASR-r(平均62.0%和79.0%)和良性效用(ACC≥90%)。

  4. 消融研究:表2的消融实验表明,独特性损失 Luni​对高ASR-r贡献显著,紧凑性损失 Lcpt​对维持高ACC更敏感,连贯性损失 Lcoh​虽略微降低性能,但提高了触发查询的连贯性,有助于规避基于困惑度的防御。

  5. 鲁棒性:表3显示,AGENTPOISON对触发器序列中的词语注入和语义保持的改写具有较好的鲁棒性,但对随机字母注入较为敏感。

  6. 防御规避:表4和图5、10表明,与GCG和BadChain相比,AGENTPOISON优化的触发器具有更高的可读性和连贯性,能有效规避基于困惑度过滤和查询改写的潜在防御措施。

结论:AGENTPOISON是首个针对基于RAG的通用LLM代理的后门攻击方法,通过约束优化触发器,将其映射到嵌入空间的独特紧凑区域,实现了高检索准确率和端到端攻击成功率。该方法无需模型训练,且优化的触发器具有高可转移性、隐蔽性和鲁棒性。在三个真实世界代理上的大量实验证明了其优于现有基线方法的有效性。这项研究揭示了LLM代理在依赖外部知识源时存在的严重安全风险,呼吁开发者关注并加强其安全措施。


http://example.com/posts/6.html
作者
司马吴空
发布于
2026年3月30日
许可协议