Shiki

PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization，SIGIR’25

研究背景与动机

研究背景

大型语言模型（LLMs）在医疗问答、数学推理和代码生成等领域表现出色，但仍存在知识过时和幻觉问题。检索增强生成（RAG）通过引入外部知识库来缓解这些问题，但同时也带来了新的安全漏洞。现有针对RAG-based LLMs的攻击方法存在三个主要缺陷：

研究动机

本文提出一种新型攻击范式——协同Prompt-RAG攻击（PR-Attack），通过双级优化联合优化知识库中的污染文本和提示中的后门触发器。攻击者可在敏感时期（如自然灾害后）激活触发器，使LLM对特定问题生成预设的恶意回答，而在非敏感时期保持正常行为，从而兼顾高攻击成功率和隐蔽性。

威胁模型

双级优化问题建模

PR-Attack被形式化为以下双级优化问题：

θ,{PΓi}mins.t.i=1∑Mfi(θ,PΓi)−λ1Sim(Qi,S(PΓi))Tk,i({PΓi})=argTk,i∈DpoimaxSim(Qi,Tk,i),∀i

其中：

上层目标：fi(θ,PΓi)使用自回归损失作为代理函数，确保触发器激活时生成 Rita，否则生成 Rico；Sim(Qi,S(PΓi))保证污染文本能被检索器检索。
下层约束：检索器从污染知识库 Dpoi=D∪{S(PΓ1),…,S(PΓM)}中检索Top-k相关文本。
优化变量：软提示 θ和污染文本的概率分布 PΓi（通过采样生成实际文本）。

交替优化算法

Step A（优化污染文本）：固定软提示 θ，使用零阶梯度下降更新 PΓi：
- 通过合并排序解决下层检索问题（复杂度 O(KlogK)）。
- 使用两点估计器计算梯度：
  
  gil=μ1[fi(θ,PΓil+μu)−fi(θ,PΓil)]u−μλ1[Sim(Qi,S(PΓil+μu))−Sim(Qi,S(PΓil))]u
- 更新规则：PΓil+1=PΓil−ηΓgil。
Step B（优化软提示）：固定 PΓi，使用梯度下降更新 θ：
- θl+1=θl−ηθ∑i∇fi(θl,PΓi)。
复杂度分析：总复杂度为

O((B1(KlogK+(c1+1)Mbd)+B2Mnc2)T)

其中 b为污染文本令牌数，n为软提示令牌数。

实验设置

攻击有效性

如表1所示，PR-Attack在多种LLM（Vicuna、Llama-2、GPT-J等）和数据集上均达到90%以上的ASR，显著优于基线方法。例如：

在Vicuna 7B上，PR-Attack在NQ、HotpotQA和MS-MARCO的ASR分别为93%、94%、96%，而最佳基线方法仅为79%、83%、73%。
在GPT-J 6B上，PR-Attack的ASR接近100%，远超其他方法。

隐蔽性分析

如表2所示，当触发器未激活时，PR-Attack的ACC高于基线方法（如Naive RAG），表明其能正常生成正确答案，避免被检测系统发现。例如：

在Phi-3.5 3.8B上，PR-Attack在NQ、HotpotQA和MS-MARCO的ACC分别为91%、94%、97%，而Naive RAG为83%、89%、92%。

鲁棒性验证

结论

PR-Attack通过双级优化联合攻击知识库和提示，解决了现有方法在有限污染文本下的有效性不足和隐蔽性差问题。实验证明其在多种场景下均能实现高攻击成功率和隐蔽性，揭示了RAG-based LLMs在安全部署中的潜在风险。

http://example.com/posts/64.html

作者

司马吴空

发布于

2026年4月5日

许可协议