PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization,SIGIR’25

研究背景与动机

研究背景

大型语言模型(LLMs)在医疗问答、数学推理和代码生成等领域表现出色,但仍存在知识过时和幻觉问题。检索增强生成(RAG)通过引入外部知识库来缓解这些问题,但同时也带来了新的安全漏洞。现有针对RAG-based LLMs的攻击方法存在三个主要缺陷:

  1. 有效性不足:当知识库中仅能注入少量污染文本时,攻击成功率显著下降。

  2. 隐蔽性差:攻击易被异常检测系统发现,导致失效。

  3. 缺乏理论保障:依赖启发式方法生成污染文本,缺乏形式化优化框架和理论保证。

研究动机

本文提出一种新型攻击范式——协同Prompt-RAG攻击(PR-Attack),通过双级优化联合优化知识库中的污染文本和提示中的后门触发器。攻击者可在敏感时期(如自然灾害后)激活触发器,使LLM对特定问题生成预设的恶意回答,而在非敏感时期保持正常行为,从而兼顾高攻击成功率和隐蔽性。

论文核心方法和步骤

威胁模型

  • 攻击目标:针对一组目标问题 Q1​,…,QM​,每个问题对应一个恶意答案 Rita​和正确答案 Rico​。触发器激活时输出 Rita​,否则输出 Rico​。

  • 攻击能力:攻击者可控制提示内容并向知识库注入少量污染文本(每目标问题仅注入1个污染文本)。

双级优化问题建模

PR-Attack被形式化为以下双级优化问题:

θ,{PΓi​​}min​s.t.​i=1∑M​fi​(θ,PΓi​​)−λ1​Sim(Qi​,S(PΓi​​))Tk,i​({PΓi​​})=argTk,i​∈Dpoimax​Sim(Qi​,Tk,i​),∀i​

其中:

  • 上层目标:fi​(θ,PΓi​​)使用自回归损失作为代理函数,确保触发器激活时生成 Rita​,否则生成 Rico​;Sim(Qi​,S(PΓi​​))保证污染文本能被检索器检索。

  • 下层约束:检索器从污染知识库 Dpoi=D∪{S(PΓ1​​),…,S(PΓM​​)}中检索Top-k相关文本。

  • 优化变量:软提示 θ和污染文本的概率分布 PΓi​​(通过采样生成实际文本)。

交替优化算法

  1. Step A(优化污染文本):固定软提示 θ,使用零阶梯度下降更新 PΓi​​:

    • 通过合并排序解决下层检索问题(复杂度 O(KlogK))。

    • 使用两点估计器计算梯度:

      gil​=μ1​[fi​(θ,PΓi​l​+μu)−fi​(θ,PΓi​l​)]u−μλ1​​[Sim(Qi​,S(PΓi​l​+μu))−Sim(Qi​,S(PΓi​l​))]u

    • 更新规则:PΓi​l+1​=PΓi​l​−ηΓ​gil​。

  2. Step B(优化软提示):固定 PΓi​​,使用梯度下降更新 θ:

    • θl+1=θl−ηθ​∑i​∇fi​(θl,PΓi​​)。
  3. 复杂度分析:总复杂度为

    O((B1​(KlogK+(c1​+1)Mbd)+B2​Mnc2​)T)

    其中 b为污染文本令牌数,n为软提示令牌数。

实验结果与结论

实验设置

  • 数据集:Natural Questions (NQ)、HotpotQA、MS-MARCO。

  • 基线方法:PoisonedRAG、GGPP、GCG Attack、Corpus Poisoning等。

  • 评估指标:攻击成功率(ASR)和准确率(ACC)。

  • 参数配置:b=20(污染文本令牌数),n=15(软提示令牌数),k=5(检索文本数),触发器为罕见词“cf”。

攻击有效性

如表1所示,PR-Attack在多种LLM(Vicuna、Llama-2、GPT-J等)和数据集上均达到90%以上的ASR,显著优于基线方法。例如:

  • 在Vicuna 7B上,PR-Attack在NQ、HotpotQA和MS-MARCO的ASR分别为93%、94%、96%,而最佳基线方法仅为79%、83%、73%。

  • 在GPT-J 6B上,PR-Attack的ASR接近100%,远超其他方法。

隐蔽性分析

如表2所示,当触发器未激活时,PR-Attack的ACC高于基线方法(如Naive RAG),表明其能正常生成正确答案,避免被检测系统发现。例如:

  • 在Phi-3.5 3.8B上,PR-Attack在NQ、HotpotQA和MS-MARCO的ACC分别为91%、94%、97%,而Naive RAG为83%、89%、92%。

鲁棒性验证

  • 参数敏感性:如图4和图5所示,PR-Attack对污染文本长度 b和软提示长度 n的变化不敏感,ASR保持稳定。

  • 跨模型适用性:如图2和图3所示,PR-Attack在所有测试的LLM上均表现优异,且标准差低,证明其泛化能力强。

结论

PR-Attack通过双级优化联合攻击知识库和提示,解决了现有方法在有限污染文本下的有效性不足和隐蔽性差问题。实验证明其在多种场景下均能实现高攻击成功率和隐蔽性,揭示了RAG-based LLMs在安全部署中的潜在风险。


http://example.com/posts/64.html
作者
司马吴空
发布于
2026年3月30日
许可协议