Shiki

摘要

大型语言模型 (LLM) 在广泛的应用中表现出了卓越的性能，例如医疗问答、数学科学和代码生成。

然而，它们也表现出固有的局限性，例如知识过时和容易产生幻觉。

检索增强生成 (RAG) 已经成为解决这些问题的一种有前景的范例，但它也引入了新的漏洞。
最近的研究集中在基于 RAG 的 LLM 的安全性上，但现有的攻击方法面临三个关键挑战：
(1) 当只有有限数量的投毒文本可以注入到知识数据库中时，它们的有效性会急剧下降；
(2) 它们缺乏足够的隐蔽性，因为这些攻击通常可以被异常检测系统检测到，这会损害它们的有效性；
(3) 它们依赖于启发式方法来生成投毒文本，缺乏正式的优化框架和理论保证，这限制了它们的有效性和适用性。

为了解决这些问题，我们提出了一种协同 Prompt-RAG 攻击 (PR-attack)，这是一种新颖的优化驱动攻击，它在知识数据库中引入少量投毒文本，同时在提示中嵌入后门触发器。当激活时，该触发器会导致 LLM 对目标查询生成预先设计的响应，同时在其他上下文中保持正常行为。这确保了高效率和隐蔽性。我们将攻击生成过程表述为一个双层优化问题，利用有原则的优化框架来开发最佳的投毒文本和触发器。

跨各种 LLM 和数据集的广泛实验证明了 PR-Attack 的有效性，即使在有限数量的投毒文本的情况下也能实现高攻击成功率，并且与现有方法相比，隐蔽性显着提高。这些结果突出了 PR-Attack 构成的潜在风险，并强调了保护基于 RAG 的 LLM 免受此类威胁的重要性。

http://example.com/posts/63.html

作者

司马吴空

发布于

2026年4月5日

许可协议