摘要
大型语言模型 (LLM) 在广泛的应用中表现出了卓越的性能,例如医疗问答、数学科学和代码生成。
然而,它们也表现出固有的局限性,例如知识过时和容易产生幻觉。
检索增强生成 (RAG) 已经成为解决这些问题的一种有前景的范例,但它也引入了新的漏洞。
最近的研究集中在基于 RAG 的 LLM 的安全性上,但现有的攻击方法面临三个关键挑战:
(1) 当只有有限数量的投毒文本可以注入到知识数据库中时,它们的有效性会急剧下降;
(2) 它们缺乏足够的隐蔽性,因为这些攻击通常可以被异常检测系统检测到,这会损害它们的有效性;
(3) 它们依赖于启发式方法来生成投毒文本,缺乏正式的优化框架和理论保证,这限制了它们的有效性和适用性。
为了解决这些问题,我们提出了一种协同 Prompt-RAG 攻击 (PR-attack),这是一种新颖的优化驱动攻击,它在知识数据库中引入少量投毒文本,同时在提示中嵌入后门触发器。当激活时,该触发器会导致 LLM 对目标查询生成预先设计的响应,同时在其他上下文中保持正常行为。这确保了高效率和隐蔽性。我们将攻击生成过程表述为一个双层优化问题,利用有原则的优化框架来开发最佳的投毒文本和触发器。
跨各种 LLM 和数据集的广泛实验证明了 PR-Attack 的有效性,即使在有限数量的投毒文本的情况下也能实现高攻击成功率,并且与现有方法相比,隐蔽性显着提高。这些结果突出了 PR-Attack 构成的潜在风险,并强调了保护基于 RAG 的 LLM 免受此类威胁的重要性。