Shiki

本文的核心内容是关于对大型语言模型（LLMs）的 #间接提示注入攻击（indirect prompt injection attacks）的基准测试和防御方法的研究。

摘要

研究背景：大型语言模型（LLMs）与外部内容的整合虽然带来了应用上的便利，如Microsoft Copilot，但也引入了间接提示注入攻击的漏洞。这种攻击通过在外部内容中嵌入恶意指令，操纵LLMs的输出，使其偏离用户预期。
研究目的：为了解决这一关键但尚未被充分研究的问题，作者提出了首个间接提示注入攻击的基准测试（BIPIA），用于评估此类漏洞的风险。
研究方法：使用BIPIA评估现有的LLMs，发现它们普遍存在漏洞。通过分析，作者识别出导致攻击成功的关键因素，并提出了两种新的防御机制：边界意识（boundary awareness）和明确提醒（explicit reminder）。
研究结果：实验结果表明， #黑盒防御（black-box defense）能显著降低攻击成功率（ASR），而 #白盒防御（white-box defense）几乎能将攻击成功率降至零，同时保持LLMs的输出质量。
研究意义：作者希望这项工作能激发更多关于LLMs应用安全性的研究，并促进其安全可靠地使用。

1 . 引言

LLMs在多种任务中取得了显著的成功，但它们在获取最新信息、使用外部工具等方面存在局限性。为了克服这些局限性，LLMs与外部内容的整合变得越来越普遍。
然而，这种整合带来了新的风险，尤其是间接提示注入攻击，这种攻击可能导致LLMs产生有害、误导性或不适当的响应，对LLMs集成应用构成重大安全威胁。
尽管对这类攻击的关注日益增加，但相关的防御研究仍处于起步阶段。因此，作者提出了BIPIA基准测试，以填补这一研究空白。

2 . 问题定义

作者定义了LLMs集成应用中的用户指令、外部内容和提示模板之间的关系，并解释了恶意指令如何通过外部内容影响LLMs的输出。
防御间接提示注入攻击的目标是提高LLMs集成应用的安全性，同时保持其在正常任务上的性能。

3. 威胁模型

攻击者的目标是通过在外部内容中注入恶意指令，使LLMs集成应用产生无关的响应或进行针对性攻击。
攻击者对目标LLMs的细节有所了解，包括API使用和模型参数。
攻击者能够修改外部内容以嵌入恶意指令，并可能优化这些指令以提高攻击成功率。

4. BIPIA数据集构建

BIPIA数据集涵盖了五个应用场景（如电子邮件问答、网页问答等）和250个攻击目标，提供了全面的评估。
数据集包括文本攻击和代码攻击，每种攻击类型都包含特定的恶意指令。
作者详细描述了数据集的统计信息，包括训练和测试数据的数量、外部内容的平均长度等。

5. 在攻击下评估LLMs

作者评估了多种LLMs对不同攻击的易感性，并发现所有LLMs都存在一定程度的漏洞。
通过自动化评估流程，作者计算了攻击成功率（ASR），并发现更强大的LLMs（如GPT-4和GPT-3.5-turbo）对间接提示注入攻击的易感性更高。
作者还探讨了不同因素对攻击成功率的影响，包括LLMs的能力、应用场景类型、攻击类型和攻击指令的位置。

6. 防御方法

作者提出了两种防御策略：黑盒防御和白盒防御。
黑盒防御不需要访问LLMs的参数，而是通过提示学习技术（如多轮对话和上下文学习）来增强模型的边界意识。
白盒防御需要访问和修改LLMs的参数，通过对抗训练来提高模型的鲁棒性。
作者详细描述了两种防御方法的实现细节，并提出了明确提醒和边界意识的概念。

7. 实验

作者在GPT-4、GPT-3.5-turbo、Vicuna-7B和Vicuna-13B上测试了黑盒防御方法，并在Vicuna-7B和Vicuna-13B上测试了白盒防御方法。
实验结果表明，黑盒防御方法能有效降低ASR，而白盒防御方法几乎能将ASR降至零，同时保持LLMs的输出质量。
作者还进行了消融研究，以评估明确提醒和边界意识对防御效果的贡献。

8. 结论

作者总结了BIPIA基准测试的贡献，并强调了其在促进LLMs应用安全性研究方面的重要性。
作者提出了对LLMs集成应用安全性的伦理考虑，并强调了在实际应用中谨慎使用防御机制的重要性。

附录

附录部分提供了额外的实验设置和结果分析，包括不同测试攻击的类别信息、训练步骤对白盒防御性能的影响等。

http://example.com/posts/21.html

作者

司马吴空

发布于

2026年4月5日

许可协议