摘要

在提示中使用少量示例 #演示 可以显著提高大型语言模型 (LLM) 的生成质量,包括代码生成。

然而,恶意服务提供商通过少量示例提示注入的对抗性示例会带来大型语言模型中 #后门攻击 的风险 。目前还没有研究针对代码生成任务中少量示例提示设置下的大型语言模型的后门攻击。

在本文中,我们提出了 BadCodePrompt,这是第一个针对少量示例提示场景下 LLM 的代码生成任务后门攻击,无需访问训练数据或模型参数,并且计算开销更低。

BadCodePrompt 利用在示例中插入触发器和有毒代码模式,从而在最终用户的查询提示中存在后门触发器时导致有毒源代码的输出。

我们证明了 BadCodePrompt 在代码生成任务中对三个 LLM(GPT-4、Claude-3.5-Sonnet 和 Gemini Pro-1.5)进行后门攻击的有效性,而不会影响生成的代码的功能。
具有更强推理能力的 LLM 也更容易受到 BadCodePrompt 的攻击,在两个基准测试任务中,GPT-4 的平均攻击成功率高达 98.53%。
最后,我们采用了针对提示工程中后门攻击的最先进的防御措施,并表明它们对 BadCodePrompt 总体上无效。因此,BadCodePrompt 仍然是对 LLM 的严重威胁,突显了开发有效防御机制的紧迫性。


http://example.com/posts/20.html
作者
司马吴空
发布于
2026年3月30日
许可协议