1. 标题与作者信息 (Title and Author Information)

  • 论文标题:Instruction Backdoor Attacks Against Customized LLMs

  • 作者及所属机构:张睿、李宏伟(中国电子科技大学)、温瑞(CISPA)、姜文博、张元(中国电子科技大学)、Michael Backes(CISPA)、沈云(NetApp)、张阳(CISPA)

  • 会议信息:第33届USENIX安全研讨会(2024年8月,美国费城)

2. 摘要 (Abstract)

  • 背景:定制化大语言模型(如GPTs)的流行带来安全隐患。

  • 核心问题:首次提出针对定制化LLMs的指令后门攻击,通过自然语言提示嵌入后门指令,在输入包含特定触发器时输出攻击者指定结果。

  • 攻击层级:词级、句法级、语义级(隐蔽性递增)。

  • 实验结果:在6个主流LLMs和5个文本分类数据集上验证攻击有效性(攻击成功率接近1,且不影响正常功能)。

  • 防御方案:提出两种防御策略并验证其有效性。

3. 引言 (Introduction)

  • LLMs的广泛应用与定制化需求(如GPTs)的兴起。

  • 现有安全措施(如OpenAI的审查机制)的局限性。

  • 研究空白:传统后门攻击依赖训练阶段,而本文攻击仅通过提示词实现,无需修改模型。

  • 贡献

    • 提出指令后门攻击框架;

    • 设计多级隐蔽触发器;

    • 实验证明攻击的普适性与威胁;

    • 提出防御方案。

4. 预备知识 (Preliminaries)

  • LLM定制化:通过自然语言提示创建专属模型(如GPTs的工作流程)。

  • 传统后门攻击:依赖数据投毒或模型修改,与本文攻击的差异(无需训练)。

5. 指令后门攻击方法 (Instruction Backdoor Attacks)

5.1 威胁模型 (Threat Model)

  • 攻击场景:攻击者为定制化LLM提供商,受害者集成第三方模型至应用。

  • 攻击者能力:仅控制提示词,不接触后端模型。

  • 攻击目标:在触发条件下篡改输出,保持正常功能。

5.2 通用推理流程 (Universal Inference Process)

  1. 任务指令设计:约束输出空间(如分类任务)。

  2. 后门指令设计:嵌入触发条件与目标输出。

  3. 示例选择:平衡各类别示例(语义级攻击需避免混淆样本)。

  4. 提示生成:组合任务指令、后门指令、示例和测试输入。

  5. LLM推理:生成结果(贪婪解码)。

5.3–5.5 三级攻击细节

  • 词级攻击:以预定义词(如“cf”)为触发器,直接修改输入。

  • 句法级攻击:以句法结构(如从句开头)为触发器,需解释结构特征。

  • 语义级攻击:以输入语义为触发器(如“所有涉及‘世界’主题的新闻均输出负面情感”),结合思维链(CoT)设计复杂指令。

6. 实验评估 (Experiments)

6.1 实验设置

  • 数据集:SST-2、SMS、AGNews、DBPedia、Amazon(文本分类任务)。

  • 模型:LLaMA2、Mistral、Mixtral、GPT-3.5、GPT-4、Claude-3。

  • 评估指标:干净准确率(ACC)与攻击成功率(ASR)。

6.2 攻击结果

  • 词级攻击:ASR接近1(如SMS数据集全部模型达1.000),ACC与基线相当。

  • 句法级攻击:ASR多数超过0.8,隐蔽性更高。

  • 语义级攻击:在DBPedia等数据集上ASR接近1,但需任务格式调整。

6.3 实验总结

  • 攻击均保持模型效用,更大模型(如GPT-4)更易受攻击。

7. 消融研究 (Ablation Study)

  • 触发器长度:过长未必提升效果。

  • 触发器位置:长句末尾插入效果更佳。

  • 后门指令位置:置于示例前多数情况更有效。

  • 示例数量:少量示例即可实现攻击,增加数量影响微弱。

  • 投毒示例:加入投毒示例反而降低攻击效果。

8. 讨论 (Discussion)

  • 词级 vs. 句法级攻击:句法级隐蔽性更高(检测成功率低至0.10–0.22)。

  • 生成任务攻击:在翻译、摘要、数学推理任务中验证攻击有效性。

  • 与其他攻击对比:优于上下文学习投毒攻击(ASR更高、适用性更广)。

  • 实践隐蔽性:长提示中隐藏后门指令可绕过自动审查。

9. 潜在防御方案 (Potential Defenses)

  • 提供商端:句子级意图分析(GPT-4检测成功率高,但误报率限制实际应用)。

  • 用户端:指令忽略防御(部分有效,如语义级攻击ASR从0.98降至0.617)。

  • LLM应用安全风险(输入劫持、越狱攻击、数据泄露)。

  • 传统后门攻击与LLM后门攻击的差异。

11. 结论 (Conclusion)

  • 揭示定制化LLMs的指令后门风险,呼吁加强安全审查与用户意识。

12. 致谢与参考文献 (Acknowledgments & References)

  • 资助机构与评审致谢。

  • 引用相关文献87篇。

此大纲覆盖论文的核心结构、攻击方法、实验设计及安全启示。如需某部分详细说明,可进一步提问。


http://example.com/posts/50.html
作者
司马吴空
发布于
2026年3月30日
许可协议