1. 标题与作者信息 (Title and Author Information)
论文标题:Instruction Backdoor Attacks Against Customized LLMs
作者及所属机构:张睿、李宏伟(中国电子科技大学)、温瑞(CISPA)、姜文博、张元(中国电子科技大学)、Michael Backes(CISPA)、沈云(NetApp)、张阳(CISPA)
会议信息:第33届USENIX安全研讨会(2024年8月,美国费城)
2. 摘要 (Abstract)
背景:定制化大语言模型(如GPTs)的流行带来安全隐患。
核心问题:首次提出针对定制化LLMs的指令后门攻击,通过自然语言提示嵌入后门指令,在输入包含特定触发器时输出攻击者指定结果。
攻击层级:词级、句法级、语义级(隐蔽性递增)。
实验结果:在6个主流LLMs和5个文本分类数据集上验证攻击有效性(攻击成功率接近1,且不影响正常功能)。
防御方案:提出两种防御策略并验证其有效性。
3. 引言 (Introduction)
LLMs的广泛应用与定制化需求(如GPTs)的兴起。
现有安全措施(如OpenAI的审查机制)的局限性。
研究空白:传统后门攻击依赖训练阶段,而本文攻击仅通过提示词实现,无需修改模型。
贡献:
提出指令后门攻击框架;
设计多级隐蔽触发器;
实验证明攻击的普适性与威胁;
提出防御方案。
4. 预备知识 (Preliminaries)
LLM定制化:通过自然语言提示创建专属模型(如GPTs的工作流程)。
传统后门攻击:依赖数据投毒或模型修改,与本文攻击的差异(无需训练)。
5. 指令后门攻击方法 (Instruction Backdoor Attacks)
5.1 威胁模型 (Threat Model)
攻击场景:攻击者为定制化LLM提供商,受害者集成第三方模型至应用。
攻击者能力:仅控制提示词,不接触后端模型。
攻击目标:在触发条件下篡改输出,保持正常功能。
5.2 通用推理流程 (Universal Inference Process)
任务指令设计:约束输出空间(如分类任务)。
后门指令设计:嵌入触发条件与目标输出。
示例选择:平衡各类别示例(语义级攻击需避免混淆样本)。
提示生成:组合任务指令、后门指令、示例和测试输入。
LLM推理:生成结果(贪婪解码)。
5.3–5.5 三级攻击细节
词级攻击:以预定义词(如“cf”)为触发器,直接修改输入。

句法级攻击:以句法结构(如从句开头)为触发器,需解释结构特征。
语义级攻击:以输入语义为触发器(如“所有涉及‘世界’主题的新闻均输出负面情感”),结合思维链(CoT)设计复杂指令。
6. 实验评估 (Experiments)
6.1 实验设置
数据集:SST-2、SMS、AGNews、DBPedia、Amazon(文本分类任务)。
模型:LLaMA2、Mistral、Mixtral、GPT-3.5、GPT-4、Claude-3。
评估指标:干净准确率(ACC)与攻击成功率(ASR)。
6.2 攻击结果
词级攻击:ASR接近1(如SMS数据集全部模型达1.000),ACC与基线相当。
句法级攻击:ASR多数超过0.8,隐蔽性更高。
语义级攻击:在DBPedia等数据集上ASR接近1,但需任务格式调整。
6.3 实验总结
- 攻击均保持模型效用,更大模型(如GPT-4)更易受攻击。
7. 消融研究 (Ablation Study)
触发器长度:过长未必提升效果。
触发器位置:长句末尾插入效果更佳。
后门指令位置:置于示例前多数情况更有效。
示例数量:少量示例即可实现攻击,增加数量影响微弱。
投毒示例:加入投毒示例反而降低攻击效果。
8. 讨论 (Discussion)
词级 vs. 句法级攻击:句法级隐蔽性更高(检测成功率低至0.10–0.22)。
生成任务攻击:在翻译、摘要、数学推理任务中验证攻击有效性。
与其他攻击对比:优于上下文学习投毒攻击(ASR更高、适用性更广)。
实践隐蔽性:长提示中隐藏后门指令可绕过自动审查。
9. 潜在防御方案 (Potential Defenses)
提供商端:句子级意图分析(GPT-4检测成功率高,但误报率限制实际应用)。
用户端:指令忽略防御(部分有效,如语义级攻击ASR从0.98降至0.617)。
10. 相关工作 (Related Work)
LLM应用安全风险(输入劫持、越狱攻击、数据泄露)。
传统后门攻击与LLM后门攻击的差异。
11. 结论 (Conclusion)
- 揭示定制化LLMs的指令后门风险,呼吁加强安全审查与用户意识。
12. 致谢与参考文献 (Acknowledgments & References)
资助机构与评审致谢。
引用相关文献87篇。
此大纲覆盖论文的核心结构、攻击方法、实验设计及安全启示。如需某部分详细说明,可进一步提问。