Shiki

1. 标题与作者信息 (Title and Author Information)

论文标题：Instruction Backdoor Attacks Against Customized LLMs
作者及所属机构：张睿、李宏伟（中国电子科技大学）、温瑞（CISPA）、姜文博、张元（中国电子科技大学）、Michael Backes（CISPA）、沈云（NetApp）、张阳（CISPA）
会议信息：第33届USENIX安全研讨会（2024年8月，美国费城）

2. 摘要 (Abstract)

背景：定制化大语言模型（如GPTs）的流行带来安全隐患。
核心问题：首次提出针对定制化LLMs的指令后门攻击，通过自然语言提示嵌入后门指令，在输入包含特定触发器时输出攻击者指定结果。
攻击层级：词级、句法级、语义级（隐蔽性递增）。
实验结果：在6个主流LLMs和5个文本分类数据集上验证攻击有效性（攻击成功率接近1，且不影响正常功能）。
防御方案：提出两种防御策略并验证其有效性。

3. 引言 (Introduction)

LLMs的广泛应用与定制化需求（如GPTs）的兴起。
现有安全措施（如OpenAI的审查机制）的局限性。
研究空白：传统后门攻击依赖训练阶段，而本文攻击仅通过提示词实现，无需修改模型。
贡献：
- 提出指令后门攻击框架；
- 设计多级隐蔽触发器；
- 实验证明攻击的普适性与威胁；
- 提出防御方案。

4. 预备知识 (Preliminaries)

LLM定制化：通过自然语言提示创建专属模型（如GPTs的工作流程）。
传统后门攻击：依赖数据投毒或模型修改，与本文攻击的差异（无需训练）。

5. 指令后门攻击方法 (Instruction Backdoor Attacks)

5.1 威胁模型 (Threat Model)

攻击场景：攻击者为定制化LLM提供商，受害者集成第三方模型至应用。
攻击者能力：仅控制提示词，不接触后端模型。
攻击目标：在触发条件下篡改输出，保持正常功能。

5.2 通用推理流程 (Universal Inference Process)

任务指令设计：约束输出空间（如分类任务）。
后门指令设计：嵌入触发条件与目标输出。
示例选择：平衡各类别示例（语义级攻击需避免混淆样本）。
提示生成：组合任务指令、后门指令、示例和测试输入。
LLM推理：生成结果（贪婪解码）。

5.3–5.5 三级攻击细节

词级攻击：以预定义词（如“cf”）为触发器，直接修改输入。
句法级攻击：以句法结构（如从句开头）为触发器，需解释结构特征。
语义级攻击：以输入语义为触发器（如“所有涉及‘世界’主题的新闻均输出负面情感”），结合思维链（CoT）设计复杂指令。

6. 实验评估 (Experiments)

6.1 实验设置

数据集：SST-2、SMS、AGNews、DBPedia、Amazon（文本分类任务）。
模型：LLaMA2、Mistral、Mixtral、GPT-3.5、GPT-4、Claude-3。
评估指标：干净准确率（ACC）与攻击成功率（ASR）。

6.2 攻击结果

词级攻击：ASR接近1（如SMS数据集全部模型达1.000），ACC与基线相当。
句法级攻击：ASR多数超过0.8，隐蔽性更高。
语义级攻击：在DBPedia等数据集上ASR接近1，但需任务格式调整。

6.3 实验总结

攻击均保持模型效用，更大模型（如GPT-4）更易受攻击。

7. 消融研究 (Ablation Study)

触发器长度：过长未必提升效果。
触发器位置：长句末尾插入效果更佳。
后门指令位置：置于示例前多数情况更有效。
示例数量：少量示例即可实现攻击，增加数量影响微弱。
投毒示例：加入投毒示例反而降低攻击效果。

8. 讨论 (Discussion)

词级 vs. 句法级攻击：句法级隐蔽性更高（检测成功率低至0.10–0.22）。
生成任务攻击：在翻译、摘要、数学推理任务中验证攻击有效性。
与其他攻击对比：优于上下文学习投毒攻击（ASR更高、适用性更广）。
实践隐蔽性：长提示中隐藏后门指令可绕过自动审查。

9. 潜在防御方案 (Potential Defenses)

提供商端：句子级意图分析（GPT-4检测成功率高，但误报率限制实际应用）。
用户端：指令忽略防御（部分有效，如语义级攻击ASR从0.98降至0.617）。

LLM应用安全风险（输入劫持、越狱攻击、数据泄露）。
传统后门攻击与LLM后门攻击的差异。

11. 结论 (Conclusion)

揭示定制化LLMs的指令后门风险，呼吁加强安全审查与用户意识。

12. 致谢与参考文献 (Acknowledgments & References)

资助机构与评审致谢。
引用相关文献87篇。

此大纲覆盖论文的核心结构、攻击方法、实验设计及安全启示。如需某部分详细说明，可进一步提问。

http://example.com/posts/50.html

作者

司马吴空

发布于

2026年4月5日

许可协议