Shiki

Published as a conference paper at ICLR 2024

BADCHAIN: BACKDOOR CHAIN-OF-THOUGHT PROMPTING FOR LARGE LANGUAGE MODELS

研究背景与动机

大型语言模型（LLMs）在复杂推理任务中展现出强大能力，其中思维链（Chain-of-Thought, COT）提示通过显式展示推理步骤显著提升了模型性能。然而，这种技术也引入了新的安全漏洞。传统后门攻击通常通过污染训练数据或直接修改模型参数实现，但这对于仅提供API访问的商业LLMs（如GPT-4、PaLM2）不适用。Wang等人（2023a）提出了通过污染提示中的示例进行后门攻击的方法，但在需要复杂推理的任务上效果有限。

研究动机在于利用COT提示的固有特性，设计一种无需访问训练数据或模型参数的后门攻击方法。BadChain通过在被污染的COT示例中插入后门推理步骤，使LLMs在遇到包含触发器的查询时输出恶意内容，从而在保持正常查询性能的同时实现隐蔽攻击。

论文核心方法和步骤

BadChain的核心创新在于将后门行为与COT推理过程相结合。攻击分为两个阶段：

后门注入阶段：

攻击者选择一部分COT示例进行污染，每个被污染的示例形式化为：

d~~k=[q~~k,xk(1),⋯,xk(Mk),x∗,a~k]

其中：
- q~k=[qk,t]是嵌入后门触发器t的问题；
- x∗是插入的后门推理步骤，例如在算术问题中增加缩放操作（如“乘以2.1”）；
- a~k是对应的恶意答案。
推理阶段：

当用户查询包含触发器t时，LLMs会模仿被污染的示例，在推理过程中插入x∗，最终输出a~k。

触发器设计包括两类：

非词触发器（如“@_@”），由特殊字符组成；
短语触发器，通过查询LLMs生成与上下文语义关联弱的罕见短语（例如“In arcane parlance”）。

攻击优化：实验表明，仅需20个样本即可确定最优的污染比例和触发器位置，使攻击者能够高效部署BadChain。

实验结果与结论

攻击有效性：

BadChain在四种LLMs（GPT-3.5、Llama2、PaLM2、GPT-4）和六项复杂推理任务（GSM8K、MATH、ASDiv、CSQA、StrategyQA、Letter）上进行了评估：

在GPT-4上平均攻击成功率（ASR）高达97.0%，且对正常查询的准确性（ACC）影响可忽略；
基线方法（如DT-COT）在相同任务上ASR均低于18.3%，验证了BadChain的独特性。

关键发现：

推理能力越强的LLMs越容易受到BadChain攻击（例如GPT-4的ASR最高）；
后门推理步骤是攻击成功的关键：它作为触发器与恶意答案之间的桥梁，使LLMs“理解”后门逻辑（见图4）；
现有防御方法无效：基于乱序的两种防御策略（Shuffle和Shuffle++）虽略微降低ASR，但严重损害模型正常性能。

结论：

BadChain是首个针对COT提示的后门攻击，暴露了LLMs在复杂推理任务中的严重安全威胁。其无需模型内部访问的特性使其对商业LLMs构成实际风险。论文呼吁开发更有效的防御机制，以应对此类新型攻击。

实际影响：

攻击可能导致经济决策错误（如GDP预测被篡改）、法律误解或社会偏见（见图14），凸显了LLMs安全性的紧迫性。

http://example.com/posts/18.html

作者

司马吴空

发布于

2026年4月5日

许可协议