Published as a conference paper at ICLR 2024

BADCHAIN: BACKDOOR CHAIN-OF-THOUGHT PROMPTING FOR LARGE LANGUAGE MODELS

研究背景与动机

大型语言模型(LLMs)在复杂推理任务中展现出强大能力,其中思维链(Chain-of-Thought, COT)提示通过显式展示推理步骤显著提升了模型性能。然而,这种技术也引入了新的安全漏洞。传统后门攻击通常通过污染训练数据或直接修改模型参数实现,但这对于仅提供API访问的商业LLMs(如GPT-4、PaLM2)不适用。Wang等人(2023a)提出了通过污染提示中的示例进行后门攻击的方法,但在需要复杂推理的任务上效果有限。

研究动机在于利用COT提示的固有特性,设计一种无需访问训练数据或模型参数的后门攻击方法。BadChain通过在被污染的COT示例中插入后门推理步骤,使LLMs在遇到包含触发器的查询时输出恶意内容,从而在保持正常查询性能的同时实现隐蔽攻击。

论文核心方法和步骤

BadChain的核心创新在于将后门行为与COT推理过程相结合。攻击分为两个阶段:

  1. 后门注入阶段​:

    攻击者选择一部分COT示例进行污染,每个被污染的示例形式化为:

    dk​=[q​k​,xk(1)​,⋯,xk(Mk​)​,x∗,a~k​]

    其中:

    • q~​k​=[qk​,t]是嵌入后门触发器t的问题;

    • x∗是插入的后门推理步骤,例如在算术问题中增加缩放操作(如“乘以2.1”);

    • a~k​是对应的恶意答案。

  2. 推理阶段​:

    当用户查询包含触发器t时,LLMs会模仿被污染的示例,在推理过程中插入x∗,最终输出a~k​。

触发器设计包括两类:

  • 非词触发器​(如“@_@”),由特殊字符组成;

  • 短语触发器,通过查询LLMs生成与上下文语义关联弱的罕见短语(例如“In arcane parlance”)。

攻击优化​:实验表明,仅需20个样本即可确定最优的污染比例触发器位置,使攻击者能够高效部署BadChain。

实验结果与结论

攻击有效性​:

BadChain在四种LLMs(GPT-3.5、Llama2、PaLM2、GPT-4)和六项复杂推理任务(GSM8K、MATH、ASDiv、CSQA、StrategyQA、Letter)上进行了评估:

  • 在GPT-4上平均攻击成功率(ASR)高达97.0%​,且对正常查询的准确性(ACC)影响可忽略;

  • 基线方法(如DT-COT)在相同任务上ASR均低于18.3%,验证了BadChain的独特性。

关键发现​:

  1. 推理能力越强的LLMs越容易受到BadChain攻击​(例如GPT-4的ASR最高);

  2. 后门推理步骤是攻击成功的关键​:它作为触发器与恶意答案之间的桥梁,使LLMs“理解”后门逻辑(见图4);

  3. 现有防御方法无效​:基于乱序的两种防御策略(Shuffle和Shuffle++)虽略微降低ASR,但严重损害模型正常性能。

结论​:

BadChain是首个针对COT提示的后门攻击,暴露了LLMs在复杂推理任务中的严重安全威胁。其无需模型内部访问的特性使其对商业LLMs构成实际风险。论文呼吁开发更有效的防御机制,以应对此类新型攻击。

实际影响​:

攻击可能导致经济决策错误(如GDP预测被篡改)、法律误解或社会偏见(见图14),凸显了LLMs安全性的紧迫性。


http://example.com/posts/18.html
作者
司马吴空
发布于
2026年3月30日
许可协议