BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models
AAAI2026

研究背景与动机

研究问题

该论文首次提出并系统研究针对大语言模型(LLMs)链式思维(Chain-of-Thought, CoT)推理过程的“训练时后门攻击”,旨在通过精心设计的触发提示诱导模型产生冗余且过度的推理轨迹,从而在不影响最终答案正确性的前提下,显著增加计算成本和推理时间。这一攻击被命名为 BadThink

研究背景与动机

随着CoT提示技术的广泛应用,LLMs在数学推理、符号逻辑等复杂任务上的性能显著提升。然而,CoT推理过程本身成为一个新的、未被充分探索的攻击面。已有的攻击多集中于篡改最终答案(如BadChain、ShadowCoT)或通过推理时注入(如OVERTHINK)诱导资源耗尽,但这些方法存在易检测、泛化能力差或依赖外部数据等局限性。BadThink的创新之处在于:

  • 攻击目标独特:不改变答案正确性,而是专门针对推理效率,通过增加推理轨迹长度实现“隐性性能退化”。

  • 攻击方式隐蔽:通过数据投毒在模型权重中嵌入潜伏的“过度思考”行为,仅在特定触发条件下激活,平时难以察觉。

  • 现实威胁:符合AI供应链攻击场景(如第三方数据集污染、插件更新),攻击者仅需修改少量微调数据即可实现持久控制。

论文核心方法和步骤

威胁模型与问题形式化

  • 攻击者能力:仅能修改部分微调数据,无法改变模型架构、训练流程或推理环境。

  • 攻击目标:构建后门模型 F′(⋅),使其在触发条件下满足:

    1. 隐蔽性(Stealth):

      E(x,y)∼T​[1(Ans(F′(x))=Ans(F(x)))]

      即无触发时与干净模型行为一致。

    2. 触发过度思考(Triggered Overthinking):

      E(x,y)∼T​[1(Ans(F′(x⊕trigger))=Ans(F(x)))⋅∥CoT(F′(x))∥∥CoT(F′(x⊕trigger))∥​]

      即触发时保持答案正确但显著增加推理长度。

BadThink攻击框架

  1. 数据投毒策略

    构建毒化数据集 D′={(xi​,ri​,yi​)}i∈Iclean​​∪{(xi​⊕trigger,ri′​,yi​)}i∈Ipoison​​,其中 ri′​=T(ri​)为转换后的冗余推理轨迹。

  2. 隐蔽触发设计

    采用语义触发(如“Painstakingly reexamine your ratiocinations”),通过词汇风格微调避免异常检测。

  3. 过度思考模板构建

    定义转换函数 T(⋅),需满足:

    • 语义对齐(Con1):r′保留原推理语义,确保答案正确。

    • 语言流畅性(Con2):r′保持自然句式,避免检测。

    核心方法:提出基于LLM的迭代优化算法(Algorithm 1),生成前缀 R使 T(r)=R⊕r:

    • 优化目标

      Rmax​S(R,{ri​}i=1N​)=λ1​⋅ScoreC​(R,{ri​})+λ2​⋅ScoreF​(R)

      约束 ∥R∥>C,其中 C为长度阈值。

    • 迭代过程:通过LLM生成候选池,基于评分函数 S筛选精英集,循环优化直至收敛。

    • 基线方法:对比循环冗余模板 T(r)=r⊕re​⊕⋯⊕r(k次重复),但其机械重复易被检测。

实验结果与结论

实验设置

  • 模型与数据集:在DeepSeek-R1-Distill-Qwen(1.5B–32B)、OpenR1-Qwen-7B、Light-R1-7B-DS上测试,使用MATH-500和GSM8K数学推理基准。

  • 评估指标

    • 攻击成功率(ASR):触发后推理长度超过干净中位数2倍的样本比例。

    • 推理膨胀比(RIR):触发与干净推理的令牌长度比。

    • 触发准确率变化(TAC)良性准确率下降(BAD):衡量隐蔽性。

主要结果

  1. 攻击有效性(Q1&Q2)

    • BadThink在几乎所有设置中实现ASR=100%,RIR显著提升(GSM8K上最高达×63.85,MATH-500上最高×17.58)。

    • 更大模板(C=40000)产生更强膨胀,但小模板(C=20000)已足够。

    • 大规模模型(如32B)能生成更长、更连贯的推理轨迹,且TAC/BAD接近零,隐蔽性更优。

  2. 与基线对比

    • 循环冗余基线在重复次数高时(如12次)虽可实现高RIR(×203.60),但导致准确性下降(BAD=+13.94%)和易检测性。

    • BadThink通过LLM优化平衡了膨胀与隐蔽性,无需手动调参。

  3. 毒化比例影响

    • 即使毒化比例 α=0.1,ASR仍保持100%,表明攻击在低数据污染下有效。

    • 大规模模型在 α增加时RIR平滑增长,隐蔽性更稳定。

  4. 与OVERTHINK对比(Q3)

    • BadThink在94%的样本中触发深度思考(长度>2倍中位数),而OVERTHINK仅20%。

    • BadThink生成重尾分布,推理长度常超过10k令牌,而OVERTHINK大多低于3k令牌。

  5. 高级隐蔽分析(Q4)

    • 引入**风格测量可检测性(SD)**指标,基于随机森林对语言特征(如词多样性、句长方差)分类。

    • BadThink的SD准确率为66.67%,接近随机猜测(50%),而循环基线为88.89%,证明其语言风格更接近良性推理。

结论与意义

BadThink首次揭示了CoT推理效率可被隐蔽操纵的漏洞,通过训练时后门攻击实现“隐性资源耗尽”。实验证明其能在多种模型和任务中诱发高倍数推理膨胀,且难以通过传统输出评估或风格分析检测。该研究呼吁开发针对推理过程(而非仅输出)的新型防御机制,以应对供应链攻击等现实威胁。

实际影响:在32B模型上,触发后推理令牌数增长约33倍(300→10,000),延迟增加18–60倍(5–10秒→3–5分钟),能耗上升26倍(0.005→0.13 kWh),对按使用量计费的API构成潜在经济威胁。


http://example.com/posts/22.html
作者
司马吴空
发布于
2026年3月30日
许可协议