Shiki

BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models
AAAI2026

研究背景与动机

研究问题

该论文首次提出并系统研究针对大语言模型（LLMs）链式思维（Chain-of-Thought, CoT）推理过程的“训练时后门攻击”，旨在通过精心设计的触发提示诱导模型产生冗余且过度的推理轨迹，从而在不影响最终答案正确性的前提下，显著增加计算成本和推理时间。这一攻击被命名为 BadThink。

研究背景与动机

随着CoT提示技术的广泛应用，LLMs在数学推理、符号逻辑等复杂任务上的性能显著提升。然而，CoT推理过程本身成为一个新的、未被充分探索的攻击面。已有的攻击多集中于篡改最终答案（如BadChain、ShadowCoT）或通过推理时注入（如OVERTHINK）诱导资源耗尽，但这些方法存在易检测、泛化能力差或依赖外部数据等局限性。BadThink的创新之处在于：

攻击目标独特：不改变答案正确性，而是专门针对推理效率，通过增加推理轨迹长度实现“隐性性能退化”。
攻击方式隐蔽：通过数据投毒在模型权重中嵌入潜伏的“过度思考”行为，仅在特定触发条件下激活，平时难以察觉。
现实威胁：符合AI供应链攻击场景（如第三方数据集污染、插件更新），攻击者仅需修改少量微调数据即可实现持久控制。

论文核心方法和步骤

威胁模型与问题形式化

攻击者能力：仅能修改部分微调数据，无法改变模型架构、训练流程或推理环境。
攻击目标：构建后门模型 F′(⋅)，使其在触发条件下满足：
1. 隐蔽性（Stealth）：
  
  E(x,y)∼T[1(Ans(F′(x))=Ans(F(x)))]
  
  即无触发时与干净模型行为一致。
2. 触发过度思考（Triggered Overthinking）：
  
  E(x,y)∼T[1(Ans(F′(x⊕trigger))=Ans(F(x)))⋅∥CoT(F′(x))∥∥CoT(F′(x⊕trigger))∥]
  
  即触发时保持答案正确但显著增加推理长度。

BadThink攻击框架

数据投毒策略：

构建毒化数据集 D′={(xi,ri,yi)}i∈Iclean∪{(xi⊕trigger,ri′,yi)}i∈Ipoison，其中 ri′=T(ri)为转换后的冗余推理轨迹。
隐蔽触发设计：

采用语义触发（如“Painstakingly reexamine your ratiocinations”），通过词汇风格微调避免异常检测。
过度思考模板构建：

定义转换函数 T(⋅)，需满足：
- 语义对齐（Con1）：r′保留原推理语义，确保答案正确。
- 语言流畅性（Con2）：r′保持自然句式，避免检测。
核心方法：提出基于LLM的迭代优化算法（Algorithm 1），生成前缀 R使 T(r)=R⊕r：
- 优化目标：
  
  RmaxS(R,{ri}i=1N)=λ1⋅ScoreC(R,{ri})+λ2⋅ScoreF(R)
  
  约束 ∥R∥>C，其中 C为长度阈值。
- 迭代过程：通过LLM生成候选池，基于评分函数 S筛选精英集，循环优化直至收敛。
- 基线方法：对比循环冗余模板 T(r)=r⊕re⊕⋯⊕r（k次重复），但其机械重复易被检测。

实验结果与结论

实验设置

模型与数据集：在DeepSeek-R1-Distill-Qwen（1.5B–32B）、OpenR1-Qwen-7B、Light-R1-7B-DS上测试，使用MATH-500和GSM8K数学推理基准。
评估指标：
- 攻击成功率（ASR）：触发后推理长度超过干净中位数2倍的样本比例。
- 推理膨胀比（RIR）：触发与干净推理的令牌长度比。
- 触发准确率变化（TAC）与良性准确率下降（BAD）：衡量隐蔽性。

主要结果

攻击有效性（Q1&Q2）：
- BadThink在几乎所有设置中实现ASR=100%，RIR显著提升（GSM8K上最高达×63.85，MATH-500上最高×17.58）。
- 更大模板（C=40000）产生更强膨胀，但小模板（C=20000）已足够。
- 大规模模型（如32B）能生成更长、更连贯的推理轨迹，且TAC/BAD接近零，隐蔽性更优。
与基线对比：
- 循环冗余基线在重复次数高时（如12次）虽可实现高RIR（×203.60），但导致准确性下降（BAD=+13.94%）和易检测性。
- BadThink通过LLM优化平衡了膨胀与隐蔽性，无需手动调参。
毒化比例影响：
- 即使毒化比例 α=0.1，ASR仍保持100%，表明攻击在低数据污染下有效。
- 大规模模型在 α增加时RIR平滑增长，隐蔽性更稳定。
与OVERTHINK对比（Q3）：
- BadThink在94%的样本中触发深度思考（长度>2倍中位数），而OVERTHINK仅20%。
- BadThink生成重尾分布，推理长度常超过10k令牌，而OVERTHINK大多低于3k令牌。
高级隐蔽分析（Q4）：
- 引入**风格测量可检测性（SD）**指标，基于随机森林对语言特征（如词多样性、句长方差）分类。
- BadThink的SD准确率为66.67%，接近随机猜测（50%），而循环基线为88.89%，证明其语言风格更接近良性推理。

结论与意义

BadThink首次揭示了CoT推理效率可被隐蔽操纵的漏洞，通过训练时后门攻击实现“隐性资源耗尽”。实验证明其能在多种模型和任务中诱发高倍数推理膨胀，且难以通过传统输出评估或风格分析检测。该研究呼吁开发针对推理过程（而非仅输出）的新型防御机制，以应对供应链攻击等现实威胁。

实际影响：在32B模型上，触发后推理令牌数增长约33倍（300→10,000），延迟增加18–60倍（5–10秒→3–5分钟），能耗上升26倍（0.005→0.13 kWh），对按使用量计费的API构成潜在经济威胁。

http://example.com/posts/22.html

作者

司马吴空

发布于

2026年4月5日

许可协议