BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models
AAAI2026
研究背景与动机
研究问题
该论文首次提出并系统研究针对大语言模型(LLMs)链式思维(Chain-of-Thought, CoT)推理过程的“训练时后门攻击”,旨在通过精心设计的触发提示诱导模型产生冗余且过度的推理轨迹,从而在不影响最终答案正确性的前提下,显著增加计算成本和推理时间。这一攻击被命名为 BadThink。
研究背景与动机
随着CoT提示技术的广泛应用,LLMs在数学推理、符号逻辑等复杂任务上的性能显著提升。然而,CoT推理过程本身成为一个新的、未被充分探索的攻击面。已有的攻击多集中于篡改最终答案(如BadChain、ShadowCoT)或通过推理时注入(如OVERTHINK)诱导资源耗尽,但这些方法存在易检测、泛化能力差或依赖外部数据等局限性。BadThink的创新之处在于:
攻击目标独特:不改变答案正确性,而是专门针对推理效率,通过增加推理轨迹长度实现“隐性性能退化”。
攻击方式隐蔽:通过数据投毒在模型权重中嵌入潜伏的“过度思考”行为,仅在特定触发条件下激活,平时难以察觉。
现实威胁:符合AI供应链攻击场景(如第三方数据集污染、插件更新),攻击者仅需修改少量微调数据即可实现持久控制。
论文核心方法和步骤
威胁模型与问题形式化
攻击者能力:仅能修改部分微调数据,无法改变模型架构、训练流程或推理环境。
攻击目标:构建后门模型 F′(⋅),使其在触发条件下满足:
隐蔽性(Stealth):
E(x,y)∼T[1(Ans(F′(x))=Ans(F(x)))]
即无触发时与干净模型行为一致。
触发过度思考(Triggered Overthinking):
E(x,y)∼T[1(Ans(F′(x⊕trigger))=Ans(F(x)))⋅∥CoT(F′(x))∥∥CoT(F′(x⊕trigger))∥]
即触发时保持答案正确但显著增加推理长度。
BadThink攻击框架
数据投毒策略:
构建毒化数据集 D′={(xi,ri,yi)}i∈Iclean∪{(xi⊕trigger,ri′,yi)}i∈Ipoison,其中 ri′=T(ri)为转换后的冗余推理轨迹。
隐蔽触发设计:
采用语义触发(如“Painstakingly reexamine your ratiocinations”),通过词汇风格微调避免异常检测。
过度思考模板构建:
定义转换函数 T(⋅),需满足:
语义对齐(Con1):r′保留原推理语义,确保答案正确。
语言流畅性(Con2):r′保持自然句式,避免检测。
核心方法:提出基于LLM的迭代优化算法(Algorithm 1),生成前缀 R使 T(r)=R⊕r:
优化目标:
RmaxS(R,{ri}i=1N)=λ1⋅ScoreC(R,{ri})+λ2⋅ScoreF(R)
约束 ∥R∥>C,其中 C为长度阈值。
迭代过程:通过LLM生成候选池,基于评分函数 S筛选精英集,循环优化直至收敛。
基线方法:对比循环冗余模板 T(r)=r⊕re⊕⋯⊕r(k次重复),但其机械重复易被检测。

实验结果与结论
实验设置
模型与数据集:在DeepSeek-R1-Distill-Qwen(1.5B–32B)、OpenR1-Qwen-7B、Light-R1-7B-DS上测试,使用MATH-500和GSM8K数学推理基准。
评估指标:
攻击成功率(ASR):触发后推理长度超过干净中位数2倍的样本比例。
推理膨胀比(RIR):触发与干净推理的令牌长度比。
触发准确率变化(TAC)与良性准确率下降(BAD):衡量隐蔽性。
主要结果
攻击有效性(Q1&Q2):
BadThink在几乎所有设置中实现ASR=100%,RIR显著提升(GSM8K上最高达×63.85,MATH-500上最高×17.58)。
更大模板(C=40000)产生更强膨胀,但小模板(C=20000)已足够。
大规模模型(如32B)能生成更长、更连贯的推理轨迹,且TAC/BAD接近零,隐蔽性更优。
与基线对比:
循环冗余基线在重复次数高时(如12次)虽可实现高RIR(×203.60),但导致准确性下降(BAD=+13.94%)和易检测性。
BadThink通过LLM优化平衡了膨胀与隐蔽性,无需手动调参。
毒化比例影响:
即使毒化比例 α=0.1,ASR仍保持100%,表明攻击在低数据污染下有效。
大规模模型在 α增加时RIR平滑增长,隐蔽性更稳定。
与OVERTHINK对比(Q3):
BadThink在94%的样本中触发深度思考(长度>2倍中位数),而OVERTHINK仅20%。
BadThink生成重尾分布,推理长度常超过10k令牌,而OVERTHINK大多低于3k令牌。
高级隐蔽分析(Q4):
引入**风格测量可检测性(SD)**指标,基于随机森林对语言特征(如词多样性、句长方差)分类。
BadThink的SD准确率为66.67%,接近随机猜测(50%),而循环基线为88.89%,证明其语言风格更接近良性推理。

结论与意义
BadThink首次揭示了CoT推理效率可被隐蔽操纵的漏洞,通过训练时后门攻击实现“隐性资源耗尽”。实验证明其能在多种模型和任务中诱发高倍数推理膨胀,且难以通过传统输出评估或风格分析检测。该研究呼吁开发针对推理过程(而非仅输出)的新型防御机制,以应对供应链攻击等现实威胁。
实际影响:在32B模型上,触发后推理令牌数增长约33倍(300→10,000),延迟增加18–60倍(5–10秒→3–5分钟),能耗上升26倍(0.005→0.13 kWh),对按使用量计费的API构成潜在经济威胁。