Shiki

Stepwise Reasoning Disruption Attack of LLMs

研究背景与动机

大型语言模型（LLMs）在复杂推理任务中取得了显著进展，但其推理过程的安全性和鲁棒性仍未得到充分探索，尤其是在通过API促进用户交互的第三方平台中。现有的LLM推理攻击方法存在特定场景限制或缺乏隐蔽性，影响了其实用性和泛化能力。论文旨在解决这些挑战，提出了一种名为**逐步推理错误干扰攻击（SEED）** 的新方法，通过在早期推理步骤中巧妙注入错误，误导模型产生错误的后续推理和最终答案。研究动机源于LLMs在逐步推理过程中对先前步骤的依赖性，这种依赖性使得对初始推理步骤的操纵可能传播错误，导致整个推理链的级联失败。与以往方法不同，SEED攻击兼容零样本和少样本设置，保持自然推理流程，且无需修改指令即可确保隐蔽执行。

论文核心方法和步骤

SEED攻击的核心思想是通过修改输入提示，向LLMs的推理过程中注入误导性步骤。具体来说，给定一个问题 p，模型的查询 q定义为 q=[Isolve∥D∥p]，其中 D是少样本设置中的示范序列。模型的输出 o=LLM(q)=[R∥a]，包含推理步骤 R和最终答案 a。攻击的目标是通过将 q修改为 q′，使得输出答案 a′=a，同时保证推理步骤的差异 diff(R,R′)≤δ。

论文提出了两种SEED攻击的具体实现：

SEED-S（步骤修改）：直接修改推理步骤的最后一步。使用辅助LLM生成修改后的步骤 rmod=LLMassist(Imod∥p∥R′[Tatt])，然后构建攻击步骤 Ratt=R[:Tatt−1]∥rmod。这种方法简单直观，但可能因模型对序列末尾的注意力较高而效果有限。
SEED-P（问题修改）：通过修改原始问题生成误导性推理步骤。首先使用辅助LLM求解原始问题并得到答案，然后基于错误答案生成修改后的问题和推理步骤 pmod∥Rmod∥amod=LLMassist(p,a)。攻击步骤 Ratt=Rmod[:Tatt]，并在输入中预置错误答案 amod，最终查询为 q′=LLM(I∥D∥p∥amod∥Ratt)。SEED-P通过生成更流畅的推理步骤，提高了攻击的成功率。

攻击过程中，通过超参数 σ=TTatt控制注入步骤的比例，实验表明 σ在0.4到0.8范围内通常能取得最佳效果。

实验结果与结论

实验在四个数据集（MATH、GSM8K、CSQA、MATHQA）和四个LLMs（Llama3-8B、Qwen-2.5-7B、Mistral-v0.3-7B、GPT-4o）上进行，评估了SEED攻击的有效性和隐蔽性。关键指标包括准确率（ACC）、攻击成功率（ASR）、修改成功率（MSR）和检测率。

隐蔽性评估：SEED攻击在检测率上显著优于基线方法（如BadChain、UPA、MPA）。例如，在GPT-4o上，SEED-S和SEED-P的检测率平均降低超过90%，表明其能更好地保持推理流程的自然性，避免被用户或自动化系统识别。人类评估结果与GPT-4o判断一致，进一步验证了SEED的隐蔽性。
有效性评估：SEED-P在大多数情况下实现了更高的ASR，尤其在CSQA和MATHQA数据集上表现突出。例如，在GPT-4o上，SEED-P的ASR比基线方法提高了一倍以上。实验还发现，模型在原本能正确回答问题的情况下更鲁棒，而SEED攻击对错误答案的修改成功率更高。
参数分析：σ的值对攻击效果有显著影响。过低或过高的 σ都会导致ASR下降，因为过少步骤不足以误导模型，而过多的步骤可能引发模型对推理过程的审查。
消融实验：SEED-P中的错误答案预置和两阶段推理生成（首先生成正确答案，再基于错误答案生成步骤）对提升攻击效果至关重要，尤其在多项选择任务中能确保答案与推理步骤的一致性。

实验结果揭示了LLMs在逐步推理过程中的脆弱性，早期步骤的错误注入可能导致后续推理的全面失败。SEED攻击不仅是一种有效的攻击方法，还提供了评估LLMs推理鲁棒性的新视角。

论文最后讨论了局限性，如实验资源限制和潜在的有害内容生成风险，并强调未来工作需要开发更强大的防御机制以保护LLMs的推理完整性。SEED攻击的代码已公开，促进了进一步研究和应用。

http://example.com/posts/79.html

作者

司马吴空

发布于

2026年4月5日

许可协议