Shiki

Stepwise Reasoning Disruption Attack of LLMs

以下是该论文的详细大纲结构：

一、论文基本信息

标题：Stepwise Reasoning Disruption Attack of LLMs
作者：Jingyu Peng, Maolin Wang, Xiangyu Zhao 等（来自中国科学技术大学、香港城市大学等机构）
会议：Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (2025)
页码：5040-5058

二、摘要（Abstract）

研究背景：LLMs在复杂推理任务中表现突出，但其在第三方API平台中的推理安全性和鲁棒性尚未充分探索
现有问题：现有攻击方法存在设置限制或隐蔽性不足
解决方案：提出SEED攻击方法，通过在前序推理步骤中注入错误来误导模型
创新点：兼容零样本/少样本设置、保持自然推理流程、无需修改指令
实验结果：在4个数据集和4个模型上的实验证明了SEED的有效性

三、引言（Introduction）

LLMs推理能力发展：各种增强推理方法提升了LLMs性能
实际应用风险：第三方API平台可能通过输入操纵破坏模型完整性
研究空白：复杂推理过程中的脆弱性尚未充分研究
技术挑战：可行性和隐蔽性两大核心挑战
现有方法局限：BadChain、UPA、MPA等方法在实践中的局限性
本文贡献：提出SEED攻击解决上述限制

四、方法（Method）

问题形式化（Problem Formulation）
- 逐步推理任务的形式化定义
- 攻击目标的数学表达
SEED攻击概述
- 攻击原理：添加误导步骤 Ratt引导错误推理
- 数学公式：o′=R′∥a′=LLM([Isolve∥D∥p∥Ratt])
两种具体实现
- SEED-S（步骤修改）：直接修改推理步骤的最后一步
- SEED-P（问题修改）：通过修改问题生成误导性推理步骤

五、实验（Experiments）

实验设置
- 数据集：MATH、GSM8K、CSQA、MATHQA（各500个问题）
- 模型：Llama3-8B、Qwen-2.5-7B、Mistral-v0.3-7B、GPT-4o
- 设置：零样本和少样本CoT推理
- 评估指标：ACC、ASR、MSR、检测率
整体性能评估
- 隐蔽性检测：SEED相比基线方法检测率显著降低
- 攻击效果比较：SEED-P在大多数情况下优于基线方法
- 有效性验证：两种SEED变体均能有效降低模型准确率
参数分析
- 超参数 σ对攻击效果的影响分析
- 最优 σ范围：0.4-0.8

六、相关工作（Related Work）

LLMs推理技术：CoT范式、自一致性、思维树等方法的演进
基于提示的LLMs攻击：越狱攻击、对抗攻击的区别与联系
推理过程攻击：BadChain、UPA、MPA等方法的比较

七、结论与未来工作

主要贡献：提出SEED攻击方法，揭示LLMs推理脆弱性
实际意义：强调需要更强的防御机制保护推理完整性
未来方向：扩展实验规模、集成内容审核技术

八、局限性（Limitation）

实验规模受预算限制
可能生成有害内容的风险

九、附录内容

数据集详细描述
实验实现细节
额外实验结果和分析
案例研究和消融实验

十、致谢（Acknowledge）

各类基金和项目的支持

该论文结构完整，从问题提出到方法设计、实验验证、结果分析，最后到结论展望，形成了一个严谨的研究体系。论文通过大量的实验数据和对比分析，充分验证了SEED攻击方法的有效性和隐蔽性。

http://example.com/posts/78.html

作者

司马吴空

发布于

2026年4月5日

许可协议