Stepwise Reasoning Disruption Attack of LLMs

以下是该论文的详细大纲结构:

一、论文基本信息

  • 标题:Stepwise Reasoning Disruption Attack of LLMs

  • 作者:Jingyu Peng, Maolin Wang, Xiangyu Zhao 等(来自中国科学技术大学、香港城市大学等机构)

  • 会议:Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (2025)

  • 页码:5040-5058

二、摘要(Abstract)

  • 研究背景:LLMs在复杂推理任务中表现突出,但其在第三方API平台中的推理安全性和鲁棒性尚未充分探索

  • 现有问题:现有攻击方法存在设置限制或隐蔽性不足

  • 解决方案:提出SEED攻击方法,通过在前序推理步骤中注入错误来误导模型

  • 创新点:兼容零样本/少样本设置、保持自然推理流程、无需修改指令

  • 实验结果:在4个数据集和4个模型上的实验证明了SEED的有效性

三、引言(Introduction)

  • LLMs推理能力发展:各种增强推理方法提升了LLMs性能

  • 实际应用风险:第三方API平台可能通过输入操纵破坏模型完整性

  • 研究空白:复杂推理过程中的脆弱性尚未充分研究

  • 技术挑战:可行性和隐蔽性两大核心挑战

  • 现有方法局限:BadChain、UPA、MPA等方法在实践中的局限性

  • 本文贡献:提出SEED攻击解决上述限制

四、方法(Method)

  1. 问题形式化(Problem Formulation)

    • 逐步推理任务的形式化定义

    • 攻击目标的数学表达

  2. SEED攻击概述

    • 攻击原理:添加误导步骤 Ratt​引导错误推理

    • 数学公式:o′=R′∥a′=LLM([Isolve​∥D∥p∥Ratt​])

  3. 两种具体实现

    • SEED-S(步骤修改):直接修改推理步骤的最后一步

    • SEED-P(问题修改):通过修改问题生成误导性推理步骤

五、实验(Experiments)

  1. 实验设置

    • 数据集:MATH、GSM8K、CSQA、MATHQA(各500个问题)

    • 模型:Llama3-8B、Qwen-2.5-7B、Mistral-v0.3-7B、GPT-4o

    • 设置:零样本和少样本CoT推理

    • 评估指标:ACC、ASR、MSR、检测率

  2. 整体性能评估

    • 隐蔽性检测:SEED相比基线方法检测率显著降低

    • 攻击效果比较:SEED-P在大多数情况下优于基线方法

    • 有效性验证:两种SEED变体均能有效降低模型准确率

  3. 参数分析

    • 超参数 σ对攻击效果的影响分析

    • 最优 σ范围:0.4-0.8

六、相关工作(Related Work)

  1. LLMs推理技术:CoT范式、自一致性、思维树等方法的演进

  2. 基于提示的LLMs攻击:越狱攻击、对抗攻击的区别与联系

  3. 推理过程攻击:BadChain、UPA、MPA等方法的比较

七、结论与未来工作

  • 主要贡献:提出SEED攻击方法,揭示LLMs推理脆弱性

  • 实际意义:强调需要更强的防御机制保护推理完整性

  • 未来方向:扩展实验规模、集成内容审核技术

八、局限性(Limitation)

  • 实验规模受预算限制

  • 可能生成有害内容的风险

九、附录内容

  • 数据集详细描述

  • 实验实现细节

  • 额外实验结果和分析

  • 案例研究和消融实验

十、致谢(Acknowledge)

  • 各类基金和项目的支持

该论文结构完整,从问题提出到方法设计、实验验证、结果分析,最后到结论展望,形成了一个严谨的研究体系。论文通过大量的实验数据和对比分析,充分验证了SEED攻击方法的有效性和隐蔽性。


http://example.com/posts/78.html
作者
司马吴空
发布于
2026年3月30日
许可协议