Shiki

本文最后更新于 2026年4月5日早上

2025 IEEE International Conference on Web Services (ICWS)

ChainAttack: Black-Box Adversarial Attacks on Generative AI Services via Chain-of-Thought

研究背景与动机

随着大型语言模型（LLMs）的快速发展，生成式人工智能服务已成为现代网络应用的重要组成部分，通过基于API的交互提供强大能力。然而，这些服务的黑盒特性（用户无法访问模型内部机制，如训练或微调过程）给对抗性攻击研究带来了重大挑战。传统的攻击方法通常需要访问模型参数或梯度，这在现实场景中不切实际。因此，本文旨在解决黑盒设置下对生成式AI服务进行对抗性攻击的问题，具体动机包括：利用LLMs的上下文学习能力，通过精心设计的Chain-of-Thought（CoT）提示操纵模型推理，诱导有害输出，而无需模型内部访问。研究问题聚焦于如何在实际API限制下实现高效、稳定的黑盒攻击，并揭示CoT提示中的安全漏洞。

论文核心方法和步骤

本文提出ChainAttack，一种新颖的黑盒对抗性方法，通过利用CoT提示和LLMs的上下文学习能力，构建误导性推理链。方法的核心步骤如下：

提示构建：对抗性提示 Padv由三部分组成：

Padv=“[C][E][S]”

其中，C是上下文指令（如“以下是一些示例。请遵循给出的示例。先给出答案，然后逐步展示解决方案”），E是一组示例问题（基于用户提示的核心问题生成），S是对应的误导性解决方案（包含错误推理步骤）。
攻击流程：首先从用户提示中提取关键问题，生成结构相似的示例问题E；然后为E crafting误导性解决方案S，利用LLMs的上下文学习倾向（优先考虑给定示例而非内部知识）。最终，通过目标模型 fθ(⋅)生成对抗性输出：

Radv=fθ(Padv)

该方法无需模型参数访问，仅依赖API交互，通过操纵中间推理步骤实现攻击目标。

实验结果与结论

实验在六个基准数据集（GSM8K、MathQA、MATH、CommonsenseQA、StrategyQA、HotpotQA）上评估ChainAttack，使用GPT-4、Llama2和DeepSeek-V3模型，并比较Zero-Shot CoT和Few-Shot CoT设置。结果如表I所示：

攻击效果：ChainAttack在所有任务中均显著降低模型准确率（ACC），攻击成功率（ASR）最高达34.4%（如在MATH数据集上）。Few-Shot CoT的ASR高于Zero-Shot CoT，因多示例能更好误导模型推理，尤其在数学等逻辑密集型任务中效果显著。
对比基线：ChainAttack在稳定性和广泛适用性上优于BadChain（基于后门的攻击）和Preemptive Answer Attack（早期引入错误答案），后者在API限制下效率较低或不可行。
安全意义：实验揭示了CoT提示的脆弱性，表明当前生成式AI系统在对抗性攻击下易受推理操纵。作者建议防御策略包括提示过滤、鲁棒性训练、自我反思机制以及人机协同监督，以提升系统可靠性。

总之，ChainAttack作为一种实用、低成本的黑盒攻击方法，暴露了生成式AI服务的安全风险，为构建更健壮和可信的AI系统提供了重要启示。

http://example.com/posts/29.html

作者

司马吴空

发布于

2026年4月5日

许可协议