2025 IEEE International Conference on Web Services (ICWS)

ChainAttack: Black-Box Adversarial Attacks on Generative AI Services via Chain-of-Thought

研究背景与动机

随着大型语言模型(LLMs)的快速发展,生成式人工智能服务已成为现代网络应用的重要组成部分,通过基于API的交互提供强大能力。然而,这些服务的黑盒特性(用户无法访问模型内部机制,如训练或微调过程)给对抗性攻击研究带来了重大挑战。传统的攻击方法通常需要访问模型参数或梯度,这在现实场景中不切实际。因此,本文旨在解决黑盒设置下对生成式AI服务进行对抗性攻击的问题,具体动机包括:利用LLMs的上下文学习能力,通过精心设计的Chain-of-Thought(CoT)提示操纵模型推理,诱导有害输出,而无需模型内部访问。研究问题聚焦于如何在实际API限制下实现高效、稳定的黑盒攻击,并揭示CoT提示中的安全漏洞。

论文核心方法和步骤

本文提出ChainAttack,一种新颖的黑盒对抗性方法,通过利用CoT提示和LLMs的上下文学习能力,构建误导性推理链。方法的核心步骤如下:

  1. 提示构建:对抗性提示 Padv​由三部分组成:

    Padv​=“[C][E][S]”

    其中,C是上下文指令(如“以下是一些示例。请遵循给出的示例。先给出答案,然后逐步展示解决方案”),E是一组示例问题(基于用户提示的核心问题生成),S是对应的误导性解决方案(包含错误推理步骤)。

  2. 攻击流程:首先从用户提示中提取关键问题,生成结构相似的示例问题E;然后为E crafting误导性解决方案S,利用LLMs的上下文学习倾向(优先考虑给定示例而非内部知识)。最终,通过目标模型 fθ​(⋅)生成对抗性输出:

    Radv​=fθ​(Padv​)

    该方法无需模型参数访问,仅依赖API交互,通过操纵中间推理步骤实现攻击目标。

实验结果与结论

实验在六个基准数据集(GSM8K、MathQA、MATH、CommonsenseQA、StrategyQA、HotpotQA)上评估ChainAttack,使用GPT-4、Llama2和DeepSeek-V3模型,并比较Zero-Shot CoT和Few-Shot CoT设置。结果如表I所示:

  • 攻击效果:ChainAttack在所有任务中均显著降低模型准确率(ACC),攻击成功率(ASR)最高达34.4%(如在MATH数据集上)。Few-Shot CoT的ASR高于Zero-Shot CoT,因多示例能更好误导模型推理,尤其在数学等逻辑密集型任务中效果显著。

  • 对比基线:ChainAttack在稳定性和广泛适用性上优于BadChain(基于后门的攻击)和Preemptive Answer Attack(早期引入错误答案),后者在API限制下效率较低或不可行。

  • 安全意义:实验揭示了CoT提示的脆弱性,表明当前生成式AI系统在对抗性攻击下易受推理操纵。作者建议防御策略包括提示过滤、鲁棒性训练、自我反思机制以及人机协同监督,以提升系统可靠性。

总之,ChainAttack作为一种实用、低成本的黑盒攻击方法,暴露了生成式AI服务的安全风险,为构建更健壮和可信的AI系统提供了重要启示。


http://example.com/posts/29.html
作者
司马吴空
发布于
2026年3月30日
许可协议