Shiki

论文标题：Preemptive Answer “Attacks” on Chain-of-Thought Reasoning

期刊/会议：arXiv:2405.20902v1 (cs.CL)

研究背景与动机

本文研究大语言模型在思维链推理中的鲁棒性问题，重点关注一种新颖场景——预判答案。预判答案指LLM在正式进行逐步推理前，先获得一个答案（可能由模型自身生成或恶意用户注入）。这种场景在现实世界中具有重要威胁性，因为大量训练数据来源于网页（如Common Crawl），其中许多解题数据的格式是答案先于详细解析（如图2示例）。这种数据格式可能导致模型在推理时模仿此类行为，从而影响其推理能力。研究动机在于探究预判答案是否会无意或恶意地干扰CoT推理过程，并评估其负面影响程度。

研究问题具体表述：当LLM在CoT推理前接触到预判答案（无论正确与否）时，其推理准确性是否会下降？如何设计干预措施以缓解这种影响？

论文核心方法和步骤

1. 预判答案的模拟方法

无意预判答案：在原始用户提示后追加指令 ipa（如“请先直接回答问题”），要求模型在推理前生成答案。公式如下：

ypa∥r∥y∼M(⋅∣pCoT∥x∥ipa)

其中 ypa为预判答案，r为推理步骤，y为最终答案。此过程属于零样本设置，模型未依赖CoT生成答案，因此预判答案可能错误。
恶意预判答案：主动注入错误答案 ypa（通过随机选择错误选项或LLM生成），并通过模板 C(ypa)（如“本题答案是 {ypa}”）注入提示中：

r∥y∼M(⋅∣pCoT∥x∥C(ypa))

在对话式LLM（如ChatGPT）中，攻击者提示被设置为用户角色消息，模拟中间人攻击。

2. 缓解策略

问题重述：在推理前要求模型重新表述原问题，以减少预判答案的干扰。指令例如：“请先重述问题，再逐步推理。”
自我反思：基于Shinn等（2023）的方法，要求模型在生成推理步骤后自我检查并纠正错误。模板如下：

给定问题：{x}和学生的解题过程：{r}，请判断其正确性。若错误，请重新求解。

实验结果与结论

实验设置

数据集：GSM8K、MathQA、MATH、HotpotQA、CommonsenseQA、StrategyQA（各取500样本）。
模型：ChatGPT（gpt-3.5-turbo-1106）和GPT-4（gpt-4-1106-preview）。
CoT方法：零样本CoT、少样本CoT、自一致性（SC）。
评估指标：准确率（ACC）和攻击成功率（ASR）。ASR衡量因预判答案导致正确变错误的比例。

关键结果

预判答案显著降低推理性能：
- 在ChatGPT和GPT-4上，所有CoT方法的ACC平均下降最高达62%（如表1所示）。
- 恶意攻击（MPA）比无意预判（UPA）更具破坏性，尤其在非数学数据集（如HotpotQA）中。
- GPT-4表现出更强鲁棒性（ASR较低），但依然受影响。
缓解策略部分有效：
- 问题重述和自我反思均能降低ASR并提升ACC（如表4），但无法完全消除影响。
- 自我反思在识别错误方面表现不稳定（如表2）：
  - 在数学数据集中，仅少数错误被成功纠正（SC占比≤45%）；
  - 在QA任务中，模型常无法识别错误（FR占比最高达91%）。
深入分析：
- 预判答案的准确性影响推理：若预判答案正确，对CoT干扰较小；若错误，模型可能在推理中强行对齐错误答案（如图1和表9示例）。
- 自一致性（SC）能提升鲁棒性，但预判答案仍导致性能下降。

结论与意义

预判答案会严重削弱LLM的CoT推理能力，尤其在答案错误时，模型可能陷入自我验证的谬误循环。
提出的缓解策略虽有益，但无法根本解决问题，突显了CoT鲁棒性研究的紧迫性。
本工作揭示了LLM推理安全的新维度，为未来开发更稳健的推理方法提供基础。

局限性与未来方向：实验未涵盖所有攻击类型（如高级提示注入），且缓解策略需进一步优化。作者计划探索更强大的CoT防御机制。

http://example.com/posts/65.html

作者

司马吴空

发布于

2026年4月5日

许可协议