论文标题:Preemptive Answer “Attacks” on Chain-of-Thought Reasoning

期刊/会议:arXiv:2405.20902v1 (cs.CL)

研究背景与动机

本文研究大语言模型在思维链推理中的鲁棒性问题,重点关注一种新颖场景——预判答案。预判答案指LLM在正式进行逐步推理前,先获得一个答案(可能由模型自身生成或恶意用户注入)。这种场景在现实世界中具有重要威胁性,因为大量训练数据来源于网页(如Common Crawl),其中许多解题数据的格式是答案先于详细解析(如图2示例)。这种数据格式可能导致模型在推理时模仿此类行为,从而影响其推理能力。研究动机在于探究预判答案是否会无意或恶意地干扰CoT推理过程,并评估其负面影响程度。

研究问题具体表述:当LLM在CoT推理前接触到预判答案(无论正确与否)时,其推理准确性是否会下降?如何设计干预措施以缓解这种影响?

论文核心方法和步骤

1. 预判答案的模拟方法

  • 无意预判答案:在原始用户提示后追加指令 ipa​(如“请先直接回答问题”),要求模型在推理前生成答案。公式如下:

    ypa​∥r∥y∼M(⋅∣pCoT​∥x∥ipa​)

    其中 ypa​为预判答案,r为推理步骤,y为最终答案。此过程属于零样本设置,模型未依赖CoT生成答案,因此预判答案可能错误。

  • 恶意预判答案:主动注入错误答案 ypa​(通过随机选择错误选项或LLM生成),并通过模板 C(ypa​)(如“本题答案是 {ypa​}”)注入提示中:

    r∥y∼M(⋅∣pCoT​∥x∥C(ypa​))

    在对话式LLM(如ChatGPT)中,攻击者提示被设置为用户角色消息,模拟中间人攻击。

2. 缓解策略

  • 问题重述:在推理前要求模型重新表述原问题,以减少预判答案的干扰。指令例如:“请先重述问题,再逐步推理。”

  • 自我反思:基于Shinn等(2023)的方法,要求模型在生成推理步骤后自我检查并纠正错误。模板如下:

    给定问题:{x}和学生的解题过程:{r},请判断其正确性。若错误,请重新求解。

实验结果与结论

实验设置

  • 数据集:GSM8K、MathQA、MATH、HotpotQA、CommonsenseQA、StrategyQA(各取500样本)。

  • 模型:ChatGPT(gpt-3.5-turbo-1106)和GPT-4(gpt-4-1106-preview)。

  • CoT方法:零样本CoT、少样本CoT、自一致性(SC)。

  • 评估指标:准确率(ACC)和攻击成功率(ASR)。ASR衡量因预判答案导致正确变错误的比例。

关键结果

  1. 预判答案显著降低推理性能

    • 在ChatGPT和GPT-4上,所有CoT方法的ACC平均下降最高达62%(如表1所示)。

    • 恶意攻击(MPA)比无意预判(UPA)更具破坏性,尤其在非数学数据集(如HotpotQA)中。

    • GPT-4表现出更强鲁棒性(ASR较低),但依然受影响。

  2. 缓解策略部分有效

    • 问题重述和自我反思均能降低ASR并提升ACC(如表4),但无法完全消除影响。

    • 自我反思在识别错误方面表现不稳定(如表2):

      • 在数学数据集中,仅少数错误被成功纠正(SC占比≤45%);

      • 在QA任务中,模型常无法识别错误(FR占比最高达91%)。

  3. 深入分析

    • 预判答案的准确性影响推理:若预判答案正确,对CoT干扰较小;若错误,模型可能在推理中强行对齐错误答案(如图1和表9示例)。

    • 自一致性(SC)能提升鲁棒性,但预判答案仍导致性能下降。

结论与意义

  • 预判答案会严重削弱LLM的CoT推理能力,尤其在答案错误时,模型可能陷入自我验证的谬误循环。

  • 提出的缓解策略虽有益,但无法根本解决问题,突显了CoT鲁棒性研究的紧迫性。

  • 本工作揭示了LLM推理安全的新维度,为未来开发更稳健的推理方法提供基础。

局限性与未来方向:实验未涵盖所有攻击类型(如高级提示注入),且缓解策略需进一步优化。作者计划探索更强大的CoT防御机制。


http://example.com/posts/65.html
作者
司马吴空
发布于
2026年3月30日
许可协议