arXiv:2502.12025v1[cs.AI] 17 Feb 2025

SAFECHAIN: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities

研究背景与动机

随着大型语言模型(LLMs)在复杂推理任务(如数学和编程)中的能力不断提升,新兴的大型推理模型(LRMs)如 DeepSeek-R1 和 OpenAI o1 开始采用长链思维(Long Chain-of-Thought, CoT)​生成结构化中间步骤以增强推理能力。然而,长 CoT 并不能天然保证模型输出的安全性,反而可能因中间推理步骤包含有害内容(如代码漏洞或误导性信息)而导致严重的安全风险。当前针对 LLM 安全性的研究主要集中于短文本响应,缺乏对 LRMs 长 CoT 输出安全性的系统评估。因此,本文首次对 LRMs 的安全性进行系统性研究,旨在解决以下问题:

  1. 如何有效评估长 CoT 输出的安全性?​

  2. 长 CoT 是否反而会降低模型安全性?​

  3. 如何在不损害推理能力的前提下提升 LRMs 的安全性?​

论文核心方法和步骤

1. ​安全性评估框架设计

本文首先通过实验对比了四种安全性评估器(Llama-Guard、Refusal String Matching、OpenAI Moderation API、HarmBenchEval)在长 CoT 数据上的表现,发现 ​Llama-Guard​ 在准确率(ACC)、F1 分数和皮尔逊相关系数(PCC)上均最优,因此选定其为基准评估工具。随后定义了三种安全性指标:

  • Safe@1​:单次生成响应中被判定为安全的比例;

  • Safe@K​:若所有 K次生成响应均安全则为 1,否则为 0;

  • ConsSafe@K​:若至少 K/2次响应安全则为 1,否则为 0(本文取 K=5)。

2. ​多策略推理控制与安全性分析

为探究 CoT 长度对安全性的影响,作者设计了三种解码策略:

  • ZeroThink​:强制模型以空推理段(<think></think>)开头,直接生成最终答案;

  • LessThink​:强制模型以短推理(如 "<think>Okay, I can answer without thinking much.</think>")开头;

  • MoreThink​:通过最小强制算法(minimum-forcing)延长 CoT,例如重复替换结束标记 </think>或追加过渡词,直至达到最小 token 数(如 10,000)。

实验发现,​ZeroThink 策略安全性最高,说明模型本身具备较强的安全本能;而 MoreThink 通过长上下文反思也能减少不安全行为,但计算成本较高。

3. ​SAFECHAIN 数据集构建与安全对齐

为解决现有安全对齐数据缺乏 CoT 风格的问题,本文构建了首个长 CoT 风格的安全训练数据集 ​SAFECHAIN。构建流程如下:

  1. 从 WildJailbreak 数据集中均匀采样 50,000 条指令;

  2. 使用 R1-70B 为每条指令生成 5 个响应;

  3. 通过 Llama-Guard 筛选所有响应均安全的指令,最终保留 40,000 对指令-响应数据。

4. ​模型训练与评估

在 R1-7B 和 R1-8B 模型上对比三种训练设置:

  • 原始模型​(无额外训练);

  • WJ-40K​:使用 GPT-3.5 生成的安全响应微调;

  • SAFECHAIN​:使用本文构建的 CoT 风格数据微调。

    评估覆盖 ​6 个推理基准​(GSM8K、MATH-500、AIME 2024、HumanEval、MBPP、LiveCodeBench)和 ​2 个安全基准​(StrongReject、WildJailbreak)。

实验结果与结论

关键发现

  1. LRMs 的安全性普遍不足​:在 StrongReject 和 WildJailbreak 上,所有主流 LRMs 的 Safe@1 均低于 50%,且不安全响应通常更长​(见图 2);

  2. 模型规模与安全性正相关​:同一模型家族中,参数更大的模型(如 R1-70B vs. R1-1.5B)安全性更高;

  3. 长 CoT 训练可能降低安全性​:R1-70B 相比其基础模型 Llama-3.3-70B-Instruct,安全性从 45.7% 降至 32.3%(见图 3);

  4. 温度参数影响安全性​:较高的温度(如 1.2)会使 Safe@K 显著下降(见图 4);

  5. SAFECHAIN 有效平衡安全与性能​:微调后的模型在安全基准上提升显著(如 R1-8B 的 Safe@1 从 43.3% 升至 71.7%),同时在所有推理任务中保持原有性能(甚至部分任务提升)。

结论与意义

本文首次系统揭示了 LRMs 在长 CoT 推理中的安全隐患,并提出通过数据对齐(SAFECHAIN)​​ 和解码策略优化提升安全性。SAFECHAIN 的发布为未来 LRMs 的安全对齐提供了重要基准,其核心价值在于:

  • 方法论创新​:将安全评估从短答案扩展至长 CoT 轨迹,并设计细粒度评估指标;

  • 实践指导​:证明 ZeroThink 策略的高效性,为低成本安全部署提供方案;

  • 数据贡献​:首个公开的长 CoT 安全数据集,促进社区对 LRMs 安全性的持续研究。

局限性​:当前研究仅针对英文单轮交互,未涵盖多语言和多轮对话场景,未来需进一步扩展。


http://example.com/posts/73.html
作者
司马吴空
发布于
2026年3月30日
许可协议