Shiki

arXiv:2502.12025v1[cs.AI] 17 Feb 2025

SAFECHAIN: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities

研究背景与动机

随着大型语言模型（LLMs）在复杂推理任务（如数学和编程）中的能力不断提升，新兴的大型推理模型（LRMs）如 DeepSeek-R1 和 OpenAI o1 开始采用长链思维（Long Chain-of-Thought, CoT）生成结构化中间步骤以增强推理能力。然而，长 CoT 并不能天然保证模型输出的安全性，反而可能因中间推理步骤包含有害内容（如代码漏洞或误导性信息）而导致严重的安全风险。当前针对 LLM 安全性的研究主要集中于短文本响应，缺乏对 LRMs 长 CoT 输出安全性的系统评估。因此，本文首次对 LRMs 的安全性进行系统性研究，旨在解决以下问题：

如何有效评估长 CoT 输出的安全性？
长 CoT 是否反而会降低模型安全性？
如何在不损害推理能力的前提下提升 LRMs 的安全性？

论文核心方法和步骤

1. 安全性评估框架设计

本文首先通过实验对比了四种安全性评估器（Llama-Guard、Refusal String Matching、OpenAI Moderation API、HarmBenchEval）在长 CoT 数据上的表现，发现 Llama-Guard 在准确率（ACC）、F1 分数和皮尔逊相关系数（PCC）上均最优，因此选定其为基准评估工具。随后定义了三种安全性指标：

Safe@1：单次生成响应中被判定为安全的比例；
Safe@K：若所有 K次生成响应均安全则为 1，否则为 0；
ConsSafe@K：若至少 K/2次响应安全则为 1，否则为 0（本文取 K=5）。

2. 多策略推理控制与安全性分析

为探究 CoT 长度对安全性的影响，作者设计了三种解码策略：

ZeroThink：强制模型以空推理段（<think></think>）开头，直接生成最终答案；
LessThink：强制模型以短推理（如 "<think>Okay, I can answer without thinking much.</think>"）开头；
MoreThink：通过最小强制算法（minimum-forcing）延长 CoT，例如重复替换结束标记 </think>或追加过渡词，直至达到最小 token 数（如 10,000）。

实验发现，ZeroThink 策略安全性最高，说明模型本身具备较强的安全本能；而 MoreThink 通过长上下文反思也能减少不安全行为，但计算成本较高。

3. SAFECHAIN 数据集构建与安全对齐

为解决现有安全对齐数据缺乏 CoT 风格的问题，本文构建了首个长 CoT 风格的安全训练数据集 SAFECHAIN。构建流程如下：

从 WildJailbreak 数据集中均匀采样 50,000 条指令；
使用 R1-70B 为每条指令生成 5 个响应；
通过 Llama-Guard 筛选所有响应均安全的指令，最终保留 40,000 对指令-响应数据。

4. 模型训练与评估

在 R1-7B 和 R1-8B 模型上对比三种训练设置：

原始模型（无额外训练）；
WJ-40K：使用 GPT-3.5 生成的安全响应微调；
SAFECHAIN：使用本文构建的 CoT 风格数据微调。

评估覆盖 6 个推理基准（GSM8K、MATH-500、AIME 2024、HumanEval、MBPP、LiveCodeBench）和 2 个安全基准（StrongReject、WildJailbreak）。

实验结果与结论

关键发现

LRMs 的安全性普遍不足：在 StrongReject 和 WildJailbreak 上，所有主流 LRMs 的 Safe@1 均低于 50%，且不安全响应通常更长（见图 2）；
模型规模与安全性正相关：同一模型家族中，参数更大的模型（如 R1-70B vs. R1-1.5B）安全性更高；
长 CoT 训练可能降低安全性：R1-70B 相比其基础模型 Llama-3.3-70B-Instruct，安全性从 45.7% 降至 32.3%（见图 3）；
温度参数影响安全性：较高的温度（如 1.2）会使 Safe@K 显著下降（见图 4）；
SAFECHAIN 有效平衡安全与性能：微调后的模型在安全基准上提升显著（如 R1-8B 的 Safe@1 从 43.3% 升至 71.7%），同时在所有推理任务中保持原有性能（甚至部分任务提升）。

结论与意义

本文首次系统揭示了 LRMs 在长 CoT 推理中的安全隐患，并提出通过数据对齐（SAFECHAIN） 和解码策略优化提升安全性。SAFECHAIN 的发布为未来 LRMs 的安全对齐提供了重要基准，其核心价值在于：

方法论创新：将安全评估从短答案扩展至长 CoT 轨迹，并设计细粒度评估指标；
实践指导：证明 ZeroThink 策略的高效性，为低成本安全部署提供方案；
数据贡献：首个公开的长 CoT 安全数据集，促进社区对 LRMs 安全性的持续研究。

局限性：当前研究仅针对英文单轮交互，未涵盖多语言和多轮对话场景，未来需进一步扩展。

http://example.com/posts/73.html

作者

司马吴空

发布于

2026年4月5日

许可协议

研究背景与动机

论文核心方法和步骤

1. ​安全性评估框架设计​

2. ​多策略推理控制与安全性分析​

3. ​SAFECHAIN 数据集构建与安全对齐​

4. ​模型训练与评估​