arXiv:2502.12025v1[cs.AI] 17 Feb 2025
SAFECHAIN: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities
研究背景与动机
随着大型语言模型(LLMs)在复杂推理任务(如数学和编程)中的能力不断提升,新兴的大型推理模型(LRMs)如 DeepSeek-R1 和 OpenAI o1 开始采用长链思维(Long Chain-of-Thought, CoT)生成结构化中间步骤以增强推理能力。然而,长 CoT 并不能天然保证模型输出的安全性,反而可能因中间推理步骤包含有害内容(如代码漏洞或误导性信息)而导致严重的安全风险。当前针对 LLM 安全性的研究主要集中于短文本响应,缺乏对 LRMs 长 CoT 输出安全性的系统评估。因此,本文首次对 LRMs 的安全性进行系统性研究,旨在解决以下问题:
如何有效评估长 CoT 输出的安全性?
长 CoT 是否反而会降低模型安全性?
如何在不损害推理能力的前提下提升 LRMs 的安全性?
论文核心方法和步骤
1. 安全性评估框架设计
本文首先通过实验对比了四种安全性评估器(Llama-Guard、Refusal String Matching、OpenAI Moderation API、HarmBenchEval)在长 CoT 数据上的表现,发现 Llama-Guard 在准确率(ACC)、F1 分数和皮尔逊相关系数(PCC)上均最优,因此选定其为基准评估工具。随后定义了三种安全性指标:
Safe@1:单次生成响应中被判定为安全的比例;
Safe@K:若所有 K次生成响应均安全则为 1,否则为 0;
ConsSafe@K:若至少 K/2次响应安全则为 1,否则为 0(本文取 K=5)。
2. 多策略推理控制与安全性分析
为探究 CoT 长度对安全性的影响,作者设计了三种解码策略:
ZeroThink:强制模型以空推理段(
<think></think>)开头,直接生成最终答案;LessThink:强制模型以短推理(如
"<think>Okay, I can answer without thinking much.</think>")开头;MoreThink:通过最小强制算法(minimum-forcing)延长 CoT,例如重复替换结束标记
</think>或追加过渡词,直至达到最小 token 数(如 10,000)。
实验发现,ZeroThink 策略安全性最高,说明模型本身具备较强的安全本能;而 MoreThink 通过长上下文反思也能减少不安全行为,但计算成本较高。
3. SAFECHAIN 数据集构建与安全对齐
为解决现有安全对齐数据缺乏 CoT 风格的问题,本文构建了首个长 CoT 风格的安全训练数据集 SAFECHAIN。构建流程如下:
从 WildJailbreak 数据集中均匀采样 50,000 条指令;
使用 R1-70B 为每条指令生成 5 个响应;
通过 Llama-Guard 筛选所有响应均安全的指令,最终保留 40,000 对指令-响应数据。

4. 模型训练与评估
在 R1-7B 和 R1-8B 模型上对比三种训练设置:
原始模型(无额外训练);
WJ-40K:使用 GPT-3.5 生成的安全响应微调;
SAFECHAIN:使用本文构建的 CoT 风格数据微调。
评估覆盖 6 个推理基准(GSM8K、MATH-500、AIME 2024、HumanEval、MBPP、LiveCodeBench)和 2 个安全基准(StrongReject、WildJailbreak)。
实验结果与结论
关键发现
LRMs 的安全性普遍不足:在 StrongReject 和 WildJailbreak 上,所有主流 LRMs 的 Safe@1 均低于 50%,且不安全响应通常更长(见图 2);

模型规模与安全性正相关:同一模型家族中,参数更大的模型(如 R1-70B vs. R1-1.5B)安全性更高;
长 CoT 训练可能降低安全性:R1-70B 相比其基础模型 Llama-3.3-70B-Instruct,安全性从 45.7% 降至 32.3%(见图 3);

温度参数影响安全性:较高的温度(如 1.2)会使 Safe@K 显著下降(见图 4);

SAFECHAIN 有效平衡安全与性能:微调后的模型在安全基准上提升显著(如 R1-8B 的 Safe@1 从 43.3% 升至 71.7%),同时在所有推理任务中保持原有性能(甚至部分任务提升)。
结论与意义
本文首次系统揭示了 LRMs 在长 CoT 推理中的安全隐患,并提出通过数据对齐(SAFECHAIN) 和解码策略优化提升安全性。SAFECHAIN 的发布为未来 LRMs 的安全对齐提供了重要基准,其核心价值在于:
方法论创新:将安全评估从短答案扩展至长 CoT 轨迹,并设计细粒度评估指标;
实践指导:证明 ZeroThink 策略的高效性,为低成本安全部署提供方案;
数据贡献:首个公开的长 CoT 安全数据集,促进社区对 LRMs 安全性的持续研究。
局限性:当前研究仅针对英文单轮交互,未涵盖多语言和多轮对话场景,未来需进一步扩展。