DeepSeek-R1 论文解读

通过强化学习激发大语言模型推理能力的突破性工作,开创了推理模型的新范式

论文概述

DeepSeek-R1 是 DeepSeek 团队在 2025 年初发布的推理模型,其核心贡献在于证明了 大规模强化学习(RL)可以直接激发大语言模型的推理能力,而不需要依赖大量人工标注的 Chain-of-Thought 数据。

这项工作与 OpenAI 的 o1 模型遥相呼应,但 DeepSeek-R1 选择了开源路线,让整个社区受益。

核心方法

DeepSeek-R1-Zero:纯 RL 的探索

最令人惊讶的发现来自 DeepSeek-R1-Zero —— 一个完全不使用监督微调(SFT),直接对基础模型施加强化学习的版本。

训练过程中,模型自发涌现出了以下能力:

  • 自我验证:模型学会检查自己的答案是否正确
  • 反思:出现 “wait, let me reconsider” 等反思性表达
  • 延长思考:面对困难问题时,自动生成更长的推理链

这证明了推理能力可以作为 RL 的涌现属性出现,不需要显式教导。

GRPO 算法

DeepSeek-R1 使用了 Group Relative Policy Optimization (GRPO) 替代传统的 PPO。核心区别在于 GRPO 不需要独立的价值网络(critic model):

LGRPO=E[1Gi=1Gmin(πθ(oiq)πref(oiq)Ai,clip(πθ(oiq)πref(oiq),1ε,1+ε)Ai)]\mathcal{L}_{GRPO} = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G} \min\left(\frac{\pi_\theta(o_i|q)}{\pi_{ref}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{ref}(o_i|q)}, 1-\varepsilon, 1+\varepsilon\right) A_i\right)\right]

其中 GG 是每个问题采样的组大小,优势值 AiA_i 通过组内相对排序计算。

完整训练流程

DeepSeek-R1 的最终版本采用了多阶段训练:

  1. 冷启动 SFT:使用少量高质量长链推理数据微调基础模型
  2. 推理导向 RL:使用 GRPO 在数学和代码任务上训练
  3. 拒绝采样 + SFT:收集 RL 模型的高质量输出,混合通用 SFT 数据
  4. 通用 RL:在更广泛的任务上进行第二轮 RL
Base Model → Cold Start SFT → Reasoning RL → Rejection Sampling
    → Mixed SFT → General RL → DeepSeek-R1

蒸馏实验

论文还进行了重要的蒸馏实验:将 R1 的推理能力蒸馏到更小的模型(1.5B ~ 70B)。结果表明:

模型AIME 2024MATH-500
DeepSeek-R1 (671B MoE)79.8%97.3%
R1-Distill-Qwen-32B72.6%94.3%
R1-Distill-Qwen-7B55.5%92.8%
R1-Distill-Qwen-1.5B28.9%83.9%

即使是 7B 的蒸馏模型也展现出了惊人的数学推理能力。

关键发现

”Aha Moment”

论文中记录了一个有趣的现象:在 RL 训练过程中,模型开始出现 “aha moment” —— 突然学会在推理链中重新审视之前的步骤。这种能力是自发涌现的,没有在训练数据中显式教导。

语言混合问题

R1-Zero 存在语言混合(language mixing)的问题 —— 推理过程中会混用中英文。这也是为什么最终版本需要加入冷启动 SFT 阶段来规范输出格式。

深远影响

  1. RL 规模化:证明了 RL 在大模型训练中的巨大潜力
  2. 推理模型范式:与 o1 一起开创了 “思考更久以获得更好答案” 的新范式
  3. 开源推动:模型权重和论文的开源极大推动了社区研究
  4. 蒸馏价值:证明推理能力可以高效迁移到小模型

个人思考

DeepSeek-R1 最令人兴奋的地方在于它证明了 RL 可以 “从零” 激发推理能力。这意味着推理能力可能不需要海量人工标注数据,而是可以通过合适的奖励信号自然涌现。这对未来 AGI 的发展方向有重要启示。