DeepSeek-R1 论文解读

论文概述

DeepSeek-R1 是 DeepSeek 团队在 2025 年初发布的推理模型，其核心贡献在于证明了 大规模强化学习（RL）可以直接激发大语言模型的推理能力，而不需要依赖大量人工标注的 Chain-of-Thought 数据。

这项工作与 OpenAI 的 o1 模型遥相呼应，但 DeepSeek-R1 选择了开源路线，让整个社区受益。

最令人惊讶的发现来自 DeepSeek-R1-Zero —— 一个完全不使用监督微调（SFT），直接对基础模型施加强化学习的版本。

训练过程中，模型自发涌现出了以下能力：

这证明了推理能力可以作为 RL 的涌现属性出现，不需要显式教导。

DeepSeek-R1 使用了 Group Relative Policy Optimization (GRPO) 替代传统的 PPO。核心区别在于 GRPO 不需要独立的价值网络（critic model）：

\mathcal{L}_{GRPO} = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G} \min\left(\frac{\pi_\theta(o_i|q)}{\pi_{ref}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{ref}(o_i|q)}, 1-\varepsilon, 1+\varepsilon\right) A_i\right)\right]

其中 $G$ 是每个问题采样的组大小，优势值 $A_i$ 通过组内相对排序计算。

DeepSeek-R1 的最终版本采用了多阶段训练：

Base Model → Cold Start SFT → Reasoning RL → Rejection Sampling
    → Mixed SFT → General RL → DeepSeek-R1

论文还进行了重要的蒸馏实验：将 R1 的推理能力蒸馏到更小的模型（1.5B ~ 70B）。结果表明：

即使是 7B 的蒸馏模型也展现出了惊人的数学推理能力。

论文中记录了一个有趣的现象：在 RL 训练过程中，模型开始出现 “aha moment” —— 突然学会在推理链中重新审视之前的步骤。这种能力是自发涌现的，没有在训练数据中显式教导。

R1-Zero 存在语言混合（language mixing）的问题 —— 推理过程中会混用中英文。这也是为什么最终版本需要加入冷启动 SFT 阶段来规范输出格式。

DeepSeek-R1 最令人兴奋的地方在于它证明了 RL 可以 “从零” 激发推理能力。这意味着推理能力可能不需要海量人工标注数据，而是可以通过合适的奖励信号自然涌现。这对未来 AGI 的发展方向有重要启示。