Scaling Laws for Neural Language Models

系统研究参数量、数据量、计算量与损失之间的幂律关系,把“大模型该如何扩”从经验判断变成了可估算的问题。

年份与会议

2020 · arXiv

作者

Jared Kaplan、Sam McCandlish、Tom Henighan

主题

Scaling Laws

阅读时长

约 1 分钟

收录时间

2020/01/23

标签

原文链接

https://arxiv.org/abs/2001.08361

先说结论:这篇论文回答了“该把钱花在哪里”

很多人第一次看到这篇论文时,会把它理解成一句口号:模型越大越强。其实原文真正回答的问题更细:

  1. 模型参数继续增大,loss 会按什么规律下降?
  2. 训练数据继续增多,收益会不会很快见顶?
  3. 在固定算力预算下,应该训练更大的模型,还是喂更多数据?

也就是说,Scaling Laws for Neural Language Models 研究的不是“是否扩”,而是“怎样扩才更划算”。这让大模型训练第一次从经验驱动,走向了近似可预测的工程规划。

背景:为什么规模化之前需要规律

在这篇论文之前,很多团队已经知道“大一点通常更好”,但仍然缺少系统方法去回答以下现实问题:

  • 下一个实验应该把参数翻倍,还是把 token 数翻倍?
  • 如果预算只有这么多 GPU 天,最优的模型-数据组合是什么?
  • 小模型实验得到的趋势,能否外推到更大规模?

没有这类规律,训练大模型就像在黑箱里烧钱。论文的重要性就在于,它把参数量 N、数据量 D、计算量 C 与验证损失之间的关系抽象成了幂律。即便你记不住具体拟合系数,也能掌握一种非常实用的方法论:先在小规模上测趋势,再推断更大规模的收益边界。

核心发现一:损失会随规模按幂律下降

论文观察到,随着模型参数、数据规模和计算预算扩大,语言模型的损失会以一种相当稳定的幂律形式下降。直观理解是:

  • 参数更多,模型容量更强,能容纳更复杂的分布。
  • 数据更多,模型见到的语言现象更全面,泛化更稳。
  • 计算更多,本质上允许你把“更大模型”和“更多数据”同时推远一些。

最值得注意的是,这种下降不是“突然跳变”,而是相对平滑、可拟合的。这意味着规模化不是靠运气碰到某个神秘拐点,而是可以持续通过资源投入换取可预测收益。

核心发现二:固定算力下存在最优分配

论文最有工程价值的洞见,是固定训练预算下,参数量和训练 token 并不是越多越好,而是存在一个相对最优的比例。

如果模型太小、数据太多,你会浪费数据,因为模型容量不足以吃下这些信息。 如果模型太大、数据太少,你又会浪费参数,因为模型还没充分学习就停止训练。

这件事对工业界特别重要。因为训练预算在真实项目里几乎总是固定的:GPU 数量、训练天数、上线时间窗口都是有限的。Scaling law 的意义,正是在这种约束下给出一种资源分配的准绳。

应该怎样理解论文里的公式

不必死记论文中的拟合常数,更值得记住的是下面这个框架:

  • L(N): 当其他条件足够时,损失会随着参数量增加而下降。
  • L(D): 当模型容量足够时,损失会随着数据量增加而下降。
  • L(C): 当你把总算力提高时,可达到的最优损失也会继续下降。

这三条关系组合在一起,给出一个非常实用的思维方式:

  1. 先确定你能承受的总训练预算。
  2. 再根据预算选择大致合理的模型尺寸和 token 数。
  3. 最后通过小规模实验验证该配比是否接近最优。

这也是为什么很多成熟团队都会在大训练前做一轮或多轮小型 sweep。不是因为他们不敢直接上大模型,而是因为 scaling law 告诉我们,小实验是可以提供结构性信息的。

对训练工程的直接影响

这篇论文对今天的大模型训练流程至少有四个持续影响:

1. 训练前就要做预算建模

项目启动时,不能只拍脑袋说“上 70B 吧”。更合理的做法是先问:

  • 目标任务需要多强能力?
  • 我们有多少高质量 token?
  • 训练预算够不够支撑这个模型在足够数据上完成收敛?

2. 小模型实验不再只是调参,而是做趋势推断

小模型的价值不是得到最终效果,而是验证两个问题:

  • loss 曲线是否平滑可外推?
  • 数据混合策略是否在扩大规模后仍然成立?

3. 数据工程的重要性被重新抬高

如果数据规模和数据质量都会进入最终收益函数,那么“找更多 token”就不再是唯一目标。去重、清洗、混合比例、领域覆盖、重复采样策略,都变成了训练效果的一部分。

4. 推理成本也要提前纳入考虑

更大的模型通常意味着更高的上线成本、显存占用和响应延迟。因此训练阶段的“最优”不一定等于产品阶段的“最优”。这也是为什么今天很多团队会在训练收益与推理成本之间做联合优化。

这篇论文与 Chinchilla 的关系

后续最常被放在一起讨论的工作,是 DeepMind 的 Chinchilla。两者不是相互否定,而是研究重心不同:

  • Kaplan 这篇论文首先建立了“存在稳定 scaling relationship”这件事。
  • Chinchilla 则进一步强调,在固定算力下,很多模型其实是“参数偏大、数据偏少”的,应该用更多 token 训练相对更小的模型。

因此,阅读顺序上可以这样理解:

  1. 先用 Kaplan 论文建立“规模化可预测”的基本信念。
  2. 再用 Chinchilla 理解“计算最优训练”会把配比推向哪里。

如果你在做训练规划,这两个视角都很重要。前者告诉你大方向,后者提醒你不要把所有预算都堆在参数量上。

局限性:它不是放之四海而皆准的神公式

这篇论文极有影响力,但并不意味着里面的比例和结论可以直接照搬到今天所有模型上。主要局限包括:

  • 研究对象主要是当时设定下的语言模型,数据分布和训练配方与今天差距很大。
  • 论文默认的模型族、优化器、上下文长度、tokenizer 等条件比较固定,而现实系统会不断变化。
  • 它主要研究预训练损失,不等价于下游任务能力、指令跟随能力或安全性。
  • 多模态、MoE、检索增强、长上下文等新设定,可能改变最优配比。

所以正确姿势不是“套公式做决定”,而是“用 scaling law 作为一阶近似,再用实验校正”。

对今天的启发

哪怕在 2026 年回头看,这篇论文仍然有三层现实意义:

  1. 它让训练规划从拍脑袋走向预算化、结构化。
  2. 它把数据、模型、计算这三件事放进同一个优化框架。
  3. 它让我们理解了为什么 Transformer 一旦规模化,能力会持续提升,而不是随机波动。

如果说《Attention Is All You Need》解决的是“该用什么架构”,那么《Scaling Laws for Neural Language Models》解决的就是“这个架构扩起来以后,怎样更有章法”。

读者可以带走的实践清单

  • 在正式训练前,先确定目标能力、预算和高质量数据上限。
  • 用小规模实验验证数据混合和超参数是否可扩。
  • 不要只盯参数量,训练 token 和数据质量同样关键。
  • 在模型训练收益与线上推理成本之间做联合判断。

延伸阅读

相关内容

沿着相近主题继续阅读,加深对方法边界与实践场景的理解。