缩放定律:OpenAI 把‘大力出奇迹’写成了公式
// TL;DR
- 测试损失与模型规模、数据量、算力之间呈幂律关系,光滑得可怕。
- 在固定算力下存在最优的模型大小与数据量配比。
- 意义:你可以在小规模实验后,预测大模型的效果——大模型从赌博变成了工程。
这篇为什么是 2020 年的开场炸弹
过去几年大家凭经验相信‘模型做大效果就好’,但那是信仰,不是科学。Kaplan 等人这篇 Scaling Laws 把它量化了:在大量实验后他们发现,语言模型的测试损失与参数量 N、数据量 D、训练算力 C 之间,各自呈干净的幂律关系——在对数坐标上是一条直线,跨越好几个数量级都不拐弯。
L(N) ≈ (Nc / N)^α_N # 损失随参数量幂律下降
L(D) ≈ (Dc / D)^α_D # 随数据量幂律下降
L(C) ≈ (Cc / C)^α_C # 随算力幂律下降
# 三条曲线光滑可外推
为什么这件事改变游戏规则
幂律的可外推性意味着:你不需要真的把模型造出来才知道它行不行。在 1000 万、1 亿、10 亿参数上各跑一组小实验,拟合出幂律曲线,就能相当准确地预测 1000 亿参数模型的损失。大模型项目从此可以‘先算账再立项’——这把动辄上千万美元的训练,从一场豪赌变成了有预算、有预期收益的工程。
论文还有个反直觉结论:给定算力预算,与其用小模型训到收敛,不如训一个大得多的模型但不训到收敛。换句话说,‘把模型做大’比‘把数据喂饱’更划算(这个结论两年后会被 Chinchilla 修正,先按下不表)。
我的判断
如果说 2018-2019 大家是凭直觉卷规模,这篇论文给了卷规模一张路线图和一份财务模型。我几乎可以肯定:有了这个公式,某些有钱有算力的机构会立刻去算‘那把模型放大 100 倍会怎样’,然后真的去造。今年应该就能看到答案。