Chinchilla:原来过去两年,我们的大模型都‘喂不饱’
// TL;DR
- 新结论:模型参数和训练数据量应当‘同比例’增长,过去的大模型严重数据不足。
- 700 亿参数的 Chinchilla 用 4 倍数据,全面超越 2800 亿的 Gopher。
- ‘compute-optimal’重写了大模型的最优配方——同样算力,该换个花法。
推翻了一个流行做法
2020 年的缩放定律给人留下一个印象:给定算力,优先把模型做大。于是 GPT-3(1750 亿)、Gopher(2800 亿)、MT-NLG(5300 亿)一路狂飙参数。Chinchilla 这篇论文做了更仔细的实验,得出一个扎心的修正:大家普遍把参数堆得太多、数据喂得太少,这些大模型其实都‘营养不良’。
新配方:参数和数据要同步长
Chinchilla 的结论是,在固定算力预算下,参数量 N 和训练 token 数 D 应该大致同比例增长(经验上每个参数配约 20 个 token)。按这个配方,他们训了个只有 700 亿参数、但喂了 1.4 万亿 token(是 Gopher 数据量的 4 倍)的 Chinchilla。结果:在几乎所有任务上全面超越 2800 亿的 Gopher。小了 4 倍,还更强。
旧做法(GPT-3/Gopher): 参数 ↑↑↑,数据 ↑
新配方(Chinchilla): 参数 ↑, 数据 ↑↑↑ (约 20 tokens / 参数)
# 同样的算力,换种花法,效果更好且推理更省
为什么这个修正影响深远
它有双重价值。研究上,它纠正了整个行业的资源配置方向。工程上,意义更大:一个更小但训练更充分的模型,不仅效果好,推理还更便宜更快——这对要把模型部署成产品、天天承担推理成本的人来说,是实打实的省钱。
Chinchilla 之后,行业的风向明显从‘比谁参数大’转向‘比谁训练得更充分、推理更高效’。这也解释了为什么后来很多强模型(比如某些开源模型)参数没那么夸张,效果却很能打——它们都是 Chinchilla 的信徒。‘数据才是真正稀缺的燃料’这个认知,从这篇开始深入人心。