Chinchilla:原来过去两年,我们的大模型都‘喂不饱’

推翻了一个流行做法

2020 年的缩放定律给人留下一个印象:给定算力,优先把模型做大。于是 GPT-3(1750 亿)、Gopher(2800 亿)、MT-NLG(5300 亿)一路狂飙参数。Chinchilla 这篇论文做了更仔细的实验,得出一个扎心的修正:大家普遍把参数堆得太多、数据喂得太少,这些大模型其实都‘营养不良’。

新配方:参数和数据要同步长

Chinchilla 的结论是,在固定算力预算下,参数量 N 和训练 token 数 D 应该大致同比例增长(经验上每个参数配约 20 个 token)。按这个配方,他们训了个只有 700 亿参数、但喂了 1.4 万亿 token(是 Gopher 数据量的 4 倍)的 Chinchilla。结果:在几乎所有任务上全面超越 2800 亿的 Gopher。小了 4 倍,还更强。

旧做法(GPT-3/Gopher): 参数 ↑↑↑,数据 ↑
新配方(Chinchilla):  参数 ↑,  数据 ↑↑↑  (约 20 tokens / 参数)
# 同样的算力，换种花法，效果更好且推理更省

为什么这个修正影响深远

它有双重价值。研究上,它纠正了整个行业的资源配置方向。工程上,意义更大:一个更小但训练更充分的模型,不仅效果好,推理还更便宜更快——这对要把模型部署成产品、天天承担推理成本的人来说,是实打实的省钱。

Chinchilla 之后,行业的风向明显从‘比谁参数大’转向‘比谁训练得更充分、推理更高效’。这也解释了为什么后来很多强模型(比如某些开源模型)参数没那么夸张,效果却很能打——它们都是 Chinchilla 的信徒。‘数据才是真正稀缺的燃料’这个认知,从这篇开始深入人心。

推翻了一个流行做法

新配方:参数和数据要同步长

为什么这个修正影响深远

每周一封，<5 分钟读完