Gopher 与 RETRO:DeepMind 说,光把模型做大可能不够
// TL;DR
- Gopher(2800 亿)系统评估了规模在不同任务上的收益——并不均匀。
- RETRO:推理时检索外部数据库,让 75 亿参数模型媲美 2800 亿的 Gopher。
- ‘把知识塞进参数’ vs ‘让模型查资料’,两条路线的分野。
Gopher:把规模的收益看仔细
DeepMind 训了个 2800 亿参数的 Gopher,但论文最有价值的不是‘又大了’,而是它系统地拆解了‘规模到底在哪些任务上有用’。结论很微妙:在阅读理解、事实核查这类任务上,规模收益显著;但在逻辑推理、数学这类需要‘真正思考’的任务上,光把模型做大,提升有限。规模不是万能药,它对不同能力的‘性价比’差异很大。
RETRO:让模型学会‘查资料’
更有意思的是 RETRO。它挑战了一个默认假设:模型的所有知识都得压进参数里。RETRO 的做法是,推理时去一个外部的、上万亿 token 的文本数据库里检索相关片段,把检索到的内容喂给模型当上下文。结果一个仅 75 亿参数的 RETRO,在语言建模上追平了 25 倍大的 Gopher。
传统大模型: 问题 → [所有知识都在参数里] → 答案
RETRO: 问题 → 检索外部库 → [相关资料 + 模型] → 答案
# 把‘记住一切’换成‘需要时查’
为什么这个分野重要
‘把知识塞进参数’的问题很明显:知识会过时(模型训完那天就定格了)、参数越塞越大越贵、而且你不知道它到底记住了什么、有没有记错。‘让模型查资料’的思路则把‘知识’和‘推理能力’解耦了——模型负责理解和推理,外部库负责提供最新、可溯源的事实。
我对 RETRO 这条线非常看好。它指向一个更合理的架构:不是无限堆参数去记住整个互联网,而是一个擅长推理的核心 + 一个可更新的外部知识库。这个思想,几年后会以‘RAG(检索增强生成)’的名字火遍整个行业,成为企业落地大模型的标配。Gopher 提醒我们规模有边界,RETRO 指出了边界之外的一条路。这一篇,值得反复回看。