session://14:29:33
~/ / posts / 2021-06-wudao.md

悟道 2.0:中国的 1.75 万亿参数,和一场规模竞赛

2021-06-01· 1 min read · [深度思考]
// TL;DR
  • 悟道 2.0 用 MoE(混合专家)架构冲到 1.75 万亿参数,多模态、中英双语。
  • 标志中国正式入场大模型规模竞赛。
  • MoE 让‘参数量’和‘实际计算量’脱钩,‘谁更大’这个指标开始失真。

万亿参数时代

北京智源研究院发布悟道 2.0,参数量 1.75 万亿——是 GPT-3 的十倍,一举夺下‘世界最大模型’的头衔。它支持中英双语和图文多模态,背后是国内一批顶尖高校和机构的合力。这是中国在大模型这条赛道上一次响亮的宣示:规模竞赛,我们也来了。

但‘最大’这个词开始变滑

这里有个技术细节必须点破:悟道用的是 MoE(Mixture of Experts,混合专家)架构。MoE 的特点是模型里有很多‘专家’子网络,但每次推理只激活其中一小部分。所以它的‘总参数量’可以堆得很大,但单次前向的‘实际计算量’远小于同等参数的稠密模型。

这就让‘谁的参数多’这个排行榜变得有点失真——1.75 万亿的 MoE 和 1750 亿的稠密模型,不能简单按参数比能力。GPT-3 是稠密模型,每个参数每次都参与计算;MoE 是‘稀疏激活’,纸面规模和有效算力是两本账。拿总参数量当唯一标尺,容易误导。

我的看法

悟道的工程意义不该被低估——把模型推到万亿规模需要硬核的分布式训练能力,这本身是实力。但我更想提醒的是评价方式的成熟:2020 年缩放定律之后,大家一窝蜂比参数量,而真正该比的是‘在有用任务上的真实表现’和‘单位算力的产出’。‘最大’会越来越廉价(MoE 让堆参数变容易了),‘最有用’才稀缺。这一年,行业该从‘比谁大’慢慢转向‘比谁强、比谁省’。这个转变会贯穿后面好几年。

大模型行业动态人工智能
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。