悟道 2.0:中国的 1.75 万亿参数,和一场规模竞赛
// TL;DR
- 悟道 2.0 用 MoE(混合专家)架构冲到 1.75 万亿参数,多模态、中英双语。
- 标志中国正式入场大模型规模竞赛。
- MoE 让‘参数量’和‘实际计算量’脱钩,‘谁更大’这个指标开始失真。
万亿参数时代
北京智源研究院发布悟道 2.0,参数量 1.75 万亿——是 GPT-3 的十倍,一举夺下‘世界最大模型’的头衔。它支持中英双语和图文多模态,背后是国内一批顶尖高校和机构的合力。这是中国在大模型这条赛道上一次响亮的宣示:规模竞赛,我们也来了。
但‘最大’这个词开始变滑
这里有个技术细节必须点破:悟道用的是 MoE(Mixture of Experts,混合专家)架构。MoE 的特点是模型里有很多‘专家’子网络,但每次推理只激活其中一小部分。所以它的‘总参数量’可以堆得很大,但单次前向的‘实际计算量’远小于同等参数的稠密模型。
这就让‘谁的参数多’这个排行榜变得有点失真——1.75 万亿的 MoE 和 1750 亿的稠密模型,不能简单按参数比能力。GPT-3 是稠密模型,每个参数每次都参与计算;MoE 是‘稀疏激活’,纸面规模和有效算力是两本账。拿总参数量当唯一标尺,容易误导。
我的看法
悟道的工程意义不该被低估——把模型推到万亿规模需要硬核的分布式训练能力,这本身是实力。但我更想提醒的是评价方式的成熟:2020 年缩放定律之后,大家一窝蜂比参数量,而真正该比的是‘在有用任务上的真实表现’和‘单位算力的产出’。‘最大’会越来越廉价(MoE 让堆参数变容易了),‘最有用’才稀缺。这一年,行业该从‘比谁大’慢慢转向‘比谁强、比谁省’。这个转变会贯穿后面好几年。