‘基础模型’:斯坦福给这个时代起了个名字
// TL;DR
- ‘基础模型’:在海量数据上预训练、可适配到广泛下游任务的大模型(GPT-3、BERT、CLIP 等)。
- 报告系统讨论了它们的能力、风险与社会影响。
- 命名一个范式,意味着研究界开始把它当作独立的研究对象。
一个词的分量
斯坦福成立了一个研究中心(CRFM),发布了一份上百页的报告,正式提出 Foundation Models 这个术语,用来统称 GPT-3、BERT、CLIP 这一类‘在海量数据上预训练、然后能适配到大量下游任务’的大模型。‘foundation(地基)’这个比喻很贴切:它们本身不直接解决某个具体问题,而是作为一层地基,各种应用在它之上盖楼。
为什么‘命名’本身重要
科学史上,给一类现象命名,常常是它从‘零散观察’变成‘独立研究领域’的转折点。在‘基础模型’这个词之前,我们零散地谈论 GPT、BERT、CLIP;有了这个词,大家意识到它们共享同一套底层逻辑(大规模预训练 + 涌现能力 + 可适配性),也共享同一批问题(同质化风险、偏见传导、责任归属)。命名,让讨论有了共同的坐标系。
报告点出的隐忧
- 同质化:全世界的 AI 应用都建在少数几个基础模型上,意味着这几个模型的缺陷和偏见会被传导、放大到无数下游——一处地基开裂,栋栋楼遭殃。
- 权力集中:能训练基础模型的只有少数巨头,这让 AI 的发展方向被极少数玩家掌控。
- 涌现的不可预测性:能力是‘涌现’出来的,意味着风险也可能是涌现的——你没法在小规模上完全预知大模型会冒出什么行为。
我的判断
这份报告也有争议(有人觉得‘基础模型’这个命名本身在强化对大模型的崇拜)。但我认同它的核心判断:我们正在进入一个‘少数基础模型支撑大量应用’的时代,这个结构既高效又脆弱。对从业者,真正的战略问题不再是‘要不要用基础模型’,而是‘建在别人的地基上,我的楼还是我的吗?护城河在哪?’——这个问题,从 GPT-3 API 那天起我就在追问,现在它有了名字。