session://14:29:33
~/ / posts / 2023-02-llama-leak.md

一次‘泄露’点燃的开源野火:LLaMA 和它没料到的后果

2023-02-24· 2 min read · [深度思考]
// TL;DR
  • LLaMA 用 Chinchilla 配方(小参数 + 海量数据)训出 7B~65B,13B 版在多数基准上追平 175B 的 GPT-3。
  • 权重泄露后,llama.cpp 让它能在 MacBook 甚至树莓派上跑;Alpaca 用 600 美元就把它调成了指令助手。
  • ‘小而精 + 能本地跑 + 可微调’这条路,正面挑战了‘大而闭 + 只能调 API’的范式。

先说 Meta 的本意。2 月底他们放出 LLaMA,定位很克制:这是一组‘高效’的基础模型(7B、13B、33B、65B),论文的核心卖点其实是 Chinchilla 那套——不堆参数,而是用相对小的模型配上海量 token 训到很充分。最亮眼的数字是 13B 版本:在大多数基准上追平了 10 倍大的 GPT-3(175B)。换句话说,一年前你需要一个数据中心才能碰的能力,现在一张高端显卡可能就够了。Meta 说,权重只发给申请的研究者。

然后,一周之内,完整权重就被人传到了 4chan 和各种 BT 站。‘仅供研究’的篱笆形同虚设。

失控之后,真正有意思的事才开始

如果 LLaMA 只是又一个强模型,泄露也就是个新闻。但它点着了一连串连锁反应,每一环都比上一环更猛:

  • llama.cpp:Georgi Gerganov 用纯 C/C++ 重写推理,加上 4-bit 量化,让 LLaMA 能在一台没有独显的 MacBook、甚至树莓派上跑起来。大模型第一次脱离了云和显卡农场,真正‘落地’到个人设备。
  • Stanford Alpaca:研究者用 GPT-3.5 生成了 5.2 万条指令数据,花约 600 美元微调 LLaMA-7B,就得到了一个对话质量接近 ChatGPT 的模型。‘训一个聊天助手要几百万美元’的神话,被 600 美元击穿了。
  • 紧接着 Vicuna、Koala、WizardLM……一个月内冒出几十个微调变体,各种排行榜每周刷新。

一份泄露的内部备忘录,说穿了巨头的恐惧

这一年中段,一份据称来自 Google 内部的备忘录流出,标题是《我们没有护城河,OpenAI 也没有》。作者的论点很扎心:当开源社区能在几周内、用几百美元复刻出巨头几千万美元训练的能力,当 LoRA 这种技术让人在消费级显卡上几小时就能定制模型,巨头那点领先优势正在被开源生态以惊人的速度蒸发。真正的护城河不在模型本身,而在生态。

我未必全盘同意那份备忘录——后面 GPT-4 会证明,在最前沿,闭源巨头仍有相当的领先身位,顶尖能力依然烧钱烧出来。但它点出的趋势是真的:大模型正在迅速分裂成两个世界。一个是‘前沿闭源’,几家公司用天量算力守住能力上限;另一个是‘开放生态’,无数人在‘够用’的开源模型上疯狂迭代、定制、压成本。

对从业者,这件事的实操含义很具体:你不再只有‘调 OpenAI 的 API’一个选项了。需要数据私有、需要离线、需要垂直定制、需要把单位推理成本压到地板——开源这条路突然变得可行。我追问了三年的‘建在别人地基上、护城河在哪’,2023 年给了第一个像样的答案:要么你在生态位上做到不可替代,要么你干脆把地基也攥在自己手里。LLaMA 的泄露,意外地把后一种选择,递到了所有人面前。

大模型开源项目行业动态工程实践
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。