GPT-3:1750 亿参数,和一个叫‘提示词’的新交互方式
// TL;DR
- GPT-3 = 1750 亿参数,比 GPT-2 大 100 倍,缩放定律的一次豪赌兑现。
- In-context learning:仅靠提示词里的几个示例适应新任务,不更新权重。
- ‘写提示词’成了一种新的‘编程’,通用性远超预期。
数字与震撼
GPT-3 把 GPT-2 放大了 100 倍——1750 亿参数,在近一万亿词的语料上训练。年初缩放定律说‘放大 100 倍会更好’,OpenAI 真去做了,而且结果超出了纯粹的‘损失更低’。
真正的范式转变:in-context learning
以前用预训练模型做新任务,标准流程是微调:准备标注数据,更新模型权重。GPT-3 展示了一种全新玩法——什么都不用改,直接在输入里把任务说清楚、给几个例子,它就照着做:
把下面的句子翻译成法语:
海獭 => loutre de mer
薄荷 => menthe poivrée
奶酪 => ← 模型自己接出 "fromage"
# 没有训练,没有梯度,仅靠提示里的示例
这叫 in-context learning。模型在推理时‘临时学会’了任务,权重一个没动。给零个例子叫 zero-shot,给几个叫 few-shot。GPT-3 在大量任务上的 few-shot 表现,逼近甚至超过了专门微调的小模型。
为什么我觉得这是分水岭
在 GPT-3 之前,‘用 AI’意味着‘训练一个模型’,门槛是数据 + 算力 + 算法。GPT-3 之后,‘用 AI’可能只意味着‘写好一段话’——把任务用自然语言描述清楚。这等于把 AI 的使用权从工程师手里,部分地交给了任何会写字的人。
我现在还说不清这意味着什么,但有个强烈预感:‘提示词工程’会成为一个真实的技能,围绕这个 API 会长出一整批应用。OpenAI 把它做成 API 服务而不是开源,商业意图也很明显。这可能是‘AI 作为基础设施’的起点。先重重地记一笔,这篇日后回看八成是个转折点。