GPT-1：OpenAI 押注“预训练 + 微调”的第一张牌

它在赌什么

GPT（Generative Pre-Training）的思路在今天看稀松平常，在当时是个明确的方向选择：先用海量无标注文本（BooksCorpus）训练一个 Transformer 解码器做语言模型——就是不断预测下一个词；然后针对具体任务（分类、蕴含、相似度）做轻量微调。1.17 亿参数，12 个任务里 9 个刷新纪录。

为什么这是个聪明的赌注

标注数据贵，无标注文本几乎无限。GPT 的逻辑是：让模型先在无限的文本上学会语言的通用规律（语法、常识、一定的推理），这部分不花标注钱；下游任务只需少量标注做微调，相当于在通用地基上盖小房子。这把“每个任务从零训练”的旧范式，换成了“一次预训练，处处微调”。

我的判断

GPT-1 的绝对成绩并不炸裂，但方向感极强：它清晰地表达了 OpenAI 对 Transformer + 大规模预训练这条路的信心。值得记一笔的是它选了解码器（单向、只看左边），这跟两个月后将要出现的某个双向模型形成了路线分叉。当时还看不出谁对，但这个分叉后面会很重要。先埋个伏笔。

它在赌什么

为什么这是个聪明的赌注

我的判断

每周一封，<5 分钟读完