session://14:29:33
~/ / posts / 2018-06-gpt1.md

GPT-1:OpenAI 押注“预训练 + 微调”的第一张牌

2018-06-11· 1 min read · [论文解读]
// TL;DR
  • GPT = Transformer 解码器 + 大规模无监督语言模型预训练 + 下游微调。
  • 1.17 亿参数,在 12 项任务中 9 项刷新 SOTA。
  • 核心赌注:通用预训练表征 > 为每个任务从头训练。

它在赌什么

GPT(Generative Pre-Training)的思路在今天看稀松平常,在当时是个明确的方向选择:先用海量无标注文本(BooksCorpus)训练一个 Transformer 解码器做语言模型——就是不断预测下一个词;然后针对具体任务(分类、蕴含、相似度)做轻量微调。1.17 亿参数,12 个任务里 9 个刷新纪录。

为什么这是个聪明的赌注

标注数据贵,无标注文本几乎无限。GPT 的逻辑是:让模型先在无限的文本上学会语言的通用规律(语法、常识、一定的推理),这部分不花标注钱;下游任务只需少量标注做微调,相当于在通用地基上盖小房子。这把“每个任务从零训练”的旧范式,换成了“一次预训练,处处微调”。

我的判断

GPT-1 的绝对成绩并不炸裂,但方向感极强:它清晰地表达了 OpenAI 对 Transformer + 大规模预训练这条路的信心。值得记一笔的是它选了解码器(单向、只看左边),这跟两个月后将要出现的某个双向模型形成了路线分叉。当时还看不出谁对,但这个分叉后面会很重要。先埋个伏笔。

NLP大模型论文解读深度学习
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。