session://14:29:33
~/ / posts / 2018-10-bert.md

BERT 屠榜:双向预训练把 NLP 带进“微调时代”

2018-10-11· 1 min read · [论文解读]
// TL;DR
  • BERT 用 Masked LM 实现真正的双向上下文编码(GPT 是单向)。
  • 11 项任务集体刷新纪录,GLUE 提升幅度罕见。
  • “下载预训练模型 + 微调几个 epoch”成为 NLP 工程的标准起手式。

和 GPT 的路线分叉

还记得六月 GPT-1 埋的伏笔吗?GPT 用 Transformer 解码器,预测下一个词,只能看左边的上下文(单向)。BERT 选了编码器,并提出 Masked Language Model:随机盖住句子里 15% 的词让模型去猜——既然是“完形填空”,模型就能同时利用左右两边的上下文(双向)。直觉上,理解一个词的含义当然要看它前后,BERT 把这个直觉做实了。

# Masked LM 训练样本
输入: 今天 [MASK] 气 真 [MASK]
目标:      天          好
# 模型必须综合左右上下文才能填对

屠榜的冲击波

BERT-large 在 11 项任务上刷新 SOTA,GLUE 综合分的提升幅度大到让人怀疑是不是哪里算错了。更重要的是它的使用方式:Google 把预训练好的模型权重直接开源,任何人下载下来、接个简单的输出层、用自己的小数据微调几轮,就能在专业任务上拿到接近 SOTA 的结果。NLP 工程的起点,从“设计模型架构”变成了“选个预训练模型来微调”。

我的判断

BERT 把我年初的猜想验证得明明白白:大规模预训练这套打法平推了 NLP。从此整个领域的工作重心发生转移——少了很多“我设计了一个新架构”,多了很多“我用 BERT 在某任务上微调出了新高度”。但也留了个悬念:BERT 擅长理解(编码),GPT 那条生成(解码)的路线被暂时盖过了风头。理解派现在领先,但生成派的故事还没讲完。

NLP大模型论文解读深度学习
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。