BERT 屠榜：双向预训练把 NLP 带进“微调时代”

和 GPT 的路线分叉

还记得六月 GPT-1 埋的伏笔吗？GPT 用 Transformer 解码器，预测下一个词，只能看左边的上下文（单向）。BERT 选了编码器，并提出 Masked Language Model：随机盖住句子里 15% 的词让模型去猜——既然是“完形填空”，模型就能同时利用左右两边的上下文（双向）。直觉上，理解一个词的含义当然要看它前后，BERT 把这个直觉做实了。

# Masked LM 训练样本
输入: 今天 [MASK] 气 真 [MASK]
目标:      天          好
# 模型必须综合左右上下文才能填对

屠榜的冲击波

BERT-large 在 11 项任务上刷新 SOTA，GLUE 综合分的提升幅度大到让人怀疑是不是哪里算错了。更重要的是它的使用方式：Google 把预训练好的模型权重直接开源，任何人下载下来、接个简单的输出层、用自己的小数据微调几轮，就能在专业任务上拿到接近 SOTA 的结果。NLP 工程的起点，从“设计模型架构”变成了“选个预训练模型来微调”。

我的判断

BERT 把我年初的猜想验证得明明白白：大规模预训练这套打法平推了 NLP。从此整个领域的工作重心发生转移——少了很多“我设计了一个新架构”，多了很多“我用 BERT 在某任务上微调出了新高度”。但也留了个悬念：BERT 擅长理解（编码），GPT 那条生成（解码）的路线被暂时盖过了风头。理解派现在领先，但生成派的故事还没讲完。

和 GPT 的路线分叉

屠榜的冲击波

我的判断

每周一封，<5 分钟读完