BERT 屠榜:双向预训练把 NLP 带进“微调时代”
// TL;DR
- BERT 用 Masked LM 实现真正的双向上下文编码(GPT 是单向)。
- 11 项任务集体刷新纪录,GLUE 提升幅度罕见。
- “下载预训练模型 + 微调几个 epoch”成为 NLP 工程的标准起手式。
和 GPT 的路线分叉
还记得六月 GPT-1 埋的伏笔吗?GPT 用 Transformer 解码器,预测下一个词,只能看左边的上下文(单向)。BERT 选了编码器,并提出 Masked Language Model:随机盖住句子里 15% 的词让模型去猜——既然是“完形填空”,模型就能同时利用左右两边的上下文(双向)。直觉上,理解一个词的含义当然要看它前后,BERT 把这个直觉做实了。
# Masked LM 训练样本
输入: 今天 [MASK] 气 真 [MASK]
目标: 天 好
# 模型必须综合左右上下文才能填对
屠榜的冲击波
BERT-large 在 11 项任务上刷新 SOTA,GLUE 综合分的提升幅度大到让人怀疑是不是哪里算错了。更重要的是它的使用方式:Google 把预训练好的模型权重直接开源,任何人下载下来、接个简单的输出层、用自己的小数据微调几轮,就能在专业任务上拿到接近 SOTA 的结果。NLP 工程的起点,从“设计模型架构”变成了“选个预训练模型来微调”。
我的判断
BERT 把我年初的猜想验证得明明白白:大规模预训练这套打法平推了 NLP。从此整个领域的工作重心发生转移——少了很多“我设计了一个新架构”,多了很多“我用 BERT 在某任务上微调出了新高度”。但也留了个悬念:BERT 擅长理解(编码),GPT 那条生成(解码)的路线被暂时盖过了风头。理解派现在领先,但生成派的故事还没讲完。