Attention Is All You Need:八个人把 RNN 送进了历史
// TL;DR
- 核心主张:序列建模不需要循环结构,自注意力直接建模任意两个位置的依赖。
- 彻底并行化:训练不再受“逐步递归”拖累,大数据大模型的门被推开了。
- 多头注意力 + 位置编码 + 残差,结构简单得像乐高,扩展性是隐藏王牌。
它推翻了什么
过去三年做 NLP 的默认配置是 RNN/LSTM + 注意力:循环网络负责编码序列,注意力当辅助。这篇论文的标题已经把话挑明了——Attention Is All You Need,注意力不是辅助,是全部。RNN 的递归被整个扔掉,模型只剩三种积木:自注意力、前馈层、残差连接加 LayerNorm。
自注意力在干嘛
每个位置的词生成三个向量:Query、Key、Value。一个词拿自己的 Q 去和所有词的 K 算相似度,加权汇总所有词的 V——一步到位地“看到”整个句子里任何位置的信息。RNN 要传递长距离依赖得一步步走过去,信息在路上不断衰减;自注意力的任意两点距离都是 1。
# 缩放点积注意力,核心就一行
Attention(Q, K, V) = softmax(Q @ K.T / sqrt(d_k)) @ V
因为丢掉了递归,整个序列可以一次性并行计算——这才是真正的杀手锏。RNN 训练慢不是算力不够,是结构上不让你并行。Transformer 把这个枷锁拆了:论文里 8 卡 P100 训 3.5 天就拿下 WMT 英德翻译的新纪录,成本只有之前最优模型的几分之一。
我为什么觉得这篇会越来越重要
翻译指标涨几个 BLEU 不是重点。重点是这个架构的“可扩展性”:结构规整、计算密集、完美适配 GPU/TPU 的并行能力——你给它更多数据和算力,它就能更大。RNN 时代“模型做大”这条路一直被训练效率卡着脖子,现在脖子松开了。
大胆放一个预测在这:接下来几年 NLP 的故事,会是“Transformer + 越来越多的数据 + 越来越大的模型”。如果字符级 RNN 那种小打小闹都能学出语法结构,这台并行化的注意力机器吃下整个互联网会吐出什么,我非常好奇。