Attention Is All You Need：八个人把 RNN 送进了历史

它推翻了什么

过去三年做 NLP 的默认配置是 RNN/LSTM + 注意力：循环网络负责编码序列，注意力当辅助。这篇论文的标题已经把话挑明了——Attention Is All You Need，注意力不是辅助，是全部。RNN 的递归被整个扔掉，模型只剩三种积木：自注意力、前馈层、残差连接加 LayerNorm。

自注意力在干嘛

每个位置的词生成三个向量：Query、Key、Value。一个词拿自己的 Q 去和所有词的 K 算相似度，加权汇总所有词的 V——一步到位地“看到”整个句子里任何位置的信息。RNN 要传递长距离依赖得一步步走过去，信息在路上不断衰减；自注意力的任意两点距离都是 1。

# 缩放点积注意力，核心就一行
Attention(Q, K, V) = softmax(Q @ K.T / sqrt(d_k)) @ V

因为丢掉了递归，整个序列可以一次性并行计算——这才是真正的杀手锏。RNN 训练慢不是算力不够，是结构上不让你并行。Transformer 把这个枷锁拆了：论文里 8 卡 P100 训 3.5 天就拿下 WMT 英德翻译的新纪录，成本只有之前最优模型的几分之一。

我为什么觉得这篇会越来越重要

翻译指标涨几个 BLEU 不是重点。重点是这个架构的“可扩展性”：结构规整、计算密集、完美适配 GPU/TPU 的并行能力——你给它更多数据和算力，它就能更大。RNN 时代“模型做大”这条路一直被训练效率卡着脖子，现在脖子松开了。

大胆放一个预测在这：接下来几年 NLP 的故事，会是“Transformer + 越来越多的数据 + 越来越大的模型”。如果字符级 RNN 那种小打小闹都能学出语法结构，这台并行化的注意力机器吃下整个互联网会吐出什么，我非常好奇。

它推翻了什么

自注意力在干嘛

我为什么觉得这篇会越来越重要

每周一封，<5 分钟读完