session://14:29:33
~/ / posts / 2017-06-transformer.md

Attention Is All You Need:八个人把 RNN 送进了历史

2017-06-12· 2 min read · [论文解读]
// TL;DR
  • 核心主张:序列建模不需要循环结构,自注意力直接建模任意两个位置的依赖。
  • 彻底并行化:训练不再受“逐步递归”拖累,大数据大模型的门被推开了。
  • 多头注意力 + 位置编码 + 残差,结构简单得像乐高,扩展性是隐藏王牌。

它推翻了什么

过去三年做 NLP 的默认配置是 RNN/LSTM + 注意力:循环网络负责编码序列,注意力当辅助。这篇论文的标题已经把话挑明了——Attention Is All You Need,注意力不是辅助,是全部。RNN 的递归被整个扔掉,模型只剩三种积木:自注意力、前馈层、残差连接加 LayerNorm。

自注意力在干嘛

每个位置的词生成三个向量:Query、Key、Value。一个词拿自己的 Q 去和所有词的 K 算相似度,加权汇总所有词的 V——一步到位地“看到”整个句子里任何位置的信息。RNN 要传递长距离依赖得一步步走过去,信息在路上不断衰减;自注意力的任意两点距离都是 1。

# 缩放点积注意力,核心就一行
Attention(Q, K, V) = softmax(Q @ K.T / sqrt(d_k)) @ V

因为丢掉了递归,整个序列可以一次性并行计算——这才是真正的杀手锏。RNN 训练慢不是算力不够,是结构上不让你并行。Transformer 把这个枷锁拆了:论文里 8 卡 P100 训 3.5 天就拿下 WMT 英德翻译的新纪录,成本只有之前最优模型的几分之一。

我为什么觉得这篇会越来越重要

翻译指标涨几个 BLEU 不是重点。重点是这个架构的“可扩展性”:结构规整、计算密集、完美适配 GPU/TPU 的并行能力——你给它更多数据和算力,它就能更大。RNN 时代“模型做大”这条路一直被训练效率卡着脖子,现在脖子松开了。

大胆放一个预测在这:接下来几年 NLP 的故事,会是“Transformer + 越来越多的数据 + 越来越大的模型”。如果字符级 RNN 那种小打小闹都能学出语法结构,这台并行化的注意力机器吃下整个互联网会吐出什么,我非常好奇。

深度学习NLP论文解读大模型
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。