session://14:29:33
~/ / posts / 2016-09-gnmt.md

谷歌翻译换引擎:GNMT 一夜之间把错误率砍掉六成

2016-09-27· 1 min read · [论文解读]
// TL;DR
  • GNMT:深层 LSTM 编码器-解码器 + 注意力 + 残差连接,端到端整句翻译。
  • 人工评估错误率比短语统计系统下降 55%-85%,中英方向最先上线。
  • wordpiece 分词缓解未登录词问题——子词这个思路值得记住。

十年系统一夜换血

Google 这周发布了 GNMT(Google Neural Machine Translation),并且不是发论文表演——是直接把谷歌翻译的中英方向换上了新引擎。老的短语式统计翻译(PBMT)是过去十年的工业标准:把句子切碎、查短语表、再拼回去,翻译腔浓重。GNMT 改成端到端:8 层 LSTM 编码器读整句,8 层解码器配注意力机制写整句,残差连接保证深层网络训得动。

几个工程细节值得抄作业

  • wordpiece 子词分词:把罕见词拆成常见碎片,词表可控的同时基本消灭了未登录词,对中文这种没有天然空格的语言尤其友好。
  • 长度归一化与覆盖惩罚:解码时防止译文越翻越短、或者漏翻原文片段。
  • 量化推理:上线版本用低精度计算压延迟,论文里专门写了一章——学术成果落地,一半的功夫在这种地方。

我的看法

人工评估显示错误率下降 55% 到 85%,有些语向的进步等于过去十年的总和。但比数字更重要的是范式信号:连机器翻译这种最讲究规则、积累了海量语言学工程的领域,也被端到端神经网络平推了。“特征工程 + 管线”输给“数据 + 端到端”的剧本,视觉演过一遍,语音演过一遍,这次轮到 NLP。下一个是谁?

NLP深度学习论文解读行业动态
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。