谷歌翻译换引擎:GNMT 一夜之间把错误率砍掉六成
// TL;DR
- GNMT:深层 LSTM 编码器-解码器 + 注意力 + 残差连接,端到端整句翻译。
- 人工评估错误率比短语统计系统下降 55%-85%,中英方向最先上线。
- wordpiece 分词缓解未登录词问题——子词这个思路值得记住。
十年系统一夜换血
Google 这周发布了 GNMT(Google Neural Machine Translation),并且不是发论文表演——是直接把谷歌翻译的中英方向换上了新引擎。老的短语式统计翻译(PBMT)是过去十年的工业标准:把句子切碎、查短语表、再拼回去,翻译腔浓重。GNMT 改成端到端:8 层 LSTM 编码器读整句,8 层解码器配注意力机制写整句,残差连接保证深层网络训得动。
几个工程细节值得抄作业
- wordpiece 子词分词:把罕见词拆成常见碎片,词表可控的同时基本消灭了未登录词,对中文这种没有天然空格的语言尤其友好。
- 长度归一化与覆盖惩罚:解码时防止译文越翻越短、或者漏翻原文片段。
- 量化推理:上线版本用低精度计算压延迟,论文里专门写了一章——学术成果落地,一半的功夫在这种地方。
我的看法
人工评估显示错误率下降 55% 到 85%,有些语向的进步等于过去十年的总和。但比数字更重要的是范式信号:连机器翻译这种最讲究规则、积累了海量语言学工程的领域,也被端到端神经网络平推了。“特征工程 + 管线”输给“数据 + 端到端”的剧本,视觉演过一遍,语音演过一遍,这次轮到 NLP。下一个是谁?