谷歌翻译换引擎：GNMT 一夜之间把错误率砍掉六成

十年系统一夜换血

Google 这周发布了 GNMT（Google Neural Machine Translation），并且不是发论文表演——是直接把谷歌翻译的中英方向换上了新引擎。老的短语式统计翻译（PBMT）是过去十年的工业标准：把句子切碎、查短语表、再拼回去，翻译腔浓重。GNMT 改成端到端：8 层 LSTM 编码器读整句，8 层解码器配注意力机制写整句，残差连接保证深层网络训得动。

几个工程细节值得抄作业

wordpiece 子词分词：把罕见词拆成常见碎片，词表可控的同时基本消灭了未登录词，对中文这种没有天然空格的语言尤其友好。
长度归一化与覆盖惩罚：解码时防止译文越翻越短、或者漏翻原文片段。
量化推理：上线版本用低精度计算压延迟，论文里专门写了一章——学术成果落地，一半的功夫在这种地方。

我的看法

人工评估显示错误率下降 55% 到 85%，有些语向的进步等于过去十年的总和。但比数字更重要的是范式信号：连机器翻译这种最讲究规则、积累了海量语言学工程的领域，也被端到端神经网络平推了。“特征工程 + 管线”输给“数据 + 端到端”的剧本，视觉演过一遍，语音演过一遍，这次轮到 NLP。下一个是谁？

十年系统一夜换血

几个工程细节值得抄作业

我的看法

每周一封，<5 分钟读完