~/ / posts / 2016-09-wavenet.md

WaveNet：DeepMind 让机器一“个”采样点一个采样点地说话

2016-09-08· 1 min read · [论文解读]

// TL;DR

WaveNet 逐采样点自回归生成原始波形，用空洞因果卷积撑大感受野。
MOS 评分大幅超越拼接式和参数式 TTS，明显逼近真人。
同一框架还能生成音乐——“自回归生成原始信号”是个通用思路。

暴力但优雅的思路

语音合成之前有两条主流路线：拼接式（把真人录音切碎了拼）和参数式（声码器合成），前者僵硬后者发闷。DeepMind 这周发布的 WaveNet 选择了一条看起来最笨的路：直接建模原始波形——音频每秒 16000 个采样点，模型就一个点一个点地自回归预测，每个点的取值依赖前面所有的点。

让这条笨路走通的关键是空洞因果卷积（dilated causal convolution）：卷积层的空洞率逐层翻倍，感受野指数级扩张，几十层就能覆盖几百毫秒的上下文，又不需要 RNN 那样难以并行的递归。

效果与代价

盲听评分（MOS）上，WaveNet 把拼接式和参数式都甩开一截，跟真人录音的差距缩小了一半以上。代价是生成太慢——逐点生成意味着合成一秒音频要跑一万六千次前向，目前完全没法实时。Google 自家产品想用上它，还得先解决推理加速。

但我更愿意把它看成一个范式宣言：不做特征工程、不做中间表示，直接在最原始的信号上做自回归，靠模型容量硬吃。这个思路在文本上（字符级 RNN）和语音上都验证了，下一个会是图像的像素，还是别的什么？“自回归 + 原始数据 + 大感受野”这个配方，建议长期关注。

深度学习生成式AI 论文解读

cat newsletter.txt

每周一封，<5 分钟读完

把这一周我读过、想过、动手做过的东西，压缩成一封信。订阅者目前 5210+ 人，0 干扰。

查看往期 →