WaveNet:DeepMind 让机器一“个”采样点一个采样点地说话
// TL;DR
- WaveNet 逐采样点自回归生成原始波形,用空洞因果卷积撑大感受野。
- MOS 评分大幅超越拼接式和参数式 TTS,明显逼近真人。
- 同一框架还能生成音乐——“自回归生成原始信号”是个通用思路。
暴力但优雅的思路
语音合成之前有两条主流路线:拼接式(把真人录音切碎了拼)和参数式(声码器合成),前者僵硬后者发闷。DeepMind 这周发布的 WaveNet 选择了一条看起来最笨的路:直接建模原始波形——音频每秒 16000 个采样点,模型就一个点一个点地自回归预测,每个点的取值依赖前面所有的点。
让这条笨路走通的关键是空洞因果卷积(dilated causal convolution):卷积层的空洞率逐层翻倍,感受野指数级扩张,几十层就能覆盖几百毫秒的上下文,又不需要 RNN 那样难以并行的递归。
效果与代价
盲听评分(MOS)上,WaveNet 把拼接式和参数式都甩开一截,跟真人录音的差距缩小了一半以上。代价是生成太慢——逐点生成意味着合成一秒音频要跑一万六千次前向,目前完全没法实时。Google 自家产品想用上它,还得先解决推理加速。
但我更愿意把它看成一个范式宣言:不做特征工程、不做中间表示,直接在最原始的信号上做自回归,靠模型容量硬吃。这个思路在文本上(字符级 RNN)和语音上都验证了,下一个会是图像的像素,还是别的什么?“自回归 + 原始数据 + 大感受野”这个配方,建议长期关注。