BigGAN:把 GAN 做大,生成的图开始“以假乱真”
// TL;DR
- 大批量(2048)+ 大模型 + 截断技巧,把生成质量推到新高度。
- Inception Score 大幅跃升,512px 类条件生成首次接近真实感。
- “放大就有效”从判别模型蔓延到了生成模型。
暴力出奇迹(这次是生成)
GAN 自 2014 年诞生以来一直有两个老大难:训练不稳定(生成器判别器互相拉扯到崩溃)、生成分辨率上不去。BigGAN 的答案某种程度上简单粗暴:把批量大小从常见的几百拉到 2048,参数量翻几倍,再加上正交正则化、截断技巧(truncation trick)等一组稳定化手段。结果 512×512 的 ImageNet 类条件生成第一次到了“扫一眼分不出真假”的水平。
截断技巧很有意思
BigGAN 发现一个调节“质量 vs 多样性”的旋钮:采样时把输入噪声向截断到接近均值,生成质量飙升但多样性下降;放开则相反。这等于给了使用者一个连续可调的滑块——要惊艳的样张就往质量端拧,要覆盖全分布就往多样性端拧。工程上非常实用。
趋势确认
把今年的事串起来看:年初轻量化在证明“小也能用”,年中 BigGAN 在证明“大就是强”——这俩不矛盾,是光谱的两端。但更大的图景是,‘scale 起效’这个规律的适用面在持续扩张:先是图像分类,然后是翻译,现在是图像生成。每次有人把某个模型做大、效果就上一个台阶,我就更怀疑这件事没有近在眼前的天花板。年底 NLP 那边大概也要有大动作了——这是直觉,记下来对答案。