session://14:29:33
~/ / posts / 2018-09-biggan.md

BigGAN:把 GAN 做大,生成的图开始“以假乱真”

2018-09-28· 1 min read · [论文解读]
// TL;DR
  • 大批量(2048)+ 大模型 + 截断技巧,把生成质量推到新高度。
  • Inception Score 大幅跃升,512px 类条件生成首次接近真实感。
  • “放大就有效”从判别模型蔓延到了生成模型。

暴力出奇迹(这次是生成)

GAN 自 2014 年诞生以来一直有两个老大难:训练不稳定(生成器判别器互相拉扯到崩溃)、生成分辨率上不去。BigGAN 的答案某种程度上简单粗暴:把批量大小从常见的几百拉到 2048,参数量翻几倍,再加上正交正则化、截断技巧(truncation trick)等一组稳定化手段。结果 512×512 的 ImageNet 类条件生成第一次到了“扫一眼分不出真假”的水平。

截断技巧很有意思

BigGAN 发现一个调节“质量 vs 多样性”的旋钮:采样时把输入噪声向截断到接近均值,生成质量飙升但多样性下降;放开则相反。这等于给了使用者一个连续可调的滑块——要惊艳的样张就往质量端拧,要覆盖全分布就往多样性端拧。工程上非常实用。

趋势确认

把今年的事串起来看:年初轻量化在证明“小也能用”,年中 BigGAN 在证明“大就是强”——这俩不矛盾,是光谱的两端。但更大的图景是,‘scale 起效’这个规律的适用面在持续扩张:先是图像分类,然后是翻译,现在是图像生成。每次有人把某个模型做大、效果就上一个台阶,我就更怀疑这件事没有近在眼前的天花板。年底 NLP 那边大概也要有大动作了——这是直觉,记下来对答案。

生成式AI深度学习论文解读计算机视觉
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。