神经风格迁移:把你的自拍画成梵高
// TL;DR
- 内容 = 高层特征的激活;风格 = 各层特征的 Gram 矩阵(相关性统计)。
- 对白噪声图做梯度下降,同时逼近内容图的内容和风格图的风格。
- 证明了判别式训练的网络里藏着可观的生成能力。
论文的核心洞察
A Neural Algorithm of Artistic Style 这篇论文这周刷屏了,效果图人人都见过:一张图宾根的照片,分别穿上梵高《星夜》、蒙克《呐喊》的画风。它的核心发现其实很优雅:一个在 ImageNet 上训练好的 VGG 网络,高层激活编码了图像的“内容”(什么东西在哪),而各层特征图之间的相关性(Gram 矩阵)编码了“风格”(笔触、色彩、纹理的统计规律)。
既然内容和风格在特征空间里是可分离的,那就可以各取所需:从一张白噪声图开始做梯度下降,让它的高层特征逼近照片、让它的 Gram 矩阵逼近名画。优化收敛,你就得到了“梵高画的你家猫”。
比效果更重要的事
这个网络从头到尾没学过怎么画画——它是个分类器,训练目标只是认出图里是什么。但风格迁移证明,为了做好判别任务,它顺手学会了一套足够丰富的视觉表征,丰富到可以反过来用于生成。“判别模型里藏着生成能力”,这个判断今年已经被 DeepDream 和这篇论文验证了两次。生成这条线,值得长期持仓。