session://14:29:34
~/ / posts / 2015-08-neural-style-transfer.md

神经风格迁移:把你的自拍画成梵高

2015-08-26· 1 min read · [论文解读]
// TL;DR
  • 内容 = 高层特征的激活;风格 = 各层特征的 Gram 矩阵(相关性统计)。
  • 对白噪声图做梯度下降,同时逼近内容图的内容和风格图的风格。
  • 证明了判别式训练的网络里藏着可观的生成能力。

论文的核心洞察

A Neural Algorithm of Artistic Style 这篇论文这周刷屏了,效果图人人都见过:一张图宾根的照片,分别穿上梵高《星夜》、蒙克《呐喊》的画风。它的核心发现其实很优雅:一个在 ImageNet 上训练好的 VGG 网络,高层激活编码了图像的“内容”(什么东西在哪),而各层特征图之间的相关性(Gram 矩阵)编码了“风格”(笔触、色彩、纹理的统计规律)。

既然内容和风格在特征空间里是可分离的,那就可以各取所需:从一张白噪声图开始做梯度下降,让它的高层特征逼近照片、让它的 Gram 矩阵逼近名画。优化收敛,你就得到了“梵高画的你家猫”。

比效果更重要的事

这个网络从头到尾没学过怎么画画——它是个分类器,训练目标只是认出图里是什么。但风格迁移证明,为了做好判别任务,它顺手学会了一套足够丰富的视觉表征,丰富到可以反过来用于生成。“判别模型里藏着生成能力”,这个判断今年已经被 DeepDream 和这篇论文验证了两次。生成这条线,值得长期持仓。

计算机视觉生成式AI论文解读
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。