session://14:29:33
~/ / posts / 2020-02-self-supervised.md

自监督的春天:SimCLR 证明‘不用标签’也能学出好表征

2020-02-13· 1 min read · [论文解读]
// TL;DR
  • 对比学习:同图的不同增强视角互为正样本,其余为负样本。
  • 强数据增强 + 大批量 + 投影头,把自监督表征推到接近监督水平。
  • NLP 早就靠自监督(预测下一词)起飞,视觉这次补上了。

对比学习在干嘛

监督学习的命门是标注:ImageNet 那 128 万张人工标注图,贵且不可扩展。自监督的野心是甩掉标签,直接从数据本身造监督信号。SimCLR 的做法朴素而有效:把一张图做两次不同的随机增强(裁剪、变色、模糊),得到两个视角,训练模型让这两个视角的表征互相靠近,同时和 batch 里其他图的表征推远。

核心直觉:能在各种花式变换后还认出‘这是同一张图’的表征,一定抓住了图像的本质语义,而不是表面像素。论文发现三个东西特别关键——足够猛的数据增强、足够大的负样本批量、以及一个训练时用、下游丢弃的投影头。

为什么这条线重要

NLP 这边早就靠自监督(预测下一个词/完形填空)吃到了无限语料的红利——GPT、BERT 都是。视觉一直差一口气,SimCLR 这类工作把差距补上了:用海量无标注图片预训练,再用少量标注微调,效果逼近甚至在数据少时超过纯监督。

我的看法

把这条线和年初的缩放定律放一起看,逻辑就通了:缩放定律说‘数据越多越好’,自监督说‘不用标注也能用数据’——两者一结合,就解锁了用整个互联网的无标注数据来训练的可能性。这正是大模型时代的燃料配方。监督学习不会消失,但‘标注驱动’的时代正在让位给‘自监督预训练 + 少量微调’。

深度学习计算机视觉论文解读
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。