自监督的春天:SimCLR 证明‘不用标签’也能学出好表征

对比学习在干嘛

监督学习的命门是标注:ImageNet 那 128 万张人工标注图,贵且不可扩展。自监督的野心是甩掉标签,直接从数据本身造监督信号。SimCLR 的做法朴素而有效:把一张图做两次不同的随机增强(裁剪、变色、模糊),得到两个视角,训练模型让这两个视角的表征互相靠近,同时和 batch 里其他图的表征推远。

核心直觉:能在各种花式变换后还认出‘这是同一张图’的表征,一定抓住了图像的本质语义,而不是表面像素。论文发现三个东西特别关键——足够猛的数据增强、足够大的负样本批量、以及一个训练时用、下游丢弃的投影头。

为什么这条线重要

NLP 这边早就靠自监督(预测下一个词/完形填空)吃到了无限语料的红利——GPT、BERT 都是。视觉一直差一口气,SimCLR 这类工作把差距补上了:用海量无标注图片预训练,再用少量标注微调,效果逼近甚至在数据少时超过纯监督。

我的看法

把这条线和年初的缩放定律放一起看,逻辑就通了:缩放定律说‘数据越多越好’,自监督说‘不用标注也能用数据’——两者一结合,就解锁了用整个互联网的无标注数据来训练的可能性。这正是大模型时代的燃料配方。监督学习不会消失,但‘标注驱动’的时代正在让位给‘自监督预训练 + 少量微调’。

对比学习在干嘛

为什么这条线重要

我的看法

每周一封，<5 分钟读完