双下降:更大的模型为什么没有像教科书说的那样过拟合？

教科书与现实的冲突

经典统计学习理论教我们:模型容量越大,越容易记住噪声、过拟合,测试误差应该呈 U 形——先随容量增大而下降,到某点后掉头上升。但深度学习的从业者早就发现一个尴尬事实:把模型不断做大,测试误差往往还在降,没见到那个该来的‘上升’。理论和实践对不上。

双下降是什么

这篇论文把现象刻画清楚了:测试误差确实先降后升(经典 U 形),在模型容量刚好能完美拟合训练集的‘插值阈值’附近达到最差;但只要你越过这个阈值继续做大,测试误差会开始‘第二次下降’,而且常常降到比第一次的谷底更低。把它画出来,是一条‘降-升-降’的曲线。不只是模型大小,数据量、训练时长也观察到类似现象。

为什么我觉得这篇很重要

它不是又一个刷分技巧,而是直指我们理论理解的盲区——还记得 2017 年 NIPS 上 Rahimi 喊的‘炼金术’吗?双下降就是炼金术的一个活标本:一个所有人都在用(把模型做大)、却没人能从经典理论解释的现象。

实践层面它给了‘大力出奇迹’一个隐约的理论安慰:在过参数化区间,更大不仅不更糟,反而可能更好。这等于给接下来几年‘卷模型规模’的狂飙发了张通行证。当然,‘为什么会双下降’本身仍是开放问题——我们又一次处在‘知道它有效、不知道为什么’的状态。把这个谜题记下,看谁哪年能讲清楚。

教科书与现实的冲突

双下降是什么

为什么我觉得这篇很重要

每周一封，<5 分钟读完