Hinton 的胶囊网络:对自己发明的东西最不满意的人
// TL;DR
- Hinton 的核心不满:CNN 的池化丢掉了位置和姿态关系,“恰好能用”不等于“原理正确”。
- 胶囊用向量表示实体的存在与姿态,动态路由建立部分-整体关系。
- 小数据集上验证可行,但扩展性存疑——价值在于提问而非答案。
Hinton 不满什么
深度学习如日中天的年份,把 CNN 推上王座的 Hinton 却发了篇论文说这条路有根本缺陷。他的论点:池化操作扔掉了精确的空间关系——一张脸的照片,把眼睛和嘴的位置打乱,CNN 照样高置信度地喊“脸”,因为它只管特征在不在,不管它们的相对姿态对不对。人类视觉显然不是这样工作的。
胶囊是什么
Capsule 把标量神经元升级成向量:向量的模长表示“这个实体存在的概率”,方向编码姿态(位置、角度、形变)。层与层之间用动态路由代替池化——低层胶囊把输出“投票”给在姿态上跟它一致的高层胶囊,部分与整体的几何关系被显式建模。在 MNIST 上验证了有效,对重叠数字的分离尤其出色。
怎么看
说实话,动态路由的计算开销很大,能不能扩展到 ImageNet 级别还很难说,我不看好它短期取代 CNN。但这篇论文真正的价值是态度:71 岁的 Hinton 在自己最成功的发明上挑刺,赌注押在“原理对”而不是“刷分高”上。一个领域需要有人在最热的时候泼冷水,尤其是泼冷水的人恰好是点火的人。