目标检测的疯狂六月：Faster R-CNN 和 YOLO 同月亮相

两篇论文，两种哲学

做视觉的这个月有点幸福。月初任少卿、何恺明他们放出了 Faster R-CNN：之前 Fast R-CNN 最大的瓶颈是候选框还得靠传统的 selective search 算法生成，又慢又不可学习。Faster R-CNN 提出 RPN（Region Proposal Network），让候选框本身也由网络预测，整个检测管线第一次完全可微、端到端。

几乎同时，Joseph Redmon 放出了 YOLO（You Only Look Once）。思路完全相反：不要什么两阶段，把图片划成网格，每个格子直接回归出框和类别，一次前向搞定。精度比两阶段方法低一些，但速度是 45 FPS——能实时跑。

怎么选？

要精度、做离线分析：Faster R-CNN 这条两阶段路线。
要速度、上视频流和嵌入式：YOLO 这条单阶段路线。
学术上更值得关注的是 RPN 背后的思想：能交给网络学的，最终都会交给网络学。

这句话值得加粗记住。过去几年的趋势一直是“管线里手工设计的模块逐个被神经网络吃掉”，候选框只是最新的牺牲品。照这个趋势推下去，特征、框、NMS、甚至整个管线设计，迟早都会被学习取代。

两篇论文，两种哲学

怎么选？

每周一封，<5 分钟读完