目标检测的疯狂六月:Faster R-CNN 和 YOLO 同月亮相
// TL;DR
- Faster R-CNN:用 Region Proposal Network 取代 selective search,检测全流程进入神经网络。
- YOLO:把检测重构成单次回归,一眼看完整张图,速度快到能跑实时。
- 精度派与速度派的路线之争从这个月正式开始。
两篇论文,两种哲学
做视觉的这个月有点幸福。月初任少卿、何恺明他们放出了 Faster R-CNN:之前 Fast R-CNN 最大的瓶颈是候选框还得靠传统的 selective search 算法生成,又慢又不可学习。Faster R-CNN 提出 RPN(Region Proposal Network),让候选框本身也由网络预测,整个检测管线第一次完全可微、端到端。
几乎同时,Joseph Redmon 放出了 YOLO(You Only Look Once)。思路完全相反:不要什么两阶段,把图片划成网格,每个格子直接回归出框和类别,一次前向搞定。精度比两阶段方法低一些,但速度是 45 FPS——能实时跑。
怎么选?
- 要精度、做离线分析:Faster R-CNN 这条两阶段路线。
- 要速度、上视频流和嵌入式:YOLO 这条单阶段路线。
- 学术上更值得关注的是 RPN 背后的思想:能交给网络学的,最终都会交给网络学。
这句话值得加粗记住。过去几年的趋势一直是“管线里手工设计的模块逐个被神经网络吃掉”,候选框只是最新的牺牲品。照这个趋势推下去,特征、框、NMS、甚至整个管线设计,迟早都会被学习取代。