session://14:29:34
~/ / posts / 2015-06-object-detection-month.md

目标检测的疯狂六月:Faster R-CNN 和 YOLO 同月亮相

2015-06-18· 1 min read · [论文解读]
// TL;DR
  • Faster R-CNN:用 Region Proposal Network 取代 selective search,检测全流程进入神经网络。
  • YOLO:把检测重构成单次回归,一眼看完整张图,速度快到能跑实时。
  • 精度派与速度派的路线之争从这个月正式开始。

两篇论文,两种哲学

做视觉的这个月有点幸福。月初任少卿、何恺明他们放出了 Faster R-CNN:之前 Fast R-CNN 最大的瓶颈是候选框还得靠传统的 selective search 算法生成,又慢又不可学习。Faster R-CNN 提出 RPN(Region Proposal Network),让候选框本身也由网络预测,整个检测管线第一次完全可微、端到端。

几乎同时,Joseph Redmon 放出了 YOLO(You Only Look Once)。思路完全相反:不要什么两阶段,把图片划成网格,每个格子直接回归出框和类别,一次前向搞定。精度比两阶段方法低一些,但速度是 45 FPS——能实时跑。

怎么选?

  • 要精度、做离线分析:Faster R-CNN 这条两阶段路线。
  • 要速度、上视频流和嵌入式:YOLO 这条单阶段路线。
  • 学术上更值得关注的是 RPN 背后的思想:能交给网络学的,最终都会交给网络学。

这句话值得加粗记住。过去几年的趋势一直是“管线里手工设计的模块逐个被神经网络吃掉”,候选框只是最新的牺牲品。照这个趋势推下去,特征、框、NMS、甚至整个管线设计,迟早都会被学习取代。

计算机视觉深度学习论文解读
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。