コンピュータービジョン

Faster R-CNN ふぁすたーあーるしーえぬえぬ

Faster R-CNN物体検出領域提案ネットワークRPN2段階検出高精度検出
Faster R-CNNについて教えて

簡単に言うとこんな感じ!

Faster R-CNNは「どこに物体がありそうか候補を出す(RPN)→候補を詳しく分類する」という2段階で物体を検出するモデルだよ。YOLOより遅いけど高精度で、医療画像・衛星写真など「精度最優先の場面」で活躍するんだ!


Faster R-CNNとは

Faster R-CNN は、2015年にRen・He・Girshick・Sunらが発表した高精度な2段階物体検出モデルです。R-CNN・Fast R-CNNと続くシリーズの集大成で、Region Proposal Network(RPN:領域提案ネットワーク) を導入することで、それまで別プロセスで行っていた候補領域の提案もニューラルネットワーク化し、エンドツーエンドの学習を可能にしました。

処理の流れは2段階です。第1段階:RPN特徴マップ全体をスキャンして「物体がありそうな候補領域(Region Proposal)」を生成します。第2段階:各候補領域を詳細に分類し、バウンディングボックスを精密に調整します。

この2段階処理により、YOLOより遅いですが高い精度を実現でき、見逃しが少ない物体検出が求められる場面で採用されています。


Faster R-CNNの処理フロー

入力画像

Backbone CNN(VGG・ResNetなど)

共有特徴マップ(Shared Feature Map)
    ↓──────────────────┐
    ↓                   ↓
  RPN(領域提案)      (後段で使用)
  物体らしい候補を提案

  ROI Pooling / ROI Align
  (各候補領域を固定サイズに正規化)

  分類ヘッド:クラス分類 + BBox回帰

  最終検出結果

歴史と背景

  • 2014年:R-CNNが発表。精度は高いが処理が遅い(1画像に50秒)
  • 2015年初:Fast R-CNNがROI Poolingで速度改善(0.2秒)
  • 2015年末:Faster R-CNNがRPN導入でほぼリアルタイムを達成(0.2秒、精度向上)
  • 2017年Mask R-CNNがFaster R-CNNを拡張しセグメンテーションに対応
  • 現在:YOLOに速度では劣るが、精度重視の場面や研究用途で広く使用

検出モデルの精度・速度トレードオフ

モデルmAP(COCO)推論速度向いている用途
Faster R-CNN(ResNet50)37.0遅い(5FPS)精度重視・オフライン分析
YOLOv5s37.4非常に速いリアルタイム・組み込み
DETR42.0中程度Transformer活用・研究用途

関連用語

  • 物体検出 — Faster R-CNNが解くタスク
  • YOLO — Faster R-CNNと対比される1段階検出手法
  • Mask R-CNN — Faster R-CNNを拡張したセグメンテーションモデル
  • ResNet — Faster R-CNNのバックボーンとしてよく使われる
  • 特徴マップ — RPNが操作する特徴表現