コンピュータービジョン

Mask R-CNN ますくあーるしーえぬえぬ

Mask R-CNNインスタンスセグメンテーション物体検出マスク予測ROI AlignFacebook AI
Mask R-CNNについて教えて

簡単に言うとこんな感じ!

Mask R-CNNは「物体の位置(バウンディングボックス)と種類を出力するFaster R-CNNに、ピクセル単位のマスクを出力する頭を追加した」モデルだよ。物体検出とセグメンテーションを同時に行えて、医療画像・品質検査で広く使われてるんだ!


Mask R-CNNとは

Mask R-CNN は、2017年にFacebook AI ResearchのKaiming Heらが発表したインスタンスセグメンテーションモデルです。Faster R-CNNを拡張し、バウンディングボックス予測クラス分類に加えて各物体のピクセル単位マスクを出力する第3のヘッドを追加しました。

Mask R-CNNの重要な貢献はROI Alignという技術です。Faster R-CNNが使っていた「ROI Pooling」は量子化(整数切り捨て)による位置ずれがあり、セグメンテーションマスクの精度を下げていました。ROI Alignは双線形補間を使って位置ずれなく特徴を抽出し、マスクの精度を大幅に改善しました。

論文発表から数年経った現在でも、インスタンスセグメンテーションの研究・実用システムにおける基準モデル(ベースライン として広く使われています。


Mask R-CNNのアーキテクチャ

入力画像

Backbone(ResNet + FPN)

RPN(Region Proposal Network)

ROI Align(位置ずれのない特徴抽出)

  ┌──────────────────────────────┐
  ↓             ↓               ↓
クラス分類   BBox回帰       マスク予測(28×28のバイナリマスク)
  ↓             ↓               ↓
  └──────────────────────────────┘

インスタンスセグメンテーション結果
ヘッド出力説明
分類ヘッドクラスラベル何の物体か
BBoxヘッド(x, y, w, h)正確な位置と大きさ
マスクヘッド28×28バイナリマスク物体の輪郭形状

歴史と背景

  • 2017年:Heら「Mask R-CNN」論文発表。COCO 2017 Instance Segmentation部門で優勝
  • 2018年:Detectron(Facebookの検出フレームワーク)でオープンソース化
  • 2019年:Detectron2リリース。Mask R-CNNの学習済みモデルが公開
  • 現在:SAM(Segment Anything Model)の登場で汎用性は劣るが精度・速度の実用バランスで現役

主なインスタンスセグメンテーションモデルの比較

モデルmAP(COCO)速度特徴
Mask R-CNN37.1遅め標準的な高精度
YOLACT29.8非常に速いリアルタイム向け
SOLO37.8中程度シンプルな設計
PointRend38.3中程度境界精度向上

関連用語