Mask R-CNN ますくあーるしーえぬえぬ
Mask R-CNNインスタンスセグメンテーション物体検出マスク予測ROI AlignFacebook AI
Mask R-CNNについて教えて
簡単に言うとこんな感じ!
Mask R-CNNは「物体の位置(バウンディングボックス)と種類を出力するFaster R-CNNに、ピクセル単位のマスクを出力する頭を追加した」モデルだよ。物体検出とセグメンテーションを同時に行えて、医療画像・品質検査で広く使われてるんだ!
Mask R-CNNとは
Mask R-CNN は、2017年にFacebook AI ResearchのKaiming Heらが発表したインスタンスセグメンテーションモデルです。Faster R-CNNを拡張し、バウンディングボックス予測・クラス分類に加えて各物体のピクセル単位マスクを出力する第3のヘッドを追加しました。
Mask R-CNNの重要な貢献はROI Alignという技術です。Faster R-CNNが使っていた「ROI Pooling」は量子化(整数切り捨て)による位置ずれがあり、セグメンテーションマスクの精度を下げていました。ROI Alignは双線形補間を使って位置ずれなく特徴を抽出し、マスクの精度を大幅に改善しました。
論文発表から数年経った現在でも、インスタンスセグメンテーションの研究・実用システムにおける基準モデル(ベースライン) として広く使われています。
Mask R-CNNのアーキテクチャ
入力画像
↓
Backbone(ResNet + FPN)
↓
RPN(Region Proposal Network)
↓
ROI Align(位置ずれのない特徴抽出)
↓
┌──────────────────────────────┐
↓ ↓ ↓
クラス分類 BBox回帰 マスク予測(28×28のバイナリマスク)
↓ ↓ ↓
└──────────────────────────────┘
↓
インスタンスセグメンテーション結果
| ヘッド | 出力 | 説明 |
|---|---|---|
| 分類ヘッド | クラスラベル | 何の物体か |
| BBoxヘッド | (x, y, w, h) | 正確な位置と大きさ |
| マスクヘッド | 28×28バイナリマスク | 物体の輪郭形状 |
歴史と背景
- 2017年:Heら「Mask R-CNN」論文発表。COCO 2017 Instance Segmentation部門で優勝
- 2018年:Detectron(Facebookの検出フレームワーク)でオープンソース化
- 2019年:Detectron2リリース。Mask R-CNNの学習済みモデルが公開
- 現在:SAM(Segment Anything Model)の登場で汎用性は劣るが精度・速度の実用バランスで現役
主なインスタンスセグメンテーションモデルの比較
| モデル | mAP(COCO) | 速度 | 特徴 |
|---|---|---|---|
| Mask R-CNN | 37.1 | 遅め | 標準的な高精度 |
| YOLACT | 29.8 | 非常に速い | リアルタイム向け |
| SOLO | 37.8 | 中程度 | シンプルな設計 |
| PointRend | 38.3 | 中程度 | 境界精度向上 |
関連用語
- インスタンスセグメンテーション — Mask R-CNNが解くタスク
- Faster R-CNN — Mask R-CNNの基盤となったモデル
- セマンティックセグメンテーション — 個体を区別しないセグメンテーション
- グループ正規化 — Mask R-CNNの学習で使われる正規化手法