コンピュータービジョン

Mask R-CNN ますくあーるしーえぬえぬ

Mask R-CNNインスタンスセグメンテーション物体検出マスク予測ROI AlignFacebook AI

Mask R-CNNについて教えて

簡単に言うとこんな感じ！

Mask R-CNNは「物体の位置（バウンディングボックス）と種類を出力するFaster R-CNNに、ピクセル単位のマスクを出力する頭を追加した」モデルだよ。物体検出とセグメンテーションを同時に行えて、医療画像・品質検査で広く使われてるんだ！

Mask R-CNNとは

Mask R-CNN は、2017年にFacebook AI ResearchのKaiming Heらが発表したインスタンスセグメンテーションモデルです。Faster R-CNNを拡張し、バウンディングボックス予測・クラス分類に加えて各物体のピクセル単位マスクを出力する第3のヘッドを追加しました。

Mask R-CNNの重要な貢献はROI Alignという技術です。Faster R-CNNが使っていた「ROI Pooling」は量子化（整数切り捨て）による位置ずれがあり、セグメンテーションマスクの精度を下げていました。ROI Alignは双線形補間を使って位置ずれなく特徴を抽出し、マスクの精度を大幅に改善しました。

論文発表から数年経った現在でも、インスタンスセグメンテーションの研究・実用システムにおける基準モデル（ベースライン） として広く使われています。

Mask R-CNNのアーキテクチャ

入力画像
    ↓
Backbone（ResNet + FPN）
    ↓
RPN（Region Proposal Network）
    ↓
ROI Align（位置ずれのない特徴抽出）
    ↓
  ┌──────────────────────────────┐
  ↓             ↓               ↓
クラス分類   BBox回帰       マスク予測（28×28のバイナリマスク）
  ↓             ↓               ↓
  └──────────────────────────────┘
    ↓
インスタンスセグメンテーション結果

ヘッド	出力	説明
分類ヘッド	クラスラベル	何の物体か
BBoxヘッド	(x, y, w, h)	正確な位置と大きさ
マスクヘッド	28×28バイナリマスク	物体の輪郭形状

歴史と背景

2017年：Heら「Mask R-CNN」論文発表。COCO 2017 Instance Segmentation部門で優勝
2018年：Detectron（Facebookの検出フレームワーク）でオープンソース化
2019年：Detectron2リリース。Mask R-CNNの学習済みモデルが公開
現在：SAM（Segment Anything Model）の登場で汎用性は劣るが精度・速度の実用バランスで現役

主なインスタンスセグメンテーションモデルの比較

モデル	mAP（COCO）	速度	特徴
Mask R-CNN	37.1	遅め	標準的な高精度
YOLACT	29.8	非常に速い	リアルタイム向け
SOLO	37.8	中程度	シンプルな設計
PointRend	38.3	中程度	境界精度向上

Mask R-CNNとは

Mask R-CNNのアーキテクチャ

歴史と背景

主なインスタンスセグメンテーションモデルの比較

関連用語