インスタンスセグメンテーション いんすたんすせぐめんてーしょん
インスタンスセグメンテーションMask R-CNN物体検出セグメンテーションピクセル分類コンピュータービジョン
インスタンスセグメンテーションについて教えて
簡単に言うとこんな感じ!
インスタンスセグメンテーションは「画像の中の物体を1個ずつ個別に認識してピクセル単位で切り取る」技術だよ。3匹の猫がいたら「猫A・猫B・猫C」それぞれの輪郭を別々に認識する。セマンティックセグメンテーションと違って「個体の区別」ができるんだ!
インスタンスセグメンテーションとは
インスタンスセグメンテーション(Instance Segmentation) は、画像内の各物体インスタンス(個体)をピクセル単位で識別し、それぞれの輪郭マスクを出力するコンピュータービジョンのタスクです。
類似技術との違いを整理すると:
- 画像分類:「何がある?」(1ラベル)
- 物体検出:「何がどこにある?」(矩形ボックス)
- セマンティックセグメンテーション:「各ピクセルは何?」(クラス識別、同クラスを区別しない)
- インスタンスセグメンテーション:「誰が(どの個体が)どこのピクセルを占める?」(個体識別)
例えば同じ「猫」でも3匹いれば3つの異なるマスクが出力されます。これにより「駐車場に車が何台あるか数える」「工場ラインの製品個数を数える」などの精密な分析が可能です。
タスクの比較
| タスク | 出力形式 | 同クラスの区別 | 精度 | 計算コスト |
|---|---|---|---|---|
| 物体検出 | バウンディングボックス | あり | 中 | 低 |
| セマンティックセグメンテーション | ピクセルラベル | なし | 高 | 中 |
| インスタンスセグメンテーション | ピクセルマスク×個体 | あり | 高 | 高 |
| パノプティックセグメンテーション | セマンティック+インスタンス | あり | 最高 | 最高 |
歴史と背景
- 2017年:Mask R-CNNが発表。Faster R-CNNにマスク予測ヘッドを追加
- 2019年:YOLACT・SOLOが高速インスタンスセグメンテーションを実現
- 2020年:PointRendがマスクの精度を大幅向上
- 2023年:SAM(Segment Anything Model)がMetaから公開。任意の物体を汎用的にセグメンテーション
主要な活用シーン
| 分野 | 用途 |
|---|---|
| 医療画像 | 腫瘍・臓器・細胞の個別形状測定 |
| 製造業 | 製品の個数カウント・欠陥形状の特定 |
| 自動運転 | 歩行者・自転車の正確な輪郭把握 |
| 農業 | 果実の個数・サイズ計測 |
| ファッション | 試着・スタイル変換のための衣服分離 |
関連用語
- Mask R-CNN — インスタンスセグメンテーションの代表モデル
- セマンティックセグメンテーション — インスタンス区別なしのセグメンテーション
- 物体検出 — インスタンスセグメンテーションの前段となるタスク
- Faster R-CNN — Mask R-CNNの基盤となったモデル