コンピュータービジョン

インスタンスセグメンテーション いんすたんすせぐめんてーしょん

インスタンスセグメンテーションMask R-CNN物体検出セグメンテーションピクセル分類コンピュータービジョン
インスタンスセグメンテーションについて教えて

簡単に言うとこんな感じ!

インスタンスセグメンテーションは「画像の中の物体を1個ずつ個別に認識してピクセル単位で切り取る」技術だよ。3匹の猫がいたら「猫A・猫B・猫C」それぞれの輪郭を別々に認識する。セマンティックセグメンテーションと違って「個体の区別」ができるんだ!


インスタンスセグメンテーションとは

インスタンスセグメンテーション(Instance Segmentation) は、画像内の各物体インスタンス(個体)をピクセル単位で識別し、それぞれの輪郭マスクを出力するコンピュータービジョンのタスクです。

類似技術との違いを整理すると:

  • 画像分類:「何がある?」(1ラベル)
  • 物体検出:「何がどこにある?」(矩形ボックス)
  • セマンティックセグメンテーション:「各ピクセルは何?」(クラス識別、同クラスを区別しない)
  • インスタンスセグメンテーション:「誰が(どの個体が)どこのピクセルを占める?」(個体識別)

例えば同じ「猫」でも3匹いれば3つの異なるマスクが出力されます。これにより「駐車場に車が何台あるか数える」「工場ラインの製品個数を数える」などの精密な分析が可能です。


タスクの比較

タスク出力形式同クラスの区別精度計算コスト
物体検出バウンディングボックスあり
セマンティックセグメンテーションピクセルラベルなし
インスタンスセグメンテーションピクセルマスク×個体あり
パノプティックセグメンテーションセマンティック+インスタンスあり最高最高

歴史と背景

  • 2017年Mask R-CNNが発表。Faster R-CNNにマスク予測ヘッドを追加
  • 2019年:YOLACT・SOLOが高速インスタンスセグメンテーションを実現
  • 2020年:PointRendがマスクの精度を大幅向上
  • 2023年:SAM(Segment Anything Model)がMetaから公開。任意の物体を汎用的にセグメンテーション

主要な活用シーン

分野用途
医療画像腫瘍・臓器・細胞の個別形状測定
製造業製品の個数カウント・欠陥形状の特定
自動運転歩行者・自転車の正確な輪郭把握
農業果実の個数・サイズ計測
ファッション試着・スタイル変換のための衣服分離

関連用語