コンピュータービジョン

物体検出 ぶったいけんしゅつ

物体検出オブジェクトディテクションYOLOバウンディングボックスリアルタイム検出画像認識
物体検出って画像分類と何が違うの?

簡単に言うとこんな感じ!

画像分類は「この画像全体は何か(猫?犬?)」を判定するのに対し、物体検出は「画像のどこに何があるか(右上に猫・左下に犬)を矩形(バウンディングボックス)で示す」技術だよ!防犯カメラで人を検出したり、工場の不良品の位置を特定したりするんだ。


物体検出とは

物体検出(Object Detection) とは、画像・動画の中に存在する物体の種類(クラス)と位置(バウンディングボックス)を同時に特定するコンピュータービジョンのタスクです。

「何がある?」だけでなく「どこにある?」も答えるのが特徴です。複数の物体を同時に検出でき、自動運転・監視カメラ・医療画像・製造業の品質管理など幅広く活用されています。


主な物体検出アルゴリズム

アルゴリズム特徴
YOLO(You Only Look Once)リアルタイム検出の代名詞。一回の処理で検出
Faster R-CNN高精度。領域提案ネットワークを使用
SSD(Single Shot Detector)YOLOと同様の1段階検出アプローチ
DETRTransformerを使った物体検出
SAM(Segment Anything)Meta開発の汎用セグメンテーション

活用例

分野用途
自動運転歩行者・車・信号・標識の検出
防犯・監視不審者・不審物の検出
製造業製品の傷・欠損・異物の位置特定
医療X線・CTスキャンでの腫瘍位置特定
農業ドローンで作物の病気・害虫の位置検出
スポーツ分析選手・ボールの軌跡追跡

歴史と背景

  • 2014年:R-CNNが深層学習による高精度な物体検出を実現
  • 2015年:YOLOがリアルタイム検出を可能にし実用化が加速
  • 2020年以降:Vision Transformerベースの手法が登場し精度が向上

関連用語