コンピュータービジョン

物体検出ぶったいけんしゅつ

物体検出オブジェクトディテクションYOLOバウンディングボックスリアルタイム検出画像認識

物体検出って画像分類と何が違うの？

簡単に言うとこんな感じ！

画像分類は「この画像全体は何か（猫？犬？）」を判定するのに対し、物体検出は「画像のどこに何があるか（右上に猫・左下に犬）を矩形（バウンディングボックス）で示す」技術だよ！防犯カメラで人を検出したり、工場の不良品の位置を特定したりするんだ。

物体検出とは

物体検出（Object Detection） とは、画像・動画の中に存在する物体の種類（クラス）と位置（バウンディングボックス）を同時に特定するコンピュータービジョンのタスクです。

「何がある？」だけでなく「どこにある？」も答えるのが特徴です。複数の物体を同時に検出でき、自動運転・監視カメラ・医療画像・製造業の品質管理など幅広く活用されています。

主な物体検出アルゴリズム

アルゴリズム	特徴
YOLO（You Only Look Once）	リアルタイム検出の代名詞。一回の処理で検出
Faster R-CNN	高精度。領域提案ネットワークを使用
SSD（Single Shot Detector）	YOLOと同様の1段階検出アプローチ
DETR	Transformerを使った物体検出
SAM（Segment Anything）	Meta開発の汎用セグメンテーション

活用例

分野	用途
自動運転	歩行者・車・信号・標識の検出
防犯・監視	不審者・不審物の検出
製造業	製品の傷・欠損・異物の位置特定
医療	X線・CTスキャンでの腫瘍位置特定
農業	ドローンで作物の病気・害虫の位置検出
スポーツ分析	選手・ボールの軌跡追跡

歴史と背景

2014年：R-CNNが深層学習による高精度な物体検出を実現
2015年：YOLOがリアルタイム検出を可能にし実用化が加速
2020年以降：Vision Transformerベースの手法が登場し精度が向上

関連用語

コンピュータービジョン — 物体検出が属するCV分野
画像分類 — 物体検出の前段のシンプルなタスク
エッジAI — カメラデバイスでのリアルタイム物体検出
深層学習 — 物体検出の技術基盤
GAN — 物体検出の学習データを合成データで増やすのに活用