コンピュータービジョン こんぴゅーたーびじょん
コンピュータービジョン画像認識物体検出CNN画像分類セグメンテーション
コンピュータービジョンって自動運転以外でも使われてるの?
簡単に言うとこんな感じ!
すごく使われてるよ!工場の製品検査・医療のX線診断・スーパーのセルフレジ・農場の作物病気検出・セキュリティカメラの人物追跡など、「目で見て判断する作業」をAIに置き換えるあらゆる場面で使われてるんだ。
コンピュータービジョンとは
コンピュータービジョン(Computer Vision:CV) とは、コンピューターが画像・動画から意味のある情報を抽出・理解する技術分野です。
「人間の目と脳に相当する機能をコンピューターで実現する」とも言えます。深層学習(CNN:畳み込みニューラルネットワーク)の登場により2010年代に飛躍的に精度が向上し、多くの実用応用が実現しました。
コンピュータービジョンの主なタスク
| タスク | 内容 | 例 |
|---|---|---|
| 画像分類 | 画像が何か(クラス)を判定 | 「これは猫の画像」 |
| 物体検出 | 画像内の物体の位置と種類を特定 | 「右上に人、左下に車」 |
| セグメンテーション | ピクセル単位で物体の境界を認識 | 自動運転の道路・歩行者の区別 |
| 姿勢推定 | 人体の関節位置を推定 | スポーツ動作分析・リハビリ支援 |
| OCR(文字認識) | 画像内のテキストを読み取る | 名刺・帳票のデジタル化 |
| 顔認識 | 個人を顔から特定 | スマホのロック解除 |
主要なCV技術・モデル
| 技術 | 内容 |
|---|---|
| CNN(畳み込みNN) | 画像処理の基本。特徴を階層的に抽出 |
| ResNet・VGG | 画像分類の代表的CNNアーキテクチャ |
| YOLO | リアルタイム物体検出の標準アルゴリズム |
| Vision Transformer(ViT) | TransformerをCVに応用した最新アーキテクチャ |
| SAM(Segment Anything Model) | Metaが開発した汎用セグメンテーションモデル |
歴史と背景
- 1960年代:コンピュータービジョン研究の開始
- 2012年:AlexNetがImageNetで人間を超える精度を達成し深層学習ブームが始まる
- 2016年〜:YOLO等のリアルタイム検出で実用化が加速
関連用語
- 深層学習 — CVの主要技術基盤
- GAN(敵対的生成ネットワーク) — 画像生成に使われるCV関連技術
- マルチモーダルAI — テキストとビジョンを統合するAI
- エッジAI — カメラデバイス上でのリアルタイムCV処理
- 物体検出 — CVの重要なサブタスク