AI・機械学習の応用

コンピュータービジョン こんぴゅーたーびじょん

コンピュータービジョン画像認識物体検出CNN画像分類セグメンテーション
コンピュータービジョンって自動運転以外でも使われてるの?

簡単に言うとこんな感じ!

すごく使われてるよ!工場の製品検査・医療のX線診断・スーパーのセルフレジ・農場の作物病気検出・セキュリティカメラの人物追跡など、「目で見て判断する作業」をAIに置き換えるあらゆる場面で使われてるんだ。


コンピュータービジョンとは

コンピュータービジョン(Computer Vision:CV) とは、コンピューターが画像・動画から意味のある情報を抽出・理解する技術分野です。

「人間の目と脳に相当する機能をコンピューターで実現する」とも言えます。深層学習(CNN:畳み込みニューラルネットワーク)の登場により2010年代に飛躍的に精度が向上し、多くの実用応用が実現しました。


コンピュータービジョンの主なタスク

タスク内容
画像分類画像が何か(クラス)を判定「これは猫の画像」
物体検出画像内の物体の位置と種類を特定「右上に人、左下に車」
セグメンテーションピクセル単位で物体の境界を認識自動運転の道路・歩行者の区別
姿勢推定人体の関節位置を推定スポーツ動作分析・リハビリ支援
OCR(文字認識)画像内のテキストを読み取る名刺・帳票のデジタル化
顔認識個人を顔から特定スマホのロック解除

主要なCV技術・モデル

技術内容
CNN(畳み込みNN)画像処理の基本。特徴を階層的に抽出
ResNet・VGG画像分類の代表的CNNアーキテクチャ
YOLOリアルタイム物体検出の標準アルゴリズム
Vision Transformer(ViT)TransformerをCVに応用した最新アーキテクチャ
SAM(Segment Anything Model)Metaが開発した汎用セグメンテーションモデル

歴史と背景

  • 1960年代:コンピュータービジョン研究の開始
  • 2012年AlexNetがImageNetで人間を超える精度を達成し深層学習ブームが始まる
  • 2016年〜:YOLO等のリアルタイム検出で実用化が加速

関連用語