コンピュータービジョン

深度推定 しんどすいてい

深度推定Depth Estimation単眼深度推定自動運転3D理解コンピュータービジョン
深度推定について教えて

簡単に言うとこんな感じ!

深度推定は「普通のカメラ画像から、各ピクセルがカメラからどのくらい遠いかを推定する」技術だよ。人間は両目で立体を見るけど、AIは1枚の画像から「奥にあるものは遠い」ということを学習して推定するんだ。自動運転や3Dシーン理解に欠かせないよ!


深度推定とは

深度推定(Depth Estimation) は、画像を入力として各ピクセルのカメラからの距離(深度)を推定するコンピュータービジョンのタスクです。出力は入力画像と同じ解像度の「深度マップ(Depth Map)」で、近い物体は明るく・遠い物体は暗くなる(または逆)グレースケール画像で表されます。

測定方法によって種類が分かれます。ステレオカメラLiDARを使えば正確な距離を計測できますが、コストが高い。単眼深度推定は通常の1台のカメラ画像だけから深度を推定するため、設備コストが低くスマートフォンにも応用できますが、精度はLiDAR等に劣ります。

近年はDepth Anything・MiDaSなど汎用的な深度推定モデルが公開されており、様々な環境に対応できるようになっています。


深度推定手法の種類

手法センサー精度コスト用途
LiDARレーザー距離計非常に高い高い自動運転・測量
ステレオカメラ2眼カメラ高い中程度ボット・産業用
ToFカメラ飛行時間法高い(近距離)中程度スマホ・顔認証
単眼深度推定(DL)通常カメラ中程度低いスマホ・監視カメラ

歴史と背景

  • 2014年:Eigenらが深層学習を使った単眼深度推定を初めて発表
  • 2017年:Unsupervised Depth Estimationが登場。ラベルなしでの学習が可能に
  • 2019年:MiDaSが複数データセットで汎用モデルを学習し実用的な精度に
  • 2022年:Depth AnythingやZoeDepthが大規模データで汎用深度推定を実現
  • 現在:スマートフォンのポートレートモード・ARアプリで日常的に使用

深度マップの活用

活用シーン深度情報の使い方
自動運転障害物・歩行者までの距離計算
AR/VR仮想オブジェクトを現実空間に配置
スマホカメラポートレートモードの背景ぼかし
ロボット把持・移動のための空間理解
3D再構成複数フレームから3Dモデル生成

関連用語