深度推定 しんどすいてい
深度推定Depth Estimation単眼深度推定自動運転3D理解コンピュータービジョン
深度推定について教えて
簡単に言うとこんな感じ!
深度推定は「普通のカメラ画像から、各ピクセルがカメラからどのくらい遠いかを推定する」技術だよ。人間は両目で立体を見るけど、AIは1枚の画像から「奥にあるものは遠い」ということを学習して推定するんだ。自動運転や3Dシーン理解に欠かせないよ!
深度推定とは
深度推定(Depth Estimation) は、画像を入力として各ピクセルのカメラからの距離(深度)を推定するコンピュータービジョンのタスクです。出力は入力画像と同じ解像度の「深度マップ(Depth Map)」で、近い物体は明るく・遠い物体は暗くなる(または逆)グレースケール画像で表されます。
測定方法によって種類が分かれます。ステレオカメラやLiDARを使えば正確な距離を計測できますが、コストが高い。単眼深度推定は通常の1台のカメラ画像だけから深度を推定するため、設備コストが低くスマートフォンにも応用できますが、精度はLiDAR等に劣ります。
近年はDepth Anything・MiDaSなど汎用的な深度推定モデルが公開されており、様々な環境に対応できるようになっています。
深度推定手法の種類
| 手法 | センサー | 精度 | コスト | 用途 |
|---|---|---|---|---|
| LiDAR | レーザー距離計 | 非常に高い | 高い | 自動運転・測量 |
| ステレオカメラ | 2眼カメラ | 高い | 中程度 | ロボット・産業用 |
| ToFカメラ | 飛行時間法 | 高い(近距離) | 中程度 | スマホ・顔認証 |
| 単眼深度推定(DL) | 通常カメラ | 中程度 | 低い | スマホ・監視カメラ |
歴史と背景
- 2014年:Eigenらが深層学習を使った単眼深度推定を初めて発表
- 2017年:Unsupervised Depth Estimationが登場。ラベルなしでの学習が可能に
- 2019年:MiDaSが複数データセットで汎用モデルを学習し実用的な精度に
- 2022年:Depth AnythingやZoeDepthが大規模データで汎用深度推定を実現
- 現在:スマートフォンのポートレートモード・ARアプリで日常的に使用
深度マップの活用
| 活用シーン | 深度情報の使い方 |
|---|---|
| 自動運転 | 障害物・歩行者までの距離計算 |
| AR/VR | 仮想オブジェクトを現実空間に配置 |
| スマホカメラ | ポートレートモードの背景ぼかし |
| ロボット | 把持・移動のための空間理解 |
| 3D再構成 | 複数フレームから3Dモデル生成 |
関連用語
- コンピュータービジョン — 深度推定が属する技術分野
- セマンティックセグメンテーション — 深度推定と組み合わせるシーン理解タスク
- 姿勢推定 — 深度情報と組み合わせる3D人体推定
- エッジAI — デバイス上での深度推定の実行環境