コンピュータービジョン

深度推定しんどすいてい

深度推定Depth Estimation単眼深度推定自動運転3D理解コンピュータービジョン

深度推定について教えて

簡単に言うとこんな感じ！

深度推定は「普通のカメラ画像から、各ピクセルがカメラからどのくらい遠いかを推定する」技術だよ。人間は両目で立体を見るけど、AIは1枚の画像から「奥にあるものは遠い」ということを学習して推定するんだ。自動運転や3Dシーン理解に欠かせないよ！

深度推定とは

深度推定（Depth Estimation） は、画像を入力として各ピクセルのカメラからの距離（深度）を推定するコンピュータービジョンのタスクです。出力は入力画像と同じ解像度の「深度マップ（Depth Map）」で、近い物体は明るく・遠い物体は暗くなる（または逆）グレースケール画像で表されます。

測定方法によって種類が分かれます。ステレオカメラやLiDARを使えば正確な距離を計測できますが、コストが高い。単眼深度推定は通常の1台のカメラ画像だけから深度を推定するため、設備コストが低くスマートフォンにも応用できますが、精度はLiDAR等に劣ります。

近年はDepth Anything・MiDaSなど汎用的な深度推定モデルが公開されており、様々な環境に対応できるようになっています。

深度推定手法の種類

手法	センサー	精度	コスト	用途
LiDAR	レーザー距離計	非常に高い	高い	自動運転・測量
ステレオカメラ	2眼カメラ	高い	中程度	ロボット・産業用
ToFカメラ	飛行時間法	高い（近距離）	中程度	スマホ・顔認証
単眼深度推定（DL）	通常カメラ	中程度	低い	スマホ・監視カメラ

歴史と背景

2014年：Eigenらが深層学習を使った単眼深度推定を初めて発表
2017年：Unsupervised Depth Estimationが登場。ラベルなしでの学習が可能に
2019年：MiDaSが複数データセットで汎用モデルを学習し実用的な精度に
2022年：Depth AnythingやZoeDepthが大規模データで汎用深度推定を実現
現在：スマートフォンのポートレートモード・ARアプリで日常的に使用

深度マップの活用

活用シーン	深度情報の使い方
自動運転	障害物・歩行者までの距離計算
AR/VR	仮想オブジェクトを現実空間に配置
スマホカメラ	ポートレートモードの背景ぼかし
ロボット	把持・移動のための空間理解
3D再構成	複数フレームから3Dモデル生成

深度推定とは

深度推定手法の種類

歴史と背景

深度マップの活用

関連用語