コンピュータービジョン

DETR でぃーとらんすふぉーまー

DETRDEtection TRansformer物体検出TransformerEnd-to-EndFacebook AI

DETRについて教えて

簡単に言うとこんな感じ！

DETRは「Transformerを物体検出に使った」革新的なモデルだよ。アンカーボックスもNMS（重複除去処理）も不要で、「N個の物体を検出する」をTransformerのデコーダが直接出力するシンプルな設計が特徴。CNNとTransformerを融合させた次世代の物体検出なんだ！

DETRとは

DETR（DEtection TRansformer） は、2020年にFacebook AI ResearchのCarionらが発表したTransformerを使った物体検出モデルです。物体検出において初めてエンドツーエンドのTransformerベースの検出を実現しました。

従来の物体検出モデル（YOLO・Faster R-CNNなど）は「アンカーボックス（事前に設定した候補矩形）」と「NMS（非最大値抑制：重複検出の除去）」という2つの手作り設計が必要でした。DETRはこれらを廃止し、CNNで抽出した特徴をTransformerのEncoder-Decoderに通し、N個の物体クエリから直接検出結果を出力します。

DETRは精度でFaster R-CNNと同等を達成しましたが、学習に時間がかかる欠点がありました。これを改善したDeformable DETR・DAB-DETR・DN-DETRなどの後継モデルが次々と提案されています。

DETRのアーキテクチャ

入力画像
    ↓
CNN Backbone（ResNet等）
    ↓
平坦化 + Position Embedding（位置情報を付加）
    ↓
Transformer Encoder（自己注意機構で文脈理解）
    ↓
Transformer Decoder
  ← N個の「物体クエリ（Object Query）」を入力
  ← Encoderの出力とクロスアテンション
    ↓
各クエリが（クラス, x, y, w, h）を予測
    ↓
ハンガリアンマッチングで正解と対応づけて学習

歴史と背景

2020年：Carionら「End-to-End Object Detection with Transformers」でDETRを発表
2020年末：Deformable DETRが収束速度を大幅改善（500エポック→50エポック）
2022〜2023年：DN-DETR・DINO（Detection with Transformers）がSOTA達成
現在：DETR系モデルがYOLO系と並ぶ物体検出の主要なアプローチに

DETR vs 従来モデルの違い

項目	Faster R-CNN / YOLO	DETR
アンカーボックス	必要（手動設計）	不要
NMS	必要（後処理）	不要
学習のEnd-to-End	部分的	完全
グローバルな文脈	限定的	Attention全域
収束速度	速い	遅い（後継モデルで改善）

DETRとは

DETRのアーキテクチャ

歴史と背景

DETR vs 従来モデルの違い

関連用語