DETR でぃーとらんすふぉーまー
DETRDEtection TRansformer物体検出TransformerEnd-to-EndFacebook AI
DETRについて教えて
簡単に言うとこんな感じ!
DETRは「Transformerを物体検出に使った」革新的なモデルだよ。アンカーボックスもNMS(重複除去処理)も不要で、「N個の物体を検出する」をTransformerのデコーダが直接出力するシンプルな設計が特徴。CNNとTransformerを融合させた次世代の物体検出なんだ!
DETRとは
DETR(DEtection TRansformer) は、2020年にFacebook AI ResearchのCarionらが発表したTransformerを使った物体検出モデルです。物体検出において初めてエンドツーエンドのTransformerベースの検出を実現しました。
従来の物体検出モデル(YOLO・Faster R-CNNなど)は「アンカーボックス(事前に設定した候補矩形)」と「NMS(非最大値抑制:重複検出の除去)」という2つの手作り設計が必要でした。DETRはこれらを廃止し、CNNで抽出した特徴をTransformerのEncoder-Decoderに通し、N個の物体クエリから直接検出結果を出力します。
DETRは精度でFaster R-CNNと同等を達成しましたが、学習に時間がかかる欠点がありました。これを改善したDeformable DETR・DAB-DETR・DN-DETRなどの後継モデルが次々と提案されています。
DETRのアーキテクチャ
入力画像
↓
CNN Backbone(ResNet等)
↓
平坦化 + Position Embedding(位置情報を付加)
↓
Transformer Encoder(自己注意機構で文脈理解)
↓
Transformer Decoder
← N個の「物体クエリ(Object Query)」を入力
← Encoderの出力とクロスアテンション
↓
各クエリが(クラス, x, y, w, h)を予測
↓
ハンガリアンマッチングで正解と対応づけて学習
歴史と背景
- 2020年:Carionら「End-to-End Object Detection with Transformers」でDETRを発表
- 2020年末:Deformable DETRが収束速度を大幅改善(500エポック→50エポック)
- 2022〜2023年:DN-DETR・DINO(Detection with Transformers)がSOTA達成
- 現在:DETR系モデルがYOLO系と並ぶ物体検出の主要なアプローチに
DETR vs 従来モデルの違い
| 項目 | Faster R-CNN / YOLO | DETR |
|---|---|---|
| アンカーボックス | 必要(手動設計) | 不要 |
| NMS | 必要(後処理) | 不要 |
| 学習のEnd-to-End | 部分的 | 完全 |
| グローバルな文脈 | 限定的 | Attention全域 |
| 収束速度 | 速い | 遅い(後継モデルで改善) |
関連用語
- 物体検出 — DETRが解くタスク
- 自己注意機構(Self-Attention) — DETRが活用するTransformerの中核
- Faster R-CNN — DETRが置き換えようとした2段階検出手法
- YOLO — DETRと並ぶ主要な物体検出アプローチ