コンピュータービジョン

DETR でぃーとらんすふぉーまー

DETRDEtection TRansformer物体検出TransformerEnd-to-EndFacebook AI
DETRについて教えて

簡単に言うとこんな感じ!

DETRは「Transformer物体検出に使った」革新的なモデルだよ。アンカーボックスもNMS(重複除去処理)も不要で、「N個の物体を検出する」をTransformerのデコーダが直接出力するシンプルな設計が特徴。CNNとTransformerを融合させた次世代の物体検出なんだ!


DETRとは

DETR(DEtection TRansformer) は、2020年にFacebook AI ResearchのCarionらが発表したTransformerを使った物体検出モデルです。物体検出において初めてエンドツーエンドのTransformerベースの検出を実現しました。

従来の物体検出モデル(YOLOFaster R-CNNなど)は「アンカーボックス(事前に設定した候補矩形)」と「NMS(非最大値抑制:重複検出の除去)」という2つの手作り設計が必要でした。DETRはこれらを廃止し、CNNで抽出した特徴をTransformerのEncoder-Decoderに通し、N個の物体クエリから直接検出結果を出力します。

DETRは精度でFaster R-CNNと同等を達成しましたが、学習に時間がかかる欠点がありました。これを改善したDeformable DETR・DAB-DETR・DN-DETRなどの後継モデルが次々と提案されています。


DETRのアーキテクチャ

入力画像

CNN Backbone(ResNet等)

平坦化 + Position Embedding(位置情報を付加)

Transformer Encoder(自己注意機構で文脈理解)

Transformer Decoder
  ← N個の「物体クエリ(Object Query)」を入力
  ← Encoderの出力とクロスアテンション

各クエリが(クラス, x, y, w, h)を予測

ハンガリアンマッチングで正解と対応づけて学習

歴史と背景

  • 2020年:Carionら「End-to-End Object Detection with Transformers」でDETRを発表
  • 2020年末:Deformable DETRが収束速度を大幅改善(500エポック→50エポック)
  • 2022〜2023年:DN-DETR・DINO(Detection with Transformers)がSOTA達成
  • 現在:DETR系モデルがYOLO系と並ぶ物体検出の主要なアプローチに

DETR vs 従来モデルの違い

項目Faster R-CNN / YOLODETR
アンカーボックス必要(手動設計)不要
NMS必要(後処理)不要
学習のEnd-to-End部分的完全
グローバルな文脈限定的Attention全域
収束速度速い遅い(後継モデルで改善)

関連用語