コンピュータービジョン

ConvNeXt こんぶねくすと

ConvNeXtCNNVision TransformerMeta AI現代的CNN画像認識
ConvNeXtについて教えて

簡単に言うとこんな感じ!

ConvNeXtは「Vision Transformerの設計思想をCNNに取り込んだら、CNNもViTに匹敵する精度が出た!」というモデルだよ。2022年にMetaが発表。「CNNはもう古い」という流れに「いや、設計次第でまだまだ戦える!」と示した革新的なCNNなんだ!


ConvNeXtとは

ConvNeXt は、2022年にMeta AI(Zhuang Liuら)が発表したVision Transformer(ViT)の設計思想をCNNに適用した現代的なCNNアーキテクチャです。論文タイトルは「A ConvNet for the 2020s」で、「CNNはViTに劣るのではなく、正しく設計すれば同等以上になれる」ことを示しました。

ConvNeXtはResNetを出発点として、ViTから学んだ多くの設計改善を段階的に適用して開発されました:パッチサイズを大きく(7×7)・より少ない正規化層・GELUの採用・LayerNormの使用・チャンネル数の比率変更など。

結果として、同じ計算量・パラメータ数でSwinTransformerなどのViT系モデルに匹敵または超える精度を達成しました。CNNの「速度・シンプルさ・解釈しやすさ」という利点を保ちながら最先端の精度を実現しています。


ConvNeXtの主な設計変更

変更点従来のResNetConvNeXt
ステージ比率(3, 4, 6, 3)(3, 3, 9, 3)
パッチサイズ7×7 stride=2 + MaxPool4×4 stride=4(ViT風)
カーネルサイズ3×37×7(Depthwise)
活性化関数ReLUGELU
正規化BatchNormLayerNorm
Pointwise比率幅を均一に幅を4倍に拡張

歴史と背景

  • 2020年:Vision Transformer(ViT)が登場し、画像認識でもTransformerが注目される
  • 2021年:Swin Transformerなどがさらにラベル効率で改善
  • 2022年:Meta AIが「A ConvNet for the 2020s」でConvNeXtを発表し、CNNの競争力を示す
  • 現在物体検出(ConvNeXt+DINO等)や特徴抽出バックボーンとして広く採用

主要モデルの精度比較(ImageNet)

モデルパラメータ数Top-1精度
ResNet-502500万76.1%
Swin-T2800万81.3%
ConvNeXt-T2800万82.1%
ConvNeXt-B8900万83.8%
ConvNeXt-L1.97億84.3%

関連用語