コンピュータービジョン

EfficientNet いふぃしぇんとねっと

EfficientNetモデルスケーリングCNN画像認識複合スケーリングGoogle
EfficientNetについて教えて

簡単に言うとこんな感じ!

EfficientNetは「深さ・幅・解像度」の3軸を同時にバランスよくスケールする「複合スケーリング」で、少ないパラメータ数で高い精度を実現したCNNだよ。ResNetより精度が高いのに計算量は大幅に少ない——コスパ最強のモデルと言われてたんだ!


EfficientNetとは

EfficientNet は、2019年にGoogleのMingxing TanとQuoc V. Leが発表した高効率な画像分類CNNアーキテクチャです。従来のモデルが「層を深くするだけ」「チャンネル数を増やすだけ」と1つの軸だけをスケールしていたのに対し、EfficientNetは深さ(Depth)・幅(Width)・解像度(Resolution)の3軸を同時にバランスよく拡大する「複合スケーリング」を提案しました。

EfficientNet-B0(最小版)をベースに、B0〜B7まで段階的にスケールしたバリアントが存在します。EfficientNet-B7はImageNetでTop-1精度84.3%を達成し、当時のSOTA(最高性能)を大幅に更新しました。

精度・パラメータ数・計算量の比率が優れており、モバイルデバイス〜大規模サーバーまで幅広い用途で採用されました。


複合スケーリングの考え方

従来のスケーリング:
  深さのみ拡大   → 幅や解像度が不足し精度向上に限界
  幅のみ拡大    → 深さが不足しパラメータ数が膨大に
  解像度のみ拡大 → 受容野が追いつかない

EfficientNetの複合スケーリング:
  depth × width × resolution を同時に係数αβγで調整
  → 計算量2倍あたりの精度向上が最大になるバランスを数値探索
モデルパラメータ数Top-1精度計算量(FLOPS)
EfficientNet-B0540万77.1%0.39G
EfficientNet-B41900万82.6%4.2G
EfficientNet-B76600万84.3%37G
ResNet-50(参考)2500万76.1%4.1G

歴史と背景

  • 2019年:論文「EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks」発表
  • 2019年:ImageNet Top-1精度84.3%(B7)でSOTAを達成
  • 2020年:EfficientDet(物体検出版)も同様のスケーリングで高効率を実現
  • 2021年以降:Vision Transformer(ViT)系モデルが台頭し、最高精度の座は譲るが実用面で人気継続

EfficientNetの活用シーン

シーンEfficientNetの有利な点
スマートフォンアプリB0〜B2でモバイル動作
精度重視の企業AIB5〜B7で高精度
転移学習ベース豊富な学習済みモデルと実績
Kaggleコンペ精度・効率バランスでよく使われる

関連用語