#09 人工知能入門 CNN画像認識

有名なアーキテクチャ——歴史と進化を辿る

CNNの12年間の進化

2012年のAlexNet登場から、CNNは急速に進化しました。各モデルが「何を新しく持ち込んだか」を年表形式で追っていきます。


年表:CNNの進化

モデルImageNet Top-5精度革新点
2012AlexNet84.7%深いCNN+GPU学習の実証
2014VGGNet92.7%3×3フィルターの積み重ね
2014GoogLeNet93.3%Inceptionモジュール(分岐)
2015ResNet96.4%残差接続(150層超)
2017MobileNet89.5%分離畳み込みで軽量化
2018MobileNetV291.0%逆ボトルネック構造
2019EfficientNet97.1%深さ・幅・解像度の組み合わせスケーリング
2021ViT〜97%純粋なTransformer(CNNを使わない)

AlexNet(2012)——AI革命の起爆剤

提案者: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
革新点: 深いCNNをGPUで学習できることを世界に証明

2012年のImageNet LSVRC(大規模画像認識コンテスト)で、AlexNetは2位に10%以上の大差をつけて優勝しました。この衝撃がAIブームの引き金になりました。

AlexNetが持ち込んだ技術:

  • ReLU活性化関数(Sigmoidより速く収束)
  • Dropout(過学習防止)
  • データ拡張(画像の切り取り・反転)
  • GPU並列学習(当時2枚のGPUを使用)

VGGNet(2014)——シンプルさの極致

提案者: Karen Simonyan, Andrew Zisserman(オックスフォード大学)
革新点: 3×3フィルターだけを使って16〜19層を積み重ねる

「アーキテクチャをシンプルにしたまま、ただ深くする」という方針で高精度を達成。

3×3フィルターを重ねる利点:

3×3 × 2回 = 5×5と同じ受容野(見える範囲)
  ただしパラメータ数: 18 vs 25(3×3×2 vs 5×5)
→ 同じ表現力をより少ないパラメータで実現

VGGの欠点はパラメータが多すぎること(1.38億)。しかしシンプルさから転移学習の教材として今でも使われます。


GoogLeNet / Inception(2014)——並列処理という発想

提案者: Google研究チーム
革新点: 同じ層の中で複数サイズのフィルターを並列適用(Inceptionモジュール)

「どのフィルターサイズが最適かわからないなら全部やってしまえ」という発想です。

Inceptionモジュールの並列処理:
                ↓ 入力
  ┌─────────────────────────┐
  │  1×1  │  3×3  │  5×5  │MaxPool│
  └─────────────────────────┘

         出力を連結(Concatenate)

Inceptionアーキテクチャは非常に深い(22層)のに、AlexNetより12倍少ないパラメータで高精度を達成しました。


ResNet(2015)——深さの限界を突破

提案者: Kaiming He他(Microsoft Research)
革新点: 残差接続(Skip Connection)で152層の超深いネットワークを実現

残差接続については第6回で詳しく解説しました。

なぜ深いと良いのか:

浅いネットワーク: シンプルな特徴しか学べない
深いネットワーク: 階層的な複雑な特徴を学べる

ResNetはImageNetで人間(94.9%)を初めて超えた精度(96.4%)を達成し、「AIが人間の目を超えた」として大きな話題になりました。

今でもResNetは最も広く使われるバックボーンの1つです。


EfficientNet(2019)——スケーリングの科学化

提案者: Mingxing Tan, Quoc V. Le(Google Brain)
革新点: 深さ・幅・解像度の3つを一緒にバランスよくスケールする

従来のモデルは「深くする(ResNet)」「幅を広くする」「解像度を上げる」のどれか1つに注目していました。EfficientNetは「3つを同時にバランス良くスケールするのが最適」と主張し、数学的に最適な比率を導き出しました。

EfficientNet-B0: 小さい基本モデル
EfficientNet-B7: B0を数学的に最適な比率でスケールアップしたモデル
→ B7は当時の最高精度を少ないパラメータで達成

最近の潮流:ViTとCNNの融合

2021年以降、ViT(Vision Transformer) という純粋にTransformerアーキテクチャを使った視覚モデルが登場し、大量のデータがある場合はCNNを超える精度を示しています。

現在は「CNNとTransformerのハイブリッド」モデルも多く、CNNは成熟した安定した選択肢として、Transformerは大規模モデルの選択肢として共存しています。


まとめ

  • AlexNet(2012): GPU+CNNで革命。AI時代の幕開け
  • VGGNet(2014): 3×3の積み重ねシンプル路線
  • GoogLeNet(2014): 並列フィルターで効率的に深く
  • ResNet(2015): 残差接続で超深層学習を実現。人間精度超え
  • MobileNet(2017): 分離畳み込みでモバイル対応の軽量化
  • EfficientNet(2019): 深さ・幅・解像度のバランススケーリング
  • 各モデルの「革新点」を押さえておくと、用途に合った選択ができる

次回はいよいよ最終回。分類・検出・セグメンテーションの実際の構成例を具体的に見ていきます。