有名なアーキテクチャ——歴史と進化を辿る

CNNの12年間の進化

2012年のAlexNet登場から、CNNは急速に進化しました。各モデルが「何を新しく持ち込んだか」を年表形式で追っていきます。

年表：CNNの進化

年	モデル	ImageNet Top-5精度	革新点
2012	AlexNet	84.7%	深いCNN＋GPU学習の実証
2014	VGGNet	92.7%	3×3フィルターの積み重ね
2014	GoogLeNet	93.3%	Inceptionモジュール（分岐）
2015	ResNet	96.4%	残差接続（150層超）
2017	MobileNet	89.5%	分離畳み込みで軽量化
2018	MobileNetV2	91.0%	逆ボトルネック構造
2019	EfficientNet	97.1%	深さ・幅・解像度の組み合わせスケーリング
2021	ViT	〜97%	純粋なTransformer（CNNを使わない）

AlexNet（2012）——AI革命の起爆剤

提案者: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
革新点: 深いCNNをGPUで学習できることを世界に証明

2012年のImageNet LSVRC（大規模画像認識コンテスト）で、AlexNetは2位に10%以上の大差をつけて優勝しました。この衝撃がAIブームの引き金になりました。

AlexNetが持ち込んだ技術：

ReLU活性化関数（Sigmoidより速く収束）
Dropout（過学習防止）
データ拡張（画像の切り取り・反転）
GPU並列学習（当時2枚のGPUを使用）

VGGNet（2014）——シンプルさの極致

提案者: Karen Simonyan, Andrew Zisserman（オックスフォード大学）
革新点: 3×3フィルターだけを使って16〜19層を積み重ねる

「アーキテクチャをシンプルにしたまま、ただ深くする」という方針で高精度を達成。

3×3フィルターを重ねる利点:

3×3 × 2回 = 5×5と同じ受容野（見える範囲）
  ただしパラメータ数: 18 vs 25（3×3×2 vs 5×5）
→ 同じ表現力をより少ないパラメータで実現

VGGの欠点はパラメータが多すぎること（1.38億）。しかしシンプルさから転移学習の教材として今でも使われます。

GoogLeNet / Inception（2014）——並列処理という発想

提案者: Google研究チーム
革新点: 同じ層の中で複数サイズのフィルターを並列適用（Inceptionモジュール）

「どのフィルターサイズが最適かわからないなら全部やってしまえ」という発想です。

Inceptionモジュールの並列処理:
                ↓ 入力
  ┌─────────────────────────┐
  │  1×1  │  3×3  │  5×5  │MaxPool│
  └─────────────────────────┘
                ↓
         出力を連結（Concatenate）

Inceptionアーキテクチャは非常に深い（22層）のに、AlexNetより12倍少ないパラメータで高精度を達成しました。

ResNet（2015）——深さの限界を突破

提案者: Kaiming He他（Microsoft Research）
革新点: 残差接続（Skip Connection）で152層の超深いネットワークを実現

残差接続については第6回で詳しく解説しました。

なぜ深いと良いのか:

浅いネットワーク: シンプルな特徴しか学べない
深いネットワーク: 階層的な複雑な特徴を学べる

ResNetはImageNetで人間（94.9%）を初めて超えた精度（96.4%）を達成し、「AIが人間の目を超えた」として大きな話題になりました。

今でもResNetは最も広く使われるバックボーンの1つです。

EfficientNet（2019）——スケーリングの科学化

提案者: Mingxing Tan, Quoc V. Le（Google Brain）
革新点: 深さ・幅・解像度の3つを一緒にバランスよくスケールする

従来のモデルは「深くする（ResNet）」「幅を広くする」「解像度を上げる」のどれか1つに注目していました。EfficientNetは「3つを同時にバランス良くスケールするのが最適」と主張し、数学的に最適な比率を導き出しました。

EfficientNet-B0: 小さい基本モデル
EfficientNet-B7: B0を数学的に最適な比率でスケールアップしたモデル
→ B7は当時の最高精度を少ないパラメータで達成

最近の潮流：ViTとCNNの融合

2021年以降、ViT（Vision Transformer） という純粋にTransformerアーキテクチャを使った視覚モデルが登場し、大量のデータがある場合はCNNを超える精度を示しています。

現在は「CNNとTransformerのハイブリッド」モデルも多く、CNNは成熟した安定した選択肢として、Transformerは大規模モデルの選択肢として共存しています。

まとめ

AlexNet（2012）: GPU+CNNで革命。AI時代の幕開け
VGGNet（2014）: 3×3の積み重ねシンプル路線
GoogLeNet（2014）: 並列フィルターで効率的に深く
ResNet（2015）: 残差接続で超深層学習を実現。人間精度超え
MobileNet（2017）: 分離畳み込みでモバイル対応の軽量化
EfficientNet（2019）: 深さ・幅・解像度のバランススケーリング
各モデルの「革新点」を押さえておくと、用途に合った選択ができる

次回はいよいよ最終回。分類・検出・セグメンテーションの実際の構成例を具体的に見ていきます。