有名なアーキテクチャ——歴史と進化を辿る
CNNの12年間の進化
2012年のAlexNet登場から、CNNは急速に進化しました。各モデルが「何を新しく持ち込んだか」を年表形式で追っていきます。
年表:CNNの進化
| 年 | モデル | ImageNet Top-5精度 | 革新点 |
|---|---|---|---|
| 2012 | AlexNet | 84.7% | 深いCNN+GPU学習の実証 |
| 2014 | VGGNet | 92.7% | 3×3フィルターの積み重ね |
| 2014 | GoogLeNet | 93.3% | Inceptionモジュール(分岐) |
| 2015 | ResNet | 96.4% | 残差接続(150層超) |
| 2017 | MobileNet | 89.5% | 分離畳み込みで軽量化 |
| 2018 | MobileNetV2 | 91.0% | 逆ボトルネック構造 |
| 2019 | EfficientNet | 97.1% | 深さ・幅・解像度の組み合わせスケーリング |
| 2021 | ViT | 〜97% | 純粋なTransformer(CNNを使わない) |
AlexNet(2012)——AI革命の起爆剤
提案者: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
革新点: 深いCNNをGPUで学習できることを世界に証明
2012年のImageNet LSVRC(大規模画像認識コンテスト)で、AlexNetは2位に10%以上の大差をつけて優勝しました。この衝撃がAIブームの引き金になりました。
AlexNetが持ち込んだ技術:
- ReLU活性化関数(Sigmoidより速く収束)
- Dropout(過学習防止)
- データ拡張(画像の切り取り・反転)
- GPU並列学習(当時2枚のGPUを使用)
VGGNet(2014)——シンプルさの極致
提案者: Karen Simonyan, Andrew Zisserman(オックスフォード大学)
革新点: 3×3フィルターだけを使って16〜19層を積み重ねる
「アーキテクチャをシンプルにしたまま、ただ深くする」という方針で高精度を達成。
3×3フィルターを重ねる利点:
3×3 × 2回 = 5×5と同じ受容野(見える範囲)
ただしパラメータ数: 18 vs 25(3×3×2 vs 5×5)
→ 同じ表現力をより少ないパラメータで実現
VGGの欠点はパラメータが多すぎること(1.38億)。しかしシンプルさから転移学習の教材として今でも使われます。
GoogLeNet / Inception(2014)——並列処理という発想
提案者: Google研究チーム
革新点: 同じ層の中で複数サイズのフィルターを並列適用(Inceptionモジュール)
「どのフィルターサイズが最適かわからないなら全部やってしまえ」という発想です。
Inceptionモジュールの並列処理:
↓ 入力
┌─────────────────────────┐
│ 1×1 │ 3×3 │ 5×5 │MaxPool│
└─────────────────────────┘
↓
出力を連結(Concatenate)
Inceptionアーキテクチャは非常に深い(22層)のに、AlexNetより12倍少ないパラメータで高精度を達成しました。
ResNet(2015)——深さの限界を突破
提案者: Kaiming He他(Microsoft Research)
革新点: 残差接続(Skip Connection)で152層の超深いネットワークを実現
残差接続については第6回で詳しく解説しました。
なぜ深いと良いのか:
浅いネットワーク: シンプルな特徴しか学べない
深いネットワーク: 階層的な複雑な特徴を学べる
ResNetはImageNetで人間(94.9%)を初めて超えた精度(96.4%)を達成し、「AIが人間の目を超えた」として大きな話題になりました。
今でもResNetは最も広く使われるバックボーンの1つです。
EfficientNet(2019)——スケーリングの科学化
提案者: Mingxing Tan, Quoc V. Le(Google Brain)
革新点: 深さ・幅・解像度の3つを一緒にバランスよくスケールする
従来のモデルは「深くする(ResNet)」「幅を広くする」「解像度を上げる」のどれか1つに注目していました。EfficientNetは「3つを同時にバランス良くスケールするのが最適」と主張し、数学的に最適な比率を導き出しました。
EfficientNet-B0: 小さい基本モデル
EfficientNet-B7: B0を数学的に最適な比率でスケールアップしたモデル
→ B7は当時の最高精度を少ないパラメータで達成
最近の潮流:ViTとCNNの融合
2021年以降、ViT(Vision Transformer) という純粋にTransformerアーキテクチャを使った視覚モデルが登場し、大量のデータがある場合はCNNを超える精度を示しています。
現在は「CNNとTransformerのハイブリッド」モデルも多く、CNNは成熟した安定した選択肢として、Transformerは大規模モデルの選択肢として共存しています。
まとめ
- AlexNet(2012): GPU+CNNで革命。AI時代の幕開け
- VGGNet(2014): 3×3の積み重ねシンプル路線
- GoogLeNet(2014): 並列フィルターで効率的に深く
- ResNet(2015): 残差接続で超深層学習を実現。人間精度超え
- MobileNet(2017): 分離畳み込みでモバイル対応の軽量化
- EfficientNet(2019): 深さ・幅・解像度のバランススケーリング
- 各モデルの「革新点」を押さえておくと、用途に合った選択ができる
次回はいよいよ最終回。分類・検出・セグメンテーションの実際の構成例を具体的に見ていきます。