AlexNet あれっくすねっと
AlexNet深層学習ImageNetGPUReLUCNN
AlexNetについて教えて
AlexNetとは
AlexNet は、2012年にAlex Krizhevsky・Ilya Sutskever・Geoffrey Hintonがトロント大学で開発した深層畳み込みニューラルネットワークです。画像認識コンテスト「ImageNet Large Scale Visual Recognition Challenge(ILSVRC)2012」で、2位に圧倒的な差(エラー率15.3% vs 2位の26.2%)をつけて優勝しました。
この結果は当時の画像認識の研究者に衝撃を与え、深層学習ブーム(第3次AIブーム)の始まりと位置づけられています。それまで主流だった「手作りの特徴量 + 機械学習」から「深層学習による特徴の自動学習」へと研究の主流が大転換しました。
AlexNetが採用した技術(ReLU・Dropout・データ拡張・GPU学習)は、その後の深層学習の標準技術となりました。
AlexNetのアーキテクチャ
| 層 | 種類 | 出力サイズ | 特記 |
|---|---|---|---|
| 入力 | — | 224×224×3 | — |
| Conv1 | 畳み込み | 55×55×96 | 11×11フィルタ、stride=4 |
| Pool1 | 最大プーリング | 27×27×96 | — |
| Conv2 | 畳み込み | 27×27×256 | 5×5フィルタ |
| Pool2 | 最大プーリング | 13×13×256 | — |
| Conv3〜5 | 畳み込み×3 | 13×13×384 | 3×3フィルタ |
| Pool3 | 最大プーリング | 6×6×256 | — |
| FC6〜7 | 全結合 | 4096 | Dropoutあり |
| FC8 + Softmax | 出力 | 1000 | 1000クラス分類 |
歴史と背景
- 2009年:ImageNetデータセット(120万枚・1000クラス)が公開される
- 2012年:AlexNetがILSVRC 2012でエラー率15.3%を達成(2位は26.2%)
- 2013年:AlexNetの論文が引用数1万超の超重要論文に。多くのフォローアップ研究が登場
- 2014年:VGGNetがAlexNetを改良し、さらに精度向上
AlexNetが導入した主要技術
| 技術 | 意義 |
|---|---|
| ReLU活性化関数 | Sigmoidより学習が速い。現在の深層学習の標準 |
| GPU(2基並列)学習 | 大規模モデルの学習を可能にした |
| ドロップアウト(0.5) | 全結合層の過学習を防止 |
| データ拡張 | ランダム切り取り・フリップで過学習を抑制 |
| Local Response Normalization | 後のバッチ正規化に置き換えられた |
関連用語
- CNN(畳み込みニューラルネットワーク) — AlexNetが採用したアーキテクチャ
- VGGNet — AlexNetを改良した後継モデル
- ResNet — AlexNet以降の深層化を実現したモデル
- 画像分類タスク — AlexNetが圧倒的性能を示したタスク