バックボーン——特徴を抽出する「エンジン」

バックボーンとは何か

CNNを設計するとき、「特徴を抽出する部分」と「その特徴を使って答えを出す部分」を分けて考えることができます。

バックボーン（Backbone） とは、画像から有用な特徴を抽出するCNNの「幹」の部分です。人体でいえば背骨（backbone）のように、全体を支える中心的なパーツです。

[入力画像]
    ↓
[バックボーン]  ← ここ！特徴を抽出するCNNの主要部分
    ↓
[特徴マップ（圧縮された情報）]
    ↓
[ヘッド]        ← タスクに応じた「答えを出す部分」（次回）
    ↓
[出力（分類、検出など）]

バックボーンが分離して名前を持つ理由は、同じバックボーンを複数のタスクで使い回せるからです。分類にも、物体検出にも、セグメンテーションにも、同じResNet-50を使い回すことができます。

VGG——深さの追求

VGGNet（2014年）はシンプルさが特徴です。「3×3の小さなフィルター」だけを使い、層を16〜19層まで深くしました。

VGG16の構成（一部）:
  Conv(64) × 2 → Pool
  Conv(128) × 2 → Pool
  Conv(256) × 3 → Pool
  Conv(512) × 3 → Pool
  Conv(512) × 3 → Pool
  FC(4096) × 2 → FC(1000) → Softmax

VGGの革新: 「大きいフィルター（7×7）より、小さいフィルター（3×3）を重ねた方が良い」という発見。3×3を2回重ねると5×5と同じ範囲を見られますが、パラメータは少なくて済みます。

VGGの弱点: 1億3800万個のパラメータで、ほとんどが最後の全結合層に集中しています。メモリ効率が悪い。

ResNet——残差接続という革命

ResNet（2015年、Microsoftリサーチ）は「層を重ねすぎると精度が逆に落ちる」という問題を解決しました。

残差接続（Skip Connection）

通常の層:
入力 x → [Conv→BN→ReLU→Conv→BN] → 出力

残差接続:
入力 x → [Conv→BN→ReLU→Conv→BN] → + → 出力
  ↑_________________________________↑
          入力xをそのまま加算（スキップ）

この「入力を直接加算するショートカット」が残差接続です。

直感的な説明: 残差ブロックは「入力に何かを足す（残差を学ぶ）」と考えます。

普通の学習: F(x) = 何か複雑な変換を学ぶ
残差学習:  F(x) = x + Δx（入力からの変化量だけを学ぶ）

もし「何もしなくていい（変化量ゼロ）」なら、残差接続は F(x) = x をとればいい。これにより深い層でも「何もしない」という選択肢があり、勾配消失が起きにくくなります。

ResNetは152層という当時考えられなかった深さを実現し、ImageNetで人間の精度を初めて超えました。

MobileNet——モバイル向けの軽量化

MobileNet（2017年、Google）はスマートフォンなど計算リソースが少ない環境向けに設計されました。

深さ方向の分離畳み込み（Depthwise Separable Convolution） という技法で計算量を大幅に削減します：

通常の畳み込み: 空間的なフィルタリング + チャンネル間の混合 を同時にやる
   → 計算コストが高い

分離畳み込み: 2段階に分ける
  Step1 (Depthwise): 各チャンネルを独立にフィルタリング
  Step2 (Pointwise): 1×1畳み込みでチャンネル間を混合

この分離で計算量が約8〜9倍削減されます。精度はわずかに低下しますが、スマートフォンでリアルタイム推論が可能になります。

バックボーンの選び方

モデル	パラメータ数	特徴	用途
VGG16	1.38億	シンプル・理解しやすい	学習用、精度重視
ResNet-50	2,500万	バランスが良い定番	汎用的に使える
MobileNetV3	500万	超軽量	スマートフォン、エッジデバイス
EfficientNet	変動	精度と効率の最適バランス	精度・速度両立したい場合

まとめ

バックボーンは「画像から特徴を抽出するCNNの主要部分」。タスク間で使い回せる
VGGは3×3フィルターを積み重ねた深いシンプルなネットワーク
ResNetは残差接続で150層超の深さを実現。入力をショートカットで直接加算する
MobileNetは分離畳み込みで軽量化。スマートフォン向けの推論に適している
バックボーンの選択はタスクの精度要件・計算リソース・速度要件で決まる

次回は、バックボーンが抽出した特徴を使って実際の「答え」を出す——ヘッドの仕組みを学びます。