AI・機械学習の基本概念

バックプロパゲーション ばっくぷろぱげーしょん

誤差逆伝播法ニューラルネットワーク勾配損失関数微分ディープラーニング
バックプロパゲーションについて教えて

簡単に言うとこんな感じ!

テストで間違えたとき「どの勉強が足りなかったか」を逆算するイメージだよ!AIが答えを出してみて、間違い(損失)を計算したら、今度は「どの重みのせいで間違えたか」を出力層から入力層へ向かって逆方向に計算して、各パラメータを修正するんだ。これが誤差逆伝播法とも呼ばれる所以ってこと!


バックプロパゲーションとは

バックプロパゲーション(Backpropagation)とは、ニューラルネットワークの学習において、損失関数の値を各層のパラメータ(重みとバイアス)に対して微分し、勾配を出力層から入力層へ向かって逆方向に伝播させるアルゴリズムです。日本語では誤差逆伝播法と呼ばれます。

通常の計算(順伝播、フォワードパス)は入力→出力の方向に行われますが、バックプロパゲーションはその逆——出力→入力の方向に「どこに誤差の責任があるか」を計算連鎖(連鎖律、Chain Rule)を使って効率的に求めます。これにより、多層のニューラルネットワーク全体のパラメータを一度に更新できます。

1986年にRumelhart・Hinton・Williamsが発表した論文によってその有効性が広く知られ、ニューラルネットワーク研究の第二次ブームをもたらしました。今日のディープラーニングの実用化はバックプロパゲーションなしには存在し得ません。


学習の2フェーズ

フェーズ方向やること
順伝播(Forward Pass)入力 → 出力データを流して予測値を計算する
逆伝播(Backward Pass)出力 → 入力誤差を逆方向に伝播させ、各パラメータの勾配を計算する

連鎖律(Chain Rule)のポイント

バックプロパゲーションの数学的根拠は連鎖律です。合成関数 f(g(x)) の微分は f'(g(x)) × g'(x) で求められるという微分の法則を、層をまたいで繰り返し適用します。

出力層の誤差
  ↓ × (出力層→中間層の重みの微分)
中間層の誤差
  ↓ × (中間層→入力層の重みの微分)
入力層の誤差

各パラメータの勾配が確定 → 勾配降下法で更新

歴史と背景

  • 1960年代:誤差逆伝播の原型となるアイデアが独立して複数の研究者により提案される
  • 1974年:Paul Werbosが博士論文で多層ネットワークへの誤差逆伝播を定式化(当時は注目されず)
  • 1986年:Rumelhart・Hinton・Williamsが「学習表現を誤差逆伝播で」を発表し、実用性を実証。ニューラルネットワーク研究が再加速
  • 1990年代:勾配消失問題が発見され、深い層への適用が困難とされる
  • 2006年:Hintonらが深いネットワークの事前学習法を提案し、深いネットワークへの逆伝播の問題を回避
  • 2012年AlexNetがImageNetで圧勝。バックプロパゲーション+深いネットワーク+GPUの組み合わせが実証される
  • 現在:PyTorch・TensorFlowが自動微分(Autograd)実装し、バックプロパゲーションは自動化されている

順伝播と逆伝播のフロー

バックプロパゲーションの2フェーズ ──── 順伝播(青) - - - 逆伝播(橙) 入力層 中間層1 中間層2 出力層 → 順伝播(Forward Pass): 予測値を計算 ← 逆伝播(Backward Pass): 勾配を伝播 損失関数 誤差計算 勾配消失問題(Vanishing Gradient) 層が深くなると勾配が指数的に小さくなり、入力層に届かなくなる現象

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 22989:2022AI基本概念・用語(ニューラルネットワークの学習プロセスを定義)

関連用語