AI・機械学習の基本概念

勾配降下法 こうばいこうかほう

最適化損失関数学習率SGDAdamパラメータ更新
勾配降下法について教えて

簡単に言うとこんな感じ!

山(損失関数)を下って一番低い谷(最小値)を目指すイメージだよ!霧の中で山を下りるとき、足元の傾きを感じながら「低い方向」に一歩ずつ進む——それがAIのパラメータ更新の仕組みなんだ。「勾配=傾き」を計算して、損失が減る方向にちょっとずつ動くってこと!


勾配降下法とは

勾配降下法(Gradient Descent)とは、機械学習モデル損失関数(誤差)を最小化するために、パラメータ(重み)を繰り返し更新するアルゴリズムです。「勾配」とは損失関数の微分値(傾き)のことで、「降下」はその傾きの反対方向に進むことを意味します。

数式でシンプルに表すと、パラメータ更新は θ ← θ - α × ∇L(θ) という形になります。α(アルファ)は学習率と呼ばれる更新の刻み幅、∇L(θ) は損失関数の勾配(傾き)です。刻み幅が大きすぎると谷を飛び越えてしまい、小さすぎると学習に時間がかかります。

ディープラーニングにおけるすべての学習は、勾配降下法とその派生アルゴリズムに依存しています。AIシステムの「学習時間」や「最終精度」に直結するため、エンジニアが最も気を使うコアコンポーネントのひとつです。


主な勾配降下法の種類

手法更新のタイミング特徴向いている場面
バッチ勾配降下法全データを使って1回更新安定しているが遅い小規模データ
確率的勾配降下法(SGD1サンプルごとに更新速いがノイジー大規模データ
ミニバッチ勾配降下法少量のデータ塊(バッチ)で更新バランス型。現在の主流実用的なほぼ全場面

発展的な最適化アルゴリズム

アルゴリズム特徴
Momentum(モメンタム)「慣性」を持たせて谷を飛び越えにくくする
AdaGradパラメータごとに学習率を自動調整
RMSpropAdaGradの学習率が下がりすぎる問題を改善
AdamMomentumとRMSpropを融合。現在最も広く使われる

歴史と背景

  • 1847年:コーシーが最急降下法(勾配降下法の原型)を提案
  • 1960年代:Widrow-Hoff則(LMSアルゴリズム)として機械学習への応用が始まる
  • 1986年バックプロパゲーションと組み合わせてニューラルネットワークの学習に応用され、実用化
  • 1988年:SGD(確率的勾配降下法)の有効性が実証される
  • 2011年:AdaGradが提案され、学習率の自動調整という概念が広まる
  • 2014年Adam(Kingma & Ba)が発表。今日も多くのディープラーニング実装で標準的に使われる
  • 2020年代大規模言語モデル(LLM)の学習でもAdamW(Adamの改良版)が主流として使われ続ける

勾配降下法の動き方

損失関数の地形と勾配降下のイメージ 損失大 パラメータ → ①スタート 局所最小値 大域最小値 学習率が大きい→飛び越えて発散 学習率が小さい→収束が遅い 適切な学習率→スムーズに最小値へ

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 22989:2022AI概念・用語(最適化アルゴリズムの定義を含む)

関連用語