AI・機械学習の基本概念

正則化(L1・L2) せいそくか(えるわん・えるつー)

過学習防止LassoRidgeペナルティ損失関数スパース
正則化(L1・L2)について教えて

簡単に言うとこんな感じ!

「シンプルにまとめないと減点!」というルールをAIの採点に追加するイメージだよ!モデルの重みが大きくなりすぎると罰則(ペナルティ)を与えることで、AIが「特定の訓練データだけを丸暗記」するのを防ぐんだ。L1は余分な特徴を完全ゼロにして、L2はなだらかに小さくする——どちらも過学習防止の定番技術なんだ!


正則化(L1・L2)とは

正則化(Regularization)とは、機械学習モデルの損失関数にペナルティ項を追加することで、モデルのパラメータ(重み)が大きくなりすぎることを抑制し、過学習を防ぐ手法の総称です。モデルの複雑さに制約を課すことで、訓練データに特化した「丸暗記」ではなく、汎化できる「本質的な学習」を促します。

最もよく使われるのが L1正則化L2正則化 の2種類です。L1(ラッソ回帰、Lasso)は重みの絶対値の和をペナルティとして加え、不要な特徴の重みをゼロにする(スパース化する)効果があります。L2(リッジ回帰、Ridge)は重みの二乗和をペナルティとして加え、全ての重みをなだらかに小さくする効果があります。

発注・選定の観点では、「そのAIモデルには正則化が適切に適用されているか、また正則化の強さ(λ)はどのように決定したか」を確認することが、汎化性能の品質保証につながります。


L1・L2正則化の比較

特徴L1正則化(Lasso)L2正則化(Ridge)
ペナルティ重みの絶対値の和(‖w‖₁)重みの二乗和(‖w‖₂²)
効果不要な重みをゼロに(スパース化)全ての重みを均等に小さく
特徴選択できる(不要特徴を自動で除去)できない(全特徴を残す)
別名Lasso回帰Ridge回帰
向いている場面特徴量が多く、一部だけ重要な場合全特徴がある程度重要な場合
実装例(sklearn)Lasso(alpha=0.1)Ridge(alpha=0.1)

ElasticNet(エラスティックネット)

L1とL2を組み合わせた ElasticNet もよく使われます。スパース化の効果を持ちつつ、L2による安定化も享受できるため、特徴量が非常に多い場面で有効です。

損失関数(L2正則化の場合):
  L_total = L_original + λ × Σ(wᵢ²)
              ↑損失          ↑ペナルティ項
  λ(ラムダ): 正則化の強さを調整するハイパーパラメータ
  λが大きい → 強い制約 → シンプルなモデル
  λが小さい → 弱い制約 → 複雑なモデル(過学習リスク)

歴史と背景

  • 1940〜50年代:統計学の分野でリッジ回帰の原型となる考え方が登場
  • 1970年:Hoerl & Kennardがリッジ回帰(L2正則化)を正式に提案。多重共線性対策として普及
  • 1996年:TibshiraniがLasso回帰(L1正則化)を発表。スパース解が得られることで特徴選択の用途にも活用される
  • 1998年SVM(サポートベクターマシン)の「最大マージン」原理がL2正則化と等価であることが示される
  • 2000年代ニューラルネットワークへのL2正則化(ウェイトディケイ)の適用が一般化
  • 2010年代ドロップアウトがニューラルネットワーク向けの正則化として台頭し、L1/L2との使い分けが研究される
  • 現在大規模言語モデル(LLM)の学習ではAdamWオプティマイザーに内蔵されたL2正則化(ウェイトディケイ)が標準的に使われる

正則化の効果イメージ

正則化なし vs L1 vs L2 の重みの分布比較 正則化なし 重みが大きくバラバラ L1正則化(Lasso) 重要な特徴量だけ残す(他はゼロ) L2正則化(Ridge) 全重みが均等に小さく抑えられる λ(強さ)は交差検証で最適値を選ぶのがベストプラクティス

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 22989:2022AI概念・用語(モデル汎化に関する定義を含む)

関連用語