正則化(L1・L2) せいそくか(えるわん・えるつー)
過学習防止LassoRidgeペナルティ損失関数スパース
正則化(L1・L2)について教えて
正則化(L1・L2)とは
正則化(Regularization)とは、機械学習モデルの損失関数にペナルティ項を追加することで、モデルのパラメータ(重み)が大きくなりすぎることを抑制し、過学習を防ぐ手法の総称です。モデルの複雑さに制約を課すことで、訓練データに特化した「丸暗記」ではなく、汎化できる「本質的な学習」を促します。
最もよく使われるのが L1正則化 と L2正則化 の2種類です。L1(ラッソ回帰、Lasso)は重みの絶対値の和をペナルティとして加え、不要な特徴の重みをゼロにする(スパース化する)効果があります。L2(リッジ回帰、Ridge)は重みの二乗和をペナルティとして加え、全ての重みをなだらかに小さくする効果があります。
発注・選定の観点では、「そのAIモデルには正則化が適切に適用されているか、また正則化の強さ(λ)はどのように決定したか」を確認することが、汎化性能の品質保証につながります。
L1・L2正則化の比較
| 特徴 | L1正則化(Lasso) | L2正則化(Ridge) |
|---|---|---|
| ペナルティ | 重みの絶対値の和(‖w‖₁) | 重みの二乗和(‖w‖₂²) |
| 効果 | 不要な重みをゼロに(スパース化) | 全ての重みを均等に小さく |
| 特徴選択 | できる(不要特徴を自動で除去) | できない(全特徴を残す) |
| 別名 | Lasso回帰 | Ridge回帰 |
| 向いている場面 | 特徴量が多く、一部だけ重要な場合 | 全特徴がある程度重要な場合 |
| 実装例(sklearn) | Lasso(alpha=0.1) | Ridge(alpha=0.1) |
ElasticNet(エラスティックネット)
L1とL2を組み合わせた ElasticNet もよく使われます。スパース化の効果を持ちつつ、L2による安定化も享受できるため、特徴量が非常に多い場面で有効です。
損失関数(L2正則化の場合):
L_total = L_original + λ × Σ(wᵢ²)
↑損失 ↑ペナルティ項
λ(ラムダ): 正則化の強さを調整するハイパーパラメータ
λが大きい → 強い制約 → シンプルなモデル
λが小さい → 弱い制約 → 複雑なモデル(過学習リスク)
歴史と背景
- 1940〜50年代:統計学の分野でリッジ回帰の原型となる考え方が登場
- 1970年:Hoerl & Kennardがリッジ回帰(L2正則化)を正式に提案。多重共線性対策として普及
- 1996年:TibshiraniがLasso回帰(L1正則化)を発表。スパース解が得られることで特徴選択の用途にも活用される
- 1998年:SVM(サポートベクターマシン)の「最大マージン」原理がL2正則化と等価であることが示される
- 2000年代:ニューラルネットワークへのL2正則化(ウェイトディケイ)の適用が一般化
- 2010年代:ドロップアウトがニューラルネットワーク向けの正則化として台頭し、L1/L2との使い分けが研究される
- 現在:大規模言語モデル(LLM)の学習ではAdamWオプティマイザーに内蔵されたL2正則化(ウェイトディケイ)が標準的に使われる
正則化の効果イメージ
関連する規格・RFC
| 規格・RFC番号 | 内容 |
|---|---|
| ISO/IEC 22989:2022 | AI概念・用語(モデル汎化に関する定義を含む) |