AI・機械学習の基本概念

過学習・過適合 かがくしゅう・かてきごう

オーバーフィッティング汎化正則化訓練データ検証データバイアス・バリアンス
過学習・過適合について教えて

簡単に言うとこんな感じ!

過去問を丸暗記して本番の試験で全然点が取れない受験生みたいな状態だよ!AIが訓練データを「完璧に覚えすぎた」せいで、初めて見たデータにはまったく対応できなくなる現象なんだ。練習では満点でも、本番ではボロボロ——それが過学習(オーバーフィッティング)ってこと!


過学習・過適合とは

**過学習(Over-learning)または過適合(Overfitting)**とは、機械学習モデルが訓練データの細かいパターンやノイズまで学習してしまい、汎化能力(未知データへの対応力)を失う現象です。訓練データに対する精度は非常に高いのに、検証データや本番データではまったく使えないという問題として現れます。

過学習の根本的な原因は「モデルの複雑さがデータ量に対して大きすぎる」ことです。訓練データが少ないのに何千万もパラメータを持つモデルを使うと、モデルはデータの本質的なパターンではなく、個々のデータポイントの特殊性まで記憶しようとします。

AIシステム導入を発注する立場では「開発・テスト環境での精度と、本番投入後の精度が大幅に乖離しないか」を必ず確認する必要があります。過学習の見逃しは、高額投資をしたAIシステムが本番で全く役に立たないという事態につながります。


過学習・未学習・適切な学習の比較

状態別名訓練データ精度テストデータ精度学習曲線の特徴
未学習アンダーフィッティング低い低い両方の誤差が高いまま
適切な学習高い高い両方の誤差が収束
過学習オーバーフィッティング非常に高い低い訓練誤差↓・検証誤差↑に乖離

過学習を引き起こす主な要因

  • 訓練データが少ない:データが少ないと、モデルが「例外」を本質と誤解する
  • モデルが複雑すぎる:パラメータ数がデータ数に対して多い
  • 学習しすぎ(エポック数が多い):長時間学習させると訓練データに特化していく
  • 特徴量が多すぎる:ノイズも含めて大量の特徴を使うと本質を見失う

歴史と背景

  • 1960〜70年代:統計学・計量経済学の分野で「モデルの過適合」問題が認識され始める
  • 1980年代ニューラルネットワークの発展とともに、深いモデルの過学習が実用上の重大課題として浮上
  • 1990年代正則化(L1/L2)交差検証 などの対策手法が体系化される。VC理論により過学習の理論的な枠組みが整備される
  • 2000年代:SVMの「マージン最大化」が過学習を防ぐ原理として注目される
  • 2012年ドロップアウト(Dropout) の有効性が実証され、ディープラーニングの過学習対策として広く採用される
  • 2010年代後半〜現在:大規模なモデルとデータを使う「スケーリング則」の発見により、十分に大きなモデルと大量データでは「二重降下」という現象が起き、単純な過学習とは異なる挙動が見られることが分かってきた

過学習の検出と対策

学習曲線で見る過学習の兆候 誤差 エポック数(学習回数) 訓練誤差 検証誤差 ← ここから過学習 → 過学習の対策 正則化(L1/L2) ドロップアウト 早期終了 データ拡張 交差検証 早期終了:検証誤差が下がらなくなったらそこで学習をストップ

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 22989:2022AI概念・用語(汎化・過適合の定義を含む)
ISO/IEC TR 24029-1ニューラルネットワークの頑健性評価方法

関連用語