データと前処理

外れ値 はずれち

外れ値異常値ノイズデータクリーニング統計的外れ値
外れ値について教えて

簡単に言うとこんな感じ!

データの中で他とかけ離れた値のことだよ。「社員の平均年収を計算したら億万長者の社長1人のせいで全員高収入に見えた」みたいな問題を引き起こす厄介者なんだ。でも時には不正取引や機械の故障を示す重要なシグナルにもなるよ!


外れ値とは

外れ値(Outlier)とは、データセットの中で他の大多数の観測値と大きく異なる値のことです。機械学習では外れ値が含まれたまま学習すると、モデルが歪んだパターンを学んでしまい、精度が大きく低下する原因になります。

外れ値には大きく2種類あります。真の異常(センサー故障、入力ミス、詐欺など)と正当な極端値(本当に存在する珍しい事象)です。どちらに分類されるかによって対処法が変わります。

例えば、購買履歴分析でVIP顧客の購買額が一般顧客の100倍であっても、それは削除すべき「外れ値」ではなく、保持すべき重要なセグメントかもしれません。


外れ値の検出方法

統計的な手法

手法方法基準
IQR法四分位範囲を使用Q1-1.5×IQR 〜 Q3+1.5×IQR の範囲外
Zスコア法平均と標準偏差を使用
修正Zスコア中央値絶対偏差を使用データが正規分布でなくても有効
グラッブスの検定1つの外れ値を統計検定正規分布を仮定

可視化による検出

  • 箱ひげ図(Box Plot):IQR外のデータを視覚化
  • 散布図:2変数の関係から逸脱を確認
  • ヒストグラム:分布の裾の厚さを確認

機械学習による検出

  • Isolation Forest:外れ値を分離するツリーを構築
  • LOF(Local Outlier Factor):局所的な密度に基づく検出
  • One-Class SVM:正常データのみで境界を学習

歴史と背景

  • 19世紀:統計学において外れ値の問題が認識される
  • 1969年:グラッブスの検定が提案
  • 1970年代:ロバスト統計学が発展し、外れ値に強い手法が整備
  • 2008年:Isolation Forestが提案され、高次元外れ値検出が実用化

外れ値の対処法

1. 削除
   → 入力ミスや計測エラーと確認できる場合

2. 置換
   → 中央値・平均値などで補完

3. 変換
   → 対数変換などで分布を正規化

4. 別途モデル化
   → 異常検知タスクとして扱う

5. ロバストなアルゴリズムの使用
   → 外れ値に強い手法(中央値回帰など)を選択

関連用語