データ前処理 でーたぜんしょり
データ前処理クレンジング欠損値外れ値データ品質パイプライン
データ前処理って何でそんなに時間がかかるの?
データ前処理とは
データ前処理(Data Preprocessing) とは、生データを機械学習モデルに入力できる形に整形・クリーニング・変換する作業の総称です。
「Garbage in, garbage out」の原則通り、前処理の品質がモデルの性能に直結します。実データには必ずといっていいほど品質問題が含まれており、それを発見・解決するのが前処理の本質です。
データ前処理の主な作業
| 作業 | 内容 |
|---|---|
| 欠損値処理 | NULL・空白の補完(平均・中央値・最頻値)または削除 |
| 重複除去 | 同一レコードの重複を検出・削除 |
| 外れ値処理 | 異常に大きい・小さい値の除去・修正 |
| 型変換 | 文字列→数値、日付→タイムスタンプなど |
| 名寄せ | 「東京都」「東京」「tokyo」を統一 |
| 正規化・標準化 | 数値の範囲を統一して比較しやすくする |
| テキスト前処理 | 大文字小文字統一・ストップワード除去・形態素解析 |
| データ分割 | 訓練・検証・テストセットに分割 |
データ品質の6要素
| 要素 | 内容 |
|---|---|
| 正確性 | データが現実を正確に反映しているか |
| 完全性 | 欠損がないか |
| 一貫性 | 同じ概念が同じ表現で統一されているか |
| 適時性 | データが最新の状態か |
| 一意性 | 重複がないか |
| 妥当性 | ビジネスルールに合致しているか |
歴史と背景
- データマイニング時代(1990年代):CRISP-DMプロセスで「データ前処理」が独立フェーズとして定義
- 深層学習(2010年代):データオーギュメンテーション(データ拡張)が前処理の新手法として登場
- 現在:Pandas・Spark・dbtなど前処理ツールのエコシステムが成熟