機械学習・学習手法

データ前処理 でーたぜんしょり

データ前処理クレンジング欠損値外れ値データ品質パイプライン
データ前処理って何でそんなに時間がかかるの?

簡単に言うとこんな感じ!

現実のデータは「欠損値だらけ・入力ミスだらけ・形式がバラバラ」で、そのままではAIに食わせられないからだよ!機械学習の実務では前処理に全体の70〜80%の時間がかかると言われていて、良いモデルより良いデータの方が重要なんだ。


データ前処理とは

データ前処理(Data Preprocessing) とは、生データを機械学習モデルに入力できる形に整形・クリーニング・変換する作業の総称です。

「Garbage in, garbage out」の原則通り、前処理の品質がモデルの性能に直結します。実データには必ずといっていいほど品質問題が含まれており、それを発見・解決するのが前処理の本質です。


データ前処理の主な作業

作業内容
欠損値処理NULL・空白の補完(平均・中央値・最頻値)または削除
重複除去同一レコードの重複を検出・削除
外れ値処理異常に大きい・小さい値の除去・修正
型変換文字列→数値、日付→タイムスタンプなど
名寄せ「東京都」「東京」「tokyo」を統一
正規化・標準化数値の範囲を統一して比較しやすくする
テキスト前処理大文字小文字統一・ストップワード除去・形態素解析
データ分割訓練・検証・テストセットに分割

データ品質の6要素

要素内容
正確性データが現実を正確に反映しているか
完全性欠損がないか
一貫性同じ概念が同じ表現で統一されているか
適時性データが最新の状態か
一意性重複がないか
妥当性ビジネスルールに合致しているか

歴史と背景

  • データマイニング時代(1990年代):CRISP-DMプロセスで「データ前処理」が独立フェーズとして定義
  • 深層学習(2010年代):データオーギュメンテーション(データ拡張)が前処理の新手法として登場
  • 現在:Pandas・Spark・dbtなど前処理ツールのエコシステムが成熟

関連用語