機械学習・学習手法

データ前処理でーたぜんしょり

データ前処理クレンジング欠損値外れ値データ品質パイプライン

データ前処理って何でそんなに時間がかかるの？

簡単に言うとこんな感じ！

現実のデータは「欠損値だらけ・入力ミスだらけ・形式がバラバラ」で、そのままではAIに食わせられないからだよ！機械学習の実務では前処理に全体の70〜80%の時間がかかると言われていて、良いモデルより良いデータの方が重要なんだ。

データ前処理とは

データ前処理（Data Preprocessing） とは、生データを機械学習モデルに入力できる形に整形・クリーニング・変換する作業の総称です。

「Garbage in, garbage out」の原則通り、前処理の品質がモデルの性能に直結します。実データには必ずといっていいほど品質問題が含まれており、それを発見・解決するのが前処理の本質です。

データ前処理の主な作業

作業	内容
欠損値処理	NULL・空白の補完（平均・中央値・最頻値）または削除
重複除去	同一レコードの重複を検出・削除
外れ値処理	異常に大きい・小さい値の除去・修正
型変換	文字列→数値、日付→タイムスタンプなど
名寄せ	「東京都」「東京」「tokyo」を統一
正規化・標準化	数値の範囲を統一して比較しやすくする
テキスト前処理	大文字小文字統一・ストップワード除去・形態素解析
データ分割	訓練・検証・テストセットに分割

データ品質の6要素

要素	内容
正確性	データが現実を正確に反映しているか
完全性	欠損がないか
一貫性	同じ概念が同じ表現で統一されているか
適時性	データが最新の状態か
一意性	重複がないか
妥当性	ビジネスルールに合致しているか

歴史と背景

データマイニング時代（1990年代）：CRISP-DMプロセスで「データ前処理」が独立フェーズとして定義
深層学習（2010年代）：データオーギュメンテーション（データ拡張）が前処理の新手法として登場
現在：Pandas・Spark・dbtなど前処理ツールのエコシステムが成熟

関連用語

特徴量エンジニアリング — 前処理の後に行うモデル向け特徴量の設計
機械学習 — 前処理したデータで学習するモデル
MLOps — 前処理パイプラインを自動化・管理する仕組み
ETL/ELT — データウェアハウスにおける前処理の実装
データ品質 — 前処理で担保すべきデータ品質の基準