データと前処理

データクレンジング でーたくれんじんぐ

データクレンジングデータ品質データクリーニング前処理ETL
データクレンジングについて教えて

簡単に言うとこんな感じ!

データの「汚れ」を落として使える状態にする作業だよ。「東京都」と「東京」と「tokyo」が混在してたり、同じ人が2つのIDで登録されてたり、実際のデータはカオスなことが多い。AI開発の時間の8割はこの作業って言われるほど地味だけど重要な工程なんだ!


データクレンジングとは

データクレンジング(Data Cleansing、またはData Cleaning)とは、データセットに含まれる不正確・不完全・重複・矛盾したデータを検出・修正・削除する作業です。「ガベージイン・ガベージアウト(Garbage In, Garbage Out)」という格言の通り、質の悪いデータで学習したモデルは質の悪い予測しかできません。

AI開発プロジェクトの工数の60〜80%がデータ準備に費やされるという調査結果があり、データクレンジングはその中核を担います。地味ですが、モデルの精度を最も左右する工程のひとつです。


主な問題とその対処

よくあるデータの問題

問題の種類具体例対処法
欠損値空欄、NULL、NaN削除・補完・フラグ付け
重複レコード同一顧客が2行重複削除(deduplication)
表記ゆれ「東京都」「東京」「TOKYO」正規化・統一
データ型ミスマッチ数値列に「不明」の文字型変換・フィルタ
範囲外の値年齢=-5、確率=1.5外れ値処理
フォーマット不統一日付「2024/01/15」「15 Jan 2024」パース・統一
不整合「退職日 < 入社日」ビジネスルール検証
エンコーディング問題文字化けUTF-8統一

歴史と背景

  • 1990年代データウェアハウスの普及とともにETLの概念が確立
  • 2000年代:MDM(マスターデータ管理)が企業の重要課題に
  • 2010年代:ビッグデータ時代、データ品質管理ツールが商用化
  • 現在LLMによる表記ゆれ自動修正・スキーマ推論が実用化

データクレンジングのプロセス

1. プロファイリング
   → データの統計量・分布・欠損率を把握

2. ルール定義
   → ビジネス的に「正しいデータ」の定義

3. 検出
   → ルールに違反するレコードの特定

4. 修正 / 削除
   → 問題レコードの修正または除外

5. 検証
   → クレンジング後のデータ品質を再確認

6. 文書化
   → どんな問題があって何をしたか記録

関連用語