データクレンジング でーたくれんじんぐ
データクレンジングデータ品質データクリーニング前処理ETL
データクレンジングについて教えて
簡単に言うとこんな感じ!
データの「汚れ」を落として使える状態にする作業だよ。「東京都」と「東京」と「tokyo」が混在してたり、同じ人が2つのIDで登録されてたり、実際のデータはカオスなことが多い。AI開発の時間の8割はこの作業って言われるほど地味だけど重要な工程なんだ!
データクレンジングとは
データクレンジング(Data Cleansing、またはData Cleaning)とは、データセットに含まれる不正確・不完全・重複・矛盾したデータを検出・修正・削除する作業です。「ガベージイン・ガベージアウト(Garbage In, Garbage Out)」という格言の通り、質の悪いデータで学習したモデルは質の悪い予測しかできません。
AI開発プロジェクトの工数の60〜80%がデータ準備に費やされるという調査結果があり、データクレンジングはその中核を担います。地味ですが、モデルの精度を最も左右する工程のひとつです。
主な問題とその対処
よくあるデータの問題
| 問題の種類 | 具体例 | 対処法 |
|---|---|---|
| 欠損値 | 空欄、NULL、NaN | 削除・補完・フラグ付け |
| 重複レコード | 同一顧客が2行 | 重複削除(deduplication) |
| 表記ゆれ | 「東京都」「東京」「TOKYO」 | 正規化・統一 |
| データ型ミスマッチ | 数値列に「不明」の文字 | 型変換・フィルタ |
| 範囲外の値 | 年齢=-5、確率=1.5 | 外れ値処理 |
| フォーマット不統一 | 日付「2024/01/15」「15 Jan 2024」 | パース・統一 |
| 不整合 | 「退職日 < 入社日」 | ビジネスルール検証 |
| エンコーディング問題 | 文字化け | UTF-8統一 |
歴史と背景
- 1990年代:データウェアハウスの普及とともにETLの概念が確立
- 2000年代:MDM(マスターデータ管理)が企業の重要課題に
- 2010年代:ビッグデータ時代、データ品質管理ツールが商用化
- 現在:LLMによる表記ゆれ自動修正・スキーマ推論が実用化
データクレンジングのプロセス
1. プロファイリング
→ データの統計量・分布・欠損率を把握
2. ルール定義
→ ビジネス的に「正しいデータ」の定義
3. 検出
→ ルールに違反するレコードの特定
4. 修正 / 削除
→ 問題レコードの修正または除外
5. 検証
→ クレンジング後のデータ品質を再確認
6. 文書化
→ どんな問題があって何をしたか記録