データと前処理

データクレンジングでーたくれんじんぐ

データクレンジングデータ品質データクリーニング前処理ETL

データクレンジングについて教えて

簡単に言うとこんな感じ！

データの「汚れ」を落として使える状態にする作業だよ。「東京都」と「東京」と「tokyo」が混在してたり、同じ人が2つのIDで登録されてたり、実際のデータはカオスなことが多い。AI開発の時間の8割はこの作業って言われるほど地味だけど重要な工程なんだ！

データクレンジングとは

データクレンジング（Data Cleansing、またはData Cleaning）とは、データセットに含まれる不正確・不完全・重複・矛盾したデータを検出・修正・削除する作業です。「ガベージイン・ガベージアウト（Garbage In, Garbage Out）」という格言の通り、質の悪いデータで学習したモデルは質の悪い予測しかできません。

AI開発プロジェクトの工数の60〜80%がデータ準備に費やされるという調査結果があり、データクレンジングはその中核を担います。地味ですが、モデルの精度を最も左右する工程のひとつです。

主な問題とその対処

よくあるデータの問題

問題の種類	具体例	対処法
欠損値	空欄、NULL、NaN	削除・補完・フラグ付け
重複レコード	同一顧客が2行	重複削除（deduplication）
表記ゆれ	「東京都」「東京」「TOKYO」	正規化・統一
データ型ミスマッチ	数値列に「不明」の文字	型変換・フィルタ
範囲外の値	年齢=-5、確率=1.5	外れ値処理
フォーマット不統一	日付「2024/01/15」「15 Jan 2024」	パース・統一
不整合	「退職日 < 入社日」	ビジネスルール検証
エンコーディング問題	文字化け	UTF-8統一

歴史と背景

1990年代：データウェアハウスの普及とともにETLの概念が確立
2000年代：MDM（マスターデータ管理）が企業の重要課題に
2010年代：ビッグデータ時代、データ品質管理ツールが商用化
現在：LLMによる表記ゆれ自動修正・スキーマ推論が実用化

データクレンジングのプロセス

1. プロファイリング
   → データの統計量・分布・欠損率を把握

2. ルール定義
   → ビジネス的に「正しいデータ」の定義

3. 検出
   → ルールに違反するレコードの特定

4. 修正 / 削除
   → 問題レコードの修正または除外

5. 検証
   → クレンジング後のデータ品質を再確認

6. 文書化
   → どんな問題があって何をしたか記録

データクレンジングとは

主な問題とその対処

よくあるデータの問題

歴史と背景

データクレンジングのプロセス

関連用語