データと前処理

データバイアスでーたばいあす

データバイアス偏り公平性AI倫理機械学習バイアス

データバイアスについて教えて

簡単に言うとこんな感じ！

訓練データに偏りがあると、AIも偏った判断をしてしまうことだよ。「男性ばかりで学習した採用AIが女性を低評価する」「白人の顔認識は精度95%なのに黒人は70%」みたいな実際の問題が起きていて、AI開発では特に注意が必要なんだ！

データバイアスとは

データバイアスとは、訓練データや収集プロセスに含まれる偏りが、機械学習モデルの予測に体系的なエラーや不公平な差別をもたらす現象です。AIは与えられたデータのパターンを忠実に学習するため、データに偏りがあれば、その偏りをそのまま（時に増幅して）再現してしまいます。

重要なのは、バイアスは意図的でなくても生じるという点です。悪意のない開発者が作ったシステムでも、データの収集方法・対象・時期によって深刻な偏りが発生することがあります。

バイアスの種類

バイアスの種類	説明	例
選択バイアス	データが現実の集団を代表していない	病院の患者データで健常者を分析できない
確証バイアス	既存の偏見を反映したラベル付け	歴史的に男性が多かった職種に男性が「正解」とラベル
測定バイアス	データ収集の方法が系統的に偏る	顔認識で白人の訓練データが多すぎる
集計バイアス	サブグループを一括りにすることで差が生じる	全体最適が特定グループに不公平
時間バイアス	過去のデータが現在に当てはまらない	コロナ前の需要予測モデルがコロナ後に機能しない
生存バイアス	成功例だけでデータが構成される	廃業した企業を除いた経営分析

実際に起きた問題

Amazon採用AI（2018年）：過去の採用データ（男性中心）で学習し、女性候補者を低評価。廃棄に
COMPAS（刑事司法）：黒人被疑者の再犯率を過大予測するバイアスが判明
顔認識精度格差：MIT研究で白人男性の誤認識率1%に対し、黒人女性は35%という格差

歴史と背景

2016年：ProPublicaがCOMPASの人種バイアスを報告
2018年：MIT Media Lab がGenderShades研究を発表
2021年：EU AI法案でバイアス対策が規制要件として明示
現在：AI公平性は企業のガバナンス・リスク管理の重要項目に

対処法

1. データ収集段階での多様性確保
   → 様々な属性・背景を持つデータを均等に収集

2. バイアス検査ツールの活用
   → IBM AI Fairness 360、Fairlearn などで定量評価

3. 公平性を考慮した学習
   → 不利なグループへの誤差を重く評価する損失関数

4. 継続的なモニタリング
   → 本番運用後もサブグループ別に精度を監視

5. 多様なチームによるレビュー
   → 開発チームの多様性自体がバイアス検出に有効

データバイアスとは

バイアスの種類

実際に起きた問題

歴史と背景

対処法

関連用語