データと前処理

データバイアス でーたばいあす

データバイアス偏り公平性AI倫理機械学習バイアス
データバイアスについて教えて

簡単に言うとこんな感じ!

訓練データに偏りがあると、AIも偏った判断をしてしまうことだよ。「男性ばかりで学習した採用AIが女性を低評価する」「白人の顔認識は精度95%なのに黒人は70%」みたいな実際の問題が起きていて、AI開発では特に注意が必要なんだ!


データバイアスとは

データバイアスとは、訓練データや収集プロセスに含まれる偏りが、機械学習モデル予測に体系的なエラーや不公平な差別をもたらす現象です。AIは与えられたデータのパターンを忠実に学習するため、データに偏りがあれば、その偏りをそのまま(時に増幅して)再現してしまいます。

重要なのは、バイアスは意図的でなくても生じるという点です。悪意のない開発者が作ったシステムでも、データの収集方法・対象・時期によって深刻な偏りが発生することがあります。


バイアスの種類

バイアスの種類説明
選択バイアスデータが現実の集団を代表していない病院の患者データで健常者を分析できない
確証バイアス既存の偏見を反映したラベル付け歴史的に男性が多かった職種に男性が「正解」とラベル
測定バイアスデータ収集の方法が系統的に偏る顔認識で白人の訓練データが多すぎる
集計バイアスサブグループを一括りにすることで差が生じる全体最適が特定グループに不公平
時間バイアス過去のデータが現在に当てはまらないコロナ前の需要予測モデルがコロナ後に機能しない
生存バイアス成功例だけでデータが構成される廃業した企業を除いた経営分析

実際に起きた問題

  • Amazon採用AI(2018年):過去の採用データ(男性中心)で学習し、女性候補者を低評価。廃棄に
  • COMPAS(刑事司法):黒人被疑者の再犯率を過大予測するバイアスが判明
  • 顔認識精度格差:MIT研究で白人男性の誤認識率1%に対し、黒人女性は35%という格差

歴史と背景

  • 2016年:ProPublicaがCOMPASの人種バイアスを報告
  • 2018年:MIT Media Lab がGenderShades研究を発表
  • 2021年:EU AI法案でバイアス対策が規制要件として明示
  • 現在:AI公平性は企業のガバナンス・リスク管理の重要項目に

対処法

1. データ収集段階での多様性確保
   → 様々な属性・背景を持つデータを均等に収集

2. バイアス検査ツールの活用
   → IBM AI Fairness 360、Fairlearn などで定量評価

3. 公平性を考慮した学習
   → 不利なグループへの誤差を重く評価する損失関数

4. 継続的なモニタリング
   → 本番運用後もサブグループ別に精度を監視

5. 多様なチームによるレビュー
   → 開発チームの多様性自体がバイアス検出に有効

関連用語