AI安全性 あいあんぜんせい
AI安全性アライメントAIリスクRLHF安全なAIAI規制
AI安全性って何が危ないの?
簡単に言うとこんな感じ!
AI安全性は「AIが人間の意図しない動作をしたり、悪用されたりしないようにするための研究と対策」だよ!「AIが嘘をつく(ハルシネーション)」「差別的な回答をする」「悪意ある使い方をされる」など、AIが社会に害をもたらすリスクを最小化しようとする取り組みなんだ。
AI安全性とは
AI安全性(AI Safety) とは、AIシステムが人間にとって有害な結果をもたらさないよう設計・開発・運用するための研究領域と実践の総称です。
短期的な安全性(現在のシステムの誤動作・バイアス・悪用)と長期的な安全性(高度なAIが人間の価値観から外れる「アライメント問題」)の2つの観点があります。
AI安全性の主な課題
| 課題 | 内容 |
|---|---|
| アライメント問題 | AIが人間の意図・価値観に沿って動くよう調整すること |
| ハルシネーション | 事実でない情報を生成する問題 |
| バイアス・公平性 | 訓練データの偏りが差別的な出力を引き起こす |
| 有害コンテンツ | 暴力・差別・詐欺等のコンテンツ生成 |
| プロンプトインジェクション | 悪意ある入力でAIを意図しない動作に誘導 |
| 自律的な脅威 | 高度なAIエージェントが意図しない行動を取る |
RLHF(人間のフィードバックによる強化学習)
AIの安全性向上に使われる主要な技術。人間がAIの回答を評価し、そのフィードバックで学習させることで、有害な出力を減らします。
AIが複数の回答を生成
↓
人間のラベラーが回答の質・安全性を評価
↓
評価データで報酬モデルを学習
↓
強化学習でAIを改善(PPO等)
↓
より安全で役立つAIに
歴史と背景
- 2014年:ニック・ボストロムが「スーパーインテリジェンス」でAIリスクを論じる
- 2015年:OpenAI設立(安全なAI開発を目的として)
- 2023年:ChatGPTの急速な普及でAI安全性が政府・規制機関の主要議題に
関連用語
- ハルシネーション — AI安全性の重要な課題のひとつ
- 説明可能なAI(XAI) — AI安全性の透明性確保に関連
- AIバイアスと公平性 — AI安全性の社会的側面
- AI規制と法律 — AI安全性を法的に規定する動き
- ファインチューニング — RLHFを含む安全性向上のための学習手法