AI倫理・規制

AI安全性 あいあんぜんせい

AI安全性アライメントAIリスクRLHF安全なAIAI規制
AI安全性って何が危ないの?

簡単に言うとこんな感じ!

AI安全性は「AIが人間の意図しない動作をしたり、悪用されたりしないようにするための研究と対策」だよ!「AIが嘘をつく(ハルシネーション)」「差別的な回答をする」「悪意ある使い方をされる」など、AIが社会に害をもたらすリスクを最小化しようとする取り組みなんだ。


AI安全性とは

AI安全性(AI Safety) とは、AIシステムが人間にとって有害な結果をもたらさないよう設計・開発・運用するための研究領域と実践の総称です。

短期的な安全性(現在のシステムの誤動作・バイアス・悪用)と長期的な安全性(高度なAIが人間の価値観から外れる「アライメント問題」)の2つの観点があります。


AI安全性の主な課題

課題内容
アライメント問題AIが人間の意図・価値観に沿って動くよう調整すること
ハルシネーション事実でない情報を生成する問題
バイアス・公平性訓練データの偏りが差別的な出力を引き起こす
有害コンテンツ暴力・差別・詐欺等のコンテンツ生成
プロンプトインジェクション悪意ある入力でAIを意図しない動作に誘導
自律的な脅威高度なAIエージェントが意図しない行動を取る

RLHF(人間のフィードバックによる強化学習)

AIの安全性向上に使われる主要な技術。人間がAIの回答を評価し、そのフィードバックで学習させることで、有害な出力を減らします。

AIが複数の回答を生成

人間のラベラーが回答の質・安全性を評価

評価データで報酬モデルを学習

強化学習でAIを改善(PPO等)

より安全で役立つAIに

歴史と背景

  • 2014年:ニック・ボストロムが「スーパーインテリジェンス」でAIリスクを論じる
  • 2015年:OpenAI設立(安全なAI開発を目的として)
  • 2023年:ChatGPTの急速な普及でAI安全性が政府・規制機関の主要議題に

関連用語