AI倫理・規制

AI安全性あいあんぜんせい

AI安全性アライメントAIリスクRLHF安全なAIAI規制

AI安全性って何が危ないの？

簡単に言うとこんな感じ！

AI安全性は「AIが人間の意図しない動作をしたり、悪用されたりしないようにするための研究と対策」だよ！「AIが嘘をつく（ハルシネーション）」「差別的な回答をする」「悪意ある使い方をされる」など、AIが社会に害をもたらすリスクを最小化しようとする取り組みなんだ。

AI安全性（AI Safety） とは、AIシステムが人間にとって有害な結果をもたらさないよう設計・開発・運用するための研究領域と実践の総称です。

短期的な安全性（現在のシステムの誤動作・バイアス・悪用）と長期的な安全性（高度なAIが人間の価値観から外れる「アライメント問題」）の2つの観点があります。

課題	内容
アライメント問題	AIが人間の意図・価値観に沿って動くよう調整すること
ハルシネーション	事実でない情報を生成する問題
バイアス・公平性	訓練データの偏りが差別的な出力を引き起こす
有害コンテンツ	暴力・差別・詐欺等のコンテンツ生成
プロンプトインジェクション	悪意ある入力でAIを意図しない動作に誘導
自律的な脅威	高度なAIエージェントが意図しない行動を取る

AIの安全性向上に使われる主要な技術。人間がAIの回答を評価し、そのフィードバックで学習させることで、有害な出力を減らします。

AIが複数の回答を生成
    ↓
人間のラベラーが回答の質・安全性を評価
    ↓
評価データで報酬モデルを学習
    ↓
強化学習でAIを改善（PPO等）
    ↓
より安全で役立つAIに