データと前処理

特徴量重要度 とくちょうりょうじゅうようど

特徴量重要度SHAP変数重要度解釈可能性モデル説明
特徴量重要度について教えて

簡単に言うとこんな感じ!

「このAIの予測に一番影響してるのはどの変数?」を数値で表したものだよ。「融資審査AIが弾いたのは、収入より実は勤続年数の短さが原因」みたいに、AIの判断理由を人間が理解するための手がかりになるんだ!


特徴量重要度とは

特徴量重要度(Feature Importance)とは、機械学習モデルの予測において、各特徴量がどの程度貢献しているかを定量化した指標です。モデルの「ブラックボックス」性を解消し、予測の根拠を人間が理解・説明するために使われます。

ビジネスの現場では「なぜこの顧客が解約リスク高と判定されたのか」「この融資審査の否決理由は何か」といった説明が求められることが多く、特徴量重要度はその説明の土台となります。


主な算出方法

ツリーモデルの組み込み重要度

ランダムフォレストXGBoostなどのツリーモデルが学習時に算出

種類説明
Gini重要度(不純度ベース)分岐で削減された不純度の合計
Permutation重要度その特徴量をランダムに入れ替えた時の精度低下
Gain特徴量の分岐による利得の平均
Cover特徴量が使われた際のサンプル数

モデル非依存の手法

どんなモデルにも適用できる手法

手法特徴
SHAP(SHapley Additive exPlanations)各サンプルへの貢献を厳密に算出。最も信頼性が高い
LIME局所的な線形近似でモデルを説明
Permutation Importance特徴量をシャッフルして精度変化を測定

SHAPの考え方

SHAPは協力ゲーム理論の「Shapley値」をMLに応用したものです。

予測値 = ベースライン + 各特徴量のShapley値の合計

例:ある顧客の解約確率 = 30%(ベースライン)
  + 勤続年数が短い: +15%
  + 購買頻度が高い: -8%
  + 年齢が若い: +3%
  ─────────────────────────
  = 40%

→ 「勤続年数」が最大の押し上げ要因と明確に特定

歴史と背景

  • 2001年:ランダムフォレスト論文でGini重要度が提案
  • 2016年:Lundberg & Lee がSHAPを発表。ML解釈可能性の標準手法に
  • 2018年以降:EU GDPRの「説明を受ける権利」対応でビジネス活用が加速
  • 現在LLMの出力説明にもShapleyベースの研究が進行中

活用例

活用場面具体例
モデル改善重要度が低い特徴量を除去してシンプル化
ビジネス洞察解約に最も影響する要因の発見
法的説明義務融資否決・採用不合格の理由説明
デバッグ重要度が高い変数が直感と違えばデータを疑う

関連用語

  • 特徴量選択 — 重要度の低い特徴量を除去する
  • 特徴量 — 重要度を測定する対象
  • 説明可能AI — 特徴量重要度を使うAI解釈の分野
  • SHAP — 最も信頼性の高い特徴量重要度算出手法
  • ランダムフォレスト — 特徴量重要度を提供する代表的モデル
  • XGBoost — 詳細な特徴量重要度を提供するモデル
  • 過学習 — 重要度の低い特徴量が増えると起きやすい