データと前処理

特徴量重要度とくちょうりょうじゅうようど

特徴量重要度SHAP変数重要度解釈可能性モデル説明

特徴量重要度について教えて

簡単に言うとこんな感じ！

「このAIの予測に一番影響してるのはどの変数？」を数値で表したものだよ。「融資審査AIが弾いたのは、収入より実は勤続年数の短さが原因」みたいに、AIの判断理由を人間が理解するための手がかりになるんだ！

特徴量重要度とは

特徴量重要度（Feature Importance）とは、機械学習モデルの予測において、各特徴量がどの程度貢献しているかを定量化した指標です。モデルの「ブラックボックス」性を解消し、予測の根拠を人間が理解・説明するために使われます。

ビジネスの現場では「なぜこの顧客が解約リスク高と判定されたのか」「この融資審査の否決理由は何か」といった説明が求められることが多く、特徴量重要度はその説明の土台となります。

主な算出方法

ツリーモデルの組み込み重要度

ランダムフォレスト・XGBoostなどのツリーモデルが学習時に算出

種類	説明
Gini重要度（不純度ベース）	分岐で削減された不純度の合計
Permutation重要度	その特徴量をランダムに入れ替えた時の精度低下
Gain	特徴量の分岐による利得の平均
Cover	特徴量が使われた際のサンプル数

モデル非依存の手法

どんなモデルにも適用できる手法

手法	特徴
SHAP（SHapley Additive exPlanations）	各サンプルへの貢献を厳密に算出。最も信頼性が高い
LIME	局所的な線形近似でモデルを説明
Permutation Importance	特徴量をシャッフルして精度変化を測定

SHAPの考え方

SHAPは協力ゲーム理論の「Shapley値」をMLに応用したものです。

予測値 = ベースライン + 各特徴量のShapley値の合計

例：ある顧客の解約確率 = 30%（ベースライン）
  + 勤続年数が短い: +15%
  + 購買頻度が高い: -8%
  + 年齢が若い: +3%
  ─────────────────────────
  = 40%

→ 「勤続年数」が最大の押し上げ要因と明確に特定

歴史と背景

2001年：ランダムフォレスト論文でGini重要度が提案
2016年：Lundberg & Lee がSHAPを発表。ML解釈可能性の標準手法に
2018年以降：EU GDPRの「説明を受ける権利」対応でビジネス活用が加速
現在：LLMの出力説明にもShapleyベースの研究が進行中

活用例

活用場面	具体例
モデル改善	重要度が低い特徴量を除去してシンプル化
ビジネス洞察	解約に最も影響する要因の発見
法的説明義務	融資否決・採用不合格の理由説明
デバッグ	重要度が高い変数が直感と違えばデータを疑う