特徴量重要度 とくちょうりょうじゅうようど
特徴量重要度SHAP変数重要度解釈可能性モデル説明
特徴量重要度について教えて
特徴量重要度とは
特徴量重要度(Feature Importance)とは、機械学習モデルの予測において、各特徴量がどの程度貢献しているかを定量化した指標です。モデルの「ブラックボックス」性を解消し、予測の根拠を人間が理解・説明するために使われます。
ビジネスの現場では「なぜこの顧客が解約リスク高と判定されたのか」「この融資審査の否決理由は何か」といった説明が求められることが多く、特徴量重要度はその説明の土台となります。
主な算出方法
ツリーモデルの組み込み重要度
ランダムフォレスト・XGBoostなどのツリーモデルが学習時に算出
| 種類 | 説明 |
|---|---|
| Gini重要度(不純度ベース) | 分岐で削減された不純度の合計 |
| Permutation重要度 | その特徴量をランダムに入れ替えた時の精度低下 |
| Gain | 特徴量の分岐による利得の平均 |
| Cover | 特徴量が使われた際のサンプル数 |
モデル非依存の手法
どんなモデルにも適用できる手法
| 手法 | 特徴 |
|---|---|
| SHAP(SHapley Additive exPlanations) | 各サンプルへの貢献を厳密に算出。最も信頼性が高い |
| LIME | 局所的な線形近似でモデルを説明 |
| Permutation Importance | 特徴量をシャッフルして精度変化を測定 |
SHAPの考え方
SHAPは協力ゲーム理論の「Shapley値」をMLに応用したものです。
予測値 = ベースライン + 各特徴量のShapley値の合計
例:ある顧客の解約確率 = 30%(ベースライン)
+ 勤続年数が短い: +15%
+ 購買頻度が高い: -8%
+ 年齢が若い: +3%
─────────────────────────
= 40%
→ 「勤続年数」が最大の押し上げ要因と明確に特定
歴史と背景
- 2001年:ランダムフォレスト論文でGini重要度が提案
- 2016年:Lundberg & Lee がSHAPを発表。ML解釈可能性の標準手法に
- 2018年以降:EU GDPRの「説明を受ける権利」対応でビジネス活用が加速
- 現在:LLMの出力説明にもShapleyベースの研究が進行中
活用例
| 活用場面 | 具体例 |
|---|---|
| モデル改善 | 重要度が低い特徴量を除去してシンプル化 |
| ビジネス洞察 | 解約に最も影響する要因の発見 |
| 法的説明義務 | 融資否決・採用不合格の理由説明 |
| デバッグ | 重要度が高い変数が直感と違えばデータを疑う |