決定木 けっていぎ
決定木Decision TreeCART分岐ルール解釈可能モデル
決定木について教えて
決定木とは
決定木(Decision Tree)は、特徴量に対する「条件分岐」を繰り返して予測する機械学習アルゴリズムです。木構造で表現でき、人間が読んで理解できる最も解釈しやすいモデルのひとつです。
分類にも回帰にも使えます(分類木・回帰木)。
決定木の構造
┌─────────────────┐
│ 年収 ≥ 500万円? │ ← 根ノード(最初の分岐)
└────────┬────────┘
│
┌────────────┴────────────┐
Yes No
↓ ↓
┌───────────────────┐ ┌──────────────┐
│ 勤続年数 ≥ 3年? │ │ 否決 │ ← 葉ノード
└────────┬──────────┘ └──────────────┘
│
┌────┴────┐
Yes No
↓ ↓
┌──────┐ ┌──────┐
│ 融資OK│ │ 審査中│ ← 葉ノード
└──────┘ └──────┘
分岐の決め方(学習の仕組み)
| 基準 | 説明 | 主な用途 |
|---|---|---|
| ジニ不純度 | クラスの混ざり具合を測る | 分類(CART) |
| エントロピー(情報利得) | 情報の不確実性を測る | 分類 |
| 分散減少 | 回帰目的変数の分散を減らす | 回帰 |
最も「不純度を下げる」特徴量と閾値を選んで分岐します。
決定木の長所と短所
長所:
✓ 予測の根拠を人間が理解できる
✓ 前処理(スケーリング等)が不要
✓ カテゴリ・数値変数をそのまま扱える
✓ 学習が高速
短所:
✗ 過学習しやすい(木が深くなりすぎる)
✗ 訓練データの少しの変化で大きく変わる(不安定)
✗ 直線的な関係の表現が苦手
過学習対策
- 深さの制限(max_depth)
- 最小分割サンプル数(min_samples_split)
- 枝刈り(Pruning):不要な枝を後から除去
歴史と背景
- 1963年:Morgan & Sonquistが原型のAIDアルゴリズムを発表
- 1984年:Breiman らが CART(Classification and Regression Trees)を発表
- 1986年:Quinlanが ID3 アルゴリズムを発表(後にC4.5、C5.0へ)
- 現在:単体より、ランダムフォレスト・XGBoostの基礎として重要