データと前処理

クラス不均衡くらすふきんこう

クラス不均衡不均衡データSMOTEオーバーサンプリングアンダーサンプリング

クラス不均衡について教えて

簡単に言うとこんな感じ！

訓練データの中で「正常品9900個、不良品100個」みたいに特定のカテゴリが極端に少ない状態のことだよ。AIが「全部正常！」と答えれば99%正解できてしまうから、不正検知や病気診断などでは特に厄介な問題なんだ！

クラス不均衡（Class Imbalance）とは、分類問題において各クラス（カテゴリ）のデータ件数が大きく偏っている状態を指します。例えば「正常：99件、異常：1件」という比率では、モデルが「全部正常」と予測するだけで99%の精度を達成できてしまいます。

しかしこの「99%正確なモデル」は実際には役に立ちません。異常を1件も検出できないからです。精度（Accuracy）だけでモデルを評価してはいけない典型的なケースです。

クラス不均衡が問題になりやすい業務領域は多岐にわたります。

精度（Accuracy）の代わりに以下を使う：

少数クラスの2点間を結ぶ線上に
ランダムな合成サンプルを生成する

  A ────────── 新しい点 ─── B
 (既存)                    (既存)

→ 少数クラスの「境界付近」を豊かにする効果