データと前処理

カテゴリ変数エンコーディングかてごりへんすうえんこーでぃんぐ

カテゴリ変数エンコーディングワンホットラベルエンコーディング特徴量変換

カテゴリ変数エンコーディングについて教えて

簡単に言うとこんな感じ！

「東京・大阪・名古屋」や「猫・犬・鳥」みたいな文字のカテゴリデータを、コンピューターが計算できる数値に変換する処理だよ。どう変換するかで「東京と大阪は似てる」みたいな誤った情報をモデルに与えてしまうリスクがあるから、手法の選択が大事なんだ！

カテゴリ変数エンコーディングとは、「性別」「都道府県」「商品カテゴリ」などのカテゴリ型データを機械学習モデルが扱える数値に変換する前処理のことです。

多くの機械学習アルゴリズムは数値しか扱えないため、カテゴリ変数の変換は必須の作業です。変換方法の選択を誤ると、存在しない順序関係をモデルに学習させてしまうという問題が生じます（例：東京=0, 大阪=1, 名古屋=2 とすると「名古屋 > 東京 × 2」という計算が成立してしまう）。

カテゴリを整数に変換（0, 1, 2, …）

東京 → 0 / 大阪 → 1 / 名古屋 → 2

各カテゴリ値を別々の0/1列に展開

東京 → [1, 0, 0]
大阪 → [0, 1, 0]
名古屋 → [0, 0, 1]

カテゴリを対応するターゲット変数の平均値に変換

東京 → 平均購買額 45万円
大阪 → 平均購買額 38万円