機械学習・学習手法

特徴量エンジニアリング とくちょうりょうえんじにありんぐ

特徴量フィーチャーエンジニアリングデータ前処理変数選択特徴量ストア次元削減
特徴量エンジニアリングって何のためにするの?

簡単に言うとこんな感じ!

特徴量エンジニアリングは「生のデータからモデルが学習しやすい形の特徴(数値)を作り出す」作業だよ!「誕生日」より「年齢」の方がモデルが学びやすかったり、「住所テキスト」より「都市と郵便番号に分けた数値」の方が精度が上がったり、データの料理みたいなものなんだ。


特徴量エンジニアリングとは

特徴量エンジニアリング(Feature Engineering) とは、機械学習モデルへの入力として使う「特徴量(Feature)」を生データから作成・変換・選択するプロセスです。

「Garbage in, garbage out(ゴミを入れればゴミが出る)」の原則通り、どんなに高度なモデルを使っても、特徴量の品質が低ければ良い結果は得られません。特徴量エンジニアリングはモデルの性能を大きく左右する最重要プロセスのひとつです。


主な特徴量エンジニアリングの手法

手法内容
欠損値の処理NULLデータの補完・除去平均値補完・中央値補完
スケーリング数値の範囲を統一正規化(0〜1)・標準化(z-score)
エンコーディングカテゴリ値を数値に変換One-hot encoding・Label encoding
特徴量生成既存特徴量から新しい特徴量を作成年齢×収入の交互作用特徴量
次元削減特徴量数を減らすPCAt-SNE
バイニング連続値を区間に分類年齢を10代・20代・30代に分類

歴史と背景

  • 機械学習初期:特徴量設計が専門知識に基づく手作業(ドメイン知識が重要)
  • 深層学習(2010年代)ニューラルネットワークが特徴量を自動学習(自動特徴量抽出)
  • 現在:AutoML・特徴量ストアで自動化・再利用が進む

特徴量ストア

複数のMLモデルで同じ特徴量を再利用できるよう管理するシステム。同じ計算を重複して行うムダを排除し、学習と推論で同じ特徴量を使える一貫性を保証します。


関連用語

  • データ前処理 — 特徴量エンジニアリングの前段となるデータクリーニング
  • 機械学習 — 特徴量エンジニアリングが必要な機械学習全般
  • MLOps — 特徴量を管理・自動化するMLOpsパイプライン
  • 教師あり学習 — 特徴量の設計が最も重要な学習方式
  • 転移学習 — 深層学習での自動特徴量抽出の実現手法