データと前処理

特徴量 とくちょうりょう

特徴量フィーチャー変数入力データ特徴エンジニアリング
特徴量について教えて

簡単に言うとこんな感じ!

機械学習モデルへの「入力情報」のことだよ。家の価格を予測するなら「面積・築年数・駅からの距離・間取り」がそれぞれ特徴量。何をどう特徴量として表現するかで、モデルの精度が大きく変わるんだ!


特徴量とは

特徴量(Feature)とは、機械学習モデルへの入力として使用される、データの測定可能な属性・変数のことです。英語の “Feature” をそのままカタカナにして「フィーチャー」と呼ぶこともあります。

モデルは特徴量のパターンからラベル(正解)との関係を学習します。そのため、「何を特徴量として用意するか」は、アルゴリズム選択よりもモデル精度に影響を与えることが多いと言われています。


特徴量の種類

データ型による分類

種類説明
数値特徴量(連続値)任意の数値を取る年齢、売上金額、気温
数値特徴量(離散値)整数値を取るクリック数、購入回数
カテゴリ特徴量有限のカテゴリ性別、都道府県、商品カテゴリ
順序特徴量順序に意味がある評価(低・中・高)、学歴
テキスト特徴量自由記述テキストビュー文、問い合わせ内容
画像特徴量ピクセル値や埋め込み商品画像、顔画像
時系列特徴量時間的な変化株価、センサー値の推移

特徴量エンジニアリング

特徴量エンジニアリングとは、生データから予測に有用な特徴量を作成・変換する作業です。

手法説明
組み合わせ特徴量既存特徴量を演算して新規作成「体重/身長²」= BMI
時間特徴量の抽出日時から有用な情報を取り出す「曜日」「月」「祝日フラグ」
集計特徴量グループ統計量を計算ユーザーの過去30日平均購買額
ラグ特徴量過去の値を特徴量にn日前の値
ターゲットエンコーディングカテゴリをターゲット平均値に変換都道府県→平均売上

歴史と背景

  • 1990年代〜:統計学・機械学習での特徴量設計が研究の中心に
  • 2010年代初頭:特徴量エンジニアリングがKaggleなどで競われる技術に
  • 2012年〜ディープラーニング特徴量の自動抽出を実現(表現学習)
  • 現在LLMの埋め込み表現が汎用特徴量として活用される

ディープラーニングとの関係

従来の機械学習
  生データ → [人手による特徴量設計] → [モデル] → 予測

ディープラーニング
  生データ → [自動特徴量抽出(ネットワーク内部)] → 予測

ディープラーニングは特徴量エンジニアリングの必要性を大幅に低減しましたが、表形式データ(テーブルデータ)では今も人手での特徴量設計が有効です。


関連用語