特徴量 とくちょうりょう
特徴量フィーチャー変数入力データ特徴エンジニアリング
特徴量について教えて
特徴量とは
特徴量(Feature)とは、機械学習モデルへの入力として使用される、データの測定可能な属性・変数のことです。英語の “Feature” をそのままカタカナにして「フィーチャー」と呼ぶこともあります。
モデルは特徴量のパターンからラベル(正解)との関係を学習します。そのため、「何を特徴量として用意するか」は、アルゴリズム選択よりもモデル精度に影響を与えることが多いと言われています。
特徴量の種類
データ型による分類
| 種類 | 説明 | 例 |
|---|---|---|
| 数値特徴量(連続値) | 任意の数値を取る | 年齢、売上金額、気温 |
| 数値特徴量(離散値) | 整数値を取る | クリック数、購入回数 |
| カテゴリ特徴量 | 有限のカテゴリ | 性別、都道府県、商品カテゴリ |
| 順序特徴量 | 順序に意味がある | 評価(低・中・高)、学歴 |
| テキスト特徴量 | 自由記述テキスト | レビュー文、問い合わせ内容 |
| 画像特徴量 | ピクセル値や埋め込み | 商品画像、顔画像 |
| 時系列特徴量 | 時間的な変化 | 株価、センサー値の推移 |
特徴量エンジニアリング
特徴量エンジニアリングとは、生データから予測に有用な特徴量を作成・変換する作業です。
| 手法 | 説明 | 例 |
|---|---|---|
| 組み合わせ特徴量 | 既存特徴量を演算して新規作成 | 「体重/身長²」= BMI |
| 時間特徴量の抽出 | 日時から有用な情報を取り出す | 「曜日」「月」「祝日フラグ」 |
| 集計特徴量 | グループ統計量を計算 | ユーザーの過去30日平均購買額 |
| ラグ特徴量 | 過去の値を特徴量に | n日前の値 |
| ターゲットエンコーディング | カテゴリをターゲット平均値に変換 | 都道府県→平均売上 |
歴史と背景
- 1990年代〜:統計学・機械学習での特徴量設計が研究の中心に
- 2010年代初頭:特徴量エンジニアリングがKaggleなどで競われる技術に
- 2012年〜:ディープラーニングが特徴量の自動抽出を実現(表現学習)
- 現在:LLMの埋め込み表現が汎用特徴量として活用される
ディープラーニングとの関係
従来の機械学習
生データ → [人手による特徴量設計] → [モデル] → 予測
ディープラーニング
生データ → [自動特徴量抽出(ネットワーク内部)] → 予測
ディープラーニングは特徴量エンジニアリングの必要性を大幅に低減しましたが、表形式データ(テーブルデータ)では今も人手での特徴量設計が有効です。